WO2021029294A1 - データ作成方法及びデータ作成プログラム - Google Patents

データ作成方法及びデータ作成プログラム Download PDF

Info

Publication number
WO2021029294A1
WO2021029294A1 PCT/JP2020/029969 JP2020029969W WO2021029294A1 WO 2021029294 A1 WO2021029294 A1 WO 2021029294A1 JP 2020029969 W JP2020029969 W JP 2020029969W WO 2021029294 A1 WO2021029294 A1 WO 2021029294A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
subject
moving image
volume
recording
Prior art date
Application number
PCT/JP2020/029969
Other languages
English (en)
French (fr)
Other versions
WO2021029294A8 (ja
Inventor
幸徳 西山
祐也 西尾
和田 哲
田中 康一
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to CN202080057693.1A priority Critical patent/CN114467293A/zh
Priority to JP2021539232A priority patent/JP7397084B2/ja
Publication of WO2021029294A1 publication Critical patent/WO2021029294A1/ja
Priority to US17/668,256 priority patent/US20220270388A1/en
Publication of WO2021029294A8 publication Critical patent/WO2021029294A8/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32128Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title attached to the image data, e.g. file header, transmitted message header, information on the same page or in the same computer file as the image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • H04N2201/3264Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal of sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Definitions

  • the present invention relates to a data creation method and a data creation program.
  • Patent Document 1 describes a technique for storing an audio signal in a recording medium when a wireless microphone connected to the imaging device cannot transmit an audio signal to the imaging device.
  • Patent Document 2 describes a wireless communication device that generates a recording file in association with log information related to communication between the microphone and the wireless communication device.
  • One embodiment according to the technique of the present disclosure provides a method for generating moving image data that can efficiently adjust the volume of the sound of each subject according to each state of a plurality of subjects.
  • the data creation method is a data creation method used in a camera system including an image pickup device and a plurality of microphones connected to the image pickup device, and possesses each of the microphone and the microphone.
  • An association process that associates each subject, a recording process that records moving image data using an imaging device, and a recording process that records audio data of each subject using each of the microphones in synchronization with the start of the recording process.
  • a detection process that automatically detects the state of the subject, and an addition process that assigns an identification code for adjusting the volume of the audio data of each subject to the moving image data based on the result of the detection process. including.
  • the moving image data is image-processed to recognize the state in which the subject is voicing, and in the imparting step, the volume of the voice data of the voicing subject is set with respect to other voice data.
  • An identification code that is relatively large is given to the moving image data.
  • the direction in which each subject is facing is recognized by image processing in the moving image data, and in the imparting step, the volume of the audio data is adjusted according to the direction of the face of each subject with respect to the imaging device.
  • An identification code is attached to the moving image data.
  • the distance between each subject and the imaging device is recognized by image processing in the moving image data, and in the imparting step, an identification code that adjusts the volume of the audio data according to the distance of each subject is used as a moving image. It is added to the image data.
  • the detection step whether or not each subject is within the angle of view of the image pickup device is recognized by image processing in the moving image data, and in the imparting step, whether or not the subject is within the angle of view of the image pickup device.
  • an identification code for adjusting the volume of the audio data is given to the moving image data.
  • each of the plurality of subjects has a position detection system, and includes a position acquisition step of obtaining the position of each of the plurality of subjects from the position detection system, and the detection step is a detection step of the plurality of subjects obtained by the position acquisition step.
  • the detection step is a detection step of the plurality of subjects obtained by the position acquisition step.
  • Each position is detected, and in the adding step, an identification code relating to volume adjustment of the audio data of each subject is given to the moving image data based on the result of the detection step.
  • the data creation method includes a reception step of accepting the volume adjustment of the voice data by the user after the addition step.
  • the data creation method is a data creation method used in a camera system including an image pickup device and a plurality of microphones connected to the image pickup device, and possesses each of the microphone and the microphone.
  • An association process that associates each subject, a recording process that records moving image data using an imaging device, and a recording process that records audio data of each subject using each of the microphones in synchronization with the start of the recording process.
  • a detection step that automatically detects the state of the subject during the recording process, a synthesis step that synthesizes audio data and moving image data, and each subject before or after the synthesis step based on the results of the detection step. Includes an adjustment step that automatically adjusts the volume of the audio data.
  • the moving image data is image-processed to recognize the state in which the subject is voicing, and in the adjustment step, the volume of the voice data of the voicing subject is set with respect to other audio data. Make it relatively large.
  • the direction in which each subject is facing is recognized by image processing in the moving image data
  • the volume of the audio data is adjusted according to the direction of the face of each subject with respect to the imaging device. ..
  • the distance between each subject and the imaging device is recognized by image processing in the moving image data, and in the adjustment step, the volume of the audio data is adjusted according to the distance of each subject.
  • the moving image data is image-processed to recognize whether or not each subject is within the angle of view of the image pickup device, and in the adjustment step, whether or not the subject is within the angle of view of the image pickup device. Depending on whether or not, the volume of audio data is adjusted.
  • each of the plurality of subjects has a position detection system, includes a position acquisition step of obtaining the position of each of the plurality of subjects from the position detection system, and the adjustment step includes the result of the position acquisition step and the result of the detection step. Based on this, the volume of the audio data of each subject is adjusted.
  • the data creation program is a data creation program used in a camera system including an image pickup device and a plurality of microphones connected to the image pickup device, and owns each of the microphone and the microphone.
  • An association process that associates each subject, a recording process that records moving image data using an imaging device, and a recording process that records audio data of each subject using each of the microphones in synchronization with the start of the recording process.
  • a detection process that automatically detects the state of the subject from the moving image data and an identification code for adjusting the volume of the audio data of each subject are added to the moving image data based on the result of the detection process. Includes, and.
  • the data creation program is a data creation program used in a camera system including an image pickup device and a plurality of microphones connected to the image pickup device, and owns each of the microphone and the microphone.
  • An association process that associates each subject, a recording process that records moving image data using an imaging device, and a recording process that records audio data of each subject using each of the microphones in synchronization with the start of the recording process.
  • a detection step that automatically detects the state of the subject from the moving image data
  • a synthesizing step that synthesizes the audio data and the moving image data, and before or after the synthesizing step based on the results of the detection step.
  • it includes an adjustment step of automatically adjusting the volume of the audio data of each subject.
  • FIG. 1 is a diagram conceptually showing a camera system.
  • FIG. 2 is a block diagram showing a schematic configuration of a camera system.
  • FIG. 3 is a block diagram of the main functions realized by the CPU when recording moving image data and audio data.
  • FIG. 4 is a flowchart illustrating a data creation method.
  • FIG. 5 is a diagram illustrating an example of moving image data to which an identification code is assigned.
  • FIG. 6 is a block diagram of the main functions realized by the CPU when recording moving image data and audio data.
  • FIG. 7 is a flowchart illustrating a data creation method.
  • FIG. 8 is a diagram illustrating volume control of the first voice data and the second voice data.
  • FIG. 9 is a block diagram showing a schematic configuration of the camera system.
  • FIG. 1 is a diagram conceptually showing a camera system.
  • FIG. 2 is a block diagram showing a schematic configuration of a camera system.
  • FIG. 3 is a block diagram of the main functions realized by the CPU when
  • FIG. 10 is a block diagram of the main functions realized by the CPU when recording moving image data and audio data.
  • FIG. 11 is a diagram illustrating a specific example.
  • FIG. 12 is a diagram illustrating a specific example.
  • FIG. 13 is a diagram illustrating a specific example.
  • FIG. 14 is a diagram illustrating a specific example.
  • FIG. 1 is a diagram conceptually showing a camera system in which the data creation method of the present invention is used.
  • the imaging device 1 constituting the camera system 100 acquires moving image data by capturing moving images of a person A and a person B.
  • Person A owns the first microphone 12, and person B owns the second microphone 14.
  • the first microphone 12 and the second microphone 14 are wirelessly connected to the image pickup apparatus 1.
  • first microphone 12 and second microphone 14 the number of microphones is not particularly limited, and the camera system 100 includes a plurality of microphones. It can be used. Further, although the first microphone 12 and the second microphone are wirelessly connected to the image pickup apparatus 1, they may be connected by wire.
  • FIG. 2 is a block diagram showing a schematic configuration of the camera system 100.
  • the camera system 100 includes an imaging device 1, a first microphone 12, and a second microphone 14.
  • the image pickup device 1 includes an image pickup unit 10, a display unit 16, a storage unit 18, an audio output unit 20, an operation unit 22, a CPU (Central Processing Unit) 24, a ROM (Read Only Memory) 26, a RAM (Random Access Memory) 28, and the like.
  • a third wireless communication unit 30 and the like are provided. Further, in the image pickup apparatus 1, the first microphone 12 passes through the first wireless communication unit 12B and the third wireless communication unit 30, and the second microphone 14 passes through the second wireless communication unit 14B and the third wireless communication unit 30. And are connected wirelessly.
  • the imaging unit 10 captures a moving image and acquires moving image data.
  • the image pickup unit 10 includes an image pickup optical system 10A, an image pickup element 10B, an image signal processing unit 10C, and the like.
  • the image pickup optical system 10A forms an image of a subject on a light receiving surface of the image pickup element 10B.
  • the image sensor 10B converts the image of the subject imaged on the light receiving surface of the image sensor 10A into an electric signal.
  • the image signal processing unit 10C performs predetermined signal processing on the signal output from the image sensor 10B to generate moving image data.
  • the first microphone 12 collects the voice of the person A (first voice).
  • the first microphone 12 includes a first audio signal processing unit 12A and a first wireless communication unit 12B.
  • the first voice signal processing unit 12A performs predetermined signal processing on the signal from the microphone to generate the first voice data of the first voice.
  • the first wireless communication unit 12B converts the first voice data into a wireless signal according to the communication method specified in the specifications of Bluetooth (registered trademark), performs processing necessary for wireless communication, and wirelessly outputs the first audio data to the image pickup device 1.
  • the wireless communication method is not particularly limited to Bluetooth, and other methods are also adopted. For example, DECT (Digital Enhanced Cordless Telecommunication), wireless LAN (Local Area Network), or Zigbee (registered trademark) are adopted as wireless communication methods. Since the second microphone 14 has the same configuration as the first microphone 12 described above, the description thereof will be omitted.
  • the display unit 16 displays a moving image corresponding to the moving image data acquired by the imaging unit 10 in real time. In addition, the display unit 16 displays the moving image to be reproduced. In addition, the display unit 16 displays an operation screen, a menu screen, a message, and the like, if necessary.
  • the display unit 16 includes, for example, a display device such as an LCD (Liquid Crystal Display), a drive circuit thereof, and the like.
  • the storage unit 18 mainly records the acquired moving image data and audio data.
  • the storage unit 18 includes, for example, a storage medium such as a non-volatile memory, a control circuit thereof, and the like.
  • the audio output unit 20 outputs the reproduced audio based on the audio data. Further, the voice output unit 20 outputs a warning sound or the like as needed.
  • the audio output unit 20 includes a speaker, a data processing circuit that processes audio data of audio output from the speaker, and the like.
  • the operation unit 22 receives an operation input from the user.
  • the operation unit 22 includes various operation buttons such as a recording button, buttons displayed on the display unit 16, and a detection circuit for the operation.
  • the CPU 24 functions as a control unit for the entire device by executing a predetermined control program.
  • the CPU 24 controls the operation of each part based on the operation of the user, and controls the operation of the entire device in an integrated manner.
  • the ROM 26 records various programs executed by the CPU 24, data necessary for control, and the like.
  • the RAM 28 provides the CPU 24 with a working memory space.
  • the third wireless communication unit 30 receives the wireless signals output from the first wireless communication unit 12B and the second wireless communication unit 14B, and processes the received wireless signals based on the Bluetooth specifications.
  • the image pickup apparatus 1 obtains the first voice data and the second voice data via the third wireless communication unit 30.
  • an identification code for adjusting the volume of the audio data is added to the moving image data according to the state of the subject automatically detected from the moving image data.
  • the user in the editing work performed after acquiring the moving image data, the user can adjust the volume according to the identification code, so that it is possible to save the trouble of checking the images one by one and to efficiently perform audio. You can adjust the volume of the data.
  • FIG. 3 is a block diagram of the main functions realized by the CPU when recording moving image data and audio data.
  • the CPU 24 functions as an image pickup control unit 101, an image processing unit 102, a first audio recording unit 104, a second audio recording unit 106, and the like.
  • the image pickup control unit 101 controls the image pickup by the image pickup unit 10.
  • the image pickup control unit 101 controls the image pickup unit 10 so that the moving image is captured with an appropriate exposure based on the moving image obtained from the image pickup unit 10. Further, the image pickup control unit 101 controls the image pickup unit 10 so as to focus on the main subject based on the moving image obtained from the image pickup unit 10.
  • the image processing unit 102 outputs the moving image captured by the imaging unit 10 to the display unit 16 in real time. As a result, the live view is displayed on the display unit 16.
  • the image processing unit 102 includes an association unit 102A, a first detection unit 102B, an addition unit 102C, and a recording unit 102D.
  • the association unit 102A accepts the association between the first microphone 12 and the person A, and the association between the second microphone 14 and the person B.
  • Various methods are adopted as the method of accepting the association. For example, when associating the first microphone 12, the person A is copied to the display unit 16 and the user touches and selects the person A to associate the first microphone 12 with the person A.
  • the association means that, for example, the voice of the person A is set in advance to be collected via the first microphone 12.
  • the first detection unit 102B automatically detects the state of the subject while the moving image is being captured by the image pickup device 1.
  • Various techniques are applied to the first detection unit 102B so that the state of the subject can be recognized by image processing.
  • the first detection unit 102B recognizes the state of whether or not the person A and the person B are speaking by performing image processing on the moving image data by using the face recognition technique.
  • the imparting unit 102C assigns an identification code for adjusting the volume of the audio data of each subject to the moving image data.
  • the assigned identification code is displayed when editing the moving image data, and the user can confirm the identification code.
  • the recording unit 102D records by having the storage unit 18 record the moving image data output from the imaging unit 10.
  • the moving image data may be recorded with the identification code given by the giving unit 102C attached, or the moving image data before the identification code is attached may be recorded in the storage unit 18.
  • the recording unit 102D starts recording moving image data in response to an instruction from the user.
  • the recording of moving image data is completed in response to an instruction from the user. The user instructs the start and end of recording via the operation unit 22.
  • the first audio recording unit 104 records the first audio data input from the first microphone 12 in the storage unit 18 in synchronization with the moving image data.
  • the first audio data is recorded in the storage unit 18 in association with the moving image data.
  • the second audio recording unit 106 records the second audio data input from the second microphone 14 in the storage unit 18 in synchronization with the moving image data.
  • the second audio data is recorded in the storage unit 18 in association with the moving image data.
  • FIG. 4 is a flowchart illustrating a data creation method implemented using the camera system 100.
  • the user touches the person A displayed on the display unit 16 of the image pickup apparatus 1 to specify the person A, and associates the first microphone 12 with the person A (step S10). Further, the user designates the person B displayed on the display unit 16 of the image pickup apparatus 1, and associates the second microphone 14 with the person B (step S11).
  • the user starts recording the moving image data via the operation unit 22 (step S12).
  • the imaging control unit 101 determines to continue recording the moving image data (step S20), and the moving image recording is performed until the user gives an instruction to stop the moving image recording via the operation unit 22.
  • the recording of the moving image data ends (step S21).
  • the recording process the recording process, the detection process, and the imparting process described below are performed.
  • the recording step the first voice data of the person A is recorded in the storage unit 18 using the first microphone 12, and the second voice data of the person B is recorded in the storage unit 18 using the second microphone 14 (step S13). ).
  • the first detection unit 102B detects that the person A is speaking (speaking) in the moving image data by image processing (step S14). Further, in the detection step, the first detection unit 102B detects that the person B is speaking (speaking) in the moving image data by image processing (step S15). For example, the first detection unit 102B recognizes the faces of the person A and the person B by using the face recognition technique, and analyzes the images of the mouths of the person A and the person B so that the person A and the person B speak. Detects whether or not it is.
  • the granting unit 102C identifies that the volume of the first voice data (described as the first MP in the figure) collected by the first microphone 12 is relatively reduced when the person A is not speaking.
  • a code is added to the moving image data (step S16).
  • an identification code for relatively increasing the volume of the first audio data collected by the first microphone 12 is added to the moving image data (step S17).
  • the identification code that relatively reduces the volume of the second audio data (described as the second MP in the figure) collected by the second microphone 14 is the moving image data.
  • Step S18 an identification code for relatively increasing the volume of the second voice data collected by the second microphone 14 is given (step S19).
  • the moving image data to which the identification code is assigned will be described below.
  • FIG. 5 is a diagram illustrating an example of moving image data to which an identification code is assigned.
  • the first detection unit 102B detects that the person A is speaking in the moving image data in the period from t1 to t2. Then, based on the detection result of the first detection unit 102B, the imparting unit 102C assigns the identification code “first microphone: large” (reference numeral 130) for increasing the volume of the first microphone 12 to the moving image data. In addition, the first detection unit 102B detects that the person B is speaking in the moving image data in the period from t2 to t3. Then, the granting unit 102C assigns the identification code “second microphone: large” (reference numeral 132) that increases the volume of the second microphone 14 based on the detection result of the first detection unit 102B.
  • the first detection unit 102B detects that the person A is speaking in the moving image data in the period from t3 to t4. Then, based on the detection result of the first detection unit 102B, the imparting unit 102C assigns the identification code “first microphone: large” (reference numeral 134) for increasing the volume of the first microphone 12 to the moving image data. Further, instead of “first microphone: loud”, in order to make the volume of the first microphone 12 relatively loud, the identification code "second microphone: small” may be given to the moving image.
  • the identification code is not limited to the above-mentioned identification code, and various forms can be adopted as long as it represents the volume control of the first voice data and the second voice data.
  • identification code "second voice data: small” that reduces the volume of the second voice data may be added along with “first microphone: large”. Further, as the identification code, the identification code of "first voice data: level 10" with the volume level of the first voice data may be attached. The larger the volume level, the louder the volume.
  • a moving image based on the recorded moving image data is displayed (step S22).
  • the moving image based on the moving image data is displayed on a computer monitor provided separately from the imaging device 1.
  • the user displays a moving image on a monitor and edits the moving image.
  • the user displays the moving image on the monitor and adjusts the volume of the first audio data and the second audio data.
  • the moving image may be displayed on the display unit 16 for editing.
  • the user accepts the volume control of the voice data (step S23). Specifically, the user adjusts the volume of the first audio data and / or the second audio data while checking the moving image data displayed on the monitor and the identification code assigned to the moving image data. For example, when the user confirms the moving image data to which the identification code shown in FIG. 5 is attached, the volume level of the first audio data is set to 10 during the period from t1 to t2, and the volume level of the second audio data is set. Is set to 1 to relatively increase the volume of the first audio data.
  • the user sets the volume level of the second voice data to 10 and sets the volume level of the first voice data to 1, and relatively increases the volume of the second voice data. Further, in the period from t3 to t4, the user sets the volume level of the first voice data to 10 and sets the volume level of the second voice data to 1, and relatively increases the volume of the first voice data.
  • the data creation method of the present embodiment whether or not the person A and the person B are talking in the moving image data is automatically detected by image processing, and the moving image data is converted according to the detection result.
  • the identification code for volume control.
  • the user can check the identification code and adjust the volume of the first audio data and the second audio data when editing the moving image data, and can save the trouble of checking the image again.
  • the volume can be efficiently adjusted according to the states of the person A and the person B.
  • the hardware structure of the processing unit (image processing unit 102, image pickup control unit 101, first audio recording unit 104, second audio recording unit 106) that executes various processes.
  • the circuit configuration can be changed after manufacturing the CPU (Central Processing Unit), FPGA (Field Programmable Gate Array), etc., which are general-purpose processors that execute software (programs) and function as various processing units.
  • Programmable Logic Device PLD
  • ASIC Application Specific Integrated Circuit
  • other dedicated electric circuits that are processors with a circuit configuration specially designed to execute specific processes are included. Is done.
  • One processing unit may be composed of one of these various processors, or may be composed of two or more processors of the same type or different types (for example, a plurality of FPGAs or a combination of a CPU and an FPGA). You may. Further, a plurality of processing units may be configured by one processor. As an example of configuring a plurality of processing units with one processor, first, one processor is configured by a combination of one or more CPUs and software, as represented by a computer such as a client or a server. There is a form in which the processor functions as a plurality of processing units.
  • SoC System On Chip
  • a processor that realizes the functions of the entire system including a plurality of processing units with one IC (Integrated Circuit) chip is used.
  • the various processing units are configured by using one or more of the above-mentioned various processors as a hardware-like structure.
  • circuitry that combines circuit elements such as semiconductor elements.
  • the volume of the audio data combined with the moving image data is adjusted according to the state of the subject automatically detected from the moving image data.
  • the present embodiment it is possible to efficiently obtain the moving image data with sound in which the volume is adjusted according to the state of the subject.
  • FIG. 6 is a block diagram of the main functions realized by the CPU when recording moving image data and audio data.
  • the parts already described in FIG. 3 are designated by the same reference numerals and the description thereof will be omitted.
  • the CPU 24 functions as an image pickup control unit 101, an image processing unit 102, a first voice recording unit 104, a second voice recording unit 106, an adjustment unit 108, a synthesis unit 110, and the like.
  • the image processing unit 102 of the present embodiment includes an association unit 102A, a first detection unit 102B, and a recording unit 102D.
  • the adjusting unit 108 automatically adjusts the volume of the first voice data recorded in the storage unit 18 and the second voice data recorded in the storage unit 18 based on the detection result of the first detection unit 102B.
  • the adjusting unit 108 adjusts each audio data to a preset volume according to the state of the subject of the first detecting unit 102B based on the detection result of the first detecting unit 102B.
  • the adjusting unit 108 may adjust the volume of the voice data before being synthesized by the synthesis unit 110, or may adjust the volume of the voice data after being synthesized by the synthesis unit 110.
  • the synthesizing unit 110 synthesizes the moving image data and the audio data recorded in the storage unit 18 to generate the moving image data with audio.
  • the synthesizing unit 110 synthesizes the moving image data and the audio data to be synchronized to generate one moving image file.
  • the file generated by the synthesis unit 110 is in the moving image file format, and for example, a file in the AVI, MP4, or MOV format is generated.
  • FIG. 7 is a flowchart illustrating a data creation method implemented using the camera system 100.
  • a specific example of acquiring the moving image data of the person A and the person B described with reference to FIG. 1 will be described. Since the association step, the recording step, the recording step, and the detection step already described in FIG. 4 have the same contents, the description is simplified.
  • association process In the association step, the first microphone 12 is associated with the person A, and the second microphone 14 is associated with the person B (steps S30 and S31).
  • Step S34 whether or not the person A is speaking is detected in the moving image data. Further, in the detection step, it is detected in the moving image data whether or not the person B is speaking (step S35).
  • the adjusting unit 108 reduces the volume of the first voice data when the person A is not speaking (step S36), and reduces the volume of the first voice data when the person A is speaking. Increase (step S37). Similarly, when the person B is not speaking, the volume of the second voice data is reduced (step S38), and when the person B is speaking, the volume of the second voice data is increased (step S39). ).
  • the automatic adjustment of the volume of the voice data will be specifically described below.
  • FIG. 8 is a diagram illustrating volume control of the first voice data and the second voice data.
  • the adjusting unit 108 adjusts the volume of the first audio data to level 10. On the other hand, since the person B is not speaking during the period from t1 to t2 of the moving image data, the adjusting unit 108 adjusts the volume of the second audio data to level 1. Further, since the person A is not speaking during the period from t2 to t3 of the moving image data, the adjusting unit 108 adjusts the volume of the first audio data to level 1. On the other hand, in the period from t2 to t3 of the moving image data, since the person B is speaking, the adjusting unit 108 adjusts the volume of the second audio data to the level 10.
  • the adjusting unit 108 adjusts the volume of the first audio data to the level 10.
  • the adjusting unit 108 adjusts the volume of the second audio data to level 1.
  • the volume of the first voice data and the second voice data recorded in the storage unit 18 is adjusted, but the present embodiment is not limited to this example.
  • the first voice data and the second voice data may be adjusted before being recorded in the storage unit 18. In that case, the adjustment unit 108 will be provided in the first voice recording unit 104 and the second voice recording unit 106.
  • the synthesizing unit 110 synthesizes the first audio data and the second audio data whose volume has been adjusted and the moving image data (step S40). For example, the synthesizing unit 110 generates an AVI format moving image file by synthesizing the first audio data and the second audio data whose volume has been adjusted and the moving image data.
  • the data creation method of the present embodiment automatically detects whether or not the person A and the person B are speaking in the moving image data, and adjusts the volume of the audio data according to the detection result. ..
  • the user can efficiently adjust the volume of the first audio data and the second audio data according to the state of the subject of the moving image data with the moving image data with audio without the user manually adjusting the volume. Can be obtained in.
  • each of the subjects has a position detection system, and the position of each subject is detected from the position detection system. Then, an identification code for adjusting the volume of the voice data is assigned or the volume of the voice data is adjusted based on the detected position of each subject.
  • FIG. 9 is a block diagram showing a schematic configuration of the camera system 100.
  • the parts already described in FIG. 2 are designated by the same reference numerals and the description thereof will be omitted.
  • the first microphone 12 includes a first audio signal processing unit 12A, a first wireless communication unit 12B, and a first position detection system 12C.
  • the first position detection system 12C detects the position of the first microphone 12.
  • the first position detection system 12C detects the position of the first microphone 12 by GPS (Global Positioning System) (Global Positioning System). Since the person A owns the first microphone 12, the first position detection system 12C detects the position of the person A.
  • the position of the person A detected by the first position detection system 12C is input to the image pickup apparatus 1 via the first wireless communication unit 12B and the third wireless communication unit 30. Since the second microphone 14 has the same configuration as the first microphone 12 described above, the description thereof will be omitted.
  • FIG. 10 is a block diagram of the main functions realized by the CPU 24 when recording moving image data and audio data.
  • the parts already described in FIG. 3 are designated by the same reference numerals and the description thereof will be omitted.
  • the CPU 24 functions as an image pickup control unit 101, an image processing unit 102, a first audio recording unit 104, a second audio recording unit 106, and a second detection unit 112.
  • the second detection unit 112 obtains information on the position of the person A from the first microphone 12 and information on the position of the person B from the second microphone 14. Specifically, the second detection unit 112 has information on the position of the person A detected by the first position detection system 12C of the first microphone 12, and has been detected by the second position detection system 14C of the second microphone 14. Acquire information about the position of person B. Then, the second detection unit 112 detects the distance between the person A and the image pickup device 1 and the distance between the person B and the image pickup device 1.
  • the imparting unit 102C assigns an identification code for adjusting the volume of the audio data of each subject to the moving image data. For example, the imparting unit 102C assigns an identification code for adjusting the volume of the first voice data according to the distance of the person A from the image pickup device 1, and the second voice according to the distance of the person B from the image pickup device 1. Assign an identification code for adjusting the volume of data. For example, when the person A is farther than the distance ⁇ from the image pickup device 1, the imparting unit 102C assigns an identification code for reducing the volume. Further, when the person A is within the distance ⁇ from the image pickup apparatus 1, the imparting unit 102C assigns an identification code for increasing the volume. Further, for example, as for the adjustment of audio data, the volume of the first microphone 12 and the second microphone 14 is gradually reduced as the distance between the person A (or the person B) and the image pickup device 1 increases. May be good.
  • the position detection system acquires information on the positions of the person A and the person B, and the second detection unit 112 determines the positions of the person A and the person B based on the information on the positions. Accurately detected. Then, the volume can be efficiently adjusted based on the positions of the person A and the person B.
  • the first detection unit 102B recognizes the direction in which each subject is facing by image processing in the moving image data. For example, the first detection unit 102B uses the face recognition technique to recognize the directions in which the person A and the person B are facing. Then, an identification code is assigned or the volume of the voice data is adjusted according to the direction in which the person A and the person B are facing. For example, as for the adjustment of the audio data, when the person A is facing the direction (front) of the image pickup device 1, the volume of the first audio data is increased and the person A is not facing the direction of the image pickup device 1. In that case, the volume of the first voice data is reduced.
  • FIG. 11 is a diagram illustrating a specific example of this example.
  • the person A faces the front with respect to the image pickup apparatus 1.
  • the first detection unit 102B detects that the person A is facing the front, and adjusts the volume to increase the volume of the first voice data, which is the voice data of the person A.
  • the person A faces sideways with respect to the image pickup apparatus 1 (not faces the front).
  • the first detection unit 102B detects that the person A is facing sideways, and adjusts the volume to reduce the volume of the first voice data, which is the voice data of the person A.
  • the first detection unit 102B detects the direction in which the subject is facing, and the volume is efficiently adjusted based on the direction in which the subject is facing.
  • the first detection unit 102B recognizes the distance between each subject and the image pickup device 1 by image processing in the moving image data. For example, the first detection unit 102B detects the distance from the image pickup device 1 of the person A and the person B by the subject distance estimation technique by image processing. Then, an identification code is assigned or voice data is adjusted according to the distance between the person A and the person B and the image pickup device 1. For example, as for the adjustment of the voice data, when the distance between the person A and the image pickup device 1 is larger than the threshold value ⁇ , the volume of the first voice data is reduced.
  • FIG. 12 is a diagram illustrating a specific example of this example.
  • the person A is located within the threshold value ⁇ .
  • the first detection unit 102B detects that the person A is located within the threshold value ⁇ , and adjusts the volume to increase the volume of the first voice data, which is the voice data of the person A.
  • the person A is located farther than the threshold value ⁇ .
  • the first detection unit 102B detects that the person A is located farther than the threshold value ⁇ , and adjusts the volume to reduce the volume of the first voice data which is the voice data of the person A. ..
  • the distance between the subject and the image pickup device 1 is detected, and the volume is efficiently adjusted based on the distance between the subject and the image pickup device 1.
  • the first detection unit 102B recognizes whether or not each subject exists within the angle of view of the image pickup apparatus 1 by image processing in the moving image data. For example, the first detection unit 102B uses the image recognition technique to recognize whether or not the person A and the person B are within the angle of view of the image pickup apparatus 1. Then, an identification code is assigned or the voice data is adjusted depending on whether or not the person A and the person B are within the angle of view. For example, as for adjusting the volume of the audio data, when the person A is captured within the angle of view of the imaging device 1, the volume of the first audio data is increased and the person A is within the angle of view of the imaging device 1. If it is not shown, reduce the volume of the first audio data.
  • the angle of view of the imaging device 1 is, for example, as in JP-A-2017-46355, the angle of view of the moving image data captured by the imaging device 1 and the image of the moving image data actually stored in the storage unit 18. When the angles are different, it is the angle of view of the moving image data stored in the storage unit 18.
  • FIG. 13 is a diagram illustrating a specific example of this example.
  • the first detection unit 102B detects that the person A is located within the angle of view 151, and adjusts the volume to increase the volume of the first voice data, which is the voice data of the person A.
  • the first detection unit 102B detects that the person B is not located within the angle of view 151, and adjusts the volume to reduce the volume of the second voice data which is the voice data of the person B.
  • the first detection unit 102B detects whether or not a subject exists at the angle of view of the image pickup apparatus 1, and efficiently determines whether or not the subject exists at the angle of view. The volume is adjusted.
  • the image pickup apparatus 1, or the first microphone 12 and the second microphone 14 record audio data of stereo audio.
  • Stereo audio includes audio for the human left ear and audio for the right ear.
  • the first detection unit 102B recognizes whether the subject exists on the left side or the right side with respect to the center of the image pickup apparatus 1 by image processing in the moving image data, and assigns an identification code or assigns an identification code.
  • Adjust the volume of audio data For example, as for adjusting the volume of the audio data, when the person is on the left side with respect to the imaging device 1, the volume of the audio data for the left ear is relatively increased.
  • a method for recognizing the position of a person for example, there are a method using an image recognition technique and a method using GPS as in the first modification.
  • FIG. 14 is a diagram illustrating a specific example of this example.
  • the person A is located on the L side with respect to the optical axis M of the image pickup apparatus 1.
  • the first detection unit 102B detects that the person A is located on the L side, and the voice data for the left ear in the first voice data, which is the voice data of the person A, is made relatively large. ..
  • the person A is located on the R side with respect to the optical axis M of the image pickup apparatus 1.
  • the first detection unit 102B detects that the person A is located on the R side, and the voice data for the right ear in the first voice data, which is the voice data of the person A, is made relatively large. ..
  • the first detection unit 102B detects which side the subject is on with respect to the image pickup device 1, and the audio data for the left ear and the audio data for the right ear. By making a difference in the volume of, the moving image data with sound becomes more realistic.
  • the first microphone 12 and the second microphone 14 may be a mobile phone or a smartphone. In this case, it is preferable that the mobile phone or smartphone has an application for wirelessly connecting itself to the image pickup device 1.
  • Imaging device 10 Imaging unit 10A: Imaging optical system 10B: Image sensor 10C: Image signal processing unit 12: First microphone 12A: First audio signal processing unit 12B: First wireless communication unit 12C: First position detection system 14: Second microphone 14B: Second wireless communication unit 14C: Second position detection system 16: Display unit 18: Storage unit 20: Audio output unit 22: Operation unit 24: CPU 26: ROM 28: RAM 30: Third wireless communication unit 100: Camera system 101: Imaging control unit 102: Image processing unit 102A: Association unit 102B: First detection unit 102C: Grant unit 102D: Recording unit 104: First voice recording unit 106: Second Voice recording unit 112: Second detection unit A: Person B: Person

Abstract

複数の被写体の各々の状態に応じて、各被写体の音声の音量調節を効率的に行える動画像データの生成方法を提供する。データ作成方法は、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程(ステップS10及びステップS11)と、撮像装置を用いて動画像データを録画する録画工程(ステップS12、ステップS20、ステップS21)と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程(ステップS13)と、録画工程の間に、被写体の状態を自動で検出する検出工程(ステップS14、ステップS15)と、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する付与工程(ステップS16~ステップS19)と、を含む。

Description

データ作成方法及びデータ作成プログラム
 本発明は、データ作成方法及びデータ作成プログラムに関する。
 従来、動画像データを撮像する撮像装置に対して、例えば無線により接続されたマイクロフォンにより音声を集音し、動画像データに同期した音声データを得る技術がある。
 特許文献1には、撮像装置に接続されたワイヤレスマイクロフォンが、撮像装置に音声信号を送信できない場合に、音声信号を記録媒体に記憶させる技術が記載されている。
 特許文献2には、マイクロフォンと無線通信装置との通信に関するログ情報と関連付けて、録音ファイルを生成する無線通信装置が記載されている。
特開2015-73170号公報 特開2015-119229号公報
 本開示の技術にかかる一つの実施形態は、複数の被写体の各々の状態に応じて、各被写体の音声の音量調節を効率的に行える動画像データの生成方法を提供する。
 本発明の一の態様であるデータ作成方法は、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、被写体の状態を自動で検出する検出工程と、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する付与工程と、を含む。
 好ましくは、検出工程では、動画像データにおいて画像処理により、被写体が声を発している状態を認識し、付与工程では、声を発している被写体の音声データの音量を他の音声データに対して相対的に大きくする識別コードを動画像データに付与する。
 好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が向いている方向を認識し、付与工程では、撮像装置に対する各被写体の顔の方向に応じて、音声データの音量を調節する識別コードを動画像データに付与する。
 好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体と撮像装置との距離を認識し、付与工程では、各被写体の距離に応じて、音声データの音量を調節する識別コードを動画像データに付与する。
 好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が撮像装置の画角内に存在するか否かを認識し、付与工程では、被写体が撮像装置の画角内に存在するか否かで、音声データの音量を調節する識別コードを動画像データに付与する。
 好ましくは、複数の被写体の各々は位置検出システムを有し、位置検出システムから複数の被写体の各々の位置を得る位置取得工程を含み、検出工程は、位置取得工程により得られた複数の被写体の各々の位置を検出し、付与工程では、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する。
 好ましくは、データ作成方法は、付与工程の後に、ユーザによる音声データの音量調節を受け付ける受付工程を含む。
 本発明の他の態様であるデータ作成方法は、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、被写体の状態を自動で検出する検出工程と、音声データと動画像データとを合成する合成工程と、検出工程の結果に基づいて、合成工程の前又は後に、各被写体の音声データの音量を自動で調節する調節工程と、を含む。
 好ましくは、検出工程では、動画像データにおいて画像処理により、被写体が声を発している状態を認識し、調節工程では、声を発している被写体の音声データの音量を他の音声データに対して相対的に大きくする。
 好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が向いている方向を認識し、調節工程では、撮像装置に対する各被写体の顔の方向に応じて、音声データの音量を調節する。
 好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体と撮像装置との距離を認識し、調節工程では、各被写体の距離に応じて、音声データの音量を調節する。
 好ましくは、検出工程では、動画像データにおいて画像処理により、各被写体が撮像装置の画角内に存在するか否かを認識し、調節工程では、被写体が撮像装置の画角内に存在するか否かで、音声データの音量を調節する。
 好ましくは、複数の被写体の各々は位置検出システムを有し、位置検出システムから複数の被写体の各々の位置を得る位置取得工程を含み、調節工程では、位置取得工程の結果及び検出工程の結果に基づいて、各被写体の音声データの音量の調節を行う。
 本発明の他の態様であるデータ作成プログラムは、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、動画像データから被写体の状態を自動で検出する検出工程と、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する付与工程と、を含む。
 本発明の他の態様であるデータ作成プログラムは、撮像装置と、撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、マイクロフォンと、マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、撮像装置を用いて動画像データを録画する録画工程と、録画工程の開始に同期してマイクロフォンの各々を用いて各被写体の音声データをそれぞれ録音する録音工程と、録画工程の間に、動画像データから被写体の状態を自動で検出する検出工程と、音声データと動画像データとを合成する合成工程と、検出工程の結果に基づいて、合成工程の前又は後に、各被写体の音声データの音量を自動で調節する調節工程と、を含む。
図1は、カメラシステムを概念的に示す図である。 図2は、カメラシステムの概略構成を示すブロック図である。 図3は、動画像データ及び音声データを記録する場合にCPUが実現する主な機能のブロック図である。 図4は、データ作成方法を説明するフローチャートである。 図5は、識別コードが付与された動画像データの例を説明する図である。 図6は、動画像データ及び音声データを記録する場合にCPUが実現する主な機能のブロック図である。 図7は、データ作成方法を説明するフローチャートである。 図8は、第1音声データ及び第2音声データの音量調節に関して説明する図である。 図9は、カメラシステムの概略構成を示すブロック図である。 図10は、動画像データ及び音声データを記録する場合にCPUが実現する主な機能のブロック図である。 図11は、具体例を説明する図である。 図12は、具体例を説明する図である。 図13は、具体例を説明する図である。 図14は、具体例を説明する図である。
 以下、添付図面に従って本発明にかかるデータ作成方法及びデータ作成プログラムの好ましい実施の形態について説明する。
 図1は、本発明のデータ作成方法が用いられるカメラシステムを概念的に示す図である。
 カメラシステム100を構成する撮像装置1は、人物A及び人物Bの動画を撮像することにより動画像データを取得する。人物Aは第1マイクロフォン12を所有しており、人物Bは第2マイクロフォン14を所有している。第1マイクロフォン12及び第2マイクロフォン14は、撮像装置1と無線により接続している。
 なお、以下の説明では二つのマイクロフォン(第1マイクロフォン12及び第2マイクロフォン14)を用いた例について説明するが、マイクロフォンの数は、特に限定されるものではなく、カメラシステム100は複数のマイクロフォンの使用が可能である。また、第1マイクロフォン12及び第2マイクロフォンは、無線により撮像装置1に接続されているが、有線により接続されてもよい。
 図2は、カメラシステム100の概略構成を示すブロック図である。
 カメラシステム100は、撮像装置1、第1マイクロフォン12及び第2マイクロフォン14から構成される。
 撮像装置1は、撮像部10、表示部16、記憶部18、音声出力部20、操作部22、CPU(Central Processing Unit)24、ROM(Read Only Memory)26、RAM(Random Access Memory)28及び第3無線通信部30等を備える。また、撮像装置1には、第1マイクロフォン12が第1無線通信部12B及び第3無線通信部30を介して、第2マイクロフォン14が第2無線通信部14B及び第3無線通信部30を介して、無線で接続されている。
 撮像部10は、動画を撮像して動画像データを取得する。撮像部10は、撮像光学系10A、撮像素子10B及び画像信号処理部10C等を備える。撮像光学系10Aは、被写体の像を撮像素子10Bの受光面上に結像させる。撮像素子10Bは、撮像光学系10Aによってその受光面上に結像された被写体の像を電気信号に変換する。画像信号処理部10Cは、撮像素子10Bから出力される信号に所定の信号処理を施して、動画像データを生成する。
 第1マイクロフォン12は、人物Aの音声(第1音声)を集音する。第1マイクロフォン12は第1音声信号処理部12A及び第1無線通信部12Bを備える。第1音声信号処理部12Aは、マイクロフォンからの信号に所定の信号処理を施して、第1音声の第1音声データを生成する。第1無線通信部12Bは、第1音声データをBluetooth(登録商標)の仕様で規定されている通信方式に従って無線信号に変換するとともに、無線通信に必要な処理を行ない、撮像装置1に無線出力する。なお、無線通信方式は、特にBluetoothに限定されるものではなく、他の方式も採用される。例えば、DECT(Digital Enhanced Cordless Telecommunication)、無線LAN(Local Area Network)、又はZigbee(登録商標)、が無線通信方式として採用される。なお、第2マイクロフォン14は、上述した第1マイクロフォン12と同様の構成を有するので説明は省略する。
 表示部16は、撮像部10で取得した動画像データに対応する動画をリアルタイムに表示する。また、表示部16は、再生される動画を表示する。また、表示部16は、必要に応じて、操作画面、メニュー画面及びメッセージ等を表示する。表示部16は、たとえば、LCD(Liquid Crystal Display)等の表示デバイス、及び、その駆動回路等を含んで構成される。
 記憶部18は、主として、取得された動画像データ及び音声データを記録する。記憶部18は、例えば、不揮発性メモリ等の記憶媒体、及び、その制御回路等を含んで構成される。
 音声出力部20は、音声データに基づいて再生された音声を出力する。また、音声出力部20は、必要に応じて警告音等を出力する。音声出力部20は、スピーカ、及び、そのスピーカから出力させる音声の音声データを処理するデータ処理回路等を含んで構成される。
 操作部22は、ユーザからの操作の入力を受け付ける。操作部22は、録画ボタン等の各種操作ボタン類、表示部16に表示されたボタン類及び、その操作の検出回路等を含んで構成される。
 CPU24は、所定の制御プログラムを実行することにより、装置全体の制御部として機能する。CPU24は、ユーザの操作に基づいて、各部の動作を制御し、装置全体の動作を統括制御する。ROM26は、CPU24が実行する各種プログラム、及び、制御に必要なデータ等を記録する。RAM28は、CPU24に作業用のメモリ空間を提供する。
 第3無線通信部30は、第1無線通信部12B及び第2無線通信部14Bから出力された無線信号を受信し、受信した無線信号をBluetoothの仕様に基づいて処理を行う。撮像装置1は、第3無線通信部30を介して、第1音声データ及び第2音声データを得る。
 <第1の実施形態>
 本発明の第1の実施形態について説明する。本実施形態では、動画像データから自動で検出される被写体の状態に応じて、音声データの音量調節に関する識別コードが動画像データに付与される。これにより、本実施形態では、動画像データを取得した後に行う編集作業において、ユーザは識別コードに従って音量調節を行うことができるので、逐一画像を確認する手間を省くことができ、効率的に音声データの音量調節を行うことができる。
 図3は、動画像データ及び音声データを記録する場合にCPUが実現する主な機能のブロック図である。図3に示すように、CPU24は、撮像制御部101、画像処理部102、第1音声録音部104及び第2音声録音部106等として機能する。
 撮像制御部101は、撮像部10による撮像を制御する。撮像制御部101は、撮像部10から得られる動画に基づいて、適正露出で動画が撮像されるように、撮像部10を制御する。また、撮像制御部101は、撮像部10から得られる動画に基づいて、主要被写体に焦点が合うように、撮像部10を制御する。
 画像処理部102は、撮像部10で撮像された動画をリアルタイムに表示部16に出力する。これにより、表示部16にライブビューが表示される。
 画像処理部102は、関連付け部102A、第1検出部102B、付与部102C及び録画部102Dを備える。
 関連付け部102Aは、第1マイクロフォン12と人物Aとの関連付け、第2マイクロフォン14と人物Bとの関連付けを受け付ける。関連付けの受付方法は、様々な方法が採用される。例えば、第1マイクロフォン12の関連付けを行う場合に、表示部16に人物Aを写しユーザがタッチして人物Aを選択することにより、第1マイクロフォン12と人物Aとの関連付けを行う。ここで関連付けとは、例えば人物Aの音声は第1マイクロフォン12を介して集音されることを予め設定しておくことである。
 第1検出部102Bは、撮像装置1により動画が撮像されている間に、被写体の状態を自動で検出する。第1検出部102Bは、画像処理により被写体の状態を認識できるよう様々な技術が適用される。例えば第1検出部102Bは、顔認識技術を利用して動画像データを画像処理することにより、人物A及び人物Bが声を発しているか否かの状態を認識する。
 付与部102Cは、検出工程の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する。付与された識別コードは、動画像データを編集する際に表示され、ユーザが識別コードを確認することができる。
 録画部102Dは、撮像部10から出力される動画像データを記憶部18に記録させることにより録画する。なお、付与部102Cで付与される識別コードが付された状態で動画像データは記録されてもよいし、識別コードが付される前の動画像データが記憶部18に記録されてもよい。録画部102Dは、ユーザからの指示に応じて、動画像データの記録を開始する。また、ユーザから指示に応じて、動画像データの記録を終了する。ユーザは、操作部22を介して、記録の開始及び終了を指示する。
 第1音声録音部104は、第1マイクロフォン12から入力される第1音声データを動画像データに同期して記憶部18に記録する。第1音声データは、動画像データに関連付けて、記憶部18に記録される。
 第2音声録音部106は、第2マイクロフォン14から入力される第2音声データを動画像データに同期して記憶部18に記録する。第2音声データは、動画像データに関連付けて、記憶部18に記録される。
 次に、図1で説明した人物A及び人物Bの動画像データを取得する具体例を説明する。
 図4は、カメラシステム100を使用して実施されるデータ作成方法を説明するフローチャートである。
 [関連付け工程]
 関連付け工程では、撮像装置1の表示部16に表示された人物Aをユーザがタッチすることにより指定して、第1マイクロフォン12と人物Aとの関連付けを行う(ステップS10)。また、撮像装置1の表示部16に表示された人物Bをユーザが指定して、第2マイクロフォン14と人物Bとの関連付けを行う(ステップS11)。
 [録画工程]
 録画工程では、ユーザは操作部22を介して、動画像データの記録開始を行う(ステップS12)。その後、動画像データの記録続行の判定が撮像制御部101で行われ(ステップS20)、動画記録の中止の指示がユーザから操作部22を介して行われるまで動画記録は行われる。一方、ユーザが操作部22を介して動画記録の中止の指示を入力すると、動画像データの記録が終了する(ステップS21)。なお、録画工程の期間に、以下で説明する録音工程、検出工程及び付与工程が行われる。
 [録音工程]
 録音工程では、人物Aの第1音声データを第1マイクロフォン12を用いて記憶部18に録音し、人物Bの第2音声データを第2マイクロフォン14を用いて記憶部18に録音する(ステップS13)。
 [検出工程]
 検出工程では、第1検出部102Bにより画像処理で、動画像データにおいて人物Aが声を発している(話している)ことを検出する(ステップS14)。また、検出工程では、第1検出部102Bにより画像処理で、動画像データにおいて人物Bが声を発している(話している)こと検出する(ステップS15)。例えば、第1検出部102Bは、顔認識技術を使用して、人物A及び人物Bの顔を認識し、人物A及び人物Bの口元の画像を解析することにより、人物A及び人物Bが話しているか否かを検出する。
 [付与工程]
 付与工程では、付与部102Cにより、人物Aが話していない場合には、第1マイクロフォン12で集音された第1音声データ(図中では第1MPと記載)の音量を相対的に小さくする識別コードが動画像データに付与される(ステップS16)。一方で、人物Aが話している場合には、第1マイクロフォン12で集音された第1音声データの音量を相対的に大きくする識別コードを動画像データに付与する(ステップS17)。また、同様に人物Bが話していない場合には、第2マイクロフォン14で集音された第2音声データ(図中では第2MPと記載)の音量を相対的に小さくする識別コードを動画像データに付与し(ステップS18)、人物Bが話している場合には、第2マイクロフォン14で集音された第2音声データの音量を相対的に大きくする識別コードを付与する(ステップS19)。以下に、識別コードが付与された動画像データについて説明する。
 図5は、識別コードが付与された動画像データの例を説明する図である。
 第1検出部102Bは、動画像データにおいてt1からt2の期間で、人物Aが話していることを検出する。そして、付与部102Cは、第1検出部102Bの検出結果に基づいて、第1マイクロフォン12の音量を大きくする識別コード「第1マイクロフォン:大」(符号130)を動画像データに付与する。また、第1検出部102Bは、動画像データにおいてt2からt3の期間で、人物Bが話していることを検出する。そして、付与部102Cは、第1検出部102Bの検出結果に基づいて、第2マイクロフォン14の音量を大きくする識別コード「第2マイクロフォン:大」(符号132)を付与する。また、第1検出部102Bは、動画像データにおいてt3からt4の期間で、人物Aが話していることを検出する。そして、付与部102Cは、第1検出部102Bの検出結果に基づいて、第1マイクロフォン12の音量を大きくする識別コード「第1マイクロフォン:大」(符号134)を動画像データに付与する。また、「第1マイクロフォン:大」の代わりに、第1マイクロフォン12の音量を相対的に大きくするため、識別コード「第2マイクロフォン:小」を動画像に付与しても良い。なお、識別コードは、上述した識別コードには限定されず、第1音声データ及び第2音声データの音量調節を表すものであれば様々な形態を採用することができる。例えば識別コードとして、「第1マイクロフォン:大」に伴って、第2音声データの音量を小さくする「第2音声データ:小」を付してもよい。また、識別コードとして、第1音声データの音量レベルを付した「第1音声データ:レベル10」の識別コードを付してもよい。なお、音量レベルは数値が大きい程、音量が大きいことを示す。
 [動画の表示工程]
 動画の表示工程では、記録された動画像データに基づく動画を表示する(ステップS22)。動画像データに基づく動画は、撮像装置1とは別体で設けられたコンピュータのモニタに表示される。例えば、ユーザはモニタに動画を表示させて、動画の編集作業を行う。ユーザは、動画をモニタに表示させ、第1音声データ及び第2音声データの音量を調節する。なお、撮像装置1の表示部16に動画像データに基づく動画を表示させて編集作業を行う場合には、動画を表示部16に表示させて編集を行ってもよい。
 [音量調節の受付工程]
 音量調節の受付工程では、ユーザによる音声データの音量調節を受け付ける(ステップS23)。具体的には、ユーザはモニタに表示された動画像データ及び動画像データに付与された識別コードを確認しながら、第1音声データ及び/又は第2音声データの音量調節を行う。例えばユーザは、図5に示した識別コードが付与された動画像データを確認した場合には、t1からt2の期間では、第1音声データの音量レベルを10にし、第2音声データの音量レベルを1にして第1音声データの音量を相対的に大きくする。また、ユーザは、t2からt3の期間では、第2音声データの音量レベルを10にし、第1音声データの音量レベルを1にして第2音声データの音量を相対的に大きくする。また、ユーザは、t3からt4の期間では、第1音声データの音量レベルを10にし、第2音声データの音量レベルを1にして第1音声データの音量を相対的に大きくする。
 以上で説明したように、本実施形態のデータ作成方法は、動画像データにおいて人物A及び人物Bが話しているか否かを画像処理により自動で検出し、その検出結果に応じて動画像データに音量調節に関する識別コードを付与する。これにより、ユーザは、動画像データの編集を行う際に識別コードを確認して第1音声データ及び第2音声データの音量を調節することでき、改めて画像を確認する手間を省くことができ、人物A及び人物Bの状態に応じた音量調節を効率的に行うことができる。
 なお、上記実施形態において、各種の処理を実行する処理部(processing unit)(画像処理部102、撮像制御部101、第1音声録音部104、第2音声録音部106)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
 1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
 さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)である。
 上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ(処理手順)をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体(非一時的記録媒体)、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。
 <第2の実施形態>
 次に、本発明の第2の実施形態に関して説明する。本実施形態では、動画像データから自動で検出される被写体の状態に応じて、動画像データと合成される音声データに音量調節を行う。これにより、本実施形態では、被写体の状態に応じた音量調節が行われた音声付き動画像データを効率的に得ることができる。
 図6は、動画像データ及び音声データを記録する場合にCPUが実現する主な機能のブロック図である。なお、図3で既に説明を行った箇所は同じ符号を付し説明を省略する。
 図6に示すように、CPU24は、撮像制御部101、画像処理部102、第1音声録音部104、第2音声録音部106、調節部108及び合成部110等として機能する。なお、本実施形態の画像処理部102は、関連付け部102A、第1検出部102B及び録画部102Dを備える。
 調節部108は、第1検出部102Bの検出結果に基づいて、記憶部18に記録される第1音声データと、記憶部18に記録される第2音声データとの音量を自動で調節する。調節部108は、第1検出部102Bの検出結果に基づいて、第1検出部102Bの被写体の状態に応じて予め設定された音量に各音声データを調節する。なお、調節部108は、合成部110で合成される前の音声データの音量を調節してもよいし、合成部110で合成された後の音声データの音量を調節してもよい。
 合成部110は、記憶部18に記録されている動画像データと音声データとを合成し、音声付き動画像データを生成する。合成部110は、動画像データと同期する音声データとを合成し、一つの動画ファイルを生成する。合成部110で生成されるファイルは、動画ファイル形式であり、例えばAVI、MP4、MOV形式のファイルが生成される。
 図7は、カメラシステム100を使用して実施されるデータ作成方法を説明するフローチャートである。以下の説明では、図1で説明した人物A及び人物Bの動画像データを取得する具体例を説明する。なお、図4で既に説明を行った関連付け工程、録画工程、録音工程、検出工程は同様の内容であるので、説明を簡略化している。
 [関連付け工程]
 関連付け工程では、第1マイクロフォン12と人物Aと、及び第2マイクロフォン14と人物Bとの関連付けが行われる(ステップS30及びステップS31)。
 [録画工程]
 録画工程では、動画像データの記録が行われ、ユーザの指示に基づいて動画像データの記録が終了する(ステップS32、ステップS41及びステップS42)。
 [録音工程]
 録音工程では、第1音声データ及び第2音声データが記憶部18に録音される(ステップS33)。
 [検出工程]
 検出工程では、動画像データにおいて人物Aが話しているか否かが検出される(ステップS34)。また、検出工程では、動画像データにおいて人物Bが話しているか否かが検出される(ステップS35)。
 [調節工程]
 調節工程では、調節部108により、人物Aが話していない場合には、第1音声データの音量を小さくし(ステップS36)、人物Aが話している場合には、第1音声データの音量を大きくする(ステップS37)。また、同様に人物Bが話していない場合には、第2音声データの音量を小さくし(ステップS38)、人物Bが話している場合には、第2音声データの音量を大きくする(ステップS39)。以下に、音声データの音量の自動調節に関して具体的に説明する。
 図8は、第1音声データ及び第2音声データの音量調節に関して説明する図である。
 動画像データのt1からt2の期間では、人物Aが話しているので、調節部108は、第1音声データの音量をレベル10に調節する。一方、動画像データのt1からt2の期間では、人物Bは話していないので、調節部108は、第2音声データの音量をレベル1に調節する。また、動画像データのt2からt3の期間では、人物Aが話していないので、調節部108は、第1音声データの音量をレベル1に調節する。一方、動画像データのt2からt3の期間では、人物Bは話しているので、調節部108は、第2音声データの音量をレベル10に調節する。また、動画像データのt3からt4の期間では、人物Aが話しているので、調節部108は、第1音声データの音量をレベル10に調節する。一方、動画像データのt3からt4の期間では、人物Bは話していないので、調節部108は、第2音声データの音量をレベル1に調節する。なお、上述の説明では、記憶部18に記録された第1音声データ及び第2音声データの音量が調節されることに関して説明したが、本実施形態はこの例に限定されない。例えば、第1音声データ及び第2音声データが記憶部18に記録される前に、調節されてもよい。その場合には、第1音声録音部104及び第2音声録音部106に調節部108が設けられることになる。
 [合成工程]
 合成工程では、合成部110により、音量調節が行われた第1音声データ及び第2音声データと動画像データの合成が行われる(ステップS40)。例えば、合成部110では、音量調節が行われた第1音声データ及び第2音声データと動画像データを合成することにより、AVI形式の動画ファイルが生成される。
 以上で説明したように、本実施形態のデータ作成方法は、動画像データにおいて人物A及び人物Bが話しているか否かを自動で検出し、その検出結果に応じて音声データの音量を調節する。これにより、ユーザは動画像データの被写体の状態に応じて、第1音声データ及び第2音声データの音量が調節された音声付き動画像データを、ユーザが手動で音量調節をすることなく効率的に取得することができる。
 次に、本発明の変形例を説明する。上述の説明では、被写体(人物A及び人物B)が話しているか否かで、音量調節が行われる例について説明を行った。しかし本発明の適用は、この例に限定されるものではない。以下に変形例として、被写体の様々な状態に応じて音量調節を行うことを説明する。なお、以下で説明する変形例は、上述した動画像データに識別コード付与する形態(第1の実施形態)、及び音声データの音量を調節する形態(第2の実施形態)に適用される。
 <変形例1>
 変形例1に関して説明する。本例では、被写体の各々は位置検出システムを有し、位置検出システムから各被写体の位置を検出する。そして、検出された各被写体の位置に基づいて、音声データの音量を調節する識別コードが付与され、又は音声データの音量が調節される。
 図9は、カメラシステム100の概略構成を示すブロック図である。なお、図2で既に説明を行った箇所は、同じ符号を付し説明は省略する。
 第1マイクロフォン12は、第1音声信号処理部12A、第1無線通信部12B及び第1位置検出システム12Cを備える。第1位置検出システム12Cは、第1マイクロフォン12の位置を検出する。例えば、第1位置検出システム12Cは、GPS(Global Positioning System)(全地球測位システム)により、第1マイクロフォン12の位置を検出する。そして、人物Aは第1マイクロフォン12を所有しているので、第1位置検出システム12Cは、人物Aの位置を検出することになる。第1位置検出システム12Cで検出された人物Aの位置は、第1無線通信部12B及び第3無線通信部30を介して、撮像装置1に入力される。なお、第2マイクロフォン14は、上述した第1マイクロフォン12と同様の構成を有するので説明は省略する。
 図10は、動画像データ及び音声データを記録する場合に、CPU24が実現する主な機能のブロック図である。なお、図3で既に説明を行った箇所は、同じ符号を付し説明は省略する。
 図10に示すように、CPU24は、撮像制御部101、画像処理部102、第1音声録音部104、第2音声録音部106及び第2検出部112として機能する。
 第2検出部112は、第1マイクロフォン12から人物Aの位置に関する情報、及び第2マイクロフォン14から人物Bの位置に関する情報を得る。具体的には、第2検出部112は、第1マイクロフォン12の第1位置検出システム12Cで検出された人物Aの位置に関する情報、及び第2マイクロフォン14の第2位置検出システム14Cで検出された人物Bの位置に関する情報を取得する。そして、第2検出部112は、人物Aと撮像装置1との距離、人物Bと撮像装置1との距離を検出する。
 付与部102Cは、第2検出部112の結果に基づいて、各被写体の音声データの音量調節に関する識別コードを、動画像データに付与する。例えば、付与部102Cは、人物Aの撮像装置1からの距離に応じて、第1音声データの音量調節に関する識別コードを付与し、人物Bの撮像装置1からの距離に応じて、第2音声データの音量調節に関する識別コードを付与する。例えば付与部102Cは、人物Aが撮像装置1から距離αよりも遠い場合には、音量を小さくする識別コードを付与する。また、付与部102Cは、人物Aが撮像装置1から距離β以内である場合には、音量を大きくする識別コードを付与する。また例えば音声データの調節としては、第1マイクロフォン12、及び第2マイクロフォン14は、人物A(又は人物B)と撮像装置1との距離が長くなるに伴って、段階的に音量を小さくしてもよい。
 以上で説明したように、本例においては位置検出システムにより、人物A及び人物Bの位置に関する情報が取得され、その位置に関する情報に基づいて第2検出部112により人物A及び人物Bの位置が正確に検出される。そして、人物A及び人物Bの位置に基づいて、効率的に音量の調節を行うことができる。
 <変形例2>
 次に、変形例2に関して説明する。変形例2では、被写体が向いている方向に応じて、識別コードを付与する、又は音声データの音量調節を行う。
 本例では、第1検出部102Bは、動画像データにおいて画像処理により、各被写体が向いている方向を認識する。例えば、第1検出部102Bは、顔認識技術を使用して、人物A及び人物Bが向いている方向を認識する。そして、人物A及び人物Bが向いている方向に応じて、識別コードが付与又は音声データの音量が調節される。例えば、音声データの調節としては、人物Aが撮像装置1の方向(正面)を向いている場合には、第1音声データの音量を大きくし、人物Aが撮像装置1の方向を向いてない場合には、第1音声データの音量を小さくする。
 図11は、本例の具体例を説明する図である。
 図11(A)に示す場合では、人物Aは撮像装置1に対して正面を向いている。この場合には、第1検出部102Bにより人物Aが正面を向いていることが検出され、人物Aの音声データである第1音声データの音量を大きくする音量調節が行われる。一方、図11(B)に示す場合では、人物Aは撮像装置1に対して横を向いている(正面を向いていない)。この場合には、第1検出部102Bにより人物Aが横を向いていることが検出され、人物Aの音声データである第1音声データの音量を小さくする音量調節が行われる。
 以上で説明したように、本例においては、第1検出部102Bは被写体が向いている方向を検出し、被写体が向いている方向に基づいて効率的に音量調節が行われる。
 <変形例3>
 次に、変形例3に関して説明する。変形例3では、被写体の距離に応じて、音声データの音量調節に関する識別コードを付与する、又は音声データの音量調節を行う。
 本例では、第1検出部102Bは、動画像データにおいて画像処理により、各被写体と撮像装置1との距離を認識する。例えば、第1検出部102Bは、画像処理による被写体距離の推定技術により人物A及び人物Bの撮像装置1から距離を検出する。そして、人物A及び人物Bと撮像装置1との距離に応じて、識別コードが付与又は音声データが調節される。例えば、音声データの調節としては、人物Aと撮像装置1との距離が閾値γよりも大きい場合には、第1音声データの音量を小さくする。
 図12は、本例の具体例を説明する図である。
 図12(A)に示す場合では、人物Aは閾値γ以内に位置している。この場合には、第1検出部102Bにより人物Aが閾値γ以内に位置することを検出し、人物Aの音声データである第1音声データの音量を大きくする音量調節が行われる。一方、図12(B)に示す場合では、人物Aは閾値γよりも離れて位置している。この場合には、第1検出部102Bにより人物Aが閾値γよりも離れて位置していることを検出し、人物Aの音声データである第1音声データの音量を小さくする音量調節が行われる。
 以上で説明したように、本例においては、被写体と撮像装置1との距離が検出され、被写体と撮像装置1との距離に基づいて効率的に音量調節が行われる。
 <変形例4>
 次に、変形例4に関して説明する。変形例4では、撮像装置1の画角に被写体が存在するか否かで識別コードを付与する、又は、音声データの音量の調節を行う。
 本例では、第1検出部102Bは、動画像データにおいて画像処理により、各被写体が撮像装置1の画角内に存在するか否かを認識する。例えば第1検出部102Bは、画像認識技術を使用して、人物A及び人物Bが撮像装置1の画角内に存在するか否かを認識する。そして、人物A及び人物Bが画角内に存在するか否かに応じて、識別コードを付与又は音声データが調節される。例えば、音声データの音量の調節としては、人物Aが撮像装置1の画角内に写っている場合には、第1音声データの音量を大きくし、人物Aが撮像装置1の画角内に写っていない場合には、第1音声データの音量を小さくする。
 なお、撮像装置1の画角は、例えば特開2017-46355号公報のように、撮像装置1が撮像する動画像データの画角と、実際に記憶部18に記憶される動画像データの画角が異なる場合は、記憶部18に記憶される動画像データの画角である。
 図13は、本例の具体例を説明する図である。
 図13に示す場合では、人物Aは撮像装置1の画角151内に位置しており、人物Bは画角151の外に位置している。この場合には、第1検出部102Bにより人物Aが画角151内に位置していることが検出され、人物Aの音声データである第1音声データの音量を大きくする音量調節が行われる。一方、第1検出部102Bにより人物Bが画角151内に位置していないことが検出され、人物Bの音声データである第2音声データの音量を小さくする音量調節が行われる。
 以上で説明したように、本例においては、第1検出部102Bは撮像装置1の画角に被写体が存在するか否かを検出し、画角に被写体が存在するか否かで効率的に音量調節が行われる。
 <変形例5>
 本例では、撮像装置1、又は、第1マイクロフォン12及び第2マイクロフォン14は、ステレオ音声の音声データを記録する。ステレオ音声は人間の左耳用の音声と右耳用の音声を含んでいる。第1検出部102Bは、動画像データにおいて画像処理により、被写体が撮像装置1の中心に対して左側に存在しているか、右側に存在しているかを認識し、識別コードを付与する、又は、音声データの音量を調節する。例えば、音声データの音量の調節としては、人物が撮像装置1に対して左側に存在している場合、左耳用の音声データの音量を相対的に大きくする。なお、人物の位置を認識するための手法としては、例えば画像認識技術を使用する方法や変形例1のようなGPSを用いた方法がある。
 図14は、本例の具体例を説明する図である。
 図14(A)に示す場合では、人物Aは撮像装置1の光軸Mに対してL側に位置している。この場合には、第1検出部102Bにより人物AがL側に位置していることを検出し、人物Aの音声データである第1音声データにおける左耳用の音声データを相対的に大きくする。一方、図14(B)に示す場合では、人物Aは撮像装置1の光軸Mに対してR側に位置している。この場合には、第1検出部102Bにより人物AがR側に位置していることを検出し、人物Aの音声データである第1音声データにおける右耳用の音声データを相対的に大きくする。
 以上で説明したように、本例においては、第1検出部102Bは被写体が撮像装置1に対してどちら側に存在しているかを検出し、左耳用の音声データと右耳用の音声データの音量に差異を付けることで、より臨場感のある音声付きの動画像データとなる。
 第1マイクロフォン12及び第2マイクロフォン14は、携帯電話やスマートフォンであっても良い。この場合、携帯電話やスマートフォンが、自身と撮像装置1とを無線接続するアプリケーションを有していると好ましい。
 以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
1    :撮像装置
10   :撮像部
10A  :撮像光学系
10B  :撮像素子
10C  :画像信号処理部
12   :第1マイクロフォン
12A  :第1音声信号処理部
12B  :第1無線通信部
12C  :第1位置検出システム
14   :第2マイクロフォン
14B  :第2無線通信部
14C  :第2位置検出システム
16   :表示部
18   :記憶部
20   :音声出力部
22   :操作部
24   :CPU
26   :ROM
28   :RAM
30   :第3無線通信部
100  :カメラシステム
101  :撮像制御部
102  :画像処理部
102A :関連付け部
102B :第1検出部
102C :付与部
102D :録画部
104  :第1音声録音部
106  :第2音声録音部
112  :第2検出部
A    :人物
B    :人物

Claims (17)

  1.  撮像装置と、前記撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、
     前記マイクロフォンと、前記マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、
     前記撮像装置を用いて動画像データを録画する録画工程と、
     前記録画工程の開始に同期して前記マイクロフォンの各々を用いて前記各被写体の音声データをそれぞれ録音する録音工程と、
     前記録画工程の間に、前記被写体の状態を自動で検出する検出工程と、
     前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量調節に関する識別コードを、前記動画像データに付与する付与工程と、
     を含むデータ作成方法。
  2.  前記検出工程では、前記動画像データにおいて画像処理により、前記被写体が声を発している状態を認識し、
     前記付与工程では、声を発している前記被写体の前記音声データの音量を他の前記音声データに対して相対的に大きくする前記識別コードを前記動画像データに付与する請求項1に記載のデータ作成方法。
  3.  前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体が向いている方向を認識し、
     前記付与工程では、前記撮像装置に対する前記各被写体の顔の方向に応じて、前記音声データの音量を調節する前記識別コードを前記動画像データに付与する請求項1又は2に記載のデータ作成方法。
  4.  前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体と前記撮像装置との距離を認識し、
     前記付与工程では、前記各被写体の前記距離に応じて、前記音声データの音量を調節する前記識別コードを前記動画像データに付与する請求項1から3のいずれか1項に記載のデータ作成方法。
  5.  前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体が前記撮像装置の画角内に存在するか否かを認識し、
     前記付与工程では、前記被写体が前記撮像装置の画角内に存在するか否かで、前記音声データの音量を調節する前記識別コードを前記動画像データに付与する請求項1から4のいずれか1項に記載のデータ作成方法。
  6.  前記複数の被写体の各々は位置検出システムを有し、前記位置検出システムから前記複数の被写体の各々の位置を得る位置取得工程を含み、
     前記検出工程は、前記位置取得工程により得られた前記複数の被写体の各々の位置を検出し、
     前記付与工程では、前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量調節に関する前記識別コードを、前記動画像データに付与する請求項1から5のいずれか1項に記載のデータ作成方法。
  7.  前記付与工程の後に、ユーザによる前記音声データの音量調節を受け付ける受付工程を含む請求項1から6のいずれか1項に記載のデータ作成方法。
  8.  撮像装置と、前記撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成方法であって、
     前記マイクロフォンと、前記マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、
     前記撮像装置を用いて動画像データを録画する録画工程と、
     前記録画工程の開始に同期して前記マイクロフォンの各々を用いて前記各被写体の音声データをそれぞれ録音する録音工程と、
     前記録画工程の間に、前記被写体の状態を自動で検出する検出工程と、
     前記音声データと前記動画像データとを合成する合成工程と、
     前記検出工程の結果に基づいて、前記合成工程の前又は後に、前記各被写体の前記音声データの音量を自動で調節する調節工程と、
     を含むデータ作成方法。
  9.  前記検出工程では、前記動画像データにおいて画像処理により、前記被写体が声を発している状態を認識し、
     前記調節工程では、声を発している前記被写体の前記音声データの音量を他の前記音声データに対して相対的に大きくする請求項8に記載のデータ作成方法。
  10.  前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体が向いている方向を認識し、
     前記調節工程では、前記撮像装置に対する前記各被写体の顔の方向に応じて、前記音声データの音量を調節する請求項8又は9に記載のデータ作成方法。
  11.  前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体と前記撮像装置との距離を認識し、
     前記調節工程では、前記各被写体の前記距離に応じて、前記音声データの音量を調節する請求項8から10のいずれか1項に記載のデータ作成方法。
  12.  前記検出工程では、前記動画像データにおいて画像処理により、前記各被写体が前記撮像装置の画角内に存在するか否かを認識し、
     前記調節工程では、前記被写体が前記撮像装置の画角内に存在するか否かで、前記音声データの音量を調節する請求項8から11のいずれか1項に記載のデータ作成方法。
  13.  前記複数の被写体の各々は位置検出システムを有し、前記位置検出システムから前記複数の被写体の各々の位置を得る位置取得工程を含み、
     前記調節工程では、前記位置取得工程の結果及び前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量の調節を行う請求項8から12のいずれか1項に記載のデータ作成方法。
  14.  撮像装置と、前記撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、
     前記マイクロフォンと、前記マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、
     前記撮像装置を用いて動画像データを録画する録画工程と、
     前記録画工程の開始に同期して前記マイクロフォンの各々を用いて前記各被写体の音声データをそれぞれ録音する録音工程と、
     前記録画工程の間に、前記動画像データから前記被写体の状態を自動で検出する検出工程と、
     前記検出工程の結果に基づいて、前記各被写体の前記音声データの音量調節に関する識別コードを、前記動画像データに付与する付与工程と、
     を含むデータ作成プログラム。
  15.  非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項14に記載のプログラムをコンピュータに実行させる記録媒体。
  16.  撮像装置と、前記撮像装置と接続された複数のマイクロフォンとを備えたカメラシステムに用いられるデータ作成プログラムであって、
     前記マイクロフォンと、前記マイクロフォンの各々を所有する各被写体を関連付ける関連付け工程と、
     前記撮像装置を用いて動画像データを録画する録画工程と、
     前記録画工程の開始に同期して前記マイクロフォンの各々を用いて前記各被写体の音声データをそれぞれ録音する録音工程と、
     前記録画工程の間に、前記動画像データから前記被写体の状態を自動で検出する検出工程と、
     前記音声データと前記動画像データとを合成する合成工程と、
     前記検出工程の結果に基づいて、前記合成工程の前又は後に、前記各被写体の前記音声データの音量を自動で調節する調節工程と、
     を含むデータ作成プログラム。
  17.  非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項16に記載のプログラムをコンピュータに実行させる記録媒体。
PCT/JP2020/029969 2019-08-15 2020-08-05 データ作成方法及びデータ作成プログラム WO2021029294A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202080057693.1A CN114467293A (zh) 2019-08-15 2020-08-05 数据创建方法及数据创建程序
JP2021539232A JP7397084B2 (ja) 2019-08-15 2020-08-05 データ作成方法及びデータ作成プログラム
US17/668,256 US20220270388A1 (en) 2019-08-15 2022-02-09 Data creation method and data creation program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019149048 2019-08-15
JP2019-149048 2019-08-15

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/668,256 Continuation US20220270388A1 (en) 2019-08-15 2022-02-09 Data creation method and data creation program

Publications (2)

Publication Number Publication Date
WO2021029294A1 true WO2021029294A1 (ja) 2021-02-18
WO2021029294A8 WO2021029294A8 (ja) 2022-04-14

Family

ID=74569686

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/029969 WO2021029294A1 (ja) 2019-08-15 2020-08-05 データ作成方法及びデータ作成プログラム

Country Status (4)

Country Link
US (1) US20220270388A1 (ja)
JP (1) JP7397084B2 (ja)
CN (1) CN114467293A (ja)
WO (1) WO2021029294A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008271082A (ja) * 2007-04-19 2008-11-06 Casio Comput Co Ltd 音データ付き画像記録装置及びプログラム
JP2012151544A (ja) * 2011-01-17 2012-08-09 Casio Comput Co Ltd 撮像装置及びプログラム
JP2013156543A (ja) * 2012-01-31 2013-08-15 Brother Ind Ltd 投稿再生装置及びプログラム
JP2019103011A (ja) * 2017-12-05 2019-06-24 日本電信電話株式会社 変換装置、変換方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008271082A (ja) * 2007-04-19 2008-11-06 Casio Comput Co Ltd 音データ付き画像記録装置及びプログラム
JP2012151544A (ja) * 2011-01-17 2012-08-09 Casio Comput Co Ltd 撮像装置及びプログラム
JP2013156543A (ja) * 2012-01-31 2013-08-15 Brother Ind Ltd 投稿再生装置及びプログラム
JP2019103011A (ja) * 2017-12-05 2019-06-24 日本電信電話株式会社 変換装置、変換方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2021029294A1 (ja) 2021-02-18
CN114467293A (zh) 2022-05-10
WO2021029294A8 (ja) 2022-04-14
US20220270388A1 (en) 2022-08-25
JP7397084B2 (ja) 2023-12-12

Similar Documents

Publication Publication Date Title
US10848889B2 (en) Intelligent audio rendering for video recording
US20230328429A1 (en) Audio processing method and electronic device
CN111246300B (zh) 剪辑模板的生成方法、装置、设备及存储介质
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2009060394A (ja) 撮像装置、画像検出装置及びプログラム
US10873824B2 (en) Apparatus, system, and method of processing data, and recording medium
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
JP7428763B2 (ja) 情報取得システム
JP4968346B2 (ja) 撮像装置、画像検出装置及びプログラム
JP2012151544A (ja) 撮像装置及びプログラム
WO2021029294A1 (ja) データ作成方法及びデータ作成プログラム
JP6835205B2 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
JP6680579B2 (ja) ショーのための情報支援システム
JP2007251355A (ja) 対話システム用中継装置、対話システム、対話方法
JP2013183280A (ja) 情報処理装置、撮像装置、及びプログラム
CN115942108A (zh) 一种视频处理方法及电子设备
JP2011130134A (ja) 撮像装置、撮像システム
JP5712599B2 (ja) 撮像装置及びプログラム
WO2020006664A1 (zh) 拍摄装置的控制方法、拍摄装置、拍摄系统和存储介质
JP2020178150A (ja) 音声処理装置及び音声処理方法
CN111400004A (zh) 视频扫描中断处理方法及装置、存储介质和电子设备
WO2021020197A1 (ja) 映像生成方法
TWI792207B (zh) 過濾鏡頭操作雜音的方法及錄影系統
JP7111202B2 (ja) 収音制御システム及び収音制御システムの制御方法
JP2013003392A (ja) 録音装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20852526

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021539232

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20852526

Country of ref document: EP

Kind code of ref document: A1