WO2011016322A1 - 撮像装置、編集装置および撮像システム - Google Patents
撮像装置、編集装置および撮像システム Download PDFInfo
- Publication number
- WO2011016322A1 WO2011016322A1 PCT/JP2010/061916 JP2010061916W WO2011016322A1 WO 2011016322 A1 WO2011016322 A1 WO 2011016322A1 JP 2010061916 W JP2010061916 W JP 2010061916W WO 2011016322 A1 WO2011016322 A1 WO 2011016322A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- imaging
- unit
- input
- voice
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G03—PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
- G03B—APPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
- G03B17/00—Details of cameras or camera bodies; Accessories therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
Definitions
- the present invention relates to an imaging device that captures an image, an editing device that edits an image captured by the imaging device, and an imaging system that includes the imaging device and the editing device.
- an imaging apparatus such as a digital camera or a video camera.
- a technique is known in which a composition is made so that the faces of all the members gathered by performing human face detection (see, for example, Patent Document 1).
- a technique is known in which the imaging apparatus recognizes the composition and zooms up when the subject is small, or corrects by image processing when the subject is tilted (see, for example, Patent Document 2).
- a technique is known in which a subject is arranged on the screen based on the composition of the golden section, or when the subject is skewered, the skewer is eliminated by moving the imaging device (for example, Patent Document 3). reference).
- the photographer often looks at the image displayed on the finder when determining the composition, but in the case of a photographer with little shooting experience, the composition is determined while looking at the finder. It was technically difficult to do.
- the present invention has been made in view of the above, and provides an imaging apparatus, an editing apparatus, and an imaging system capable of easily and reliably obtaining an image having a composition desired by a photographer without using a finder display.
- the purpose is to do.
- an imaging apparatus includes an optical system that focuses light in a predetermined visual field region to form a subject image, and the optical system forms an image.
- An image pickup unit having an image pickup device that converts a subject image into a digital image signal and outputs the image, an image processing unit that generates image data by performing image processing on the image signal output from the image pickup unit, and the image processing Object recognition means for recognizing an object included in a predetermined area of the image corresponding to the image data generated by the means, sound output means for outputting the name of the object recognized by the object recognition means, and the sound output means.
- Object selection means for selecting and inputting part or all of the objects whose names are output as voices
- the imaging means includes the object Characterized by capturing an image containing all the objects selected input by transfected selecting means.
- the optical system includes a zoom lens having a variable focal length, and includes an angle of view of the optical system so as to include all objects selected and input by the object selection unit. It is further characterized by further comprising an angle of view adjusting means for adjusting the angle.
- the object recognition unit intermittently moves the focal length of the optical system from the tele side to the wide side until an object is selected and input by the object selection unit.
- the object is recognized at each focal length.
- the optical system includes a single focus lens, and trimming an image captured by the imaging unit so as to include all objects selected and input by the object selection unit. Trimming means for performing is further provided.
- the object recognizing unit intermittently expands a recognition target area from a central part to an outer peripheral part until an object is selected and input by the object selecting unit. The object is recognized in each area.
- the object selecting means includes a sound input means for selecting and inputting an object in accordance with a sound input from the outside.
- the object selection means has an input button for selecting and inputting an object by an external press.
- the imaging apparatus is characterized in that, in the above invention, the input button is a release button to which a shooting instruction signal is input, and an object is selected and input when the release button is half-pressed. To do.
- the imaging device further includes a motion detection unit that detects a motion of the imaging device according to the invention, and the imaging device is executing when the motion detection unit detects a motion of the imaging device.
- the process is interrupted.
- a scene-by-scene shooting mode can be set according to a shooting scene, and the object recognizing unit can only set an object determined according to the set scene-by-scene shooting mode. Is a recognition target.
- the scene-specific shooting mode a portrait mode for shooting a person's face can be set, and the object recognition unit has the scene-specific shooting mode set to the port.
- the rate mode is set, only a human face is a recognition target.
- the sound output unit can identify each object together with the names of the plurality of objects. Secondary information is output by voice.
- An editing apparatus is an editing apparatus that edits an image captured by an imaging apparatus, and includes an optical system that focuses light in a predetermined visual field region to form a subject image, and the optical system includes An image pickup means having an image pickup device that converts a formed subject image into a digital image signal and outputs the image, and an image processing means that generates image data by performing image processing on the image signal output by the image pickup means; An object recognition unit for recognizing an object included in a predetermined area of an image corresponding to the image data generated by the image processing unit; an audio output unit for outputting the name of the object recognized by the object recognition unit; An imaging device comprising: an object selection unit that selects and inputs a part or all of the objects whose names are output by the output unit. Against the image, characterized by comprising a trimming unit for trimming to include all objects selected input by the object selecting means.
- the imaging system is capable of communicating an image capturing apparatus that captures an image and generating electronic image data of the image, and information including the image data with the image capturing apparatus.
- An imaging system including an editing device that edits an image corresponding to the image data, the imaging device condensing light in a predetermined visual field region to form a subject image, and the optical system
- An imaging unit having an imaging element that converts the subject image formed by the digital image signal into a digital image signal and outputs the image, and an image processing unit that generates image data by performing image processing on the image signal output by the imaging unit;
- An object recognition unit for recognizing an object included in a predetermined area of an image corresponding to the image data generated by the image processing unit, and an object recognized by the object recognition unit
- a voice output means for outputting a name by voice; an object selection means for selecting or inputting part or all of the objects whose voice is output by the voice output means; and information including the editing device and the image data.
- First editing means for performing transmission / reception, wherein the editing apparatus transmits / receives information including the image data to / from the imaging apparatus, and the image data received by the second communication means.
- Trimming means for trimming an image so as to include all objects selected and input by the object selection means.
- the object of the image being captured is recognized and the name of the recognized object is output by voice, the object to be photographed is determined by the selection input from the photographer.
- An image having a composition desired by the photographer can be obtained easily and reliably without using it.
- FIG. 1 is a block diagram showing a configuration of an imaging apparatus according to Embodiment 1 of the present invention.
- FIG. 2 is a perspective view showing an external configuration of the imaging apparatus according to Embodiment 1 of the present invention.
- FIG. 3 is a flowchart showing an outline of processing when the imaging apparatus according to Embodiment 1 of the present invention is set to the automatic framing shooting mode.
- FIG. 4 is a diagram schematically showing a situation in which the imaging apparatus according to Embodiment 1 of the present invention outputs an object in the visual field area as audio.
- FIG. 5 is a diagram schematically showing a situation in which a photographer selects and inputs an object to be photographed by voice to the imaging apparatus according to Embodiment 1 of the present invention.
- FIG. 1 is a block diagram showing a configuration of an imaging apparatus according to Embodiment 1 of the present invention.
- FIG. 2 is a perspective view showing an external configuration of the imaging apparatus according to Embodiment 1 of the present invention.
- FIG. 6 is a diagram illustrating a relationship between a scene-specific shooting mode and a recognition target object that are referred to by an imaging apparatus according to a modification of the first embodiment of the present invention.
- FIG. 7 is a flowchart showing an outline of processing when the imaging apparatus according to Embodiment 2 of the present invention is set to the automatic framing shooting mode.
- FIG. 8 is a diagram showing an outline of object recognition processing performed by the imaging apparatus according to Embodiment 2 of the present invention.
- FIG. 9 is a flowchart showing an outline of processing when the imaging apparatus according to Embodiment 3 of the present invention is set to the automatic framing shooting mode.
- FIG. 7 is a flowchart showing an outline of processing when the imaging apparatus according to Embodiment 2 of the present invention is set to the automatic framing shooting mode.
- FIG. 8 is a diagram showing an outline of object recognition processing performed by the imaging apparatus according to Embodiment 2 of the present invention.
- FIG. 9 is a flowchart showing an
- FIG. 10 is a diagram illustrating an example of setting a small region in which the imaging apparatus according to Embodiment 3 of the present invention performs object recognition processing.
- FIG. 11 is a flowchart showing an outline of processing when the imaging apparatus according to Embodiment 4 of the present invention is set to the automatic framing shooting mode.
- FIG. 12 is a diagram schematically illustrating a situation where the imaging apparatus according to the fourth embodiment of the present invention outputs an object in the visual field area as audio.
- FIG. 13 is a block diagram showing a configuration of an imaging system according to Embodiment 5 of the present invention.
- FIG. 14 is a flowchart showing an outline of processing when the imaging apparatus according to Embodiment 5 of the present invention is set to the automatic framing shooting mode.
- FIG. 15 is a flowchart showing an overview of image editing processing performed by the editing apparatus according to Embodiment 5 of the present invention.
- FIG. 16 is a block diagram showing a configuration of an imaging apparatus according to Embodiment 6 of the present invention.
- FIG. 17 is a flowchart showing an outline of processing when the imaging apparatus according to Embodiment 6 of the present invention is set to the automatic framing shooting mode.
- FIG. 1 is a block diagram showing a configuration of an imaging apparatus according to Embodiment 1 of the present invention.
- FIG. 2 is a perspective view showing an external configuration of the imaging apparatus according to the first embodiment.
- the image pickup apparatus 1 shown in these drawings temporarily stores an image pickup unit 2 that picks up an image of a predetermined visual field and outputs a digital image signal corresponding to the image, and an image signal generated by the image pickup unit 2.
- an image processing unit 4 that generates image data by performing image processing on an image signal stored in the memory 3, and various switches or buttons provided on the surface of the imaging device 1.
- An input unit 5 that receives an input of an operation signal, an audio output unit 6 that outputs the name of an object included in a predetermined area of the image corresponding to the image data generated by the image processing unit 4, and an external audio signal
- a voice input unit 7 that receives input
- a storage unit 8 that stores various types of information including image data
- a control unit 9 that controls the overall operation of the imaging apparatus 1 are provided. These components are connected to each other via a system bus.
- the imaging unit 2 includes an optical system including one or a plurality of lenses, a shutter, a diaphragm, and an imaging element.
- the optical system has a zoom lens with a variable focal length, and forms a subject image on the imaging surface of the imaging device.
- the imaging device is realized by using a CCD (Charge Coupled Device) or a CMOS (Complementary Metal Oxide Semiconductor), and converts the subject image formed by the optical system into a digital image signal and outputs it.
- CCD Charge Coupled Device
- CMOS Complementary Metal Oxide Semiconductor
- the memory 3 is realized by using, for example, DRAM (Dynamic Random Access Memory). By using the DRAM in this way, the writing speed and reading speed of the memory 3 can be increased.
- DRAM Dynamic Random Access Memory
- the image processing unit 4 is realized by using an application specific integrated circuit (ASIC) or the like, and synchronizes with the image signal read from the memory 3 (demosaic processing), white balance adjustment, gradation correction, level correction, unsharpening. Image data is generated by performing processing such as masking and shading correction.
- ASIC application specific integrated circuit
- the input unit 5 includes a release button 51 for inputting a release signal, a power button 52 of the imaging device 1, and a mode changeover switch 53 for switching various operation modes that can be set on the imaging device 1.
- the audio output unit 6 includes a D / A converter that D / A converts audio data and outputs it, and a speaker that outputs an analog audio signal converted by the D / A converter.
- the speaker may be realized by an earphone terminal. When the speaker is realized by an earphone terminal, the photographer can listen to the sound output from the sound output unit 6 when the earphone or the headphone is attached to the earphone terminal.
- the voice input unit 7 includes a microphone that collects sound input from the outside, and an A / D converter that performs A / D conversion on the sound collected by the microphone and outputs it to the voice recognition unit.
- the voice input unit 7 receives a voice input of an object that the photographer wants to shoot among the names of the objects output by the voice output unit 6.
- the voice input unit 7 has at least a function of an object selection unit that selectively inputs a part or all of the objects whose names are voice-output by the voice output unit (speech output unit 6).
- the storage unit 8 includes an image data storage unit 81 that stores image data generated by the image processing unit 4 and a basic image data storage unit 82 that stores basic image data for image recognition.
- the image data stored in the image data storage unit 81 is JPEG compressed as necessary.
- the image data includes sound data of the name of the object input by the photographer via the sound input unit 7 when photographing.
- the basic image data storage unit 82 stores images of people, flowers, trees, animals, mountains, the sea, etc. as basic images, and also stores sound corresponding to each image.
- the basic image data is desirably generated using a learning type object recognition algorithm such as SVM (support vector machine), kernel discriminant analysis, neural network, subspace method, or ensemble learning.
- SVM support vector machine
- the storage unit 8 is realized using a storage medium such as a flash memory. Such a storage medium may be built in the imaging apparatus 1 or may be configured to be detachable from the imaging apparatus 1.
- the control unit 9 recognizes an object included in a predetermined area of the image corresponding to the image data generated by the image processing unit 4 and an audio included in the audio data input from the audio input unit 7. And an angle-of-view adjusting unit 93 that adjusts the angle of view of the optical system so as to include all objects specified by the sound recognized by the speech recognizing unit 92.
- the object recognizing unit 91 extracts, as an object, a subject having a degree of correlation with a basic image stored in the basic image data storage unit 82 among objects included in the image, and the extracted sound data of the name of the object Is output to the audio output unit 6.
- the voice recognition unit 92 performs voice recognition by comparing the voice data input from the voice input unit 7 with the voice data included in the image data.
- the control unit 9 is realized using a CPU (Central Processing Unit).
- the imaging apparatus 1 having the above configuration includes an automatic framing shooting mode in which shooting is performed by automatically framing so as to include all objects whose names are input by the voice input unit 7 in addition to the normal shooting mode as a shooting mode. Can be set.
- FIG. 3 is a flowchart showing an outline of processing when the imaging apparatus 1 is set to the automatic framing shooting mode.
- the imaging device 1 first performs focus adjustment (step S1).
- step S1 focus adjustment
- the imaging device 1 When there is a variation in the distance between the imaging device 1 and a plurality of subjects included in the field of view of the photographing lens, that is, when a plurality of subjects are present from near to far from the camera, all the subjects are focused simultaneously. Needs to increase the depth of field of the optical system. In order to increase the depth of field, the aperture of the optical system may be reduced. However, since the amount of light that can be captured is reduced when the aperture is reduced, the image signal of an image captured by increasing the ISO sensitivity of the image sensor is obtained. It is desirable to amplify electrically. Note that the initial zoom position in step S1 is arbitrary.
- step S2 the image capturing unit 2, the memory 3, and the image processing unit 4 capture an image to generate image data.
- the object recognition unit 91 extracts an object included in the image data (step S3), and recognizes the object by comparing the extracted object with the basic image (step S4).
- the object recognition unit 91 outputs audio data corresponding to the recognized object name to the audio output unit 6.
- the audio output unit 6 that receives the audio data from the object recognition unit 91 outputs the name of the object included in the audio data (step S5).
- FIG. 4 is a diagram schematically showing the process of step S5. In the case illustrated in FIG. 4, the audio output unit 6 outputs the name “two people, a bus, a tree, a cow, a house, and a mountain” as an object in the visual field region V.
- FIG. 5 is a diagram schematically illustrating a setting example of the visual field region V 1 of the imaging device 1 when “two people, a bus” is designated by the photographer.
- the imaging apparatus 1 After the adjustment of the angle of view by the angle of view adjustment unit 93 is completed, the imaging apparatus 1 outputs a message (for example, a message “I can shoot”) notifying that the camera is ready to shoot from the audio output unit 6. (Step S8).
- a message for example, a message “I can shoot”
- step S9 When the release button 51 is pressed within a predetermined time after outputting a shootable message (step S9: Yes), the imaging apparatus 1 performs automatic exposure (AE), autofocus (AF), auto white balance (AWB), and the like. By performing the above process, an image is taken and image data is generated (step S10). Subsequently, the imaging apparatus 1 records the generated image data of the captured image in the image data storage unit 81 (step S11).
- AE automatic exposure
- AF autofocus
- AVB auto white balance
- step S11 when a signal to end shooting is input by the input unit 5 (step S12: Yes), the imaging device 1 ends a series of processes. On the other hand, when the signal for ending the photographing is not input by the input unit 5 (step S12: No), the imaging device 1 returns to step S1.
- step S9 when the release button 51 is not pressed within a predetermined time after outputting the photographing enabled message (step S9: No), the imaging device 1 proceeds to step S12.
- step S6 a case where there is no voice input for selecting a desired object from the photographer within a predetermined time after the voice output unit 6 outputs the name of the object (step S6: No) will be described.
- the voice output unit 6 outputs a message prompting voice input (for example, a message “Please input the name of the object to be photographed”) (step S13).
- a signal to end shooting is input by the input unit 5 (step S14: Yes)
- the imaging device 1 ends a series of processes.
- the signal for ending photographing is not input by the input unit 5 (step S14: No)
- the imaging device 1 returns to step S6.
- the object of the image being captured is recognized, the name of the recognized object is output by voice, and then the object to be imaged is selected and input from the photographer. Since it has the defined structure, it is possible to easily and reliably obtain an image having a composition desired by the photographer without using a finder.
- the photographer can determine the composition by simply inputting the name of the object to be photographed, the photographer who is not accustomed to photographing or the blind photographer Even so, the desired composition can be easily determined.
- FIG. 6 is a diagram illustrating a relationship between a scene-specific shooting mode and a recognition target object.
- the scene-specific shooting mode is set to the portrait mode
- the object to be recognized by the object recognition unit 91 is “person”.
- the scene-specific shooting mode is set to the landscape mode
- the object to be recognized by the object recognition unit 91 is “other than a person”.
- the object recognition unit 91 recognizes only “person”, so the audio output unit 6 sets “2”. Only “people” are output as audio. Further, when the imaging device 1 is capturing the visual field V shown in FIG. 4 with the landscape mode set, since the object recognition unit 91 recognizes “other than a person”, the audio output unit 6 sets “ “Bus, tree, cow, house, mountain”
- FIG. 7 is a flowchart showing an outline of processing when the imaging apparatus according to Embodiment 2 of the present invention is set to the automatic framing shooting mode.
- the configuration of the imaging apparatus according to the second embodiment is the same as the configuration of the imaging apparatus 1 described above.
- the focal length of the photographing lens included in the imaging unit 2 is 35 to 105 mm in terms of a 35 mm camera.
- the focal lengths described below are all 35 mm camera equivalent values.
- the imaging apparatus 1 first sets the focal length of the optical system of the imaging unit 2 to the tele end (focal length 105 mm) (step S21).
- the processes in steps S22 to S25 following step S21 sequentially correspond to the processes in steps S2 to S5 in FIG.
- motion detection means such as an acceleration sensor or an angular velocity sensor for detecting motion is provided in the imaging device 1, and if the imaging device 1 moves during the execution of steps S22 to S25, the processing is interrupted and step S21 is performed. You may make it return to.
- FIG. 8 is a diagram illustrating an outline of object recognition processing performed by the imaging apparatus 1.
- the name of the object to be output from the audio output unit 6 in the step S25 is "two people, a bus".
- step S26 When there is a voice input for selecting an object from the photographer within a predetermined time after the voice output unit 6 outputs the name of the object (step S26: Yes), the angle of view adjustment unit 93 is controlled by the voice input unit 7. The angle of view is adjusted to include all the input objects (step S27). Subsequent processes in steps S28 to S32 sequentially correspond to the processes in steps S8 to S12 described above.
- step S26: No a case where there is no voice input for designating an object from the photographer within a predetermined time.
- the audio output unit 6 issues a warning message (for example, “No more objects are added. The message "Please input the name by voice” is output (step S34).
- step S35: Yes a signal for ending photographing is input by the input unit 5
- step S35: No the imaging device 1 ends a series of processes.
- step S36 the focal length of the optical system to one wide side
- the focal length (for example, about 50 mm) between the focal length at the tele end and the focal length at the wide end.
- a field of view V m having That is, in the case shown in FIG. 8, the imaging apparatus 1 can intermittently change the focal length of the optical system in three steps.
- the name of the object output by the audio output unit 6 in the visual field V m is “two people, bus, tree”, and the name of the object output by the audio output unit 6 in the visual field region V w is “two people, bus, tree”. , Mountain, cow, house ".
- the object of the image being captured is recognized, the name of the recognized object is output by voice, and then the object to be imaged is selected and input from the photographer. Since it has the defined structure, it is possible to easily and reliably obtain an image having a composition desired by the photographer without using a finder.
- the focal length of the optical system is intermittently changed in multiple steps from the tele end to the wide end until the object to be photographed is input by sound, so that the sound output unit The number of objects to be output gradually increases with each step.
- the photographer does not have to listen to the names of many objects from the beginning, and can easily remember the objects included in the visual field area. Therefore, it is possible to accurately select an object to be photographed.
- FIG. 9 is a flowchart showing an outline of processing when the imaging apparatus according to Embodiment 3 of the present invention is set to the automatic framing shooting mode. Note that the configuration of the imaging apparatus according to the third embodiment is the same as the configuration of the imaging apparatus 1 described above.
- the processes in steps S41 to S44 correspond to the processes in steps S1 to S4 in FIG.
- the object recognition process in step S44 the object position information is also recognized.
- the object recognizing unit 91 determines whether or not each is included in each of the rectangular small areas D 1 to D 5 shown in FIG. 10, and uses the determination result as part of the image data as an image data storage unit. 81.
- the bus is included in all the small areas D 1 to D 5 , but the mountain is included only in the small area D 5 .
- the area of the small region D m is 20 m% of the area of the entire screen.
- step S45 the imaging apparatus 1, and 1 identifying counter m small areas D m (step S45), the name of an object included in the small region D m output by the audio output unit 6 (step S46) .
- the sound output unit 6 outputs a sound “two people, bus”.
- step S47: Yes If there is a voice input for designating a desired object from the photographer within a predetermined time after outputting the name of the object in step S46 (step S47: Yes), the angle of view adjustment unit 93 is input by the voice input unit 7. The angle of view is adjusted so as to include all the objects that have been set (step S48). After the adjustment of the angle of view by the angle-of-view adjustment unit 93 is completed, the audio output unit 6 outputs a message notifying that the camera is ready for photographing (step S49).
- step S50 If the release button 51 is pressed within a predetermined time after outputting the photographable message (step S50: Yes), the imaging device 1 captures an image and generates image data (step S51). Subsequently, the imaging apparatus 1 records the generated image data of the captured image in the image data storage unit 81 (step S52).
- step S53: Yes when a signal for ending photographing is input by the input unit 5 (step S53: Yes), the imaging device 1 ends a series of processes. On the other hand, when the signal for ending photographing is not input by the input unit 5 (step S53: No), the imaging device 1 returns to step S41.
- step S47: No a case where there is no voice input for designating an object from the photographer within a predetermined time in step S47 (step S47: No) will be described.
- a warning message is output from the voice output unit 6 (step S55).
- the warning message here is the same as the warning message in step S34 of FIG.
- Step S56: Yes when a signal for ending shooting is input by the input unit 5 (step S56: Yes), the imaging device 1 ends a series of processes, whereas a signal for ending shooting is not input by the input unit 5 (Step S56: No), the imaging apparatus 1 returns to Step S47.
- the imaging apparatus 1 determines whether or not there is an audio input for designating an object within a predetermined time after outputting the warning message.
- step S54 if the counter m is not equal to the maximum value M (step S54: No), the value of the counter m is increased by 1 (step S57), and the process returns to step S46.
- the object of the image being captured is recognized, the name of the recognized object is output by voice, and then the object to be imaged is selected and input from the photographer. Since it has the defined structure, it is possible to easily and reliably obtain an image having a composition desired by the photographer without using a finder.
- a plurality of small regions that intermittently spread from the center of the captured image are provided, and the object that is output from the audio output unit is used to recognize an object from a small region with a small area.
- the number of increases gradually as the area of the small region increases. As a result, the photographer does not have to ask the names of many objects from the beginning, so the names of the objects included in the small area can be easily remembered. Therefore, it is possible to accurately select an object to be photographed.
- FIG. 11 is a flowchart showing an outline of processing when the imaging apparatus according to Embodiment 4 of the present invention is set to the automatic framing shooting mode. Note that the configuration of the imaging apparatus according to the fourth embodiment is the same as the configuration of the imaging apparatus 1 described above.
- the processes in steps S61 to S64 correspond to the processes in steps S1 to S4 in FIG.
- step S65: Yes when there are a plurality of objects with the same name among the recognized objects (step S65: Yes), for the object with the same name, in addition to the name, secondary information that can identify each object is output as audio.
- the other objects only the names are output by voice (step S66).
- the audio output unit 6 adds “two people” in addition to the name “tree” for the object “tree”, such as “two people, a bus, a tree next to the two people, a tree next to the bus”. Secondary information such as “next to” or “next to the bus” is output as audio.
- step S65 If there are not a plurality of objects with the same name in step S65 (step S65: No), the name of the recognized object is voice-output by the voice output unit 6 (step S67).
- steps S68 to S76 performed subsequent to step S66 or step S67 sequentially corresponds to the processing of steps S6 to S14 in FIG.
- an object of a captured image is recognized, the name of the recognized object is output by voice, and then an object to be photographed is selected and input by a photographer. Since it has the defined structure, it is possible to easily and reliably obtain an image having a composition desired by the photographer without using a finder.
- the sound output unit when there are a plurality of objects having the same name, the sound output unit outputs a sound to which secondary information for identifying each object is added.
- a plurality of objects having names can be accurately identified.
- more detailed information may be output based on the content determined by the object recognition unit 91.
- the object recognizing unit 91 can determine information such as the distance between a tree and a person or a bus, and the color of the tree, the information may be further added to be output as a sound. Good.
- subject information may be given by changing the volume and frequency of the output audio according to the distance and position to the object, the category of the object, and the like.
- the output sound volume is set to three levels, large, medium, and small. If the distance from the imaging apparatus 1 to the subject is less than 1 m, the volume is small, and if the distance is 1 m or more and less than 5 m, the volume is medium. If the distance is 5 m or more, the volume may be increased.
- the audio frequency to be output is made up of three levels, large, medium, and small. If there is a subject on the right side of the screen, the frequency is set low and low sound is output. If the subject is on the left side of the screen, the frequency is increased High sound may be output, and if the subject is in the center of the screen, the sound may be output at an intermediate height when the frequency is set to the middle and the left and right of the screen.
- FIG. 13 is a block diagram showing a configuration of an imaging system according to Embodiment 5 of the present invention.
- An imaging system 100 illustrated in FIG. 1 includes an imaging device 11 and an editing device 21 that edits an image captured by the imaging device 11.
- the imaging device 11 and the editing device 21 can communicate with each other.
- the imaging device 11 includes a communication unit 12 (first communication unit) that transmits and receives information including image data to and from the editing device 21.
- the editing device 21 includes a communication unit 22 (second communication unit) that transmits and receives information to and from the imaging device 11, a trimming unit 23 that performs trimming of an image corresponding to image data received by the communication unit 22, and an image A storage unit 24 that stores various types of information including data, and a control unit 25 that controls the operation of the editing device 21 are provided.
- the editing device 21 is realized using, for example, a personal computer (PC).
- the control unit 25 extracts a speech recognition unit 251 that recognizes speech included in the speech data received by the communication unit 22, and an object included in the image received by the communication unit 22 based on the recognition result of the speech recognition unit 251. And an object extraction unit 252 that performs processing.
- the control unit 25 is realized using a CPU.
- Communication between the imaging device 11 and the editing device 21 may be realized by wireless communication such as wireless LAN (Local Area Network) or infrared communication, or may be realized by wired communication using a cable.
- wireless communication such as wireless LAN (Local Area Network) or infrared communication
- wired communication using a cable may be realized by wireless LAN (Local Area Network) or infrared communication.
- FIG. 14 is a flowchart showing an outline of processing when the imaging apparatus 11 is set to the automatic framing shooting mode.
- steps S81 to S85 sequentially correspond to the processes of steps S1 to S5 in FIG.
- Step S86 If there is an audio input for selecting an object from the photographer within a predetermined time after the audio output unit 6 outputs the name of the object (Step S86: Yes), the audio output unit 6 outputs a shootable message (Step S86). S87).
- step S88 When the release button 51 is pressed within a predetermined time after outputting the photographing enabled message (step S88: Yes), the imaging device 11 captures an image and generates image data (step S89). Subsequently, the imaging device 11 records the image data of the generated captured image in the image data storage unit 81 (step S90).
- the communication unit 12 transmits the image data of the photographed image and the sound data of the name of the object selected and input by the photographer at the time of photographing to the editing device 21 (step S91).
- step S92: Yes when a signal for ending shooting is input by the input unit 5 (step S92: Yes), the imaging device 11 ends a series of processes. On the other hand, when the signal for ending photographing is not input by the input unit 5 (step S92: No), the imaging device 11 returns to step S81.
- step S86: No a case where there is no voice input for designating an object from the photographer within a predetermined time in step S86 (step S86: No) will be described.
- the voice output unit 6 outputs a message for prompting voice input (step S93).
- step S94: Yes when a signal to end shooting is input by the input unit 5 (step S94: Yes), the imaging device 11 ends a series of processes.
- step S94: No when the signal for ending photographing is not input by the input unit 5 (step S94: No), the imaging apparatus returns to step S86.
- FIG. 15 is a flowchart showing an overview of image editing processing performed by the editing device 21.
- the editing device 21 receives the image data and the sound data of the object name from the imaging device 11 (step S ⁇ b> 101: Yes)
- the sound recognition unit 251 analyzes the received sound data and recognizes the sound. (Step S102).
- the object extraction unit 252 extracts an object corresponding to the voice recognized by the voice recognition unit 251 from the received image data (step S103).
- the trimming unit 23 performs image trimming so as to include all the objects extracted by the object extracting unit 252 (step S104), and records the image data of the trimmed image in the storage unit 24 (step S105). Thereby, the editing apparatus 21 ends a series of processes.
- the object of the image being captured is recognized, the name of the recognized object is output by voice, and then the object to be imaged is selected and input by the photographer. Since it has the defined structure, it is possible to easily and reliably obtain an image having a composition desired by the photographer without using a finder.
- the editing (trimming) of the image including the object input by the photographer is performed by an editing device different from the imaging device, the load on the imaging device can be reduced.
- the image data captured using the storage medium may be transferred to the editing apparatus without providing the image capturing apparatus or the editing apparatus with a communication function.
- the editing apparatus continuously performs trimming of a plurality of image data.
- a plurality of combinations of objects may be sequentially input by voice after the imaging device has taken a picture.
- the editing apparatus can generate a plurality of trimmed images according to a combination of a plurality of objects, a plurality of images having different compositions can be generated by one shooting. Is possible.
- FIG. 16 is a block diagram showing a configuration of an imaging apparatus according to Embodiment 6 of the present invention.
- the imaging device 31 shown in the figure includes an imaging unit 32, a memory 3, an image processing unit 4, an input unit 5, an audio output unit 6, an audio input unit 7, a storage unit 8, and a control unit 33.
- the imaging unit 32 has a single focus lens, condenses light in a predetermined visual field, and forms a subject image, and converts the subject image formed by the optical system into a digital image signal.
- the control unit 33 includes an object recognition unit 91, a voice recognition unit 92, and a trimming unit 331 that performs image trimming.
- FIG. 17 is a flowchart illustrating an outline of processing when the imaging device 31 having the above configuration is set to the automatic framing shooting mode.
- the imaging device 31 captures an image using the imaging unit 32, the memory 3, and the image processing unit 4, and generates image data (step S111).
- the object recognition unit 91 extracts an object included in the image data (step S112), and recognizes the object by comparing the extracted object with the basic image (step S113).
- the object recognition unit 91 also recognizes the position information of the object. Specifically, the object recognition unit 91 determines whether or not the object is included in each of the small regions D 1 to D 5 shown in FIG. 10, and the image data storage unit 81 uses the determination result as part of the image data. To record.
- the imaging device 31 sets the counter m for identifying the small area D m to 1 (step S114), and outputs the names of the objects included in the small area D m by the audio output unit 6 (step S115).
- step S116 If the photographer receives a small area determination instruction input within a predetermined time after outputting the name of the object in step S115 (step S116: Yes), the release button 51 within a predetermined time from the small area determination instruction input.
- step S117: Yes the imaging device 31 captures an image and generates image data (step S118). Subsequently, the imaging device 31 records the image data of the generated captured image in the image data storage unit 81 (step S119).
- the instruction input for determining the small area in step S116 is realized by pressing the release button 51 halfway.
- the release button 51 has at least a part of the function of the object selection means. It is also possible to apply buttons other than the release button 51 for inputting an instruction for determining a small area.
- the trimming unit 331 trims the captured image according to the small area D m (step S119), and records the trimmed image in the image data storage unit 81 (step S120).
- step S121: Yes when a signal for ending the shooting is input by the input unit 5 (step S121: Yes), the imaging device 31 ends a series of processes. On the other hand, when the signal for ending photographing is not input by the input unit 5 (step S121: No), the imaging device 31 returns to step S111.
- Steps S122 to S125 performed by the imaging device 31 when there is no small area determination instruction input from the photographer within the predetermined time in step S116 sequentially correspond to the processes of steps S54 to S57 in FIG. ing.
- step S124 when the signal for ending photographing is not input by the input unit 5 (step S124: No), the imaging device 31 returns to step S116.
- the object of the image being captured is recognized, the name of the recognized object is output by voice, and then the object to be imaged is selected and input by the photographer. Since it has the defined structure, it is possible to easily and reliably obtain an image having a composition desired by the photographer without using a finder.
- a plurality of small areas that intermittently spread from the center of the captured image are provided, and the object that is output from the audio output unit is used to recognize an object from a small area that has a small area.
- the number of increases gradually as the area of the small region increases. As a result, the photographer does not have to ask the names of many objects from the beginning, so the names of the objects included in the small area can be easily remembered. Therefore, it is possible to accurately select an object to be photographed.
- an instruction input for determining a small area may be input from the voice input unit 7.
- the photographer may input a message (for example, a message “OK”) instructing the small area determination.
- the imaging device according to the present invention is not limited to the shape shown in FIG. 2, and may have a pen shape or a small shape that can be incorporated into glasses. May be.
- the imaging device according to the present invention may have the same shape as a normal imaging device having a finder.
- the present invention can include various embodiments not described herein.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Studio Devices (AREA)
- Details Of Cameras Including Film Mechanisms (AREA)
- Indication In Cameras, And Counting Of Exposures (AREA)
Abstract
液晶パネルやファインダの表示を用いることなく所望の構図の画像を容易にかつ確実に得ることができる撮像装置等を提供する。撮像装置は、所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、を備え、前記撮像手段は、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含む画像を撮影する。
Description
本発明は、画像を撮像する撮像装置、撮像装置が撮影した画像を編集する編集装置、および撮像装置と編集装置とを備えた撮像システムに関する。
近年、デジタルカメラやビデオカメラ等の撮像装置では、最適な構図を自動的に設定するための様々な技術が開示されている。例えば、人物の顔検出を行うことによって集合した全員の顔が入るような構図にする技術が知られている(例えば、特許文献1を参照)。また、撮像装置が構図を認識し、被写体が小さい場合にはズームアップしたり、被写体が傾いている場合には画像処理によって修正する技術が知られている(例えば、特許文献2を参照)。また、黄金分割の構図に基づくように被写体を画面に配置したり、被写体が串刺しになっている場合に撮像装置を移動して串刺しを解消する技術が知られている(例えば、特許文献3を参照)。
しかしながら、最適な構図というのは撮影者の主観による部分も大きいため、上述した従来技術を用いて撮影した画像が撮影者にとって常に最適な構図であるとは限らなかった。
また、上述した従来技術では、撮影者が構図を決定する際にファインダで表示される画像を見て行うことが多いが、撮影経験が少ない撮影者の場合には、ファインダを見ながら構図を決定すること自体が技術的に難しかった。
本発明は、上記に鑑みてなされたものであって、ファインダの表示を用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる撮像装置、編集装置および撮像システムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る撮像装置は、所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、を備え、前記撮像手段は、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含む画像を撮影することを特徴とする。
また、本発明に係る撮像装置は、上記発明において、前記光学系は焦点距離可変のズームレンズを有し、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように前記光学系の画角を調整する画角調整手段をさらに備えたことを特徴とする。
また、本発明に係る撮像装置は、上記発明において、前記オブジェクト認識手段は、前記オブジェクト選択手段によってオブジェクトが選択入力されるまで、前記光学系の焦点距離をテレ側からワイド側に間欠的に移動しながら各焦点距離でオブジェクトの認識を行うことを特徴とする。
また、本発明に係る撮像装置は、上記発明において、前記光学系は単焦点レンズを有し、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように前記撮像手段が撮影した画像のトリミングを行うトリミング手段をさらに備えたことを特徴とする。
また、本発明に係る撮像装置は、上記発明において、前記オブジェクト認識手段は、前記オブジェクト選択手段によってオブジェクトが選択入力されるまで、認識対象の領域を中心部から外周部へ間欠的に広げながら、各領域でオブジェクトの認識を行うことを特徴とする。
また、本発明に係る撮像装置は、上記発明において、前記オブジェクト選択手段は、外部からの入力される音声に応じてオブジェクトが選択入力される音声入力手段を有することを特徴とする。
また、本発明に係る撮像装置は、上記発明において、前記オブジェクト選択手段は、外部からの押圧によってオブジェクトが選択入力される入力ボタンを有することを特徴とする。
また、本発明に係る撮像装置は、上記発明において、前記入力ボタンは撮影指示信号が入力されるレリーズボタンであり、該レリーズボタンが半押しされた場合にオブジェクトが選択入力されることを特徴とする。
また、本発明に係る撮像装置は、上記発明において、当該撮像装置の動きを検出する動き検出手段をさらに備え、前記動き検出手段が当該撮像装置の動きを検出した時、当該撮像装置が実行中の処理を中断することを特徴とする。
また、本発明に係る撮像装置は、上記発明において、撮影シーンに応じたシーン別撮影モードを設定可能であり、前記オブジェクト認識手段は、設定された前記シーン別撮影モードに応じて定められるオブジェクトのみを認識対象とすることを特徴とする。
また、本発明に係る撮像装置は、上記発明において、前記シーン別撮影モードとして、人物の顔を撮影するポートレードモードを設定可能であり、前記オブジェクト認識手段は、前記シーン別撮影モードが前記ポートレートモードに設定されている場合、人物の顔のみを認識対象とすることを特徴とする。
また、本発明に係る撮像装置は、上記発明において、前記音声出力手段は、前記オブジェクト認識手段が同じ名称を有する複数のオブジェクトを認識した場合、該複数のオブジェクトの名称とともに各オブジェクトを識別可能な2次情報を音声出力することを特徴とする。
また、本発明に係る編集装置は、撮像装置が撮影した画像を編集する編集装置であって、所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、を備えた撮像装置が撮影した画像に対して、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むようにトリミングを行うトリミング手段を備えたことを特徴とする。
また、本発明に係る撮像システムは、画像を撮像して該画像の電子的な画像データを生成する撮像装置と、前記撮像装置と前記画像データを含む情報の通信を行うことが可能であり、前記画像データに対応する画像を編集する編集装置とからなる撮像システムであって、前記撮像装置は、所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、前記編集装置と前記画像データを含む情報の送受信を行う第1通信手段と、を備え、前記編集装置は、前記撮像装置と前記画像データを含む情報の送受信を行う第2通信手段と、前記第2通信手段が受信した前記画像データに対し、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように画像のトリミングを行うトリミング手段と、を備えたことを特徴とする。
本発明によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。
以下、添付図面を参照して、本発明を実施するための形態(以下、「実施の形態」という)を説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る撮像装置の構成を示すブロック図である。また、図2は、本実施の形態1に係る撮像装置の外観構成を示す斜視図である。これらの図に示す撮像装置1は、所定の視野領域の画像を撮像して該画像に対応するデジタルの画像信号を出力する撮像部2と、撮像部2が生成した画像信号を一時的に保管するメモリ3と、メモリ3に保管された画像信号に画像処理を施すことによって画像データを生成する画像処理部4と、撮像装置1の表面に設けられた各種スイッチまたはボタンからなり、撮像装置1の操作信号等の入力を受け付ける入力部5と、画像処理部4が生成した画像データに対応する画像の所定領域に含まれるオブジェクトの名称を音声出力する音声出力部6と、外部からの音声の入力を受け付ける音声入力部7と、画像データを含む各種情報を記憶する記憶部8と、撮像装置1の動作を全体的に統括して制御する制御部9と、を備える。これらの構成部位は、システムバスを介して相互に接続している。
図1は、本発明の実施の形態1に係る撮像装置の構成を示すブロック図である。また、図2は、本実施の形態1に係る撮像装置の外観構成を示す斜視図である。これらの図に示す撮像装置1は、所定の視野領域の画像を撮像して該画像に対応するデジタルの画像信号を出力する撮像部2と、撮像部2が生成した画像信号を一時的に保管するメモリ3と、メモリ3に保管された画像信号に画像処理を施すことによって画像データを生成する画像処理部4と、撮像装置1の表面に設けられた各種スイッチまたはボタンからなり、撮像装置1の操作信号等の入力を受け付ける入力部5と、画像処理部4が生成した画像データに対応する画像の所定領域に含まれるオブジェクトの名称を音声出力する音声出力部6と、外部からの音声の入力を受け付ける音声入力部7と、画像データを含む各種情報を記憶する記憶部8と、撮像装置1の動作を全体的に統括して制御する制御部9と、を備える。これらの構成部位は、システムバスを介して相互に接続している。
撮像部2は、一または複数のレンズからなる光学系と、シャッタと、絞りと、撮像素子とを有する。光学系は、焦点距離可変のズームレンズを有し、撮像素子の撮像面上に被写体像を結像する。また、撮像素子は、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)を用いて実現され、光学系が結像した被写体像をデジタルの画像信号に変換して出力する。
メモリ3は、例えばDRAM(Dynamic Random Access Memory)を用いて実現される。このようにDRAMを用いることにより、メモリ3の書き込み速度および読み出し速度を速くすることができる。
画像処理部4は、特定用途向けの集積回路(ASIC)等を用いて実現され、メモリ3から読み出した画像信号に同時化(デモザイク処理)、ホワイトバランス調整、階調補正、レベル補正、アンシャープマスク、シェーディング補正等の処理を施すことによって画像データを生成する。
入力部5は、レリーズ信号を入力するレリーズボタン51と、撮像装置1の電源ボタン52と、撮像装置1で設定可能な各種動作モードの切替を行うモード切替スイッチ53とを有する。
音声出力部6は、音声データをD/A変換して出力するD/A変換器と、D/A変換器が変換したアナログ音声信号を出力するスピーカとを有する。なお、スピーカをイヤホン端子によって実現してもよい。スピーカをイヤホン端子によって実現する場合、撮影者はそのイヤホン端子にイヤホンやヘッドホンを装着によって音声出力部6が出力する音声を聞くこともできる。
音声入力部7は、外部から入力される音声を集音するマイクと、マイクが集音した音声をA/D変換して音声認識部へ出力するA/D変換器とを有する。音声入力部7は、音声出力部6が出力したオブジェクトの名称のうち、撮影者が撮影対象として所望するオブジェクトの音声入力を受け付ける。この意味で、音声入力部7は、音声出力手段(音声出力部6)が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段の少なくとも一部の機能を有する。
記憶部8は、画像処理部4が生成した画像データを記憶する画像データ記憶部81と、画像認識用の基本画像データを記憶する基本画像データ記憶部82とを有する。画像データ記憶部81が記憶する画像データは、必要に応じてJPEG圧縮されている。画像データには、撮影を行う際に撮影者が音声入力部7を介して入力したオブジェクトの名称の音声データが含まれる。基本画像データ記憶部82は、基本画像として人、花、木、動物、山、海等の画像を記憶するとともに、各画像に対応する音声を記憶する。なお、基本画像データは、SVM(サポートベクターマシン)、カーネル判別分析、ニューラルネット、部分空間法またはアンサンブル学習等の学習型の対象物認識アルゴリズムを用いて生成することが望ましい。
記憶部8は、フラッシュメモリ等の記憶媒体を用いて実現される。このような記憶媒体は、撮像装置1に内蔵されるものであってもよいし、撮像装置1に対して着脱自在に構成されるものであってもよい。
制御部9は、画像処理部4が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識部91と、音声入力部7から入力された音声データに含まれる音声を認識する音声認識部92と、音声認識部92が認識した音声によって特定されるオブジェクトを全て含むように光学系の画角を調整する画角調整部93と、を有する。オブジェクト認識部91は、画像に含まれる被写体の中で基本画像データ記憶部82が記憶する基本画像との相関度が所定値より高い被写体をオブジェクトとして抽出し、この抽出したオブジェクトの名称の音声データを音声出力部6へ出力する。音声認識部92は、音声入力部7から入力された音声データを画像データに含まれる音声データと比較することによって音声認識を行う。制御部9は、CPU(Central Processing Unit)を用いて実現される。
以上の構成を有する撮像装置1は、撮影モードとして、通常撮影モードに加え、音声入力部7によって名称が入力されたオブジェクトを全て含むように自動的にフレーミングを行って撮影する自動フレーミング撮影モードを設定することができる。
図3は、撮像装置1が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図3において、撮像装置1は、まずピント調整を行う(ステップS1)。撮像装置1と撮影レンズの視野領域に含まれる複数の被写体との距離にバラツキがある場合、すなわち複数の被写体がカメラの近くから遠くまで存在している場合、全ての被写体に同時にピントを合わせるには光学系の被写界深度を深くする必要がある。被写界深度を深くするためには光学系の絞りを絞ればよいが、絞りを絞ると取り込むことができる光量が減少するので、撮像素子のISO感度を上げることによって撮像した画像の画像信号を電気的に増幅することが望ましい。なお、このステップS1におけるズームの初期位置は任意である。
続いて、撮像部2、メモリ3および画像処理部4によって画像を取り込み、画像データを生成する(ステップS2)。
この後、オブジェクト認識部91が、画像データに含まれるオブジェクトを抽出し(ステップS3)、抽出したオブジェクトを基本画像と比較することによってオブジェクトの認識を行う(ステップS4)。オブジェクト認識部91は、認識したオブジェクトの名称に対応する音声データを音声出力部6へ出力する。オブジェクト認識部91から音声データを受信した音声出力部6は、音声データに含まれるオブジェクトの名称を出力する(ステップS5)。図4は、ステップS5の処理を模式的に示す図である。図4に示す場合、音声出力部6は、視野領域V内にあるオブジェクトとして「二人、バス、木、牛、家、山」という名称を音声出力する。
ステップS5でオブジェクトの名称が音声出力されると、撮影者はその中で撮影したいオブジェクトを選択し、選択したオブジェクトの名称を音声入力部7から音声によって入力する。撮像装置1では、音声出力部6がオブジェクトの名称を出力してから所定時間以内に撮影者から所望のオブジェクトを選択する音声入力された場合(ステップS6:Yes)、画角調整部93が、音声入力部7によって入力された全てのオブジェクトを含むように画角を調整する(ステップS7)。図5は、撮影者によって「二人、バス」が指定された場合の撮像装置1の視野領域V1の設定例を模式的に示す図である。
画角調整部93による画角の調整が完了した後、撮像装置1は、音声出力部6から撮影可能状態にあることを報知するメッセージ(例えば、「撮影できます。」というメッセージ)を出力する(ステップS8)。
撮影可能メッセージを出力してから所定時間以内にレリーズボタン51が押された場合(ステップS9:Yes)、撮像装置1は自動露出(AE)、オートフォーカス(AF)、オートホワイトバランス(AWB)等の処理を行うことによって画像を撮影し、画像データを生成する(ステップS10)。続いて、撮像装置1は、生成した撮影画像の画像データを画像データ記憶部81へ記録する(ステップS11)。
ステップS11の後、入力部5によって撮影を終了する信号が入力された場合(ステップS12:Yes)、撮像装置1は一連の処理を終了する。一方、入力部5によって撮影を終了する信号が入力されない場合(ステップS12:No)、撮像装置1はステップS1に戻る。
ステップS9において、撮影可能メッセージを出力してから所定時間以内にレリーズボタン51が押されなかった場合(ステップS9:No)、撮像装置1はステップS12へ移行する。
次に、音声出力部6がオブジェクトの名称を出力してから所定時間以内に撮影者から所望のオブジェクトを選択する音声入力がない場合(ステップS6:No)を説明する。この場合、音声出力部6は、音声入力を促すメッセージ(例えば、「撮影するオブジェクトの名称を音声入力してください。」というメッセージ)を出力する(ステップS13)。その後、入力部5によって撮影を終了する信号が入力された場合(ステップS14:Yes)、撮像装置1は一連の処理を終了する。一方、入力部5によって撮影を終了する信号が入力されない場合(ステップS14:No)、撮像装置1はステップS6に戻る。
以上説明した本発明の実施の形態1によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。
また、本実施の形態1によれば、撮影者は撮影対象とするオブジェクトの名称を音声入力するだけで構図を決定することができるため、撮影に不慣れな撮影者や目の不自由な撮影者であっても所望の構図を容易に決定することができる。
(実施の形態1の変形例)
本実施の形態1の変形例は、撮影シーン別に認識対象オブジェクトを変更することを特徴とする。本変形例において、撮像装置1では撮影シーンに応じたシーン別撮影モードを設定することができる。図6は、シーン別撮影モードと認識対象オブジェクトとの関係を示す図である。図6において、例えばシーン別撮影モードがポートレートモードに設定されている場合、オブジェクト認識部91が認識対象とすべきオブジェクトは「人物」である。また、シーン別撮影モードが風景モードに設定されている場合、オブジェクト認識部91が認識対象とすべきオブジェクトは「人物以外」である。
本実施の形態1の変形例は、撮影シーン別に認識対象オブジェクトを変更することを特徴とする。本変形例において、撮像装置1では撮影シーンに応じたシーン別撮影モードを設定することができる。図6は、シーン別撮影モードと認識対象オブジェクトとの関係を示す図である。図6において、例えばシーン別撮影モードがポートレートモードに設定されている場合、オブジェクト認識部91が認識対象とすべきオブジェクトは「人物」である。また、シーン別撮影モードが風景モードに設定されている場合、オブジェクト認識部91が認識対象とすべきオブジェクトは「人物以外」である。
より具体的な例を説明する。撮像装置1がポートレートモードに設定された状態で図4に示す視野領域Vを撮像している場合、オブジェクト認識部91は「人物」のみを認識対象とするため、音声出力部6は「二人」のみを音声出力する。また、撮像装置1が風景モードに設定された状態で図4に示す視野領域Vを撮像している場合、オブジェクト認識部91は「人物以外」を認識対象とするため、音声出力部6は「バス、木、牛、家、山」を音声出力する。
このような本実施の形態1の変形例によれば、上記実施の形態1と同様の効果に加え、シーン別撮影モードに応じたオブジェクトのみを認識してその名称を音声出力するため、撮影者は撮影目的に合致しないオブジェクトの名称を聞かないで済む。したがって、オブジェクトの選択入力が容易となり、撮影者が所望する構図を的確に得ることができる。
(実施の形態2)
図7は、本発明の実施の形態2に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。なお、本実施の形態2に係る撮像装置の構成は、上述した撮像装置1の構成と同じである。以下の説明において、撮像部2が有する撮影レンズの焦点距離を、35mmカメラ換算で35~105mmとする。なお、以下に記載する焦点距離は、全て35mmカメラ換算値である。
図7は、本発明の実施の形態2に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。なお、本実施の形態2に係る撮像装置の構成は、上述した撮像装置1の構成と同じである。以下の説明において、撮像部2が有する撮影レンズの焦点距離を、35mmカメラ換算で35~105mmとする。なお、以下に記載する焦点距離は、全て35mmカメラ換算値である。
図7において、撮像装置1は、まず撮像部2が有する光学系の焦点距離をテレ端(焦点距離105mm)に設定する(ステップS21)。ステップS21に続くステップS22~S25の処理は、図3のステップS2~ステップS5の処理に順次対応している。なお、撮像装置1に動きを検出する加速度センサや角速度センサ等の動き検出手段を設けておき、ステップS22~S25を行う間に撮像装置1が移動した場合には、処理を中断してステップS21に戻るようにしてもよい。
図8は、撮像装置1が行うオブジェクト認識処理の概要を示す図である。図8では、焦点距離がテレ端である場合の視野領域をVtとしている。視野領域Vtにおいて、ステップS25で音声出力部6が出力するオブジェクトの名称は「二人、バス」である。
音声出力部6がオブジェクトの名称を音声出力してから所定時間以内に撮影者からオブジェクトを選択する音声入力があった場合(ステップS26:Yes)、画角調整部93は、音声入力部7によって入力された全てのオブジェクトを含むように画角を調整する(ステップS27)。この後のステップS28~S32の処理は、上述したステップS8~S12の処理に順次対応している。
次に、所定時間以内に撮影者からオブジェクトを指定する音声入力がなかった場合(ステップS26:No)を説明する。この場合、光学系の焦点距離がワイド端(焦点距離35mm)であれば(ステップS33:Yes)、音声出力部6は警告メッセージ(例えば、「これ以上オブジェクトは増えませんので、撮影するオブジェクトの名称を音声入力してください。」というメッセージ)を出力する(ステップS34)。その後、入力部5によって撮影を終了する信号が入力された場合(ステップS35:Yes)、撮像装置1は一連の処理を終了する。一方、入力部5によって撮影を終了する信号が入力されない場合(ステップS35:No)、撮像装置1はステップS26に戻る。ステップS33において、光学系の焦点距離がワイド端でなければ(ステップS33:No)、制御部9は、光学系の焦点距離を一段階ワイド側に設定し(ステップS36)、ステップS22に戻る。
図8に示す場合、テレ端に相当する視野領域Vtとワイド端に相当する視野領域Vw以外に、テレ端の焦点距離とワイド端の焦点距離との間の焦点距離(例えば50mm程度)を有する視野領域Vmが存在する。すなわち、図8に示す場合には、撮像装置1が光学系の焦点距離を間欠的に三段階変化させることができる。視野領域Vmにおいて音声出力部6が出力するオブジェクトの名称は「二人、バス、木」であり、視野領域Vwにおいて音声出力部6が出力するオブジェクトの名称は「二人、バス、木、山、牛、家」である。
以上説明した本発明の実施の形態2によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。
また、本実施の形態2によれば、撮影対象のオブジェクトが音声入力されるまで、光学系の焦点距離をテレ端からワイド端に間欠的に多段階で変化させていくため、音声出力部が出力するオブジェクトの数は、段階を経るごとに徐々に増加していく。この結果、撮影者は、最初から多くのオブジェクトの名称を聞かずに済むため、視野領域に含まれるオブジェクトを覚えやすい。したがって、撮影対象とするオブジェクトの選択を的確に行うことができる。
(実施の形態3)
図9は、本発明の実施の形態3に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。なお、本実施の形態3に係る撮像装置の構成は、上述した撮像装置1の構成と同じである。
図9は、本発明の実施の形態3に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。なお、本実施の形態3に係る撮像装置の構成は、上述した撮像装置1の構成と同じである。
図9において、ステップS41~S44の処理は、図3のステップS1~S4の処理に順次対応している。ただし、ステップS44におけるオブジェクトの認識処理では、オブジェクトの位置情報も認識する。具体的には、オブジェクト認識部91は、図10に示す矩形状の小領域D1~D5にそれぞれ含まれるか否かを判定し、この判定結果を画像データの一部として画像データ記憶部81へ記録する。例えば、バスは全ての小領域D1~D5に含まれるが、山は小領域D5にのみ含まれる。図10に示す場合、小領域Dmの面積は、画面全体の面積の20m%である。
ステップS44に続いて、撮像装置1は、小領域Dmを識別するカウンタmを1とし(ステップS45)、小領域Dmに含まれるオブジェクトの名称を音声出力部6によって出力する(ステップS46)。例えば、小領域D1の場合、音声出力部6は「二人、バス」という音声を出力する。
ステップS46でオブジェクトの名称を出力してから所定時間以内に撮影者から所望のオブジェクトを指定する音声入力があった場合(ステップS47:Yes)、画角調整部93は、音声入力部7によって入力された全てのオブジェクトを含むように画角を調整する(ステップS48)。画角調整部93による画角の調整が完了した後、音声出力部6は、撮影可能状態にあることを報知するメッセージを出力する(ステップS49)。
撮影可能メッセージを出力してから所定時間以内にレリーズボタン51が押されれば(ステップS50:Yes)、撮像装置1は画像の撮影を行い、画像データを生成する(ステップS51)。続いて、撮像装置1は、生成した撮影画像の画像データを画像データ記憶部81へ記録する(ステップS52)。
その後、入力部5によって撮影を終了する信号が入力された場合(ステップS53:Yes)、撮像装置1は一連の処理を終了する。一方、入力部5によって撮影を終了する信号が入力されない場合(ステップS53:No)、撮像装置1はステップS41に戻る。
次に、ステップS47において、所定時間以内に撮影者からオブジェクトを指定する音声入力がなかった場合(ステップS47:No)を説明する。この場合、カウンタmが最大値M(図9の場合にはM=5)と等しければ(ステップS54:Yes)、音声出力部6から警告メッセージを出力する(ステップS55)。ここでの警告メッセージは、図7のステップS34における警告メッセージと同様である。
その後、入力部5によって撮影を終了する信号が入力された場合(ステップS56:Yes)、撮像装置1は一連の処理を終了する一方、入力部5によって撮影を終了する信号が入力されなかった場合(ステップS56:No)、撮像装置1はステップS47に戻る。ステップS47に戻った場合、撮像装置1は、警告メッセージを出力してから所定時間以内にオブジェクトを指定する音声入力があるか否かを判定する。
ステップS54において、カウンタmが最大値Mと等しくなければ(ステップS54:No)、カウンタmの値を1増やし(ステップS57)、ステップS46へ戻る。
以上説明した本発明の実施の形態3によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。
また、本実施の形態3によれば、撮像した画像の中心から間欠的に広がっていく複数の小領域を設け、面積が小さい小領域からオブジェクトの認識を行うため、音声出力部が出力するオブジェクトの数は、小領域の面積が大きくなるにつれて徐々に増加していく。この結果、撮影者は最初から多くのオブジェクトの名称を聞かずに済むため、小領域に含まれるオブジェクトの名称を覚えやすい。したがって、撮影対象とするオブジェクトの選択を的確に行うことができる。
(実施の形態4)
図11は、本発明の実施の形態4に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。なお、本実施の形態4に係る撮像装置の構成は、上述した撮像装置1の構成と同じである。
図11は、本発明の実施の形態4に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。なお、本実施の形態4に係る撮像装置の構成は、上述した撮像装置1の構成と同じである。
図11において、ステップS61~S64の処理は、図3のステップS1~S4の処理に順次対応している。この後、認識したオブジェクトの中で同じ名称のオブジェクトが複数ある場合(ステップS65:Yes)、同一名称のオブジェクトについては名称に加えて各オブジェクトを識別可能な2次情報を音声出力する一方、それ以外のオブジェクトについては名称のみを音声出力する(ステップS66)。例えば、図12に示す視野領域V2には木が二つある。この場合、音声出力部6は、「二人、バス、二人の横の木、バスの横の木」というように、「木」というオブジェクトに関して、「木」という名称に加えて「二人の横」や「バスの横」といった2次情報を音声出力する。
ステップS65において同一名称のオブジェクトが複数ない場合(ステップS65:No)、認識したオブジェクトの名称を音声出力部6によって音声出力する(ステップS67)。
ステップS66またはステップS67に続いて行うステップS68~S76の処理は、図3のステップS6~S14の処理に順次対応している。
以上説明した本発明の実施の形態4によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。
また、本実施の形態4によれば、同一名称を有する複数のオブジェクトがある場合、音声出力部は、各オブジェクトを識別するための2次情報を加えた音声を出力するため、撮影者は同一名称を有する複数のオブジェクトを的確に識別することができる。
なお、同一名称のオブジェクトが複数ある場合の識別の精度をさらに上げるために、オブジェクト認識部91が判定した内容に基づいて、より詳細な情報を音声出力するようにしてもよい。例えば、図12に示す場合に、木と人やバスとの距離、木の色等の情報をオブジェクト認識部91が判定できる場合には、それらの情報をさらに加えて音声出力するようにしてもよい。
また、オブジェクトまでの距離や位置、オブジェクトのカテゴリー等によって、出力する音声の音量や周波数を変化させることによって被写体の情報を与えても良い。例えば、出力する音声の音量を大、中、小の3段階とし、撮像装置1から被写体までの距離が1m未満であれば音量を小とし、その距離が1m以上5m未満であれば音量を中とし、その距離が5m以上であれば音量を大とするようにしてもよい。また、出力する音声の周波数を大、中、小の3段階とし、画面の右側に被写体がいる場合は周波数を小として低い音声を出力し、画面の左側に被写体がいる場合は周波数を大として高い音声を出力し、画面の中央部に被写体がいる場合は周波数を中として画面の左右にいる場合の中間の高さの音声を出力するようにしてもよい。
(実施の形態5)
図13は、本発明の実施の形態5に係る撮像システムの構成を示すブロック図である。同図に示す撮像システム100は、撮像装置11と、撮像装置11が撮影した画像を編集する編集装置21とを備える。撮像装置11と編集装置21とは相互に通信可能である。
図13は、本発明の実施の形態5に係る撮像システムの構成を示すブロック図である。同図に示す撮像システム100は、撮像装置11と、撮像装置11が撮影した画像を編集する編集装置21とを備える。撮像装置11と編集装置21とは相互に通信可能である。
撮像装置11は、撮像装置1の構成に加えて、編集装置21との間で画像データを含む情報の送受信を行う通信部12(第1通信手段)を有する。
編集装置21は、撮像装置11との間で情報の送受信を行う通信部22(第2通信手段)と、通信部22が受信した画像データに対応する画像のトリミングを行うトリミング部23と、画像データを含む各種情報を記憶する記憶部24と、編集装置21の動作を制御する制御部25と、を備える。編集装置21は、例えばパーソナルコンピュータ(PC)を用いて実現される。
制御部25は、通信部22が受信した音声データに含まれる音声を認識する音声認識部251と、音声認識部251の認識結果に基づいて、通信部22が受信した画像に含まれるオブジェクトを抽出するオブジェクト抽出部252とを有する。制御部25は、CPUを用いて実現される。
撮像装置11と編集装置21との間の通信は、無線LAN(Local Area Network)や赤外線通信などの無線通信によって実現してもよいし、ケーブルを用いた有線通信によって実現してもよい。
図14は、撮像装置11が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図14において、ステップS81~S85は、図3のステップS1~S5の処理に順次対応している。
以下、ステップS86以降の処理を説明する。音声出力部6がオブジェクトの名称を出力してから所定時間以内に撮影者からオブジェクトを選択する音声入力があった場合(ステップS86:Yes)、音声出力部6は撮影可能メッセージを出力する(ステップS87)。
撮影可能メッセージを出力してから所定時間以内にレリーズボタン51が押された場合(ステップS88:Yes)、撮像装置11は画像の撮影を行い、画像データを生成する(ステップS89)。続いて、撮像装置11は、生成した撮像画像の画像データを画像データ記憶部81へ記録する(ステップS90)。
この後、通信部12は、撮影画像の画像データと撮影を行う際に撮影者によって選択入力されたオブジェクトの名称の音声データを編集装置21へ送信する(ステップS91)。
その後、入力部5によって撮影を終了する信号が入力された場合(ステップS92:Yes)、撮像装置11は一連の処理を終了する。一方、入力部5によって撮影を終了する信号が入力されない場合(ステップS92:No)、撮像装置11はステップS81に戻る。
次に、ステップS86で所定時間以内に撮影者からオブジェクトを指定する音声入力がない場合(ステップS86:No)を説明する。この場合、音声出力部6は音声入力を促すメッセージを出力する(ステップS93)。その後、入力部5によって撮影を終了する信号が入力された場合(ステップS94:Yes)、撮像装置11は一連の処理を終了する。一方、入力部5によって撮影を終了する信号が入力されない場合(ステップS94:No)、撮像装置はステップS86に戻る。
図15は、編集装置21が行う画像の編集処理の概要を示すフローチャートである。図15において、編集装置21が撮像装置11から画像データおよびオブジェクトの名称の音声データを受信した場合(ステップS101:Yes)、音声認識部251は、受信した音声データを解析して音声を認識する(ステップS102)。
続いて、オブジェクト抽出部252は、受信した画像データから、音声認識部251が認識した音声に対応するオブジェクトを抽出する(ステップS103)。
その後、トリミング部23は、オブジェクト抽出部252が抽出したオブジェクトを全て含むように画像のトリミングを行い(ステップS104)、トリミングを行った画像の画像データを記憶部24に記録する(ステップS105)。これにより、編集装置21は、一連の処理を終了する。
以上説明した本発明の実施の形態5によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。
また、本実施の形態5によれば、撮影者が入力したオブジェクトを含む画像の編集(トリミング)を撮像装置とは別の編集装置で行うため、撮像装置の負荷を軽減することができる。
なお、本実施の形態5において、撮像装置や編集装置に通信機能を具備させずに、記憶媒体を用いて撮影した画像データを編集装置に転送するようにしてもよい。この場合、編集装置は、複数の画像データのトリミングを連続的に行うこととなる。
また、本実施の形態5において、撮像装置が撮影した後、複数通りのオブジェクトの組み合わせを順次音声入力できるようにしてもよい。この場合には、編集装置が複数通りのオブジェクトの組み合わせに応じた複数のトリミング画像を生成することができるようにしておけば、互いに異なる構図を有する複数の画像を1回の撮影によって生成することが可能となる。
(実施の形態6)
図16は、本発明の実施の形態6に係る撮像装置の構成を示すブロック図である。同図に示す撮像装置31は、撮像部32、メモリ3、画像処理部4、入力部5、音声出力部6、音声入力部7、記憶部8および制御部33を備える。撮像部32は、単焦点レンズを有し、所定の視野領域の光を集光して被写体像を結像する光学系と、光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを備える。また、制御部33は、オブジェクト認識部91と、音声認識部92と、画像のトリミングを行うトリミング部331とを備える。
図16は、本発明の実施の形態6に係る撮像装置の構成を示すブロック図である。同図に示す撮像装置31は、撮像部32、メモリ3、画像処理部4、入力部5、音声出力部6、音声入力部7、記憶部8および制御部33を備える。撮像部32は、単焦点レンズを有し、所定の視野領域の光を集光して被写体像を結像する光学系と、光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを備える。また、制御部33は、オブジェクト認識部91と、音声認識部92と、画像のトリミングを行うトリミング部331とを備える。
図17は、以上の構成を有する撮像装置31が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図17において、撮像装置31は、撮像部32、メモリ3および画像処理部4によって画像を取り込み、画像データを生成する(ステップS111)。この後、オブジェクト認識部91が、画像データに含まれるオブジェクトを抽出し(ステップS112)、抽出したオブジェクトを基本画像と比較することによってオブジェクトの認識を行う(ステップS113)。この際、オブジェクト認識部91は、オブジェクトの位置情報も認識する。具体的には、オブジェクト認識部91は、オブジェクトが図10に示す小領域D1~D5にそれぞれ含まれるか否かを判定し、この判定結果を画像データの一部として画像データ記憶部81へ記録する。
続いて、撮像装置31は、小領域Dmを識別するカウンタmを1とし(ステップS114)、小領域Dmに含まれるオブジェクトの名称を音声出力部6によって出力する(ステップS115)。
ステップS115でオブジェクトの名称を出力してから所定時間以内に撮影者から小領域決定の指示入力があった場合(ステップS116:Yes)において、小領域決定の指示入力から所定時間以内にレリーズボタン51が押されたとき(ステップS117:Yes)、撮像装置31は画像の撮影を行い、画像データを生成する(ステップS118)。続いて、撮像装置31は、生成した撮影画像の画像データを画像データ記憶部81へ記録する(ステップS119)。ステップS116における小領域決定の指示入力は、レリーズボタン51を半押しすることによって実現される。したがって、例えば視野領域Vtで音声出力部6がオブジェクトの名称を音声出力した後、撮影者がレリーズボタン51を半押しすれば、撮像装置1は視野領域Vtの画像を撮影することとなる。この意味で、レリーズボタン51は、オブジェクト選択手段の少なくとも一部の機能を有する。なお、レリーズボタン51以外のボタンを小領域決定の指示入力用として適用することも可能である。
続いて、トリミング部331は、撮影した画像を小領域Dmに合わせてトリミングし(ステップS119)、トリミングした画像を画像データ記憶部81へ記録する(ステップS120)。
その後、入力部5によって撮影を終了する信号が入力された場合(ステップS121:Yes)、撮像装置31は一連の処理を終了する。一方、入力部5によって撮影を終了する信号が入力されない場合(ステップS121:No)、撮像装置31はステップS111に戻る。
ステップS116において所定時間以内に撮影者から小領域決定の指示入力がない場合(ステップS116:No)に撮像装置31が行うステップS122~S125は、図9のステップS54~S57の処理に順次対応している。ただし、ステップS124において、入力部5によって撮影を終了する信号が入力されない場合(ステップS124:No)、撮像装置31はステップS116に戻る。
以上説明した本発明の実施の形態6によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。
また、本実施の形態6によれば、撮像した画像の中心から間欠的に広がっていく複数の小領域を設け、面積が小さい小領域からオブジェクトの認識を行うため、音声出力部が出力するオブジェクトの数は、小領域の面積が大きくなるにつれて徐々に増加していく。この結果、撮影者は最初から多くのオブジェクトの名称を聞かずに済むため、小領域に含まれるオブジェクトの名称を覚えやすい。したがって、撮影対象とするオブジェクトの選択を的確に行うことができる。
なお、本実施の形態6において、小領域決定の指示入力を音声入力部7から音声入力するようにしてもよい。この場合には、撮影者が小領域決定を指示するメッセージ(例えば、「OK。」というメッセージ)を入力すればよい。
(その他の実施の形態)
本発明は、上述した6つの実施の形態によってのみ限定されるべきものではない。例えば、本発明に係る撮像装置は、図2に示す形状に限られるわけではなく、ペン型を有しているものであってもよいし、メガネに組み込むことが可能な小型形状を有していてもよい。また、本発明に係る撮像装置は、ファインダを有する通常の撮像装置と同様の形状を有していてもよい。このように、本発明は、ここでは記載していない様々な実施の形態を含みうるものである。
本発明は、上述した6つの実施の形態によってのみ限定されるべきものではない。例えば、本発明に係る撮像装置は、図2に示す形状に限られるわけではなく、ペン型を有しているものであってもよいし、メガネに組み込むことが可能な小型形状を有していてもよい。また、本発明に係る撮像装置は、ファインダを有する通常の撮像装置と同様の形状を有していてもよい。このように、本発明は、ここでは記載していない様々な実施の形態を含みうるものである。
1、11、31 撮像装置
2、32 撮像部
3 メモリ
4 画像処理部
5 入力部
6 音声出力部
7 音声入力部
8、24 記憶部
9、25、33 制御部
12、22 通信部
21 編集装置
23、331 トリミング部
51 レリーズボタン
52 電源ボタン
53 モード切替スイッチ
81 画像データ記憶部
82 基本画像データ記憶部
91 オブジェクト認識部
92、251 音声認識部
93 画角調整部
100 撮像システム
252 オブジェクト抽出部
D1~D5、Dm 小領域
V、V1、V2、Vm、Vt、Vw 視野領域
2、32 撮像部
3 メモリ
4 画像処理部
5 入力部
6 音声出力部
7 音声入力部
8、24 記憶部
9、25、33 制御部
12、22 通信部
21 編集装置
23、331 トリミング部
51 レリーズボタン
52 電源ボタン
53 モード切替スイッチ
81 画像データ記憶部
82 基本画像データ記憶部
91 オブジェクト認識部
92、251 音声認識部
93 画角調整部
100 撮像システム
252 オブジェクト抽出部
D1~D5、Dm 小領域
V、V1、V2、Vm、Vt、Vw 視野領域
Claims (14)
- 所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、
前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、
前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、
前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、
前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、
を備え、
前記撮像手段は、
前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含む画像を撮影することを特徴とする撮像装置。 - 前記光学系は焦点距離可変のズームレンズを有し、
前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように前記光学系の画角を調整する画角調整手段をさらに備えたことを特徴とする請求項1に記載の撮像装置。 - 前記オブジェクト認識手段は、
前記オブジェクト選択手段によってオブジェクトが選択入力されるまで、前記光学系の焦点距離をテレ側からワイド側に間欠的に移動しながら各焦点距離でオブジェクトの認識を行うことを特徴とする請求項2に記載の撮像装置。 - 前記光学系は単焦点レンズを有し、
前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように前記撮像手段が撮影した画像のトリミングを行うトリミング手段をさらに備えたことを特徴とする請求項1に記載の撮像装置。 - 前記オブジェクト認識手段は、
前記オブジェクト選択手段によってオブジェクトが選択入力されるまで、認識対象の領域を中心部から外周部へ間欠的に広げながら、各領域でオブジェクトの認識を行うことを特徴とする請求項2または4に記載の撮像装置。 - 前記オブジェクト選択手段は、
外部からの入力される音声に応じてオブジェクトが選択入力される音声入力手段を有することを特徴とする請求項1~5のいずれか一項に記載の撮像装置。 - 前記オブジェクト選択手段は、
外部からの押圧によってオブジェクトが選択入力される入力ボタンを有することを特徴とする請求項1~5のいずれか一項に記載の撮像装置。 - 前記入力ボタンは撮影指示信号が入力されるレリーズボタンであり、該レリーズボタンが半押しされた場合にオブジェクトが選択入力されることを特徴とする請求項7に記載の撮像装置。
- 当該撮像装置の動きを検出する動き検出手段をさらに備え、
前記動き検出手段が当該撮像装置の動きを検出した時、当該撮像装置が実行中の処理を中断することを特徴とする請求項1~8のいずれか一項に記載の撮像装置。 - 撮影シーンに応じたシーン別撮影モードを設定可能であり、
前記オブジェクト認識手段は、
設定された前記シーン別撮影モードに応じて定められるオブジェクトのみを認識対象とすることを特徴とする請求項1~9のいずれか一項に記載の撮像装置。 - 前記シーン別撮影モードとして、人物の顔を撮影するポートレードモードを設定可能であり、
前記オブジェクト認識手段は、
前記シーン別撮影モードが前記ポートレートモードに設定されている場合、人物の顔のみを認識対象とすることを特徴とする請求項10に記載の撮像装置。 - 前記音声出力手段は、
前記オブジェクト認識手段が同じ名称を有する複数のオブジェクトを認識した場合、該複数のオブジェクトの名称とともに各オブジェクトを識別可能な2次情報を音声出力することを特徴とする請求項1~11のいずれか一項に記載の撮像装置。 - 撮像装置が撮影した画像を編集する編集装置であって、
所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、を備えた撮像装置が撮影した画像に対して、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むようにトリミングを行うトリミング手段を備えたことを特徴とする編集装置。 - 画像を撮像して該画像の電子的な画像データを生成する撮像装置と、前記撮像装置と前記画像データを含む情報の通信を行うことが可能であり、前記画像データに対応する画像を編集する編集装置とからなる撮像システムであって、
前記撮像装置は、
所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、
前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、
前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、
前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、
前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、
前記編集装置と前記画像データを含む情報の送受信を行う第1通信手段と、
を備え、
前記編集装置は、
前記撮像装置と前記画像データを含む情報の送受信を行う第2通信手段と、
前記第2通信手段が受信した前記画像データに対し、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように画像のトリミングを行うトリミング手段と、
を備えたことを特徴とする撮像システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009-181618 | 2009-08-04 | ||
JP2009181618A JP2011035771A (ja) | 2009-08-04 | 2009-08-04 | 撮像装置、編集装置および撮像システム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011016322A1 true WO2011016322A1 (ja) | 2011-02-10 |
Family
ID=43544220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/061916 WO2011016322A1 (ja) | 2009-08-04 | 2010-07-14 | 撮像装置、編集装置および撮像システム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2011035771A (ja) |
WO (1) | WO2011016322A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105704389A (zh) * | 2016-04-12 | 2016-06-22 | 上海斐讯数据通信技术有限公司 | 一种智能拍照方法及装置 |
CN110062171A (zh) * | 2019-05-31 | 2019-07-26 | 维沃移动通信(杭州)有限公司 | 一种拍摄方法及终端 |
WO2021169686A1 (zh) * | 2020-02-26 | 2021-09-02 | Oppo广东移动通信有限公司 | 一种拍摄控制方法、装置及计算机可读存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014144931A2 (en) * | 2013-03-15 | 2014-09-18 | Robert Haddock | Intelligent internet system with adaptive user interface providing one-step access to knowledge |
JP6102588B2 (ja) * | 2013-07-10 | 2017-03-29 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP6024719B2 (ja) | 2014-09-09 | 2016-11-16 | カシオ計算機株式会社 | 検出装置、検出方法、及びプログラム |
CN106131413B (zh) * | 2016-07-19 | 2020-04-14 | 纳恩博(北京)科技有限公司 | 一种拍摄设备的控制方法及拍摄设备 |
TWI820194B (zh) | 2018-08-31 | 2023-11-01 | 日商索尼半導體解決方案公司 | 電子機器及固體攝像裝置 |
US11385526B2 (en) * | 2019-11-15 | 2022-07-12 | Samsung Electronics Co., Ltd. | Method of processing image based on artificial intelligence and image processing device performing the same |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008219450A (ja) * | 2007-03-05 | 2008-09-18 | Fujifilm Corp | 撮像装置およびその制御方法 |
JP2008227918A (ja) * | 2007-03-13 | 2008-09-25 | Ricoh Co Ltd | 撮像装置 |
JP2010109567A (ja) * | 2008-10-29 | 2010-05-13 | Hitachi Ltd | 情報処理装置および情報処理方法 |
JP2010161547A (ja) * | 2009-01-07 | 2010-07-22 | Casio Computer Co Ltd | 構図選択装置及びプログラム |
-
2009
- 2009-08-04 JP JP2009181618A patent/JP2011035771A/ja not_active Withdrawn
-
2010
- 2010-07-14 WO PCT/JP2010/061916 patent/WO2011016322A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008219450A (ja) * | 2007-03-05 | 2008-09-18 | Fujifilm Corp | 撮像装置およびその制御方法 |
JP2008227918A (ja) * | 2007-03-13 | 2008-09-25 | Ricoh Co Ltd | 撮像装置 |
JP2010109567A (ja) * | 2008-10-29 | 2010-05-13 | Hitachi Ltd | 情報処理装置および情報処理方法 |
JP2010161547A (ja) * | 2009-01-07 | 2010-07-22 | Casio Computer Co Ltd | 構図選択装置及びプログラム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105704389A (zh) * | 2016-04-12 | 2016-06-22 | 上海斐讯数据通信技术有限公司 | 一种智能拍照方法及装置 |
CN110062171A (zh) * | 2019-05-31 | 2019-07-26 | 维沃移动通信(杭州)有限公司 | 一种拍摄方法及终端 |
US11778304B2 (en) | 2019-05-31 | 2023-10-03 | Vivo Mobile Communication Co., Ltd. | Shooting method and terminal |
WO2021169686A1 (zh) * | 2020-02-26 | 2021-09-02 | Oppo广东移动通信有限公司 | 一种拍摄控制方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2011035771A (ja) | 2011-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2011016322A1 (ja) | 撮像装置、編集装置および撮像システム | |
US7791668B2 (en) | Digital camera | |
US8570422B2 (en) | Apparatus, method, and recording medium containing program for photographing | |
KR100858393B1 (ko) | 촬상소자 및 이것을 구동하는 프로그램을 기억한 기록매체 | |
JP2007241288A (ja) | 自動焦点実行方法及びこれを利用した自動焦点調整装置 | |
JP2006208558A (ja) | 撮像装置 | |
JP2007065048A (ja) | 撮影装置およびフォーカス制御方法 | |
CN104702826A (zh) | 摄像设备及其控制方法 | |
JP2007041046A (ja) | 撮像装置 | |
JP2006025238A (ja) | 撮像装置 | |
KR20100007981A (ko) | 휴대 단말기, 휴대 단말기의 제어 방법, 및 이것을 기록한 컴퓨터 판독 가능한 기록 매체 | |
JP2011160044A (ja) | 撮像装置 | |
KR20100056280A (ko) | 디지털 영상 처리장치 및 그 제어방법 | |
JP2011175281A (ja) | 撮像装置及びそのプログラム | |
JP4683337B2 (ja) | 画像表示装置及び画像表示方法 | |
KR101591396B1 (ko) | 촬상 장치, 통신 방법 및 기억 매체 및 통신 시스템 | |
JP4949717B2 (ja) | 合焦位置決定装置及び方法 | |
KR20090083713A (ko) | 디지털 영상 처리장치 및 그 제어방법 | |
JP2014122978A (ja) | 撮像装置、音声認識方法、及びプログラム | |
JP4647518B2 (ja) | 撮影装置 | |
JP2010062987A (ja) | 撮像装置及び方法 | |
JP2016046610A (ja) | 撮像装置 | |
JP2009252069A (ja) | 画像処理装置、撮像装置、画像処理方法及びプログラム | |
JP2014140214A (ja) | 撮像装置および撮像方法 | |
JP2012010134A (ja) | 画像記録装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10806322 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 10806322 Country of ref document: EP Kind code of ref document: A1 |