WO2020209097A1 - 画像表示装置、画像表示方法、及びプログラム - Google Patents

画像表示装置、画像表示方法、及びプログラム Download PDF

Info

Publication number
WO2020209097A1
WO2020209097A1 PCT/JP2020/013937 JP2020013937W WO2020209097A1 WO 2020209097 A1 WO2020209097 A1 WO 2020209097A1 JP 2020013937 W JP2020013937 W JP 2020013937W WO 2020209097 A1 WO2020209097 A1 WO 2020209097A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
candidates
unit
representative
target candidate
Prior art date
Application number
PCT/JP2020/013937
Other languages
English (en)
French (fr)
Inventor
優馬 小宮
雄大 阿部
智大 島田
修也 楠本
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2021513566A priority Critical patent/JPWO2020209097A1/ja
Publication of WO2020209097A1 publication Critical patent/WO2020209097A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • G03B17/18Signals indicating condition of a camera member or suitability of light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Definitions

  • the present invention relates to an image display device, an image display method, and a program, and more particularly to an image display device, an image display method, and a program that display a target frame indicating a detected target.
  • Patent Document 1 a plurality of face region candidates are extracted by a pattern matching method, the plurality of face region candidates are narrowed down, face component pattern matching is performed on the plurality of face region candidates, and the result of narrowing down and face component pattern matching are performed.
  • the configuration for determining the face region based on the result of is described.
  • Patent Document 2 describes a configuration in which the target frame is displayed smoothly by displaying the target frame based on the average value of three consecutive frames.
  • One embodiment according to the technique of the present disclosure provides an image display device, an image display method, and a program that display a target frame that is stable and has good followability.
  • the image display device for achieving the above object is an image display device, and is a candidate for one object in each of the image acquisition unit that acquires continuous images and the image.
  • a target candidate detection unit that detects a plurality of target candidates, a narrowing unit that narrows down a plurality of target candidates that are candidates for one target to one final target candidate, and a representative that calculates representative positions of the positions of a plurality of target candidates. It includes a position calculation unit and a display control unit that displays a target frame of the final target candidate based on the representative position calculated by the representative position calculation unit.
  • the representative positions of the positions of a plurality of target candidates are calculated, and the target frame of the final target candidate is displayed based on the calculated representative positions, so that the target is stable and has good followability.
  • the frame can be displayed.
  • the representative position calculation unit selects a target candidate for calculating the representative position based on the position of the final target candidate.
  • the representative position calculation unit determines the range for selecting the target candidate for calculating the representative position, centering on the position of the final target candidate.
  • the representative position calculation unit determines the range for selecting the target candidate for calculating the representative position based on the size of the final target candidate.
  • the representative position calculation unit calculates the representative position according to the weighting of the selected target candidate.
  • the image display device includes a representative size calculation unit that calculates a representative size that is representative of the sizes of a plurality of target candidates, and the display control unit is a target of the final target candidate based on the representative size and the representative position. Display the frame.
  • the representative size calculation unit calculates the representative size based on the average value, the median value, or the mode value of the sizes of a plurality of target candidates.
  • the target detected by the target candidate detection unit is an object.
  • the target detected by the target candidate detection unit is the face or the pupil.
  • the representative position calculation unit calculates the representative position based on the average value, the median value, or the mode value of the positions of a plurality of target candidates.
  • the image display device includes an information addition unit that records the position information of the target candidate detected by the target candidate detection unit on the image.
  • the image display device is an image display device, which is a continuous image, and in each of the images, an image having position information of a plurality of target candidates that are candidates for one target is displayed.
  • a display control unit that displays a target frame of the final target candidate based on the representative position calculated by the position calculation unit is provided.
  • the image display method is an image display method, which includes a step of acquiring continuous images and a step of detecting a plurality of target candidates that are candidates for one target in each of the images. , A step of narrowing down a plurality of target candidates that are candidates for one target to one final target candidate, a step of calculating a representative position of the positions of a plurality of target candidates, and a target frame of the final target candidate based on the representative position. Including steps to display.
  • a program according to another aspect of the present invention is a program that causes a computer to execute an image display step, in which a step of acquiring a continuous image and a plurality of target candidates that are candidates for one target in each of the images are selected.
  • the representative positions of the positions of a plurality of target candidates are calculated, and the target frame of the final target candidate is displayed based on the calculated representative positions, so that the target is stable and has good followability.
  • the frame can be displayed.
  • FIG. 1 is a perspective view showing an example of an image pickup device equipped with an image display device.
  • FIG. 2 is a rear view showing an example of an image pickup device equipped with an image display device.
  • FIG. 3 is a diagram showing a configuration of an imaging device.
  • FIG. 4 is a block diagram showing a main functional configuration example of the image display device.
  • FIG. 5 is a diagram showing a display mode of the target frame.
  • FIG. 6 is a diagram illustrating a case where the final target candidate T is detected at different positions.
  • FIG. 7 is a diagram showing a display form of the target frame.
  • FIG. 8 is a diagram illustrating a case where the final target candidate T is detected at different positions.
  • FIG. 9 is a diagram showing target candidates and narrowed-down final target candidates.
  • FIG. 1 is a perspective view showing an example of an image pickup device equipped with an image display device.
  • FIG. 2 is a rear view showing an example of an image pickup device equipped with an image display device.
  • FIG. 10 is a diagram showing the relationship between the size of the final target candidate and the selection range.
  • FIG. 11 is a flowchart showing an image display method.
  • FIG. 12 is a block diagram showing a main functional configuration example of the image display device.
  • FIG. 13 is a diagram illustrating a representative size calculated by the representative size calculation unit.
  • FIG. 14 is a diagram showing the appearance of the smartphone.
  • FIG. 15 is a block diagram showing a configuration of a smartphone.
  • Imaging device 1 and 2 are a perspective view and a rear view showing an example (digital camera) of an image pickup device equipped with the image display device of the present invention, respectively.
  • the image display device 11 (see FIG. 4) of the present invention is mounted on the image pickup device 10 and displays a live view image (through image) captured by the image pickup device 10.
  • the image display device 11 can also display the recorded moving image.
  • the image pickup device 10 is a digital camera that receives light that has passed through a lens by an image pickup device 210, converts it into a digital signal, and records it on a recording medium as image data of a still image or a moving image.
  • the imaging device 10 is provided with a photographing lens 12, a strobe 1, and the like in front of the image pickup device 10, and a shutter button 2, a power supply / mode switch 3, a mode dial 4, and the like are arranged on the upper surface thereof.
  • a monitor (LCD: Liquid Crystal Display) 30, a zoom button 5, a cross button 6, a MENU / OK button 7, a play button 8, a BACK button 9, and the like are arranged on the back surface of the camera. ing.
  • LCD Liquid Crystal Display
  • the photographing lens 12 is composed of a retractable zoom lens, and is extended from the camera body by setting the operation mode of the camera to the photographing mode by the power / mode switch 3.
  • the strobe 1 irradiates a main subject with strobe light.
  • the shutter button 2 is composed of a two-step stroke type switch consisting of a so-called “half-press” and “full-press”, and functions as a shooting preparation instruction unit and an image recording instruction unit.
  • the image pickup device 10 When the still image shooting mode is selected as the shooting mode and the shutter button 2 is "half-pressed", the image pickup device 10 performs a shooting preparation operation for AF (Autofocus) / AE (Auto Exposure) control, and the shutter button 2 Is "fully pressed” to capture and record a still image.
  • AF Autofocus
  • AE Automatic Exposure
  • the image pickup device 10 starts recording a moving image when the moving image shooting mode is selected as the shooting mode and the shutter button 2 is "fully pressed", and when the shutter button 2 is "fully pressed” again, the recording starts. To stop and enter the standby state.
  • the power / mode switch 3 has both a function as a power switch for turning on / off the power of the image pickup device 10 and a function as a mode switch for setting the mode of the image pickup device 10, and has an “OFF position” and a “playback”. It is slidably arranged between the "position” and the "shooting position”.
  • the image pickup device 10 is turned on by sliding the power / mode switch 3 to match the "reproduction position” or “shooting position”, and is turned off by adjusting to the "OFF position”. Then, by sliding the power / mode switch 3 to match the "playback position", the "playback mode” is set, and by adjusting to the "shooting position", the "shooting mode” is set.
  • the mode dial 4 functions as a mode switching unit for setting the shooting mode of the imaging device 10, and the shooting mode of the imaging device 10 is set to various modes depending on the setting position of the mode dial 4. For example, there are a "still image shooting mode” for shooting a still image, a “moving image shooting mode” for shooting a moving image, and the like.
  • the monitor 30 functions as a display unit, displays a live view image in the shooting mode, displays a still image or a moving image in the playback mode, and displays a menu screen or the like as a part of the graphical user interface. Function.
  • the zoom button 5 functions as a zoom instruction means for instructing zoom, and includes a telebutton 5T for instructing zoom to the telephoto side and a wide button 5W for instructing zoom to the wide-angle side.
  • the focal length of the photographing lens 12 is changed by operating the telebutton 5T and the wide button 5W in the photographing mode. Further, in the reproduction mode, the telebutton 5T and the wide button 5W are operated to enlarge or reduce the image being reproduced.
  • the cross-shaped button 6 is an operation unit 250 for inputting instructions in four directions of up, down, left, and right, and is a button (cursor movement operation means) for selecting an item from the menu screen or instructing selection of various setting items from each menu.
  • the left / right key functions as a frame advance (forward / reverse) button in playback mode.
  • the MENU / OK button 7 is an operation button that has both a function as a menu button for issuing a command to display a menu on the screen of the monitor 30 and a function as an OK button for instructing confirmation and execution of selected contents. Is.
  • the playback button 8 is a button for switching to a playback mode in which the captured still image or moving image is displayed on the monitor 30.
  • the BACK button 9 functions as a button for instructing to cancel the input operation or return to the previous operation state.
  • buttons / switches are realized by providing a touch panel and operating the touch panel instead of providing a member unique to the buttons / switches. May be good.
  • FIG. 3 is a diagram showing the configuration of the image pickup apparatus 10.
  • the image pickup device 10 forms a subject image (optical image) on the image pickup element 210 by the photographing lens 12.
  • the photographing lens 12 is composed of a zoom lens 110 and a focus lens 150.
  • the image pickup apparatus 10 includes a diaphragm 130 and a lens driving unit 140.
  • the lens driving unit 140 drives the zoom lens 110 and the focus lens 150 forward and backward in response to a command from the CPU 240 as a control unit to perform zoom (optical zoom) adjustment and focus adjustment.
  • the zoom adjustment and focus adjustment may be performed in response to a user-performed zoom operation or focus operation, in addition to being performed in response to a command from the CPU 240.
  • the lens driving unit 140 controls the aperture 130 in response to a command from the CPU 240 to adjust the exposure.
  • information such as the positions of the zoom lens 110 and the focus lens 150 and the degree of opening of the aperture 130 is input to the CPU 240.
  • the image pickup device 10 includes an image sensor 210, an AFE220 (AFE: Analog Front End), an A / D converter 230 (A / D: Analog to Digital), a CPU 240, an operation unit 250, a storage unit 260, and a monitor 30.
  • the image pickup device 10 has a shutter (not shown) for blocking light transmitted through the image pickup device 210.
  • the image sensor 210 includes a light receiving surface in which a large number of light receiving elements are arranged in a matrix, and subject light transmitted through the zoom lens 110, the focus lens 150, and the aperture 130 is imaged on the light receiving surface of the image sensor 210. It is converted into an electric signal by each light receiving element.
  • An R (red), G (green), or B (blue) color filter is provided on the light receiving surface of the image sensor 210, and a color image of the subject can be acquired based on the signals of each color.
  • various photoelectric conversion elements such as CMOS (Complementary Metal-Oxide Semiconductor) and CCD (Charge-Coupled Device) can be used.
  • the AFE 220 removes noise from the analog image signal output from the image sensor 210, amplifies the signal, and the like, and the A / D converter 230 converts the captured analog image signal into a digital image signal having a gradation width.
  • the shutter may be a mechanical shutter or an electronic shutter. In the case of an electronic shutter, the exposure time (shutter speed) can be adjusted by controlling the charge accumulation period of the image sensor 210 by the CPU 240.
  • the storage unit 260 is composed of various optical magnetic recording media, a non-temporary recording medium such as a semiconductor memory, and a control circuit thereof, and stores moving images (including live view images) and still images.
  • a recording medium a type that can be attached to and detached from the imaging device 10 can be used.
  • the storage unit 260 stores the program and information used for various controls of the CPU 240.
  • the monitor 30 can display moving images (live view images, recorded moving images) and still images.
  • the image pickup apparatus 10 may include a finder, and the finder functions as a monitor 30.
  • the finder is composed of, for example, a liquid crystal display panel, a prism, a lens, or the like, and the user can visually recognize a moving image or a still image through an eyepiece (not shown).
  • OVF optical view finder
  • EVF Electronic View Finder
  • HVF Hybrid View finder
  • the CPU 240 reads necessary programs and information used for various controls from the storage unit 260, and performs various processes and various controls performed by the CPU 240.
  • CPU 240 executes various controls.
  • the hardware structure is various processors as shown below.
  • the circuit configuration can be changed after manufacturing the CPU (Central Processing Unit), FPGA (Field Programmable Gate Array), etc., which are general-purpose processors that execute software (programs) and act as various functional units.
  • a dedicated electric circuit which is a processor with a circuit configuration specially designed to execute a specific process such as a programmable logic device (PLD), an ASIC (Application Specific Integrated Circuit), etc. Is done.
  • PLD programmable logic device
  • ASIC Application Specific Integrated Circuit
  • One processing unit may be composed of one of these various processors, or may be composed of two or more processors of the same type or different types (for example, a plurality of FPGAs or a combination of a CPU and an FPGA). You may. Further, a plurality of functional units may be configured by one processor. As an example of configuring a plurality of functional units with one processor, first, one processor is configured by a combination of one or more CPUs and software, as represented by a computer such as a client or a server. There is a form in which the processor acts as a plurality of functional parts.
  • SoC System On Chip
  • a processor that realizes the functions of the entire system including a plurality of functional parts with one IC (Integrated Circuit) chip is used.
  • the various functional units are configured by using one or more of the above-mentioned various processors as a hardware-like structure.
  • the representative position is calculated from the positions of a plurality of target candidates, and the target frame is displayed based on the representative positions.
  • FIG. 4 is a block diagram showing a main functional configuration example of the image display device 11.
  • the image display device 11 includes an image acquisition unit 101, a target candidate detection unit 103, a narrowing unit 105, a representative position calculation unit 107, a display control unit 109, an information addition unit 111, and a monitor 30.
  • the image acquisition unit 101, the target candidate detection unit 103, the narrowing unit 105, the representative position calculation unit 107, the display control unit 109, and the information addition unit 111 are realized by the CPU 240.
  • the image acquisition unit 101 acquires continuous images. Specifically, the image acquisition unit 101 acquires time-series continuous images output from the A / D converter 230. For example, the image acquisition unit 101 acquires a live view image composed of a plurality of frames (images) taken by the image pickup apparatus 10.
  • the live view image is a moving image in which the captured image is reduced by thinning out or the like.
  • the target candidate detection unit 103 detects a plurality of target candidates that are candidates for one target in one frame (image). For example, when one target is a human face, the target candidate detection unit 103 detects a plurality of target candidates by a pattern matching method as described below.
  • the target candidate detection unit 103 takes out the face pattern template stored in the storage unit 260, scans the face pattern template on one frame, and displays the face pattern template and the image corresponding to the face pattern template. Calculate the correlation value with the partial image of. For example, the target candidate detection unit 103 detects a plurality of partial images having a predetermined threshold value ⁇ or more as target candidates.
  • the target candidate detection unit 103 detects a plurality of target candidates for detecting one target. Then, the target candidate detection unit 103 outputs, for example, the coordinates of the center of the target candidate and the size of the target candidate.
  • the narrowing unit 105 narrows down a plurality of target candidates that are candidates for one target to one final target candidate.
  • the narrowing unit 105 narrows down to one final target candidate from various viewpoints according to the characteristics of the target. For example, when the target is a human face, the narrowing-down unit 105 determines the skin color of the target candidate and narrows down one final target candidate from the plurality of target candidates.
  • the skin color determination is performed as follows, for example.
  • the narrowing-down unit 105 calculates the hue for each of the plurality of target candidates, and calculates the correlation value with the predetermined hue (skin color). Then, the narrowing unit 105 calculates a score based on the correlation value and narrows down the final target candidates based on the score.
  • the narrowing method performed by the narrowing unit 105 is not limited to the skin color determination, and the narrowing is performed by another method. In this way, the narrowing unit 105 narrows down one final target candidate from a plurality of target candidates.
  • the representative position calculation unit 107 calculates the representative positions of the positions of a plurality of target candidates.
  • the representative position calculation unit 107 calculates the representative position based on the average value, the median value, or the mode value of the positions of the plurality of target candidates. For example, when the target is a human face, the representative position calculation unit 107 sets the position of the center of the face as the position of each target candidate, and averages the positions of all the target candidates detected by the target candidate detection unit 103. The value is calculated as the representative position.
  • the average value of the positions of a plurality of target candidates it is possible to obtain a stable position having good followability to the final target candidate.
  • a stable position can be calculated by adopting the mode.
  • the representative position calculation unit 107 can also calculate the representative position from the positions of some of the target candidates detected by the target candidate detection unit 103. The selection of the target candidate performed by the representative position calculation unit 107 when the representative position is calculated from the positions of some of the target candidates will be described later.
  • the display control unit 109 displays the detection frame of the final target candidate on the monitor 30 based on the representative position calculated by the representative position calculation unit 107. For example, when the target is a face, the display control unit 109 superimposes and displays a detection frame indicating the position or region of the face on the frame (image). In addition, various shapes are adopted as the shape of the detection frame. For example, the detection frame adopts a frame shape, a parenthesis shape, or a round shape.
  • the information addition unit 111 records the position information of the target candidate detected by the target candidate detection unit 103 in the image. For example, the information addition unit 111 attaches the position information of the detected target candidate to the image or moving image file in which the target candidate is detected. By attaching the position information of the target candidate detected by the information addition unit 111 to the image or moving image file in this way, it is possible to omit the detection of the target candidate again for this image or moving image file.
  • Example of display of target frame Next, a specific example of displaying the target frame when the target is a face will be described. First, a conventional display mode of the target frame will be described, and then an example of the display mode of the target frame of the present invention will be described.
  • FIG. 5 is a diagram showing a conventional display mode of the target frame.
  • the target frame F is displayed based on the final target candidate T. Specifically, the center of the final target candidate T and the center of the target frame F are overlapped by the points P.
  • the target frame F is displayed so that the center of the target frame F and the center of the final target candidate T overlap.
  • the target frame F displayed in this way if the movement of the final target candidate T is unstable, the movement of the target frame F matches the movement of the final target candidate T. Therefore, as described below, the target frame F The movement of F becomes unstable.
  • FIG. 6 shows a case where the target frame F described with reference to FIG. 5 is displayed based on the final target candidate T, and a case where the final target candidate T is detected at different positions in consecutive frames (images) will be described. It is a figure.
  • FIG. 6 (A) shows the centers V1 to V3 of the target candidates detected in the n-1th frame, and the center V1 of the final target candidate T narrowed down (point P in FIG. 5). It is shown.
  • FIG. 6B shows the centers V1 to V3 of the target candidates detected in the nth frame, and the center V2 (point P in FIG. 5) of the narrowed-down final target candidate T. Has been done.
  • FIG. 6C shows the centers V1 to V3 of the target candidates detected in the n + 1th frame, and the center V3 (point P in FIG. 5) of the narrowed-down final target candidate T. Has been done.
  • the target frame (as the final target candidate T moves) F1 to F3) are displayed at different positions in each frame. Therefore, if the center of the final target candidate T and the center of the target frame are overlapped and displayed, the display of the target frames (F1 to F3) becomes unstable.
  • the display position of the target frame is performed based on the representative position calculated from the positions of a plurality of target candidates.
  • FIG. 7 is a diagram showing a display form of the target frame FC performed based on the average value (coordinates) of the positions of a plurality of target candidates which are representative positions with respect to the final target candidate T.
  • the target frame F displayed based on the center of the final target candidate T described in FIG. 5 for reference is shown by a dotted line.
  • the center of the target frame FC is the average value Q of the positions of a plurality of target candidates.
  • the position of the center of the target frame FC is the average value Q of a plurality of target candidates instead of the center P of the final target candidate. Since it moves without moving, the display of the target frame FC is stable even when the final target candidate T moves.
  • FIG. 8 is a diagram illustrating a case where the target frame FC described with reference to FIG. 7 is displayed based on the average value Q, and a case where the final target candidate T is detected at different positions in consecutive frames (images). Is.
  • three target candidates centers of target candidates are V1 to V3 are detected as in FIG. 7, the final target candidate T (center V1) is narrowed down in the n-1st frame, and the nth frame.
  • the case where the final target candidate T (center V2) is narrowed down and the final target candidate T (center V3) is narrowed down in the n + 1th frame is shown.
  • the target frame FC As shown in FIG. 8, by displaying the target frame FC corresponding to the average value Q of the positions of the target candidates, even when the final target candidate T moves in the n-1, n, n + 1th frames. , The target frame FC can be displayed without changing the position. Further, since the target frame FC is displayed based on the average value Q of the centers V1, V2, and V3 of the target candidates that are candidates for the final target candidate T, the followability to the final target candidate T is good.
  • the representative position calculation unit 107 may calculate the representative position using all the plurality of target candidates detected by the target candidate detection unit 103, but may use some of the selected target candidates to determine the representative position. It may be calculated. An example of selection of a target candidate performed by the representative position calculation unit 107 will be described below.
  • FIG. 9 is a diagram showing a target candidate detected in one frame (image) and a narrowed-down final target candidate.
  • the horizontal axis shows the X-axis of the frame, and the vertical axis shows the Y-axis of the frame.
  • the center of the final target candidate T is indicated by "+”, and the center of the target candidate V is indicated by "x". Further, on the right side of "+” and "x", the scores of the certainty of the final target candidate T and the target candidate V are shown.
  • the certainty of this face detection is, for example, a score calculated by the above-mentioned skin color determination. In the case shown in FIG. 9, the target candidate having the highest score of "3.5" is narrowed down as the final target candidate T.
  • the representative position calculation unit 107 calculates an average value for the position of the target candidate V within the range of the frame G.
  • the frame G indicates a predetermined selection range from the center of the final target candidate T.
  • the selection range of the frame G is determined according to the size of the area of the final target candidate T.
  • FIG. 10 is a diagram showing the relationship between the size of the final target candidate (face) and the selection range.
  • the size of the final target candidate is acquired by the narrowing unit 105 and sent to the representative position calculation unit 107.
  • the face size ranges from “0 steps” to "11 steps”, with “0 steps” having the smallest face size and “12 steps” having the largest face size.
  • the size of the selection range is set in advance according to each stage, and the selection range is indicated by a percentage with respect to the angle of view. For example, in the case shown in FIG. 9, the final target candidate (face) size is "5 stages", and the target candidate V existing in the square range (frame G) having one side of 7% with respect to the angle of view.
  • the representative position is calculated based on the position.
  • the center of the selection range is set to the center of the final target candidate.
  • the representative position calculation unit 107 can calculate the representative value for the target candidate V in the vicinity of the final target candidate T.
  • the relationship between the face size and the selection range shown in FIG. 10 is an example, and the selection of the target candidate V by the representative position calculation unit 107 is not limited to this.
  • the representative position calculation unit 107 can calculate a more appropriate representative position by selecting some target candidate Vs and calculating the representative position.
  • FIG. 11 is a flowchart showing an image display method (image display step) using the image display device 11. In the following, a case where some target candidates are selected by the representative position calculation unit 107 will be described.
  • the image acquisition unit 101 acquires continuous frames (continuous images) (step S10).
  • the target candidate detection unit 103 detects a plurality of target candidates in each frame (step S11).
  • the narrowing unit 105 narrows down the final target candidate from the plurality of target candidates (step S12).
  • the narrowing unit 105 sends information regarding the position and size of the final target candidate to the representative position calculation unit 107.
  • the representative position calculation unit 107 acquires information on the face position and face size of the final target candidate (step S13).
  • the representative position calculation unit 107 selects a target candidate within the selection range according to the face size of the final target candidate (step S14).
  • the representative position calculation unit 107 calculates the average value of the facial positions of the selected target candidates (step S15).
  • the display control unit 109 displays the target frame based on the calculated average value (step S16).
  • Each of the above configurations and functions can be appropriately realized by arbitrary hardware, software, or a combination of both.
  • a program that causes a computer to perform the above-mentioned processing steps processing procedure
  • a computer-readable recording medium non-temporary recording medium
  • a computer that can install such a program it is possible to apply the present invention.
  • the representative position is calculated based on the positions of a plurality of target candidates, and the target frame of the final target candidate to be displayed is displayed based on the representative positions, so that the target frame can be stably set. Moreover, it can be displayed with good followability to the target.
  • FIG. 12 is a block diagram showing a main functional configuration example of the image display device 11 mounted on the image pickup device 10.
  • the parts already described in FIG. 4 are designated by the same reference numerals and the description thereof will be omitted.
  • the image display device 11 includes an image acquisition unit 101, a target candidate detection unit 103, a narrowing unit 105, a representative position calculation unit 107, a representative size calculation unit 113, a display control unit 109, an information addition unit 111, and a monitor 30.
  • the image acquisition unit 101, the target candidate detection unit 103, the narrowing unit 105, the representative position calculation unit 107, the representative size calculation unit 113, the display control unit 109, and the information addition unit 111 are realized by the CPU 240.
  • the target candidate detection unit 103 detects the position and size of the target candidate.
  • the size of the target candidate is, for example, the detected target candidate area (area) or the detected target candidate length (diameter), and the target candidate detection unit 103 determines the detected target candidate area or Output the length.
  • the representative size calculation unit 113 calculates a representative size that is a representative of the sizes of a plurality of target candidates. Specifically, the representative size calculation unit 113 acquires the sizes of a plurality of target candidates detected by the target candidate detection unit 103, and obtains the average value, the median value, or the mode value of the acquired target candidate sizes. Calculate and use as the representative size.
  • the display control unit 109 displays the detection frame of the final target candidate based on the representative size and the representative position. Specifically, the display control unit 109 displays the target frame of the size calculated by the representative size calculation unit 113 at the representative position calculated by the representative size calculation unit 113. In addition, it is assumed that a target frame having a predetermined size is displayed according to the size of the target candidate (final target candidate).
  • FIG. 13 is a diagram for explaining the representative size calculated by the representative size calculation unit 113.
  • FIG. 13 shows a case where the target candidates R1, R2, and R3 are detected by the target candidate detection unit 103.
  • the target candidate detection unit 103 calculates the sizes of these target candidates R1, R2, and R3. Specifically, the target candidate detection unit 103 calculates that the target candidate R1 is a, the target candidate R2 is b, and the target candidate R3 is c.
  • the representative size calculation unit 113 acquires the sizes of the target candidates R1 to R3, and obtains the representative size RS by the average value (a + b + c) / 3. Then, the display control unit 109 superimposes the target frame FS on the final target candidate T and displays it based on the representative size RS.
  • the target candidate R2 is narrowed down to the final target candidate T by the narrowing unit 105.
  • the target to be detected is a human face has been described, but the present invention is not limited to this.
  • the target detected by the target candidate detection unit 103 is not particularly limited as long as it is an object.
  • the target detected by the target candidate detection unit 103 may be the pupil.
  • the image acquisition unit 101 may acquire images that are continuous images and to which position information of a plurality of target candidates is attached to each of the images.
  • the representative position calculation unit 107 can calculate the representative position based on the position information of the target candidate attached to the image.
  • the representative position calculation unit 107 may calculate the representative position by weighting the position of each target candidate. For example, the representative position calculation unit 107 calculates the representative position by increasing the coefficient of the position of the target candidate near the center of the final target candidate. Further, the representative size calculation unit 113 may also weight the size of each target candidate to calculate the representative size in the same manner.
  • a digital camera has been used as an example of the image pickup apparatus 10 in FIG. 1, but the application of the present invention is not limited to this.
  • Other aspects to which the present invention can be applied include, for example, mobile phones and smartphones having a camera function, PDAs (Personal Digital Assistants), and portable game machines.
  • PDAs Personal Digital Assistants
  • portable game machines Portable game machines.
  • an example of a smartphone to which the present invention can be applied will be described.
  • the CPU 240 in FIG. 4 corresponds to the main control unit 501
  • the storage unit 260 corresponds to the storage unit 550
  • the monitor 30 corresponds to the display panel 521.
  • FIG. 14 is a diagram showing the appearance of the smartphone 500.
  • the smartphone 500 shown in FIG. 14 has a flat-plate housing 502, and a display input in which a display panel 521 as a display unit and an operation panel 522 as an input unit are integrated on one surface of the housing 502.
  • the unit 520 is provided.
  • the housing 502 includes a speaker 531, a microphone 532, an operation unit 540, and a camera unit 541.
  • the configuration of the housing 502 is not limited to this, and for example, a configuration in which the display unit and the input unit are independent can be adopted, or a configuration having a folding structure or a slide mechanism can be adopted.
  • FIG. 15 is a block diagram showing the configuration of the smartphone 500 shown in FIG.
  • a wireless communication unit 510 that performs mobile wireless communication via a base station and a mobile communication network
  • a display input unit 520 that receives mobile wireless communication via a base station and a mobile communication network
  • a call unit 530 that receives mobile wireless communication via a base station and a mobile communication network
  • a camera unit 541, a storage unit 550, an external input / output unit 560, a GPS (Global Positioning System) receiving unit 570, a motion sensor unit 580, a power supply unit 590, and a main control unit 501 are provided.
  • GPS Global Positioning System
  • the wireless communication unit 510 performs wireless communication with the base station accommodated in the mobile communication network in accordance with the instruction of the main control unit 501. This wireless communication is used to send and receive various file data such as voice data and image data, e-mail data, and receive Web data and streaming data.
  • the display input unit 520 displays images (still images and moving images), character information, and the like under the control of the main control unit 501, visually conveys the information to the user, and detects the user operation for the displayed information, so-called. It is a touch panel and includes a display panel 521 and an operation panel 522.
  • the display panel 521 uses an LCD (Liquid Crystal Display), an OLED (Organic Electro-Luminescence Display), or the like as a display device.
  • the operation panel 522 is a device on which an image displayed on the display surface of the display panel 521 is visibly placed and detects one or a plurality of coordinates operated by a user's finger or a stylus. When such a device is operated with a user's finger or a stylus, a detection signal generated due to the operation is output to the main control unit 501. Next, the main control unit 501 detects the operation position (coordinates) on the display panel 521 based on the received detection signal.
  • the display panel 521 and the operation panel 522 of the smartphone 500 illustrated as one embodiment of the image pickup apparatus 10 of the present invention integrally constitute the display input unit 520, but the operation The panel 522 is arranged so as to completely cover the display panel 521.
  • the operation panel 522 may also have a function of detecting a user operation in an area outside the display panel 521.
  • the operation panel 522 has a detection area (hereinafter, referred to as a display area) for the overlapping portion overlapping the display panel 521 and a detection area (hereinafter, non-display area) for the outer edge portion not overlapping the other display panel 521. ) And may be provided.
  • the size of the display area and the size of the display panel 521 may be completely matched, but it is not always necessary to match the two.
  • the operation panel 522 may include two sensitive regions, an outer edge portion and an inner portion other than the outer edge portion. Further, the width of the outer edge portion is appropriately designed according to the size of the housing 502 and the like.
  • examples of the position detection method adopted in the operation panel 522 include a matrix switch method, a resistance film method, a surface acoustic wave method, an infrared method, an electromagnetic induction method, a capacitance method, and any of the methods is adopted. You can also do it.
  • the call unit 530 includes a speaker 531 and a microphone 532, converts the user's voice input through the microphone 532 into voice data that can be processed by the main control unit 501, and outputs the data to the main control unit 501, or a wireless communication unit.
  • the audio data received by the 510 or the external input / output unit 560 is decoded and output from the speaker 531.
  • the speaker 531 and the microphone 532 can be mounted on the same surface as the surface on which the display input unit 520 is provided.
  • the operation unit 540 is a hardware key using a key switch or the like, and receives an instruction from the user.
  • the operation unit 540 is mounted on the side surface of the housing 502 of the smartphone 500, and is turned on when pressed with a finger or the like, and turned off by a restoring force such as a spring when the finger is released. It is a push button type switch.
  • the storage unit 550 includes the control program of the main control unit 501, control data, application software, address data associated with the name and telephone number of the communication partner, sent / received e-mail data, Web data downloaded by Web browsing, and It stores downloaded content data and temporarily stores streaming data and the like. Further, the storage unit 550 is composed of an internal storage unit 551 built in the smartphone and an external storage unit 552 having a detachable external memory slot.
  • the internal storage unit 551 and the external storage unit 552 constituting the storage unit 550 are flash memory type (flash memory type), hard disk type (hard disk type), multimedia card micro type, and multimedia card micro type. It is realized by using a recording medium such as a card type memory (for example, MicroSD (registered trademark) memory), RAM (RandomAccessMemory), ROM (ReadOnlyMemory).
  • the external input / output unit 560 serves as an interface with all external devices connected to the smartphone 500, and communicates with other external devices (for example, universal serial bus (USB), IEEE1394, etc.) or Network (for example, Internet, wireless LAN (LocalAreaNetwork), Bluetooth (Bluetooth) (registered trademark), RFID (RadioFrequencyIdentification), infrared communication (InfraredDataAssociation: IrDA) (registered trademark), UWB (UltraWideband) ( It is for direct or indirect connection by (registered trademark), ZigBee (registered trademark), etc.).
  • USB universal serial bus
  • IEEE1394 IEEE1394, etc.
  • Network for example, Internet, wireless LAN (LocalAreaNetwork), Bluetooth (Bluetooth) (registered trademark), RFID (RadioFrequencyIdentification), infrared communication (InfraredDataAssociation: IrDA) (registered trademark), UWB (UltraWideband) ( It is for direct or indirect connection by (register
  • Examples of external devices connected to the smartphone 500 include a presence / wireless headset, a presence / wireless external charger, a presence / wireless data port, a memory card connected via a card socket, and a SIM (Subscriber).
  • External audio / video device connected via IdentityModuleCard / UIM (UserIdentityModuleCard) card or audio / video I / O (Input / Output) terminal, external audio / video device wirelessly connected, Yes / wireless connection
  • the external input / output unit 560 can transmit the data transmitted from such an external device to each component inside the smartphone 500, or transmit the data inside the smartphone 500 to the external device.
  • the GPS receiving unit 570 receives GPS signals transmitted from the GPS satellites ST1 to STn according to the instruction of the main control unit 501, executes positioning calculation processing based on the received plurality of GPS signals, and performs positioning calculation processing based on the received GPS signals to determine the latitude of the smartphone 500. Detects the position consisting of longitude and altitude.
  • the GPS receiving unit 570 can acquire the position information from the wireless communication unit 510 or the external input / output unit 560 (for example, wireless LAN), the GPS receiving unit 570 can also detect the position using the position information.
  • the motion sensor unit 580 includes, for example, a three-axis acceleration sensor and a gyro sensor, and detects the physical movement of the smartphone 500 according to the instruction of the main control unit 501. By detecting the physical movement of the smartphone 500, the moving direction and acceleration of the smartphone 500 are detected. This detection result is output to the main control unit 501.
  • the power supply unit 590 supplies electric power stored in a battery (not shown) to each unit of the smartphone 500 according to the instruction of the main control unit 501.
  • the main control unit 501 includes a microprocessor, operates according to the control program and control data stored in the storage unit 550, and controls each part of the smartphone 500 in an integrated manner. Further, the main control unit 501 includes a mobile communication control function and an application processing function that control each unit of the communication system in order to perform voice communication and data communication through the wireless communication unit 510.
  • the application processing function is realized by operating the main control unit 501 according to the application software stored in the storage unit 550.
  • Examples of the application processing function include an infrared communication function that controls an external input / output unit 560 to perform data communication with an opposite device, an e-mail function that sends and receives e-mail, a web browsing function that browses a web page, and the present invention.
  • the main control unit 501 is provided with an image processing function such as displaying an image on the display input unit 520 based on image data (still image or moving image data) such as received data or downloaded streaming data.
  • the image processing function refers to a function in which the main control unit 501 decodes the image data, performs image processing on the decoding result, and displays the image on the display input unit 520.
  • the main control unit 501 executes display control for the display panel 521 and operation detection control for detecting a user operation through the operation unit 540 and the operation panel 522.
  • the main control unit 501 By executing the display control, the main control unit 501 displays a software key such as an icon and a scroll bar for starting the application software, or displays a window for composing an e-mail.
  • the scroll bar is a software key for receiving an instruction to move a display portion of an image for a large image or the like that cannot fit in the display area of the display panel 521.
  • the main control unit 501 detects the user operation through the operation unit 540, operates the icon through the operation panel 522, and accepts the input of the character string in the input field of the window, or scrolls. Accepts scrolling requests for displayed images through the bar.
  • the main control unit 501 has an overlapping portion (display area) whose operation position with respect to the operation panel 522 overlaps the display panel 521, or an outer edge portion (non-display area) which does not overlap the other display panel 521. ), And a touch panel control function that controls the sensitive area of the operation panel 522 and the display position of the software key.
  • the main control unit 501 can also detect a gesture operation on the operation panel 522 and execute a preset function according to the detected gesture operation.
  • Gesture operation is not a conventional simple touch operation, but an operation of drawing a locus with a finger or the like, specifying a plurality of positions at the same time, or combining these to draw a locus of at least one from a plurality of positions. means.
  • the camera unit 541 is a digital camera that electronically photographs using an image pickup device such as a CMOS (Complementary Metal Oxide Semiconductor) or a CCD (Charge-Coupled Device), and corresponds to the image pickup device 10 shown in FIG. Further, the camera unit 541 compresses the image data of the still image obtained by shooting under the control of the main control unit 501 by, for example, JPEG (Joint Photographic coding Experts Group), or compresses the image data of the moving image, for example, H. It can be compressed by 264 / AVC and recorded in the storage unit 550, or output through the external input / output unit 560 or the wireless communication unit 510. As shown in FIG.
  • JPEG Joint Photographic coding Experts Group
  • the camera unit 541 is mounted on the same surface as the display input unit 520, but the mounting position of the camera unit 541 is not limited to this, and is mounted on the back surface of the display input unit 520.
  • a plurality of camera units 541 may be mounted. When a plurality of camera units 541 are mounted, the camera units 541 used for shooting can be switched for shooting independently, or the plurality of camera units 541 can be used at the same time for shooting.
  • the camera unit 541 can be used for various functions of the smartphone 500.
  • the image acquired by the camera unit 541 can be displayed on the display panel 521, or the image of the camera unit 541 can be used as one of the operation inputs of the operation panel 522.
  • the GPS receiving unit 570 detects the position
  • the position can be detected by referring to the image from the camera unit 541.
  • the optical axis direction of the camera unit 541 of the smartphone 500 is used without using the 3-axis acceleration sensor or in combination with the 3-axis acceleration sensor (gyro sensor). It is also possible to judge the current usage environment.
  • the image from the camera unit 541 can also be used in the application software.
  • the position information acquired by the GPS receiving unit 570 and the voice information acquired by the microphone 532 may be converted by the main control unit or the like to become the text information) in the image data of the still image or the moving image. It is also possible to add posture information or the like acquired by the motion sensor unit 580 and record it in the storage unit 550, or output it through the external input / output unit 560 or the wireless communication unit 510.

Abstract

安定的でかつ追従性のよい対象枠の表示を行うことができる画像表示装置、画像表示方法、及びプログラムを提供する。画像表示装置は、画像表示装置であって、連続する画像を取得する画像取得部(101)と、画像の各々において、一の対象に対する候補となる複数の対象候補を検出する対象候補検出部(103)と、一の対象に対する候補となる複数の対象候補を一つの最終対象候補まで絞り込む絞込部(105)と、複数の対象候補の位置の代表位置を算出する代表位置算出部(107)と、代表位置算出部で算出された代表位置に基づいて、最終対象候補の対象枠を表示する表示制御部(109)と、を備える。

Description

画像表示装置、画像表示方法、及びプログラム
 本発明は、画像表示装置、画像表示方法、及びプログラムに関し、特に検出した対象を示す対象枠を表示する画像表示装置、画像表示方法、及びプログラムに関する。
 特許文献1には、パターンマッチング法により複数の顔領域候補を抽出し、その複数の顔領域候補の絞り込み、その複数の顔領域候補について顔部品パターンマッチングを行い、絞り込みの結果及び顔部品パターンマッチングの結果に基づいて顔領域の判定を行う構成が記載されている。
 特許文献2には、対象枠の表示を連続する3つのフレームの平均値に基づいて、対象枠の表示を行うことにより、対象枠を滑らかに表示する構成が記載されている。
特開2009-123081号公報 特開2008-288868号公報
 本開示の技術に係る1つの実施形態は、安定的でかつ追従性のよい対象枠を表示した画像表示装置、画像表示方法、及びプログラムを提供する。
 上記目的を達成するための本発明の一の態様である画像表示装置は、画像表示装置であって、連続する画像を取得する画像取得部と、画像の各々において、一の対象に対する候補となる複数の対象候補を検出する対象候補検出部と、一の対象に対する候補となる複数の対象候補を一つの最終対象候補まで絞り込む絞込部と、複数の対象候補の位置の代表位置を算出する代表位置算出部と、代表位置算出部で算出された代表位置に基づいて、最終対象候補の対象枠を表示する表示制御部と、を備える。
 本態様によれば、複数の対象候補の位置の代表位置が算出され、その算出された代表位置に基づいて、最終対象候補の対象枠が表示されるので、安定的で且つ追従性のよい対象枠の表示を行うことができる。
 好ましくは、代表位置算出部は、最終対象候補の位置に基づいて、代表位置を算出するための対象候補を選択する。
 好ましくは、代表位置算出部は、最終対象候補の位置を中心にして、代表位置を算出するための対象候補を選択する範囲を決定する。
 好ましくは、代表位置算出部は、最終対象候補のサイズに基づいて、代表位置を算出するための対象候補を選択する範囲を決定する。
 好ましくは、代表位置算出部は、選択された対象候補が有する重み付けに応じて、代表位置を算出する。
 好ましくは、画像表示装置は、複数の対象候補のサイズの代表である代表サイズを算出する代表サイズ算出部を備え、表示制御部は、代表サイズと代表位置とに基づいて、最終対象候補の対象枠を表示する。
 好ましくは、代表サイズ算出部は、複数の対象候補のサイズの平均値、中央値、又は最頻値に基づいて、代表サイズを算出する。
 好ましくは、対象候補検出部が検出する対象は、物体である。
 好ましくは、対象候補検出部が検出する対象は、顔又は瞳である。
 好ましくは、代表位置算出部は、複数の対象候補の位置の平均値、中央値、又は最頻値に基づいて、代表位置を算出する。
 好ましくは、画像表示装置は、対象候補検出部によって検出された対象候補の位置情報を画像に記録する情報追加部を備える。
 本発明の他の態様である画像表示装置は、画像表示装置であって、連続する画像であって、画像の各々において、一の対象に対する候補となる複数の対象候補の位置情報を有する画像を取得する画像取得部と、一の対象に対する候補となる複数の対象候補を一つの最終対象候補まで絞り込む絞込部と、複数の対象候補の位置の代表位置を算出する代表位置算出部と、代表位置算出部で算出された代表位置に基づいて、最終対象候補の対象枠を表示する表示制御部と、を備える。
 本発明の他の態様である画像表示方法は、画像表示方法であって、連続する画像を取得するステップと、画像の各々において、一の対象に対する候補となる複数の対象候補を検出するステップと、一の対象に対する候補となる複数の対象候補を一つの最終対象候補まで絞り込むステップと、複数の対象候補の位置の代表位置を算出するステップと、代表位置に基づいて、最終対象候補の対象枠を表示するステップと、を含む。
 本発明の他の態様であるプログラムは、画像表示工程をコンピュータに実行させるプログラムであって、連続する画像を取得するステップと、画像の各々において、一の対象に対する候補となる複数の対象候補を検出するステップと、一の対象に対する候補となる複数の対象候補を一つの最終対象候補まで絞り込むステップと、複数の対象候補の位置の代表位置を算出するステップと、代表位置に基づいて、最終対象候補の対象枠を表示するステップと、を含む画像表示工程をコンピュータに実行させる。
 本態様によれば、複数の対象候補の位置の代表位置が算出され、その算出された代表位置に基づいて、最終対象候補の対象枠が表示されるので、安定的で且つ追従性のよい対象枠の表示を行うことができる。
図1は、画像表示装置を搭載する撮像装置の一例を示す斜視図である。 図2は、画像表示装置を搭載する撮像装置の一例を示す背面図である。 図3は、撮像装置の構成を示す図である。 図4は、画像表示装置の主な機能構成例を示すブロック図である。 図5は、対象枠の表示態様を示す図である。 図6は、異なる位置に最終対象候補Tが検出される場合について説明する図である。 図7は、対象枠の表示形態を示す図である。 図8は、異なる位置に最終対象候補Tが検出される場合について説明する図である。 図9は、対象候補及び絞り込まれた最終対象候補を示す図である。 図10は、最終対象候補のサイズと選択範囲の関係を示した図である。 図11は、画像表示方法を示したフローチャートである。 図12は、画像表示装置の主な機能構成例を示すブロック図である。 図13は、代表サイズ算出部が算出する代表サイズに関して説明する図である。 図14は、スマートフォンの外観を示す図である。 図15は、スマートフォンの構成を示すブロック図である。
 [撮像装置]
 図1及び図2は、それぞれ本発明の画像表示装置を搭載する撮像装置の一例(デジタルカメラ)を示す斜視図及び背面図である。
 本発明の画像表示装置11(図4を参照)は、撮像装置10に搭載され、撮像装置10で撮像されたライブビュー画像(スルー画像)を表示する。なお、画像表示装置11は、記録された動画も表示することができる。
 撮像装置10は、レンズを通った光を撮像素子210で受け、デジタル信号に変換して静止画又は動画の画像データとして記録メディアに記録するデジタルカメラである。
 図1に示すように撮像装置10は、その正面に撮影レンズ12、ストロボ1等が配設され、上面にはシャッタボタン2、電源/モードスイッチ3、モードダイヤル4等が配設されている。一方、図2に示すように、カメラ背面には、モニタ(LCD:Liquid Crystal Display)30、ズームボタン5、十字ボタン6、MENU/OKボタン7、再生ボタン8、BACKボタン9等が配設されている。
 撮影レンズ12は、沈胴式のズームレンズで構成されており、電源/モードスイッチ3によってカメラの作動モードを撮影モードに設定することにより、カメラ本体から繰り出される。ストロボ1は、主要被写体にストロボ光を照射するものである。
 シャッタボタン2は、いわゆる「半押し」と「全押し」とからなる2段ストローク式のスイッチで構成され、撮影準備指示部として機能するとともに、画像の記録指示部として機能する。
 撮像装置10は、撮影モードとして静止画撮影モードが選択され、シャッタボタン2が「半押し」されると、AF(Autofocus)/AE(Auto Exposure)制御を行う撮影準備動作を行い、シャッタボタン2が「全押し」されると、静止画の撮像及び記録を行う。
 また、撮像装置10は、撮影モードとして動画撮影モードが選択され、シャッタボタン2が「全押し」されると、動画の録画を開始し、シャッタボタン2が再度「全押し」されると、録画を停止して待機状態になる。
 電源/モードスイッチ3は、撮像装置10の電源をON/OFFする電源スイッチとしての機能と、撮像装置10のモードを設定するモードスイッチとしての機能とを併せ持っており、「OFF位置」と「再生位置」と「撮影位置」との間をスライド自在に配設されている。撮像装置10は、電源/モードスイッチ3をスライドさせて、「再生位置」又は「撮影位置」に合わせることにより、電源がONになり、「OFF位置」に合わせることにより、電源がOFFになる。そして、電源/モードスイッチ3をスライドさせて、「再生位置」に合わせることにより、「再生モード」に設定され、「撮影位置」に合わせることにより、「撮影モード」に設定される。
 モードダイヤル4は、撮像装置10の撮影モードを設定するモード切替部として機能し、このモードダイヤル4の設定位置により、撮像装置10の撮影モードが様々なモードに設定される。例えば、静止画撮影を行う「静止画撮影モード」、動画撮影を行う「動画撮影モード」等である。
 モニタ30は、表示部として機能し、撮影モード時のライブビュー画像の表示、再生モード時の静止画又は動画の表示を行うとともに、メニュー画面の表示等を行うことでグラフィカルユーザーインターフェースの一部として機能する。
 ズームボタン5は、ズームを指示するズーム指示手段として機能し、望遠側へのズームを指示するテレボタン5Tと、広角側へのズームを指示するワイドボタン5Wとからなる。撮像装置10は、撮影モード時に、このテレボタン5Tとワイドボタン5Wとが操作されることにより、撮影レンズ12の焦点距離が変化する。また、再生モード時に、このテレボタン5Tとワイドボタン5Wとが操作されることにより、再生中の画像が拡大、縮小する。
 十字ボタン6は、上下左右の4方向の指示を入力する操作部250であり、メニュー画面から項目を選択したり、各メニューから各種設定項目の選択を指示したりするボタン(カーソル移動操作手段)として機能する。左/右キーは再生モード時のコマ送り(順方向/逆方向送り)ボタンとして機能する。
 MENU/OKボタン7は、モニタ30の画面上にメニューを表示させる指令を行うためのメニューボタンとしての機能と、選択内容の確定及び実行などを指令するOKボタンとしての機能とを兼備した操作ボタンである。
 再生ボタン8は、撮影記録した静止画又は動画をモニタ30に表示させる再生モードに切り替えるためのボタンである。
 BACKボタン9は、入力操作のキャンセルや一つ前の操作状態に戻すことを指示するボタンとして機能する。
 なお、本実施形態にかかる撮像装置10において、ボタン/スイッチ類に対して固有の部材を設けるのではなく、タッチパネルを設けこれを操作することでそれらボタン/スイッチ類の機能を実現するようにしてもよい。
 [撮像装置の内部構成]
 図3は、撮像装置10の構成を示す図である。撮像装置10は撮影レンズ12により被写体像(光学像)を撮像素子210に結像させる。
 撮影レンズ12はズームレンズ110とフォーカスレンズ150とから構成される。また、撮像装置10は、絞り130と、レンズ駆動部140とを備える。レンズ駆動部140は、制御部としてのCPU240からの指令に応じてズームレンズ110、フォーカスレンズ150を進退駆動してズーム(光学ズーム)調整、フォーカス調整を行う。ズーム調整及びフォーカス調整は、CPU240からの指令に応じて行う他に、ユーザが行ったズーム操作、フォーカス操作に応じて行ってもよい。また、レンズ駆動部140はCPU240からの指令に応じて絞り130を制御して、露出を調整する。一方、ズームレンズ110及びフォーカスレンズ150の位置、絞り130の開放度等の情報がCPU240に入力される。
 撮像装置10は、撮像素子210、AFE220(AFE:Analog Front End)、A/D変換器230(A/D:Analog to Digital)、CPU240、操作部250、記憶部260、及びモニタ30を備える。撮像装置10は、撮像素子210に透過させる光を遮光するためのシャッター(不図示)を有する。撮像素子210は、多数の受光素子がマトリクス状に配列された受光面を備え、ズームレンズ110、フォーカスレンズ150、及び絞り130を透過した被写体光が撮像素子210の受光面上に結像され、各受光素子によって電気信号に変換される。撮像素子210の受光面上にはR(赤),G(緑),又はB(青)のカラーフィルタが設けられており、各色の信号に基づいて被写体のカラー画像を取得することができる。なお、撮像素子210としては、CMOS(Complementary Metal-Oxide Semiconductor)、CCD(Charge-Coupled Device)等の様々な光電変換素子を用いることができる。AFE220は撮像素子210から出力されるアナログ画像信号のノイズ除去、増幅等を行い、A/D変換器230は、取り込んだアナログ画像信号を階調幅があるデジタル画像信号に変換する。なお、シャッターは、メカニカルシャッターでも電子シャッターでもよい。電子シャッターの場合、CPU240によって撮像素子210の電荷蓄積期間を制御することで露光時間(シャッタースピード)を調節することができる。
 記憶部260は各種の光磁気記録媒体、半導体メモリ等の非一時的記録媒体及びその制御回路により構成され、動画(ライブビュー画像を含む)及び静止画を記憶する。記録媒体は撮像装置10に対し着脱できるタイプを用いることができる。また、記憶部260にはプログラム及びCPU240の各種制御に用いる情報等が記憶される。
 モニタ30は、動画(ライブビュー画像、記録動画)及び静止画を表示することができる。撮像装置10はファインダを備えていてもよく、ファインダはモニタ30として機能する。ファインダは、例えば液晶表示パネル、プリズム、レンズ等により構成され、ユーザは図示せぬ接眼部を介して動画、静止画を視認することができる。ファインダとしては「光学式ビューファインダ(OVF:Optical View Finder)」、「電子式ビューファインダ(EVF:Electronic View Finder)」、あるいはこれらの組合せである「ハイブリッド式ビューファインダ(HVF:Hybrid View Finder)」を用いることができる。
 CPU240は、記憶部260から必要なプログラム及び各種制御に用いる情報を読み出して、CPU240で行われる各種処理及び各種制御を行う。
 CPU240は各種制御を実行する。ハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の機能部として作用する汎用的なプロセッサであるCPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。
 1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ)で構成されてもよい。また、複数の機能部を1つのプロセッサで構成してもよい。複数の機能部を1つのプロセッサで構成する例としては、第1に、クライアントやサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の機能部として作用させる形態がある。第2に、システムオンチップ(System On Chip:SoC)などに代表されるように、複数の機能部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の機能部は、ハードウェア的な構造として、上記各種のプロセッサを1つ以上用いて構成される。
 <第1の実施形態>
 次に、本発明の第1の実施形態に関して説明する。本実施形態では、複数の対象候補の位置から代表位置が算出され、その代表位置に基づいて対象枠の表示が行われる。
 図4は、画像表示装置11の主な機能構成例を示すブロック図である。画像表示装置11は、画像取得部101、対象候補検出部103、絞込部105、代表位置算出部107、表示制御部109、情報追加部111、及びモニタ30を備える。画像取得部101、対象候補検出部103、絞込部105、代表位置算出部107、表示制御部109及び情報追加部111は、CPU240で実現される。
 画像取得部101は連続する画像を取得する。具体的には、画像取得部101は、A/D変換器230から出力される時系列的に連続する画像を取得する。例えば画像取得部101は、撮像装置10で撮影された複数のフレーム(画像)で構成されたライブビュー画像を取得する。ここで、ライブビュー画像は、撮影された画像が間引き処理等が行われ縮小された画像で構成される動画である。
 対象候補検出部103は、一つのフレーム(画像)において、一の対象に対する候補となる複数の対象候補を検出する。例えば、一の対象が人の顔である場合、対象候補検出部103は、パターンマッチング法により複数の対象候補を以下に説明するように検出する。対象候補検出部103は、記憶部260に記憶されている顔パターンのテンプレートを取り出し、一つのフレーム上でこの顔パターンのテンプレートを走査しながら、顔パターンのテンプレートと顔パターンテンプレートに対応する画像上の部分画像との相関値を算出する。例えば、対象候補検出部103は、所定の閾値α以上の部分画像を、対象候補として複数検出する。なお、記憶部260に複数の顔パターンのテンプレートが記憶されている場合には、複数の顔パターンのテンプレートを画像上に走査させてもよい。このように、対象候補検出部103は、一の対象を検出するための複数の対象候補を検出する。そして、対象候補検出部103は、例えば対象候補の中心の座標や対象候補のサイズを出力する。
 絞込部105は、一の対象に対する候補となる複数の対象候補を一つの最終対象候補まで絞り込む。絞込部105は、対象の特性に応じて様々な観点から、一つの最終対象候補まで絞り込みを行う。例えば、絞込部105は、対象が人の顔である場合には、対象候補の肌色判定を行って複数の対象候補から一つの最終対象候補を絞り込む。肌色判定は、例えば以下のように行う。絞込部105は、一つのフレーム(画像)の各分割領域(例えば、8×8=64の分割領域)ごとにR、G、Bの色信号の積算値をそれぞれ算出することで各分割領域の色相を求める。そして、絞込部105は、複数の対象候補の各々について色相をそれぞれ算出し、所定の色相(肌色)との相関値を算出する。そして、絞込部105はその相関値にもとづいてスコアを算出しスコアに基づいて最終対象候補を絞り込む。なお、絞込部105で行われる絞り込みの手法は肌色判定に限定されず、他の手法によって絞り込みが行われる。このように、絞込部105は、複数の対象候補から一つの最終対象候補の絞り込みを行う。
 代表位置算出部107は、複数の対象候補の位置の代表位置を算出する。代表位置算出部107は、複数の対象候補の位置の平均値、中央値又は最頻値に基づいて、代表位置を算出する。例えば、代表位置算出部107は、対象が人の顔である場合には、顔の中心の位置を各対象候補の位置として、対象候補検出部103で検出された全ての対象候補の位置の平均値を代表位置として算出する。ここで、複数の対象候補の位置の平均値を算出することにより、安定的で最終対象候補への追従性のよい位置を求めることができる。また例えば、人の顔の向きが正面、右向き、正面、左向きのように変化する場合には、最頻値を採用することにより安定的な位置を算出することができる。また代表位置算出部107は、対象候補検出部103が検出した一部の対象候補の位置から代表位置を算出することもできる。なお、一部の対象候補の位置から代表位置が算出される場合の、代表位置算出部107により行われる対象候補の選択については後で説明する。
 表示制御部109は、代表位置算出部107で算出された代表位置に基づいて、最終対象候補の検出枠をモニタ30に表示する。例えば、表示制御部109は、対象が顔である場合には、顔の位置又は領域を示す検出枠をフレーム(画像)に重畳して表示させる。なお、検出枠の形状は様々な形状が採用される。例えば、検出枠は、枠形状、括弧形状又は丸形状が採用される。
 情報追加部111は、対象候補検出部103によって検出された対象候補の位置情報を画像に記録する。例えば、情報追加部111は、検出された対象候補の位置情報を、その対象候補が検出された画像又は動画ファイルに添付する。このように、情報追加部111が検出された対象候補の位置情報を画像又は動画ファイルに添付することにより、この画像又は動画ファイルに対しての再度の対象候補の検出を省略することができる。
 [対象枠の表示の例]
 次に、対象が顔の場合の対象枠の表示の具体例に関して説明する。先ず従来から行われている対象枠の表示態様に関して説明し、その後に本発明の対象枠の表示態様の一例を説明する。
 図5は、従来から行われてきた対象枠の表示態様を示す図である。図5に示す場合では、最終対象候補Tに基づいて、対象枠Fが表示されている。具体的には、最終対象候補Tの中心と対象枠Fの中心は点Pによって重なっている。このように、従来では対象枠Fの中心と最終対象候補Tの中心とが重なるように対象枠Fが表示される。このように表示された対象枠Fは、最終対象候補Tの動きが不安定であると、最終対象候補Tの動きに対象枠Fの動きが一致するために、以下に説明するように対象枠Fの動きが不安定となる。
 図6は、図5で説明した対象枠Fが最終対象候補Tに基づいて表示される場合であり、連続するフレーム(画像)において、異なる位置に最終対象候補Tが検出される場合について説明する図である。
 図6(A)には、n-1番目のフレームで検出された対象候補の中心V1~V3が示されており、かつ絞り込まれた最終対象候補Tの中心V1(図5での点P)が示されている。図6(B)には、n番目のフレームで検出された対象候補の中心V1~V3が示されており、かつ絞り込まれた最終対象候補Tの中心V2(図5での点P)が示されている。図6(C)には、n+1番目のフレームで検出された対象候補の中心V1~V3が示されており、かつ絞り込まれた最終対象候補Tの中心V3(図5での点P)が示されている。また、n-1番目のフレームで表示する中心V1に対応する対象枠F1、n番目のフレームで表示する中心V2に対応する対象枠F2、n+1番目のフレームで表示する中心V3に対応する対象枠F3が示されており、各対象枠の中心は中心V1~V3に重なっている。
 図6(A)~(C)に示すように、最終対象候補Tの位置がn-1番目、n番目、n+1番目のフレームでそれぞれ移動すると、最終対象候補Tの移動に伴って対象枠(F1~F3)は各フレームにおいて異なる位置に表示される。したがって、最終対象候補Tの中心と対象枠の中心を重ねて表示させると、対象枠(F1~F3)の表示は不安定となってしまう。
 そこで、本発明では対象枠の表示位置は、複数の対象候補の位置から算出される代表位置に基づいて行う。
 図7は、最終対象候補Tに対して、代表位置である複数の対象候補の位置の平均値(座標)に基づいて行われる対象枠FCの表示形態を示す図である。なお、図7には、参考のために図5で説明をした最終対象候補Tの中心に基づいて表示される対象枠Fを点線で示している。
 図7に示す場合では、対象枠FCの中心は、複数の対象候補の位置の平均値Qとされる。このように、対象枠FCの中心の位置を、最終対象候補の中心Pではなく、複数の対象候補の平均値Qにすることにより、最終対象候補Tの動きと対象枠FCの動きは一致せずに動くために、最終対象候補Tが移動する場合であっても対象枠FCの表示は安定的となる。
 図8は、図7で説明した対象枠FCが平均値Qに基づいて表示される場合であり、連続するフレーム(画像)において、異なる位置に最終対象候補Tが検出される場合について説明する図である。図8では、図7と同様に3つの対象候補(対象候補の中心はV1~V3)が検出され、n-1番目のフレームにおいて最終対象候補T(中心V1)が絞り込まれ、n番目のフレームにおいて最終対象候補T(中心V2)が絞り込まれ、n+1番目のフレームにおいて最終対象候補T(中心V3)が絞り込まれる場合を示す。
 図8に示すように、対象候補の位置の平均値Qに対応する対象枠FCを表示することによって、最終対象候補Tがn-1、n、n+1番目のフレームにおいて移動した場合であっても、対象枠FCの位置を変えることなく表示することができる。また、対象枠FCは、最終対象候補Tの候補である対象候補の中心V1、V2、V3の平均値Qに基づいて表示されるので、最終対象候補Tへの追従性がよい。
 [対象候補の選択]
 次に、代表位置算出部107が代表位置を算出する場合の対象候補の選択に関して説明する。
 代表位置算出部107は、対象候補検出部103で検出された全ての複数の対象候補を使用して代表位置を算出してもよいが、選択した一部の対象候補を使用して代表位置を算出してもよい。以下に、代表位置算出部107が行う対象候補の選択の例について説明する。
 図9は、一つのフレーム(画像)において検出された対象候補及び絞り込まれた最終対象候補を示す図である。横軸はフレームのX軸を示しており、縦軸はフレームのY軸を示している。
 また、最終対象候補Tの中心を「+」で、対象候補Vの中心を「×」で示している。また、「+」及び「×」の右横には、最終対象候補T及び対象候補Vの確からしさのスコアが示されている。この顔検出の確からしさは、例えば、上述した肌色判定により算出されるスコアである。図9に示す場合には、スコアが最も高い「3.5」を有する対象候補が最終対象候補Tとして絞り込まれている。
 また、代表位置算出部107は、枠Gの範囲内の対象候補Vの位置に関して平均値を算出する。枠Gは、最終対象候補Tの中心から所定の選択範囲を示している。ここで、例えば、枠Gの選択範囲は最終対象候補Tの領域のサイズに応じて決定される。
 図10は、最終対象候補(顔)のサイズと選択範囲の関係を示した図である。なお、最終対象候補のサイズは、絞込部105により取得され、代表位置算出部107に送られる。顔サイズは「0段階」から「11段階」まであり、「0段階」が最も顔サイズが小さく「12段階」が最も顔サイズが大きい。また、各段階に応じて、選択範囲の大きさが予め設定されており、画角に対してのパーセンテージにより選択範囲が示されている。例えば、図9に示す場合では、最終対象候補(顔)サイズが「5段階」であり、画角に対して7%の一辺を有する正方形の範囲(枠G)内に存在する対象候補Vの位置に基づいて代表位置が算出される。なお、選択範囲の中心は最終対象候補の中心に設定されている。これにより、代表位置算出部107は最終対象候補Tの近傍での対象候補Vに関しての代表値を算出することができる。なお、図10に示した顔サイズと選択範囲の関係は一例であり、代表位置算出部107の対象候補Vの選択はこれに限定されるものではない。
 このように、代表位置算出部107は、一部の対象候補Vを選択して代表位置を算出することにより、より適切な代表位置を算出することができる。
 [画像表示方法]
 図11は、画像表示装置11を利用した画像表示方法(画像表示工程)を示したフローチャートである。なお、以下では、代表位置算出部107により一部の対象候補が選択される場合について説明する。
 先ず、画像取得部101により、連続するフレーム(連続する画像)が取得される(ステップS10)。次に、対象候補検出部103により、各フレームにおいて複数の対象候補が検出される(ステップS11)。その後、絞込部105により、複数の対象候補から最終対象候補を絞り込む(ステップS12)。この場合、絞込部105は最終対象候補の位置及びサイズに関する情報を代表位置算出部107に送る。その後、代表位置算出部107は、最終対象候補の顔の位置及び顔のサイズの情報を取得する(ステップS13)。次に、代表位置算出部107は、最終対象候補の顔のサイズに応じた選択範囲内にある対象候補を選択する(ステップS14)。その後、代表位置算出部107は選択した対象候補の顔の位置の平均値を算出する(ステップS15)。そして、表示制御部109は算出した平均値に基づいて、対象枠の表示を行う(ステップS16)。
 上述の各構成及び機能は、任意のハードウェア、ソフトウェア、或いは両者の組み合わせによって適宜実現可能である。例えば、上述の処理ステップ(処理手順)をコンピュータに実行させるプログラム、そのようなプログラムを記録したコンピュータ読み取り可能な記録媒体(非一時的記録媒体)、或いはそのようなプログラムをインストール可能なコンピュータに対しても本発明を適用することが可能である。
 以上で説明したように、複数の対象候補の位置に基づいて代表位置が算出され、その代表位置に基づいて、表示される最終対象候補の対象枠が表示されるので、対象枠を安定的にかつ対象に対して追従性が良く表示することができる。
 <第2の実施形態>
 次に第2の実施形態に関して説明する。第1の実施形態では、対象枠を表示する位置を代表位置に基づいて表示することに関して説明してきたが、第2の実施形態では、対象枠のサイズが代表サイズで表示されることを説明する。
 図12は、撮像装置10に搭載される画像表示装置11の主な機能構成例を示すブロック図である。なお、図4で既に説明を行った箇所は同じ符号を付し説明は省略する。画像表示装置11は、画像取得部101、対象候補検出部103、絞込部105、代表位置算出部107、代表サイズ算出部113、表示制御部109、情報追加部111、及びモニタ30を備える。画像取得部101、対象候補検出部103、絞込部105、代表位置算出部107、代表サイズ算出部113、表示制御部109及び情報追加部111は、CPU240で実現される。
 対象候補検出部103は、対象候補の位置及びサイズを検出する。ここで対象候補のサイズとは、例えば検出された対象候補の領域(面積)、又は検出された対象候補の長さ(直径)であり、対象候補検出部103は、検出した対象候補の領域又は長さを出力する。
 代表サイズ算出部113は、複数の対象候補のサイズの代表である代表サイズを算出する。具体的には、代表サイズ算出部113は、対象候補検出部103で検出された複数の対象候補のサイズを取得し、その取得した対象候補のサイズの平均値、中央値、又は最頻値を算出して、代表サイズとする。
 表示制御部109は、代表サイズと代表位置とに基づいて、最終対象候補の検出枠を表示する。具体的に、表示制御部109は、代表サイズ算出部113で算出されたサイズの対象枠を、代表サイズ算出部113で算出された代表位置に表示する。なお、対象候補(最終対象候補)のサイズに応じて、予め決められたサイズの対象枠が表示されるものとする。
 図13は、代表サイズ算出部113が算出する代表サイズに関して説明する図である。
 図13では、対象候補検出部103により、対象候補R1、R2及びR3が検出された場合が示されている。対象候補検出部103は、これらの対象候補R1、R2及びR3のサイズを算出する。具体的には、対象候補検出部103は、対象候補R1はa、対象候補R2はb及び対象候補R3はcと算出する。代表サイズ算出部113は、対象候補R1~R3のサイズを取得して、平均値(a+b+c)/3により、代表サイズRSを得る。そして、表示制御部109は、代表サイズRSに基づいて対象枠FSを最終対象候補Tに重畳して表示する。なお、図13に示す場合には、絞込部105により、対象候補R2が最終対象候補Tに絞り込まれている。
 このように、代表サイズに基づいて対象枠を表示させることにより、対象枠のサイズに関して、安定的で最終対象候補への追従性のよい対象枠の表示を行うことができる。
 <その他>
 上述した実施形態では、検出される対象として人の顔である場合について説明したが、これに限定されるものではない。対象候補検出部103が検出する対象は、物体であれば特に限定されない。例えば、対象候補検出部103が検出する対象は、瞳であってもよい。
 上述した実施形態では、画像表示装置11において、各画像において対象候補が検出される場合について説明をしてきたが、本発明ではこれに限定されるものではない。例えば画像取得部101は、連続する画像であって、画像の各々において、複数の対象候補の位置情報が添付された画像を取得してもよい。この場合には、代表位置算出部107は、画像に添付された対象候補の位置情報に基づいて代表位置を算出することができる。
 また、代表位置算出部107は、各対象候補の位置に重み付けを行って、代表位置を算出してもよい。例えば、代表位置算出部107は、最終対象候補の中心に近い対象候補の位置は係数を大きくすることにより、代表位置を算出する。また、代表サイズ算出部113も同様にして、各対象候補のサイズに重み付けを行って、代表サイズを算出してもよい。
 <スマートフォンの構成>
 上述の説明では、図1において撮像装置10の一例として、デジタルカメラを用いて説明をしたが、本発明の適用はこれに限定されるものではない。本発明を適用可能な他の態様としては、例えば、カメラ機能を有する携帯電話機やスマートフォン、PDA(Personal Digital Assistants)、携帯型ゲーム機が挙げられる。以下、本発明を適用可能なスマートフォンの一例について説明する。なお、図4におけるCPU240は主制御部501に対応し、記憶部260は記憶部550に対応し、モニタ30は表示パネル521に対応する。
 図14は、スマートフォン500の外観を示す図である。図14に示すスマートフォン500は、平板状の筐体502を有し、筐体502の一方の面に表示部としての表示パネル521と、入力部としての操作パネル522とが一体となった表示入力部520を備えている。また、かかる筐体502は、スピーカ531と、マイクロホン532、操作部540と、カメラ部541とを備えている。なお、筐体502の構成はこれに限定されず、例えば、表示部と入力部とが独立した構成を採用したり、折り畳み構造やスライド機構を有する構成を採用することもできる。
 図15は、図14に示すスマートフォン500の構成を示すブロック図である。図15に示すように、スマートフォン500の主たる構成要素として、基地局と移動通信網とを介した移動無線通信を行う無線通信部510と、表示入力部520と、通話部530と、操作部540と、カメラ部541と、記憶部550と、外部入出力部560と、GPS(Global Positioning System)受信部570と、モーションセンサ部580と、電源部590と、主制御部501とを備える。
 無線通信部510は、主制御部501の指示にしたがって、移動通信網に収容された基地局に対し無線通信を行うものである。この無線通信を使用して、音声データ、画像データ等の各種ファイルデータ、電子メールデータなどの送受信、Webデータ及びストリーミングデータなどの受信を行う。
 表示入力部520は、主制御部501の制御により、画像(静止画及び動画)や文字情報などを表示して視覚的にユーザに情報を伝達し、表示した情報に対するユーザ操作を検出する、いわゆるタッチパネルであって、表示パネル521と、操作パネル522とを備える。
 表示パネル521は、LCD(Liquid Crystal Display)、OELD(Organic Electro-Luminescence Display)などを表示デバイスとして用いたものである。操作パネル522は、表示パネル521の表示面上に表示される画像を視認可能に載置され、ユーザの指や尖筆によって操作される一又は複数の座標を検出するデバイスである。かかるデバイスをユーザの指や尖筆によって操作すると、操作に起因して発生する検出信号を主制御部501に出力する。次いで、主制御部501は、受信した検出信号に基づいて、表示パネル521上の操作位置(座標)を検出する。
 図14に示すように、本発明の撮像装置10の一実施形態として例示しているスマートフォン500の表示パネル521と操作パネル522とは一体となって表示入力部520を構成しているが、操作パネル522が表示パネル521を完全に覆うような配置となっている。かかる配置を採用した場合、操作パネル522は、表示パネル521外の領域についても、ユーザ操作を検出する機能を備えてもよい。換言すると、操作パネル522は、表示パネル521に重なる重畳部分についての検出領域(以下、表示領域と称する)と、それ以外の表示パネル521に重ならない外縁部分についての検出領域(以下、非表示領域と称する)とを備えていてもよい。
 なお、表示領域の大きさと表示パネル521の大きさとを完全に一致させてもよいが、両者を必ずしも一致させる必要は無い。また、操作パネル522が、外縁部分と、それ以外の内側部分の2つの感応領域を備えていてもよい。さらに、外縁部分の幅は、筐体502の大きさなどに応じて適宜設計されるものである。また、操作パネル522で採用される位置検出方式としては、マトリクススイッチ方式、抵抗膜方式、表面弾性波方式、赤外線式、電磁誘導方式、静電容量方式などが挙げられ、いずれの方式を採用することもできる。
 通話部530は、スピーカ531やマイクロホン532を備え、マイクロホン532を通じて入力されたユーザの音声を主制御部501にて処理可能な音声データに変換して主制御部501に出力したり、無線通信部510あるいは外部入出力部560により受信された音声データを復号してスピーカ531から出力するものである。また、図14に示すように、例えば、スピーカ531、マイクロホン532を表示入力部520が設けられた面と同じ面に搭載することができる。
 操作部540は、キースイッチなどを用いたハードウェアキーであって、ユーザからの指示を受け付けるものである。例えば、図14に示すように、操作部540は、スマートフォン500の筐体502の側面に搭載され、指などで押下されるとオンとなり、指を離すとバネなどの復元力によってオフ状態となる押しボタン式のスイッチである。
 記憶部550は、主制御部501の制御プログラム、制御データ、アプリケーションソフトウェア、通信相手の名称及び電話番号などを対応づけたアドレスデータ、送受信した電子メールのデータ、WebブラウジングによりダウンロードしたWebデータ、及びダウンロードしたコンテンツデータを記憶し、又ストリーミングデータなどを一時的に記憶するものである。また、記憶部550は、スマートフォン内蔵の内部記憶部551と着脱自在な外部メモリスロットを有する外部記憶部552により構成される。なお、記憶部550を構成するそれぞれの内部記憶部551と外部記憶部552は、フラッシュメモリタイプ(flash memory type)、ハードディスクタイプ(hard disk type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリ(例えば、Micro SD(登録商標)メモリ等)、RAM(Random Access Memory)、ROM(Read Only Memory)などの記録媒体を用いて実現される。
 外部入出力部560は、スマートフォン500に連結される全ての外部機器とのインターフェースの役割を果たすものであり、他の外部機器に通信等(例えば、ユニバーサルシリアルバス(USB)、及びIEEE1394など)又はネットワーク(例えば、インターネット、無線LAN(Local Area Network)、ブルートゥース(Bluetooth)(登録商標)、RFID(Radio Frequency Identification)、赤外線通信(Infrared Data Association:IrDA)(登録商標)、UWB(Ultra Wideband)(登録商標)、ジグビー(ZigBee)(登録商標)など)により直接的又は間接的に接続するためのものである。
 スマートフォン500に連結される外部機器としては、例えば、有/無線ヘッドセット、有/無線外部充電器、有/無線データポート、カードソケットを介して接続されるメモリカード(Memory card)、SIM(Subscriber Identity Module Card)/UIM(UserIdentity Module Card)カード、又はオーディオ・ビデオI/O(Input/Output)端子を介して接続される外部オーディオビデオ機器、無線接続される外部オーディオビデオ機器、有/無線接続されるスマートフォン、有/無線接続されるパーソナルコンピュータ、有/無線接続されるPDA、及びイヤホンなどがある。外部入出力部560は、このような外部機器から伝送を受けたデータをスマートフォン500の内部の各構成要素に伝達し、又はスマートフォン500の内部のデータを外部機器に伝送することが可能である。
 GPS受信部570は、主制御部501の指示にしたがって、GPS衛星ST1~STnから送信されるGPS信号を受信し、受信した複数のGPS信号に基づく測位演算処理を実行し、スマートフォン500の緯度、経度、及び高度からなる位置を検出する。GPS受信部570は、無線通信部510や外部入出力部560(例えば、無線LAN)から位置情報を取得できる時には、その位置情報を用いて位置を検出することもできる。
 モーションセンサ部580は、例えば、3軸の加速度センサ及びジャイロセンサなどを備え、主制御部501の指示にしたがって、スマートフォン500の物理的な動きを検出する。スマートフォン500の物理的な動きを検出することにより、スマートフォン500の動く方向や加速度が検出される。この検出結果は、主制御部501に出力されるものである。
 電源部590は、主制御部501の指示にしたがって、スマートフォン500の各部に、バッテリ(図示しない)に蓄えられる電力を供給するものである。
 主制御部501は、マイクロプロセッサを備え、記憶部550が記憶する制御プログラム及び制御データにしたがって動作し、スマートフォン500の各部を統括して制御するものである。また、主制御部501は、無線通信部510を通じて、音声通信やデータ通信を行うために、通信系の各部を制御する移動通信制御機能及びアプリケーション処理機能を備える。
 アプリケーション処理機能は、記憶部550が記憶するアプリケーションソフトウェアにしたがって主制御部501が動作することにより実現するものである。アプリケーション処理機能としては、例えば、外部入出力部560を制御して対向機器とデータ通信を行う赤外線通信機能や、電子メールの送受信を行う電子メール機能、Webページを閲覧するWebブラウジング機能、本発明にかかる圧縮処理を行う画像処理機能などがある。
 また、主制御部501は、受信データやダウンロードしたストリーミングデータなどの画像データ(静止画や動画のデータ)に基づいて、映像を表示入力部520に表示する等の画像処理機能を備える。画像処理機能とは、主制御部501が、上記画像データを復号し、かかる復号結果に画像処理を施して、画像を表示入力部520に表示する機能のことをいう。
 さらに、主制御部501は、表示パネル521に対する表示制御と、操作部540、操作パネル522を通じたユーザ操作を検出する操作検出制御を実行する。
 表示制御の実行により、主制御部501は、アプリケーションソフトウェアを起動するためのアイコン及びスクロールバーなどのソフトウェアキーを表示したり、或いは電子メールを作成するためのウィンドウを表示する。なお、スクロールバーとは、表示パネル521の表示領域に収まりきれない大きな画像などについて、画像の表示部分を移動する指示を受け付けるためのソフトウェアキーのことをいう。
 また、操作検出制御の実行により、主制御部501は、操作部540を通じたユーザ操作を検出したり、操作パネル522を通じてアイコンに対する操作、及びウィンドウの入力欄に対する文字列の入力を受け付け、或いはスクロールバーを通じた表示画像のスクロール要求を受け付ける。
 さらに、操作検出制御の実行により主制御部501は、操作パネル522に対する操作位置が、表示パネル521に重なる重畳部分(表示領域)か、それ以外の表示パネル521に重ならない外縁部分(非表示領域)かを判定し、操作パネル522の感応領域及びソフトウェアキーの表示位置を制御するタッチパネル制御機能を備える。
 また、主制御部501は、操作パネル522に対するジェスチャ操作を検出し、検出したジェスチャ操作に応じて、予め設定された機能を実行することもできる。ジェスチャ操作とは、従来の単純なタッチ操作ではなく、指などによって軌跡を描いたり、複数の位置を同時に指定したり、或いはこれらを組合せて、複数の位置から少なくとも1つについて軌跡を描く操作を意味する。
 カメラ部541は、CMOS(Complementary Metal Oxide Semiconductor)やCCD(Charge-Coupled Device)などの撮像素子を用いて電子撮影するデジタルカメラであり、図1に示した撮像装置10に相当する。また、カメラ部541は、主制御部501の制御により、撮影によって得た静止画の画像データを、例えばJPEG(Joint Photographic coding Experts Group)で圧縮し、又は動画の画像データを、例えばH.264/AVCで圧縮して記憶部550に記録したり、外部入出力部560や無線通信部510を通じて出力することができる。図14に示すようにスマートフォン500において、カメラ部541は表示入力部520と同じ面に搭載されているが、カメラ部541の搭載位置はこれに限らず、表示入力部520の背面に搭載されてもよいし、或いは、複数のカメラ部541が搭載されてもよい。なお、複数のカメラ部541が搭載されている場合、撮影に供するカメラ部541を切り替えて単独にて撮影したり、或いは、複数のカメラ部541を同時に使用して撮影することもできる。
 また、カメラ部541はスマートフォン500の各種機能に利用することができる。例えば、表示パネル521にカメラ部541で取得した画像を表示することや、操作パネル522の操作入力のひとつとして、カメラ部541の画像を利用することができる。また、GPS受信部570が位置を検出する際に、カメラ部541からの画像を参照して位置を検出することもできる。さらには、カメラ部541からの画像を参照して、3軸の加速度センサを用いずに、或いは、3軸の加速度センサ(ジャイロセンサ)と併用して、スマートフォン500のカメラ部541の光軸方向を判断することや、現在の使用環境を判断することもできる。勿論、カメラ部541からの画像をアプリケーションソフトウェア内で利用することもできる。
 その他、静止画又は動画の画像データにGPS受信部570により取得した位置情報、マイクロホン532により取得した音声情報(主制御部等により、音声テキスト変換を行ってテキスト情報となっていてもよい)、モーションセンサ部580により取得した姿勢情報等などを付加して記憶部550に記録したり、外部入出力部560や無線通信部510を通じて出力することもできる。
 以上で本発明の例に関して説明してきたが、本発明は上述した実施の形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。
1    :ストロボ
2    :シャッタボタン
3    :モードスイッチ
4    :モードダイヤル
5    :ズームボタン
5T   :テレボタン
5W   :ワイドボタン
6    :十字ボタン
7    :MENU/OKボタン
8    :再生ボタン
9    :BACKボタン
10   :撮像装置
11   :画像表示装置
12   :撮影レンズ
30   :モニタ
101  :画像取得部
103  :対象候補検出部
105  :絞込部
107  :代表位置算出部
109  :表示制御部
110  :ズームレンズ
111  :情報追加部
113  :代表サイズ算出部
130  :絞り
140  :レンズ駆動部
150  :フォーカスレンズ
210  :撮像素子
230  :A/D変換器
240  :CPU
250  :操作部
260  :記憶部

Claims (15)

  1.  画像表示装置であって、
     連続する画像を取得する画像取得部と、
     前記画像の各々において、一の対象に対する候補となる複数の対象候補を検出する対象候補検出部と、
     前記一の対象に対する候補となる前記複数の対象候補を一つの最終対象候補まで絞り込む絞込部と、
     前記複数の対象候補の位置の代表位置を算出する代表位置算出部と、
     前記代表位置算出部で算出された前記代表位置に基づいて、前記最終対象候補の対象枠を表示する表示制御部と、
     を備える画像表示装置。
  2.  前記代表位置算出部は、前記最終対象候補の位置に基づいて、前記代表位置を算出するための前記対象候補を選択する請求項1に記載の画像表示装置。
  3.  前記代表位置算出部は、前記最終対象候補の位置を中心にして、前記代表位置を算出するための前記対象候補を選択する範囲を決定する請求項2に記載の画像表示装置。
  4.  前記代表位置算出部は、前記最終対象候補のサイズに基づいて、前記代表位置を算出するための前記対象候補を選択する範囲を決定する請求項3に記載の画像表示装置。
  5.  前記代表位置算出部は、選択された前記対象候補が有する重み付けに応じて、前記代表位置を算出する請求項2から4のいずれか1項に記載の画像表示装置。
  6.  前記複数の対象候補のサイズの代表である代表サイズを算出する代表サイズ算出部を備え、
     前記表示制御部は、前記代表サイズと前記代表位置とに基づいて、前記最終対象候補の対象枠を表示する請求項1から5のいずれか1項に記載の画像表示装置。
  7.  前記代表サイズ算出部は、前記複数の対象候補のサイズの平均値、中央値、又は最頻値に基づいて、前記代表サイズを算出する請求項6に記載の画像表示装置。
  8.  前記対象候補検出部が検出する前記対象は、物体である請求項1から7のいずれか1項に記載の画像表示装置。
  9.  前記対象候補検出部が検出する前記対象は、顔又は瞳である請求項8に記載の画像表示装置。
  10.  前記代表位置算出部は、前記複数の対象候補の位置の平均値、中央値、又は最頻値に基づいて、前記代表位置を算出する請求項1から9のいずれか1項に記載の画像表示装置。
  11.  前記対象候補検出部によって検出された前記対象候補の位置情報を前記画像に記録する情報追加部を備える請求項1から10のいずれか1項に記載の画像表示装置。
  12.  画像表示装置であって、
     連続する画像であって、前記画像の各々において、一の対象に対する候補となる複数の対象候補の位置情報を有する画像を取得する画像取得部と、
     前記一の対象に対する候補となる前記複数の対象候補を一つの最終対象候補まで絞り込む絞込部と、
     前記複数の対象候補の位置の代表位置を算出する代表位置算出部と、
     前記代表位置算出部で算出された前記代表位置に基づいて、前記最終対象候補の対象枠を表示する表示制御部と、
     を備える画像表示装置。
  13.  画像表示方法であって、
     連続する画像を取得するステップと、
     前記画像の各々において、一の対象に対する候補となる複数の対象候補を検出するステップと、
     前記一の対象に対する候補となる前記複数の対象候補を一つの最終対象候補まで絞り込むステップと、
     前記複数の対象候補の位置の代表位置を算出するステップと、
     前記代表位置に基づいて、前記最終対象候補の対象枠を表示するステップと、
     を含む画像表示方法。
  14.  画像表示工程をコンピュータに実行させるプログラムであって、
     連続する画像を取得するステップと、
     前記画像の各々において、一の対象に対する候補となる複数の対象候補を検出するステップと、
     前記一の対象に対する候補となる前記複数の対象候補を一つの最終対象候補まで絞り込むステップと、
     前記複数の対象候補の位置の代表位置を算出するステップと、
     前記代表位置に基づいて、前記最終対象候補の対象枠を表示するステップと、
     を含む画像表示工程をコンピュータに実行させるプログラム。
  15.  非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に、
     連続する画像を取得するステップと、
     前記画像の各々において、一の対象に対する候補となる複数の対象候補を検出するステップと、
     前記一の対象に対する候補となる前記複数の対象候補を一つの最終対象候補まで絞り込むステップと、
     前記複数の対象候補の位置の代表位置を算出するステップと、
     前記代表位置に基づいて、前記最終対象候補の対象枠を表示するステップと、
     を含む画像表示工程をコンピュータに実行させる記録媒体。
PCT/JP2020/013937 2019-04-10 2020-03-27 画像表示装置、画像表示方法、及びプログラム WO2020209097A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021513566A JPWO2020209097A1 (ja) 2019-04-10 2020-03-27

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-075016 2019-04-10
JP2019075016 2019-04-10

Publications (1)

Publication Number Publication Date
WO2020209097A1 true WO2020209097A1 (ja) 2020-10-15

Family

ID=72751552

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/013937 WO2020209097A1 (ja) 2019-04-10 2020-03-27 画像表示装置、画像表示方法、及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2020209097A1 (ja)
WO (1) WO2020209097A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022095854A1 (zh) * 2020-11-04 2022-05-12 深圳Tcl新技术有限公司 图像识别方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010028720A (ja) * 2008-07-24 2010-02-04 Sanyo Electric Co Ltd 撮像装置
JP2011130382A (ja) * 2009-12-21 2011-06-30 Canon Inc 撮像装置およびその制御方法
JP2013153376A (ja) * 2012-01-26 2013-08-08 Sony Corp 画像処理装置、画像処理方法および記録媒体
WO2014109125A1 (ja) * 2013-01-09 2014-07-17 ソニー株式会社 画像処理装置、画像処理方法、プログラム
JP2017041795A (ja) * 2015-08-20 2017-02-23 キヤノン株式会社 画像処理装置、及び画像処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4769653B2 (ja) * 2006-05-26 2011-09-07 富士フイルム株式会社 対象画像検出システム,対象画像部分の一致判定装置および対象画像部分のソーティング装置ならびにそれらの制御方法
JP2011134045A (ja) * 2009-12-24 2011-07-07 Seiko Epson Corp 画像処理装置
JP5489340B2 (ja) * 2010-03-12 2014-05-14 パナソニック株式会社 顔マスキング装置及び方法
JP2012019293A (ja) * 2010-07-06 2012-01-26 Sony Corp 画像処理装置、撮影方法、撮影プログラム、画像処理方法及び画像処理プログラム
JP6907774B2 (ja) * 2017-07-14 2021-07-21 オムロン株式会社 物体検出装置、物体検出方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010028720A (ja) * 2008-07-24 2010-02-04 Sanyo Electric Co Ltd 撮像装置
JP2011130382A (ja) * 2009-12-21 2011-06-30 Canon Inc 撮像装置およびその制御方法
JP2013153376A (ja) * 2012-01-26 2013-08-08 Sony Corp 画像処理装置、画像処理方法および記録媒体
WO2014109125A1 (ja) * 2013-01-09 2014-07-17 ソニー株式会社 画像処理装置、画像処理方法、プログラム
JP2017041795A (ja) * 2015-08-20 2017-02-23 キヤノン株式会社 画像処理装置、及び画像処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022095854A1 (zh) * 2020-11-04 2022-05-12 深圳Tcl新技术有限公司 图像识别方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
JPWO2020209097A1 (ja) 2020-10-15

Similar Documents

Publication Publication Date Title
JP6186521B2 (ja) 合焦制御装置、撮像装置、合焦制御方法、及び合焦制御プログラム
KR20100008936A (ko) 듀얼 카메라를 구비하는 휴대 단말기 및 이를 이용한 촬영방법
JP6307526B2 (ja) 撮像装置及び合焦制御方法
JP6360204B2 (ja) カメラ装置、撮像システム、制御方法及びプログラム
CN113596316B (zh) 拍照方法及电子设备
JP6028112B2 (ja) 撮像装置及び合焦制御方法
US11438521B2 (en) Image capturing device, image capturing method, and program
US10863095B2 (en) Imaging apparatus, imaging method, and imaging program
JPWO2017209252A1 (ja) 撮像装置、合焦制御方法、及び、合焦制御プログラム
WO2016038934A1 (ja) 撮像装置及び合焦制御方法
WO2020209097A1 (ja) 画像表示装置、画像表示方法、及びプログラム
CN115484375A (zh) 拍摄方法及电子设备
JP5789725B2 (ja) 撮像装置及びその合焦方法と合焦制御プログラム
JP6379307B2 (ja) 撮像装置、合焦制御方法、及び合焦制御プログラム
JP6374535B2 (ja) 操作装置、追尾システム、操作方法、及びプログラム
WO2020170945A1 (ja) 表示制御装置、撮像装置、表示制御方法、及び表示制御プログラム
JP5832673B2 (ja) 撮像装置およびその動作制御方法
JP7186854B2 (ja) 画像表示装置、画像表示方法、及びプログラム
JP7085651B2 (ja) 撮像装置の制御装置、撮像装置、撮像装置の制御方法、撮像装置の制御プログラム
JP6840903B2 (ja) 撮像装置、撮像方法、及びプログラム
JP6765027B2 (ja) 撮像制御装置、撮像装置、撮像制御方法、及び撮像制御プログラム
JP7169431B2 (ja) 画像処理装置、画像処理方法及びプログラム、撮影装置
WO2020066316A1 (ja) 撮影装置、撮影方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20787487

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021513566

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20787487

Country of ref document: EP

Kind code of ref document: A1