WO2005001764A1 - Image input device, robot, and program - Google Patents

Image input device, robot, and program Download PDF

Info

Publication number
WO2005001764A1
WO2005001764A1 PCT/JP2004/009193 JP2004009193W WO2005001764A1 WO 2005001764 A1 WO2005001764 A1 WO 2005001764A1 JP 2004009193 W JP2004009193 W JP 2004009193W WO 2005001764 A1 WO2005001764 A1 WO 2005001764A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
mark
image input
input device
target object
Prior art date
Application number
PCT/JP2004/009193
Other languages
French (fr)
Japanese (ja)
Inventor
Kyoji Hirata
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Publication of WO2005001764A1 publication Critical patent/WO2005001764A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0007Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Definitions

  • the present invention relates to an image input technique, and in particular, in order to appropriately input and record an object or a specific portion of the object in order to recognize a certain object or a specific portion of the object by image analysis.
  • the present invention relates to an image input device, a robot using the image input device, and a program.
  • a technique for recognizing an object in an image is to store in advance a feature amount of the object to be recognized in a database or the like, and to combine this information with the extracted feature amount of the input image power. This is done by comparison (for example, see Patent Document 1).
  • the range in which the eyes are present is estimated from the binary image, the eye candidates are specified in the range, and the eyes are determined from the ratio of the thin line portions in the multi-valued image.
  • Patent Document 3 proposes a technique for performing automatic discrimination.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2001-16579
  • Patent Document 2 JP-A-11-144057
  • Patent Document 3 JP 2002-331172 A
  • Patent Document 4 JP-A-2002-288670
  • a target The target object must be photographed in a state where the position, posture condition, size, lighting conditions, etc. of the object are appropriate. For example, when the object to be recognized is small, in the corner of the image, or when a specific part is photographed in an inappropriate state for recognition (for example, when photographed with sunglasses or the like). It cannot be detected properly.
  • the photographer of the object to be recognized does not know in what form the object is to be photographed, for example, at an angle or size. In many cases, an image was shot such that a specific portion could not be detected.
  • an object of the present invention is to arrange an object or a specific portion of the object at an appropriate position, direction, or orientation in an entire image. It is another object of the present invention to provide an image input technology capable of photographing and recording.
  • an object of the present invention is to photograph and record a target object or a specific portion of the target object arranged at an appropriate position, direction, or orientation in the entire image, and to specify the target object or the target object. It is an object of the present invention to provide an image input technique capable of cutting out and extracting a target object or a specific part of the target object and improving the accuracy of recognition processing by recording information such as part identification or position information.
  • the image input device of the present invention is a display means for displaying an image of an object to be photographed. And a mark superimposing display means for displaying on the display means a mark image indicating a position at which the target object or a specific portion of the target object is to be arranged so as to be superimposed on the image of the target object.
  • the image of the target is an image input for recognizing the target by image analysis.
  • the mark superimposing display means includes: storage means for storing a plurality of mark images corresponding to an object to be recognized or a specific portion of the object; Selecting means for selecting a mark image suitable for an object to be recognized or a specific part of the object from a plurality of mark images stored in the means; and selecting the mark image selected by the selecting means. And superimposing display means for superimposing and displaying the image on the image of the object.
  • the mark image is an image that specifies the location of a target or a specific portion of the target with one index image. In one configuration example of the image input device of the present invention, the mark image is an image that specifies the location of a target object or a specific portion of the target object using a plurality of index images. In one configuration example of the image input device of the present invention, the mark image is an image that specifies one target object or a specific portion of the target object in the image.
  • the mark image is an image that specifies a plurality of objects or specific portions of the objects in the image.
  • the mark superimposing display means has a mark image moving means for moving a display position of a mark image.
  • the mark superimposing display means has a mark image adjusting means for adjusting a size of a mark image.
  • the mark superimposing display means has a mark image color changing means for changing a color of a mark image.
  • the mark superimposing display means has a mark image luminance adjusting means for adjusting the luminance of a mark image.
  • the mark superimposed display means further includes a storage unit for storing the description of the mark image, and a mark image description display unit for displaying the stored description of the mark image on the display unit when the mark image is superimposed.
  • one configuration example of the image input device of the present invention further includes an image pickup unit that images an object.
  • one configuration example of the image input device of the present invention is characterized in that the imaging means and the display means are not housed in one housing.
  • one configuration example of the image input device of the present invention is a configuration in which instructing means for instructing storage of an image displayed on the display means, and image storage for storing the image based on the instruction of the instructing means. Means.
  • the mark superimposing display means includes a mark image type information storing means storing mark image type information for identifying the mark image corresponding to the mark image.
  • the image storage unit is configured to store the captured image, mark image type information of a mark image used at the time of imaging, and force in the image storage unit. Is what it is.
  • the mark superimposing display means includes mark image display position information that stores mark display position information, which is information of a display position of the mark image, corresponding to the mark image.
  • mark display position information which is information of a display position of the mark image, corresponding to the mark image.
  • an image in which a mark image is superimposed on a captured image is stored in the image storage means. It is configured so that:
  • a captured image and a mark image used for image capturing are separately stored in the image input device. It is configured to be stored in the storage means.
  • the instructing unit may be configured to shoot It is configured to detect the stillness of the image of the object to be processed and to instruct the storage of the image when the stillness is detected.
  • one configuration example of the image input device of the present invention is characterized in that the image storage means is provided in a remote place where data can be transmitted and received with the image input device.
  • One configuration example of the image input device of the present invention further includes an image recognition unit that analyzes an image stored in the image storage unit and performs a target object recognition process.
  • the image recognition means is provided in a remote place where data can be transmitted and received with the image input device.
  • the image recognizing means refers to the mark image type information to determine a target object of the image to be analyzed or a type of a specific part of the target object. It is configured to identify and perform image analysis processing.
  • the image recognition means refers to the mark display position information to determine a position of an object or a specific portion of the object to be analyzed. It is configured to identify and perform image analysis processing.
  • the image recognition unit recognizes the mark image from an image on which the mark image is superimposed, thereby detecting an object or an object of an image to be analyzed. It is configured to specify a specific part of an object and perform image analysis processing.
  • the image recognition means compares a recorded image with a mark image to specify a specific part of an object or an object of an image to be analyzed.
  • the present invention is a robot equipped with an image input device.
  • the present invention is an image input program for causing a computer to function as an image input device, comprising: a display step of displaying an image of an object to be photographed; and a display step of superimposing the image on the displayed image of the object. And a mark superimposing display step of displaying a mark image indicating a position where the target object or a specific part of the target object is to be arranged.
  • the image of the target object is an image input for recognizing the target object by image analysis.
  • the mark superimposing display step includes specifying an object or an object to be recognized from a plurality of mark images stored in the storage means.
  • the mark image is an image that specifies the location of a target object or a specific portion of the target object with one index image. In one configuration example of the image input program according to the present invention, the mark image is an image that specifies an arrangement of a target or a specific portion of the target with a plurality of index images. In one configuration example of the image input program of the present invention, the mark image is an image that specifies one target object or a specific portion of the target object in the image.
  • the mark image is an image that specifies a plurality of objects or specific portions of the objects in the image.
  • the mark superimposing display step may include a mark image moving step of moving a display position of a mark image.
  • the mark superimposing display step includes a mark image adjusting step of adjusting a size of a mark image. In one configuration example of the image input program according to the present invention, the mark superimposing display step includes a mark image color changing step of changing a color of the mark image. In one configuration example of the image input program of the present invention, the mark superimposing display step includes a mark image luminance adjusting step of adjusting the luminance of the mark image.
  • the description of the mark image stored in the storage means is also displayed on the display means.
  • Mark image description display step is provided.
  • One example of the configuration of the image input program according to the present invention includes an instruction step for giving an instruction to store an image displayed on the display means, and storing the image in the image storage means based on the instruction in the instruction step. And the step of performing.
  • One example of the configuration of the image input program according to the present invention is a mark image for identifying a photographed image and a mark image used for photographing when the image is stored based on the instruction in the instruction step.
  • a step of storing, in the image storage means, a photographed image and mark display position information which is information on a display position of a mark image used at the time of photographing.
  • one configuration example of the image input program of the present invention is such that, when an image is stored based on an instruction in the instruction step, an image in which a mark image is superimposed on a captured image is stored in the image storage unit. And a step of storing.
  • one configuration example of the image input program of the present invention is such that when an image is stored based on the instruction in the instruction step, the captured image and the mark image used at the time of the imaging are separately stored in the image. And storing the data in a storage means.
  • the instruction step includes a step of detecting a stillness of an image of an object to be captured, and instructing storage of the image when the stillness is detected. It is provided.
  • one example of the configuration of the image input program of the present invention further comprises an image recognition step of analyzing an image stored in the image storage means and performing a recognition process of a target or a specific portion of the target. It is.
  • the image recognition step A step of identifying the position of an object or a specific portion of the object to be analyzed with reference to the mark display position information, and performing an image analysis process.
  • the image recognition step A step of identifying the position of an object or a specific portion of the object to be analyzed with reference to the mark display position information, and performing an image analysis process.
  • the object and a specific portion of the object when photographing an object, the object and a specific portion of the object can be photographed and recorded at an appropriate position and size.
  • FIG. 1 is a block diagram showing a configuration of an image input device according to a first embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of a mark image according to the first embodiment of the present invention.
  • FIG. 3 is a block diagram showing a configuration of a mark image generating unit according to the first embodiment of the present invention.
  • FIG. 4 is a block diagram showing another configuration of the mark image generating means in the first embodiment of the present invention.
  • FIG. 5 is a block diagram showing another configuration of the mark image generating means in the first embodiment of the present invention.
  • FIG. 6 is a diagram showing another example of a mark image in the first embodiment of the present invention.
  • FIG. 7 is a block diagram illustrating a configuration of an image superimposing unit according to the first embodiment of the present invention.
  • FIG. 8 is a block diagram showing a configuration of an instruction unit according to the first embodiment of the present invention.
  • FIG. 9 is a diagram showing an example of an operation in the first example of the present invention.
  • FIG. 10 is a diagram showing an example of another operation in the first example of the present invention.
  • FIG. 11 is a diagram showing an example of a mark image according to a second embodiment of the present invention.
  • FIG. 12 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
  • FIG. 13 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
  • FIG. 14 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
  • FIG. 15 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
  • FIG. 16 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
  • FIG. 17 is a diagram showing another example of a mark image in the second embodiment of the present invention.
  • FIG. 18 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
  • FIG. 19 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
  • FIG. 20 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
  • FIG. 21 is a block diagram showing a configuration of a mark image generating unit according to a second embodiment of the present invention.
  • FIG. 22 is a block diagram showing a configuration of an image input device according to a third embodiment of the present invention.
  • FIG. 23 is a block diagram showing a configuration of an image input device according to a fourth embodiment of the present invention.
  • FIG. 24 is a block diagram showing a first mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 25 is a diagram for explaining a first mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 26 is a diagram for explaining a first mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 27 is a view for explaining a first mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 28 is a diagram for explaining a first mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 29 is a block diagram showing a second mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 30 is a view for explaining a second mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 31 is a block diagram showing a third mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 32 is a diagram for describing a third mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 33 is a diagram for explaining a third mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 34 is a block diagram showing another configuration of the third mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 35 is a diagram for explaining another configuration of the third mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 36 is a block diagram showing a fourth mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 37 is a view for explaining a fourth mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 38 is a block diagram showing a fifth mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 39 is a view for explaining a fifth mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 40 is a block diagram showing a sixth mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 41 is a diagram for describing a sixth mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 42 is a block diagram showing a seventh mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 43 is a diagram for explaining a seventh mode of the image recognition means in the fourth embodiment of the present invention.
  • FIG. 44 is a block diagram showing a configuration of a computer according to a fifth embodiment of the present invention.
  • FIG. 45 is a diagram showing a robot according to a sixth embodiment of the present invention.
  • FIG. 1 is a block diagram of the image input device according to the first embodiment.
  • the image input device in the first embodiment should be provided with an image input means 1 for photographing an object to be recognized as shown in FIG. 1, and an object to be recognized or a specific portion of the object.
  • the mark image generating means 2 for generating the mark image indicating the position, the image obtained from the image input means 1 and the mark image obtained from the mark image generating means 2 are combined, and the mark image is superimposed on the input image.
  • Image superimposing means 3 for generating a captured image
  • display means 4 for displaying an image generated by the image superimposing means 3 and indicating a photographed area (imaging area)
  • instructing means for instructing recording of the image 5
  • an image storage means 6 for receiving an image recording instruction from the instruction means 5 and recording an image from the image input means 1.
  • the mark image generating means 2 and the image superimposing means 3 constitute a mark superimposing display means.
  • Image input means (imaging means) 1 is for taking an image of an object (subject) to be recognized and inputting an image of the object. It is a configured camera.
  • the mark image generating means 2 generates a mark image indicating the position of a target object to be recognized or a specific portion of the target object to be photographed by the image input means 1 which should be arranged and photographed.
  • the mark image is generated by the image superimposing means 3 by using the image of the object. It is displayed on the display means 4 in a form superimposed on.
  • the shape and size of the mark image, the position of the mark image on the display means 4, and the like differ depending on the target object to be recognized, the type of a specific portion of the target object, and the shooting mode (angle at the time of shooting, etc.).
  • both eyes of a human can be considered as a specific part for recognizing the face. For that purpose, it is necessary to take pictures so that the positions of both eyes can be understood.
  • the mark image generating means 2 is a mark composed of an index image (cross in FIG. 2) indicating the positions of the human eyes so that the human eyes are photographed at ideal positions and sizes. Generate an image.
  • the index image may be any as long as it shows the position where the target object or a specific part of the target object is arranged.
  • the cross-shaped index image is used.
  • a shape such as a circle, a solid line, a dotted line, and a rectangle may be used.
  • the mark image is composed of a plurality of index images connected by a single index image
  • the direction and the direction of the target object or a specific portion of the target object can be correctly arranged. For example, by using two index images as shown in FIG. 2 and arranging both eyes on the two index images, shooting and recording can be performed with the face facing forward.
  • FIG. 3 shows an example of the mark image generating means 2.
  • the means 4 for displaying a mark image as shown in FIG. 3 includes an image generating means 21 and a mark basic information holding means 22.
  • the mark basic information holding means 22 constitutes a storage means, a mark image type information storage means and a mark image display position information storage means.
  • the mark basic information holding unit 22 holds basic information on the mark (image data of the mark and its coordinate value, for example, the position of the right eye and the coordinate value of the left eye in the display area of the display unit 4).
  • the image generating means 21 reads out basic information on the mark from the mark basic information holding means 22, generates a mark image, and outputs the mark image to the image superimposing means 3.
  • the mark image generating means 2 is provided with a mark size (cross-shaped support). Size), the position, and the size of the outer shape may be changed.
  • a mark position 'size changing means 23 for changing a mark size (cross size), a position and an outer size as shown in Fig. 4 is added to the mark image generating means 2.
  • the mark position / size changing means 23 constitutes mark image moving means and mark image adjusting means.
  • a configuration may be adopted in which the color of the mark image can also be changed.
  • a mark color changing means 24 for changing the mark color is added to the mark image generating means 2.
  • the mark color changing means 24 constitutes a mark image color changing means.
  • the mark basic information holding means 22 also holds information on the description of the mark image.
  • the image superimposing means 3 combines the image of the object from the image input means 1 and the mark image obtained by the mark image generating means 2 to form a mark image on the image of the object (input image). This is to generate a superimposed image.
  • the image superimposing means 3 constitutes superimposing display means, mark image explanation displaying means, and mark image luminance adjusting means.
  • a mark image priority type in which a mark image is prioritized over an input image can be considered. This method can be expressed as follows when the input image is f (X, y), the mark image is g (x, y), and the superimposed image is h (x, y).
  • the mark image is configured to be displayed preferentially.
  • a mixed type that mixes luminance values of an input image and a mark image is used. Can be considered. This method can be expressed as follows when the input image is f (X, y), the mark image is g (x, y), and the superimposed image is h (x, y).
  • is a weighting constant.
  • the mark image is more visible than the input image, and when a> j3, the input image is more clear than the mark image. It becomes visible.
  • the configuration may be such that // 3 can be changed to any value and the superimposition ratio can be changed so that the mark image can be made transparent or translucent arbitrarily.
  • a position-mixed type in which a mark image is represented by a broken line or a dotted line can be considered. This method can be expressed as follows when the input image is f (X, y), the mark image is g (x, y), and the superimposed image is h (x, y).
  • i (x, y) is a condition such as a dotted line or a broken line regarding x and y.
  • the image superimposing means 3 may include a mechanism that allows the user to turn on and off the mark image.
  • the image superimposing means 3 has a superimposed image generating means 31 and a mark image on / off designating means 32 as shown in FIG. 7, and superimposes according to a mark image on / off instruction by the mark image on / off designating means 32.
  • the image generating means 31 is configured to turn on or off the superimposition of the mark image.
  • the display means 4 displays the image generated by the image superimposing means 3.
  • the display means 4 are not limited to a liquid crystal display used in a digital camera, but may be a CRT monitor, a plasma display, or the like. Alternatively, an optical finder may be used.
  • the instruction means 5 is for instructing image recording, and is, for example, a shutter of a camera. The instruction to record an image is made by pressing a shutter or by a voice instructed by a user.
  • the instruction means 5 may be an instruction means based on a video processing technique in addition to the above-mentioned means such as a button such as a shutter in a camera, an instruction by voice, and a remotely operated switch.
  • the instruction means 5 as shown in FIG. 8 includes a basic image storage means 51, an image comparison means 52, a holding time recording means 53, and an instruction determination means 54.
  • the image comparing means 52 compares the input image with the image (black or white image initially) stored in the basic image storing means 51 and finds that the difference is smaller than the roughness or the predetermined threshold. If it is large (not similar), the operation is performed such that the time of the holding time recording means 53 is set to 0 and the image of the basic image storage means 51 is replaced with the input image.
  • the image comparison result is smaller (similar) than the predetermined threshold value, the image in the basic image storage means 51 is retained and the time stored in the retention time recording means 53 is updated.
  • the instruction determining means 54 issues an input instruction when the time stored in the holding and recording means 53 exceeds a predetermined threshold.
  • the force object described based on the face image is not a face, but can be applied to general objects such as flowers, cars, vinyl, and animals.
  • the image storage unit 6 records the image from the image input unit 1 according to the recording instruction of the instruction unit 5.
  • the medium on which the image is recorded is a RAM, a flash memory, a hard disk, or the like.
  • FIG. 9 is a diagram showing an example of the operation in the first embodiment.
  • FIG. 9 an image of a subject (object) is input by the image input unit 1.
  • a mark image indicating the position where the eye position of the subject should be placed on the display image is Output from the image generator 2.
  • the user can adjust the position of the pupil of the eye and the mark image in the superimposed image by correcting the zoom-in / out function of the image input unit 1 and the relative position between the image input unit 1 and the object. Adjust so that the positions overlap. Then, after the adjustment, the instruction means 5 instructs image input capture, and the input image at that time is recorded in the image storage means 6.
  • the image recorded in the image storage means 6 becomes a video in which both eyes are shown at the mark positions, and the accuracy of extracting both eyes (specific portions) is greatly improved. In addition, the object recognition accuracy can be greatly improved.
  • FIG. 10 is a diagram showing an example of another operation in the first embodiment.
  • FIG. 10 shows an example in which a car is recognized as a target object, in which a tire is a specific part. Then, the mark image indicates a position where the tire of the specific part is to be arranged.
  • the image input means 1 first captures an image of a car from a diagonally right direction.
  • the position of the tires is defined by the mark image, and the car is photographed from the side in such a way as to match it, and when the position of the mark image and the tire match, the image is recorded, so that the car is recorded in the appropriate position and direction. Image.
  • an image in which an object or a specific portion of the object is arranged at an ideal position and size in the image can be recorded.
  • a mark image composed of index images the size, direction, and orientation of the target object or a specific part of the target object can be recorded in an image that is correctly defined in the image, so that the target object and the target object can be recorded. It is possible to greatly improve the accuracy of extracting a specific part, and further, it is possible to greatly improve the recognition accuracy of the target object and the specific part of the target object.
  • the image storage means 6 may be provided in a remote server connected by a network, which is not necessarily provided inside the image input device. Since the image storage means 6 often requires a high processing capacity, such a configuration is good for a mobile phone or the like having a low processing capacity.
  • the example of the mark image in the case where the object to be recognized is a human face and the specific portion is the human eyes is described.
  • the present invention can be applied not only to a human face but also to a person, a car, a flower, and other general objects. Therefore, in a second embodiment, an example of a mark image according to the type of an object to be recognized and a specific portion of the object will be described. Hereinafter, an example of the mark image will be described.
  • the mark image shown in FIG. 11 adopts a shape that can provide the eye line and the position of the mouth as information to the user side.
  • the mark image shown in Fig. 12 regards the entire face as a specific portion and shows the outline of the face, so that the face image to be recognized has an appropriate size and position. I have.
  • the mark image shown in FIG. 13 is another example in which the entire face is regarded as a specific part.
  • the mark image shown in Fig. 14 is an example of a mark image that can be adjusted to include the positional relationship of a plurality of objects. This is an example in which a simple image can be captured.
  • FIG. 15 is an example in which a detailed description of an object is used for a mark image.
  • the body type of the horse can be used as it is as the recognition information, and by sending it to the recognition processing side described in the third embodiment described later, the recognition processing can be greatly reduced.
  • the mark image shown in FIG. 16 is an example using an expression reminiscent of an actual image, and is an example of a mark image that resembles an eye. As a result, the user can easily recognize what specific part the displayed mark image indicates.
  • the mark image shown in FIG. 17 defines the location of a person. It can also be applied to things like baseball and commemorative photography with multiple people.
  • the mark image shown in FIG. 18 is an example used for inputting a flower. Recognition processing can be greatly reduced by sending the position information of the center (where there is a sepal, etc.) and the petals as recognition information to the recognition processing side described in the third embodiment described later.
  • the mark image shown in FIG. 19 is a mark image for recognizing a face position of a person in a landscape. When it is difficult to detect a person in the scenery and the detection is difficult, by sending the information on the face position to the recognition processing side described in the third embodiment, the face detection operation can be greatly reduced.
  • the size of the mark image shown in FIG. 20 cannot be fixed by specifying one point, but if the object to be recognized (specific part) is a small one such as a ring, this may be sufficient. Many.
  • the size of the target object or the specific part of the target object in the image is normalized by designating the position of the target object or the specific part of the target object.
  • the detection range may be fixed by indicating one point.
  • by indicating the parts of a plurality of objects it is possible to specify a plurality of objects from the video.
  • the mark images described above may be of a single type and may be defined as a rough rule, but a plurality of mark images may be prepared in the mark image generating means 2 and the user may select a menu in advance. The mark can be selected by selecting from among them. In this case, a mark selection means 25 using a menu as shown in FIG. 21 is provided in the mark image generation means 2.
  • the mark image may be in a format that allows a user to newly create and register the position, location, size, and the like.
  • FIG. 22 is a block diagram of the third embodiment.
  • the image storage means 6a has the following functions in addition to the functions described in the first and second embodiments.
  • the difference from the first embodiment and the second embodiment is that the position information (the coordinate position of both eyes in the example) of the mark image recorded in the mark basic information holding means 22 of the mark image generating means 2 is recorded. Is input to the image storage means 6a. When an instruction to record an image is issued by the instruction means 5, the position information of the mark image recorded in the mark basic information holding means 22 of the mark image generation means 2 (the coordinate position of both eyes in the example) is obtained. Then, it is recorded together with the image data in the image storage means 6a.
  • the position information of the mark image may be recorded.
  • the mark image used at the time of photographing is a cross point where the position of the human eye is placed
  • the mark image used is the mark image of the human eye
  • the mark image is the mark image of the human eye
  • the mark image If the position information is recorded, the specific part of the object is the eye during the recognition process, and the position of the eye in the recorded image can be known, so that the accuracy of the recognition process is improved and the processing load is large. Can be reduced.
  • mark information is represented in the form of metadata such as an input video and the type and coordinate value of the mark image. , May be stored in the image storage means 6a.
  • the input video and the mark video may be separately stored in the image storage unit 6a.
  • the configuration is such that the recording of the image to be recognized is performed.
  • Of recorded images Performs up to recognition processing.
  • FIG. 23 is a block diagram showing a fourth embodiment.
  • an image recognition means 7 is provided in addition to the configuration of the first to third embodiments.
  • the image recognition means 7 performs a process of analyzing an image and recognizing a target portion based on the image data recorded in the image storage means 6 or 6a.
  • the mode of the image recognition means 7 will be described in detail.
  • the semantic information (mark image type information) of the mark image described in the third embodiment is used together with the image data of the object. ) And position information are recorded.
  • FIG. 24 is a block diagram of the image recognition means 7 according to the first embodiment.
  • the image recognition means 7 as shown in FIG. 24 includes a recognition template storage means 71, a position matching means 72, and a similarity calculation means 73.
  • the recognition template storage means 71 As shown in Fig. 25, a template in which the face of each person is photographed for collation with the input image is stored. At the time of storing these recognition templates, the positions of both eyes in the recognition template are manually or automatically extracted from the input device proposed by the present invention.
  • the position matching unit 72 matches the image stored in the image storage unit 6 or 6a with the template stored in the recognition template storage unit 71, and matches the mark image of the recorded image. Based on the position information and the position information of the template, one of the images is subjected to an affine transformation (conversion to correct the enlargement / reduction, rotation, and position), and as shown in FIG. An operation is performed so that the positions of the parts match.
  • the similarity calculation means 73 compares the pixel values of each template with the image recorded in the image storage means 6 or 6a in a state where the positions of the element parts are coincident. Recognition processing is performed by comparing the values of the feature amounts of.
  • the position at which the target object and the specific part of the target object are arranged is known, so that the recognition accuracy of the target object and the specific part of the target object can be significantly improved.
  • the accuracy can be improved by not performing the similarity evaluation for a part that largely changes due to facial expressions or the like. For example, when a facial expression of a person is photographed, the area around the mouth is largely changed by the facial expression. If the similarity is evaluated equally without taking such changes into account, the accuracy of the similarity will deviate. In such a case, the problem is solved by using only the stable part without using the part around the mouth when calculating the similarity. Therefore, the image recognition means 7 as shown in FIG. 29 is provided with a similarity calculation use section setting means 74 instead of the position matching means 72.
  • the similarity calculation use section setting means 74 sets the area to the area around the mouth and the designated part. By setting, and not performing the similarity evaluation, it is possible to realize an image analysis that eliminates the influence caused by the fluctuation of the facial expression.
  • the present embodiment is a method that utilizes the sum of similarities for each part.
  • An example of the image recognition means 7 for realizing this is shown in FIG.
  • the image recognition means 7 as shown in FIG. 31 includes a recognition part template storage means 80, a part similarity calculation means 81, a part extraction means 82, and an overall similarity derivation means 83.
  • FIG. 32 shows an image recorded in the image storage means 6 or 6a and a recognition template stored in the recognition template storage means 80.
  • the recognition template is Stored in
  • the part extraction means 82 is a part of the image stored in the image storage means 6 or 6a. Based on the position information, an image of a specific part of the object, for example, an image of a specific part such as a left eye, a right eye, and a mouth is extracted from the image. Then, the extracted specific part and the template of each part are compared by the part similarity calculating means 81 as shown in FIG. Then, the overall similarity deriving means 83 determines the total similarity of each part calculated by the part similarity calculating means 81, thereby defining the overall similarity.
  • This method can be applied even when a part of the face is hidden, such as sunglasses.
  • An example of such an application is shown in FIG.
  • the image recognition means 7 as shown in FIG. 34 further includes high similarity selection means 84 in addition to the configuration of FIG.
  • the part extracting means 82 can extract the position of the sunglasses as the right eye and the left eye, and Prior to similarity derivation, the high similarity portion selecting means 84 selects a high similarity portion (in this example, a mouth) as shown in FIG. Derivation of similarity becomes possible.
  • target three-dimensional information is used for recognition. It holds three-dimensional information for the recognition target, estimates three-dimensional information of the image based on information of a specific part, creates an image from the three-dimensional data for recognition, and performs recognition.
  • FIG. 36 is a block diagram of the image recognition means 7 according to the fourth mode.
  • the image recognition means 7 includes a three-dimensional face information storage means 90, a face direction estimating means 91, a face direction matching image generating means 92, and a similarity calculating means 93.
  • the three-dimensional face information storage means 90 stores three-dimensional face information. Then, the face direction estimating means 91 estimates the face direction angle of the object based on the image (input image of the object) recorded in the image storage means 6 or 6a and the position information of the mark image. For example, as shown in FIG. 37, if the position information is a positional relationship between the eyes and the nose (position information of the mark image), the face direction angle of the target is estimated from these.
  • the face orientation matching image generation means 92 stores a face image that matches the face orientation angle estimated by the face orientation estimation means 91 in the three-dimensional face information storage means 90. Create face information.
  • the similarity calculating means 93 calculates the similarity between the image recorded in the image storage means 6 or 6a and the face image generated by the face orientation matching image generating means 92 and having the same face direction. Measure and perform recognition processing.
  • the fifth mode is a case where three-dimensional information is applied to an image recorded in the image storage means 6 or 6a.
  • a general standard face is created, and is mapped onto a three-dimensional standard face image in accordance with information on a part of the image recorded in the image recording means 6.
  • the image is rotated to create a pseudo front image, and the recognition face information and template matching are performed.
  • FIG. 38 is an example of a block diagram of such an image recognition means 7.
  • the image recognition means 7 has a three-dimensional standard face image mapping means 100, a front face generation means 101, a similarity calculation means 102, and a recognition template storage means 103.
  • the three-dimensional standard face image mapping means 100 maps the recognition face image onto the three-dimensional standard face using information of each part (mark position information) as shown in FIG.
  • the frontal face generating means 101 generates a pseudo frontal face from the mapped three-dimensional information.
  • the similarity calculating means 102 calculates the similarity between the generated pseudo frontal face and the recognition template storing the frontal face stored in the recognition template storage means 103, thereby calculating the similarity. Calculate and identify the person.
  • the force object created based on the face image is not a face, but can be applied to general objects such as flowers, cars, vinyls, and animals. .
  • FIG. 40 is a block diagram of the image recognition means 7 according to the sixth mode.
  • the image recognition means 7 includes a mark information extraction means 110, a feature quantity derivation means 111, a feature quantity calculation means 112, and a recognition feature quantity storage means 113.
  • the mark extracting means 110 specifies a mark image superimposed on the image for recognition based on the color of the mark image or the like.
  • the feature amount deriving unit 111 derives a feature amount for a pixel inside or in the vicinity of the mark specified by the mark extracting unit 110. Then, the feature amount calculating unit 112 collates the derived feature amount with the feature amount recorded in the recognition feature amount storage unit 113 to perform recognition.
  • FIG. 41 shows an example in which the recorded image is a flower image, and the mark image is superimposed on the outer ring.
  • the mark is specified by the mark extracting means 110 based on the color of the mark image and the like, and the feature amount deriving means 111 creates a histogram of the color of the flower inside the mark. By comparing the histogram with the color histogram in the database by the feature amount calculating means 112, the flower is specified.
  • mark information for example, mark color information
  • the seventh mode is an example of a recognition process in a case where an input video and a mark video are separately stored in the image storage means 6 or 6a.
  • FIG. 42 is a block diagram of the image recognition means 7 of the seventh embodiment.
  • the image recognizing means 7 includes an object extracting means 120 and a similarity calculating means 12
  • the object extracting means 120 performs a product (AND) process of the mark image and the input image (recognition image) separately recorded as shown in FIG. Extract.
  • the similarity calculating means 121 performs recognition by comparing the extracted feature amount of each part with the feature amount of each part stored in the recognition template storage means.
  • position information of the mark image information such as the meaning of the mark image, and the like are used at the time of image analysis.
  • Target at the appropriate position and size, depending on the mark image Since a specific part of an object or a target object is photographed, it is possible to perform image analysis without using information such as the position and meaning of the mark image.
  • the image recognition means 7 may be provided in a remote server connected via a network, which is not necessarily provided inside the image input device. Since the image recognition means 7 often requires a high processing capacity, such a configuration is good for a mobile phone or the like having a low processing capacity.
  • FIG. 44 is a block diagram showing a configuration of a computer according to the fifth embodiment.
  • a program memory 50 storing an execution program and the like, instead of the mark image generating means 2, the image superimposing means 3 and the image recording means 6, a mark image, mark information, etc.
  • An information memory 51 storing the information and a microprocessor 52 for executing each process by a program are provided.
  • the microprocessor 52 creates a mark image based on the information read from the information memory 51, and superimposes the mark image on the image input from the image input device 1, and displays the mark image. Then, according to an instruction from the instruction means 5, after the image is recorded, the object is recognized by the image recognition program and the recognition dictionary memory.
  • examples of a system to which the image input device of the present invention can be applied include a camera, a display device, and an arithmetic device, such as a mobile phone with a camera. Can be considered as one. The same applies to video cameras with arithmetic units, PDAs, digital cameras, etc.
  • the present invention is applicable even if the image input means 1 and the display means 4 are different. For example, the image input means 1 and the display means 4 are different.
  • the image of the image input unit 1 is freely adjusted by remote control, and the image is adjusted by projecting the image on the display unit 4 (screen or large-screen screen) at hand. It can be in the form.
  • the sixth embodiment is a case where the image input device of the present invention is applied to a robot.
  • any robot that has an image input unit 1 such as a camera and a video camera and a display unit 4 that externally displays an input image can be applied. If the mark image generating means 2, the image superimposing means 3, the image storing means 6 or 6a, and the image recognizing means 7 are provided inside the robot, the same processing as in the above-described first to fifth embodiments can be performed. It is possible for the robot to perform the operation.
  • FIG. 45 shows a robot to which the image input device of the present invention is applied.
  • the robot shown in FIG. 45 has image input means 1 for inputting an image from a camera or the like to the eye.
  • the apparatus has a display unit 4 for externally displaying an image input to the abdomen of the robot, and a mark image indicating a position where a specific portion of the input image should be located when the image is input is displayed on the display unit 4. .
  • the target object is a human face
  • the mark image indicating the position where the eye should be located is displayed.
  • the user adjusts the positional relationship with the robot so that his or her eyes overlap the mark image.
  • the subject itself may move, or an instruction to change the position of the robot or the state (zoom or the like) of the image input means 1 (camera) may be given.
  • the instruction can be a human voice or a remotely operated switch.
  • the robot can perform image recognition by using the internal image recognition means 7 assuming that a specific portion of the subject is shown at a predetermined position in the recorded image, and can specify a person.
  • a robot to which the image input device of the present invention is applied can greatly improve the image recognition ability.
  • the position of the image input means 1 is provided at the position of the eyes of the robot, and the position of the display means 4 (display) is provided at the abdomen of the robot. The place is free.
  • the display is not on the robot housing but on a separate monitor. It doesn't matter.
  • commands such as "advance forward”, “rear down”, and “zoom up” are given to the robot by voice or commands such as the remote control. You may instruct.
  • the object may be a person other than a person, such as frame information of a painting for "What is this picture?" Or a specific part of a frame for "What is this toy?"
  • the present invention can be applied to an image input device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

An image of an object is input by image input means (1). Mark image generation means (2) outputs a mark image indicating the position where the object eye position is to be arranged on the display image. The mark image and the input image are superimposed by image superimposition means (3) and the superimposed image is displayed on display means (4). A user corrects the zoom in/zoom out function of the image input means (1) and the relative position between the image input means (1) and the object, thereby adjusting the superimposed video in such a manner that the eye pupil position is superimposed on the mark image position. After the adjustment, instruction means (5) instructs image input acquisition and the input image at the moment is recorded in image storage means (6).

Description

明 細 書  Specification
画像入力装置、ロボットおよびプログラム  Image input device, robot and program
技術分野  Technical field
[0001] 本発明は画像入力の技術に関し、特に、ある対象物又は対象物の特定部分を画 像解析により認識する為、対象物や、対象物の特定部分を、適切に入力'記録する とができる画像入力装置、画像入力装置を用いたロボット、およびプログラムに関す るものである。  [0001] The present invention relates to an image input technique, and in particular, in order to appropriately input and record an object or a specific portion of the object in order to recognize a certain object or a specific portion of the object by image analysis. The present invention relates to an image input device, a robot using the image input device, and a program.
^景技術  ^ Scenic technology
[0002] 近年、カメラやビデオを用いて撮影された画像の被写体 (対象物)を認識する技術 は、数多く提案されている。  [0002] In recent years, many techniques for recognizing a subject (object) of an image captured using a camera or a video have been proposed.
[0003] 画像中の対象物を認識する為の技術は、あらかじめデータベース等に、認識対象 となる対象物に関する特徴量を蓄積しておき、この情報と入力画像力も抽出された特 徴量とを比較することにより行われる(例えば、特許文献 1参照)。  [0003] A technique for recognizing an object in an image is to store in advance a feature amount of the object to be recognized in a database or the like, and to combine this information with the extracted feature amount of the input image power. This is done by comparison (for example, see Patent Document 1).
また、予め被写体を表現するテンプレートの情報を蓄積しておき、これらの情報と入 力画像から抽出された特徴量とを比較することにより行われる方法もある(例えば、特 許文献 2参照)。  There is also a method in which information of a template representing a subject is stored in advance, and the information is compared with a feature amount extracted from an input image (for example, see Patent Document 2).
[0004] こうした認識技術においては、入力画像中から被写体もしくは被写体の特徴量を、 データベース中のテンプレートや特徴量と比較できるような形で抽出することが必要 であり、そのために、認識対象となる被写体の正しい検出 ·切り出しが大きな課題であ つた。  [0004] In such recognition technology, it is necessary to extract a subject or a feature amount of the subject from an input image in a form that can be compared with a template or a feature amount in a database. Correct detection and segmentation of the subject was a major issue.
この課題を解決する為、被写体 (対象物)又は被写体 (対象物)の特定部分の検出 •切り出しの自動検出に関しても、レ、くつかの技術が提案されている。  In order to solve this problem, several techniques have been proposed for detection of a subject (object) or a specific portion of the subject (object).
[0005] 例えば、被写体 (対象物)が人間の顔である場合、二値画像より目の存在する範囲 を推定し、この中で目候補を特定し、多値画像の細線部分の割合から目の自動判別 を行なう技術が提案されている (例えば、特許文献 3参照)。  [0005] For example, when the subject (object) is a human face, the range in which the eyes are present is estimated from the binary image, the eye candidates are specified in the range, and the eyes are determined from the ratio of the thin line portions in the multi-valued image. There has been proposed a technique for performing automatic discrimination (see, for example, Patent Document 3).
また、顔の向きを自動抽出して、顔の向きに応じた認識を行なう技術も提案されて いる (例えば、特許文献 4参照)。 [0006] 特許文献 1 :特開 2001 - 16579号公報 In addition, a technique has been proposed in which the direction of a face is automatically extracted and recognition is performed according to the direction of the face (for example, see Patent Document 4). [0006] Patent Document 1: Japanese Patent Application Laid-Open No. 2001-16579
特許文献 2:特開平 11 - 144057号公報  Patent Document 2: JP-A-11-144057
特許文献 3 :特開 2002— 331172号公報  Patent Document 3: JP 2002-331172 A
特許文献 4 :特開 2002— 288670号公報  Patent Document 4: JP-A-2002-288670
発明の開示  Disclosure of the invention
発明が解決しょうとする課題  Problems to be solved by the invention
[0007] し力しながら、上述のような被写体を自動検出する技術は未完成の部分も多ぐ制 約があり、このような制約のもとで被写体を精度良く自動検出するには、対象物の位 置、姿勢条件、大きさや、照明条件等が適切な状態で対象物が撮影されていなけれ ばならない。例えば、認識する被写体が、小さかったり、画像の隅にあったり、特定部 分が認識には不適切な状態で撮影された場合 (例えば、サングラス等をかけた状態 で撮影された場合)など、適切に検出することができない。  However, while the technology for automatically detecting a subject as described above has many unfinished parts, there are many restrictions, and in order to automatically detect a subject under such restrictions, a target The target object must be photographed in a state where the position, posture condition, size, lighting conditions, etc. of the object are appropriate. For example, when the object to be recognized is small, in the corner of the image, or when a specific part is photographed in an inappropriate state for recognition (for example, when photographed with sunglasses or the like). It cannot be detected properly.
[0008] また、認識しょうとする対象物を撮影する側にとっても、対象物をどのような形で、例 えば、アングルや大きさで撮影すれば良いかわからず、結果として、被写体や被写体 の特定部分を検出することができないような画像を撮影してしまう場合も多かった。  [0008] In addition, the photographer of the object to be recognized does not know in what form the object is to be photographed, for example, at an angle or size. In many cases, an image was shot such that a specific portion could not be detected.
[0009] 更に、現在の自動検出を行なう処理は負担が大きぐ携帯電話や PDAのような小 型の携帯情報処理端末等では、対象物の特定部分の自動検出を含む対象物の切り 出しや、抽出は、処理負担が大きぐ現実的なものではない。  [0009] Furthermore, the current process of performing automatic detection has a large burden on small mobile information processing terminals such as mobile phones and PDAs, and the like. Extraction is not realistic because of the heavy processing load.
[0010] そこで、本発明は、上記課題に鑑みて発明されたものであって、その目的は、対象 物又は対象物の特定部分が全体の画像の中で適切な位置、方向や向きに配置され て、撮影、記録することができる画像入力の技術を提供することにある。  Therefore, the present invention has been made in view of the above problems, and an object of the present invention is to arrange an object or a specific portion of the object at an appropriate position, direction, or orientation in an entire image. It is another object of the present invention to provide an image input technology capable of photographing and recording.
[0011] また、本発明の目的は、対象物又は対象物の特定部分が全体の画像の中で適切 な位置、方向や向きに配置されて撮影、記録すると共に、対象物又は対象物の特定 部分の識別又は位置情報等の情報も記録することにより、対象物又は対象物の特定 部分の切り出し、抽出や、認識処理の精度を高めることができる画像入力の技術を 提供することにある。  [0011] Further, an object of the present invention is to photograph and record a target object or a specific portion of the target object arranged at an appropriate position, direction, or orientation in the entire image, and to specify the target object or the target object. It is an object of the present invention to provide an image input technique capable of cutting out and extracting a target object or a specific part of the target object and improving the accuracy of recognition processing by recording information such as part identification or position information.
課題を解決するための手段  Means for solving the problem
[0012] 本発明の画像入力装置は、撮影しょうとする対象物の画像が表示される表示手段 と、前記対象物の画像に重畳して、対象物又は対象物の特定部分を配置する位置 を示すマーク画像を前記表示手段に表示するマーク重畳表示手段とを有するもので める。 [0012] The image input device of the present invention is a display means for displaying an image of an object to be photographed. And a mark superimposing display means for displaying on the display means a mark image indicating a position at which the target object or a specific portion of the target object is to be arranged so as to be superimposed on the image of the target object.
また、本発明の画像入力装置の 1構成例において、前記対象物の画像は、対象物 を画像解析により認識する為に入力される画像である。  In one configuration example of the image input device of the present invention, the image of the target is an image input for recognizing the target by image analysis.
また、本発明の画像入力装置の 1構成例において、前記マーク重畳表示手段は、 認識しょうとする対象物又は対象物の特定部分に応じた複数のマーク画像を記憶し た記憶手段と、前記記憶手段に記憶されている複数のマーク画像の中から、認識し ようとする対象物又は対象物の特定部分に適したマーク画像を選択する選択手段と 、前記選択手段により、選択されたマーク画像を、対象物の画像に重畳して表示する 重畳表示手段とを有するものである。  Further, in one configuration example of the image input device of the present invention, the mark superimposing display means includes: storage means for storing a plurality of mark images corresponding to an object to be recognized or a specific portion of the object; Selecting means for selecting a mark image suitable for an object to be recognized or a specific part of the object from a plurality of mark images stored in the means; and selecting the mark image selected by the selecting means. And superimposing display means for superimposing and displaying the image on the image of the object.
また、本発明の画像入力装置の 1構成例において、前記マーク画像は、対象物又 は対象物の特定部分の配置を、一つの指標画像で特定するような画像である。 また、本発明の画像入力装置の 1構成例において、前記マーク画像は、対象物又 は対象物の特定部分の配置を、複数の指標画像で特定するような画像である。 また、本発明の画像入力装置の 1構成例において、前記マーク画像は、画像中の 一つの対象物又は対象物の特定部分を特定するような画像である。  In one configuration example of the image input device of the present invention, the mark image is an image that specifies the location of a target or a specific portion of the target with one index image. In one configuration example of the image input device of the present invention, the mark image is an image that specifies the location of a target object or a specific portion of the target object using a plurality of index images. In one configuration example of the image input device of the present invention, the mark image is an image that specifies one target object or a specific portion of the target object in the image.
また、本発明の画像入力装置の 1構成例において、前記マーク画像は、画像中の 複数の対象物又は対象物の特定部分を特定するような画像である。  In one configuration example of the image input device of the present invention, the mark image is an image that specifies a plurality of objects or specific portions of the objects in the image.
また、本発明の画像入力装置の 1構成例において、前記マーク重畳表示手段は、 マーク画像の表示位置を移動させるマーク画像移動手段を有するものである。  In one configuration example of the image input device of the present invention, the mark superimposing display means has a mark image moving means for moving a display position of a mark image.
また、本発明の画像入力装置の 1構成例において、前記マーク重畳表示手段は、 マーク画像の大きさを調整するマーク画像調整手段を有するものである。  In one configuration example of the image input device according to the present invention, the mark superimposing display means has a mark image adjusting means for adjusting a size of a mark image.
また、本発明の画像入力装置の 1構成例において、前記マーク重畳表示手段は、 マーク画像の色を変更するマーク画像色変更手段を有するものである。  In one configuration example of the image input device of the present invention, the mark superimposing display means has a mark image color changing means for changing a color of a mark image.
また、本発明の画像入力装置の 1構成例において、前記マーク重畳表示手段は、 マーク画像の輝度を調整するマーク画像輝度調整手段を有するものである。  In one configuration example of the image input device according to the present invention, the mark superimposing display means has a mark image luminance adjusting means for adjusting the luminance of a mark image.
また、本発明の画像入力装置の 1構成例において、前記マーク重畳表示手段は、 マーク画像の説明を記憶した記憶手段と、前記マーク画像を重畳表示する際、前記 記憶されているそのマーク画像の説明も前記表示手段に表示するマーク画像説明 表示手段とを更に有するものである。 Further, in one configuration example of the image input device of the present invention, the mark superimposed display means, The display device further includes a storage unit for storing the description of the mark image, and a mark image description display unit for displaying the stored description of the mark image on the display unit when the mark image is superimposed.
また、本発明の画像入力装置の 1構成例は、対象物を撮像する撮像手段を更に有 するものである。  Further, one configuration example of the image input device of the present invention further includes an image pickup unit that images an object.
また、本発明の画像入力装置の 1構成例は、前記撮像手段と前記表示手段とが、 一つの筐体内に収められていないことを特徴とするものである。  Further, one configuration example of the image input device of the present invention is characterized in that the imaging means and the display means are not housed in one housing.
また、本発明の画像入力装置の 1構成例は、前記表示手段に表示されている画像 の記憶の指示を行なう指示手段と、前記指示手段の指示に基づいて、前記画像を記 憶する画像記憶手段とをさらに有するものである。  Also, one configuration example of the image input device of the present invention is a configuration in which instructing means for instructing storage of an image displayed on the display means, and image storage for storing the image based on the instruction of the instructing means. Means.
また、本発明の画像入力装置の 1構成例において、前記マーク重畳表示手段は、 マーク画像に対応してそのマーク画像を識別する為のマーク画像種別情報を記憶し たマーク画像種別情報記憶手段を有し、前記指示手段の指示に基づいて画像が記 憶される際、撮影画像と、撮影時に用いられたマーク画像のマーク画像種別情報と 力 前記画像記憶手段に記憶されるように構成されているものである。  In one configuration example of the image input device of the present invention, the mark superimposing display means includes a mark image type information storing means storing mark image type information for identifying the mark image corresponding to the mark image. When an image is stored based on the instruction of the instruction unit, the image storage unit is configured to store the captured image, mark image type information of a mark image used at the time of imaging, and force in the image storage unit. Is what it is.
また、本発明の画像入力装置の 1構成例において、前記マーク重畳表示手段は、 マーク画像に対応してそのマーク画像の表示位置の情報であるマーク表示位置情 報を記憶したマーク画像表示位置情報記憶手段を有し、前記指示手段の指示に基 づいて画像が記憶される際、撮影画像と、撮影時に用いられたマーク画像のマーク 画像表示位置情報とが、前記画像記憶手段に記憶されるように構成されているもの である。  In one configuration example of the image input device of the present invention, the mark superimposing display means includes mark image display position information that stores mark display position information, which is information of a display position of the mark image, corresponding to the mark image. When the image is stored based on an instruction of the instruction means, a captured image and mark image display position information of a mark image used at the time of imaging are stored in the image storage means. It is configured as follows.
また、本発明の画像入力装置の 1構成例は、前記指示手段の指示に基づいて画 像が記憶される際、撮影画像にマーク画像が重畳された画像が、前記画像記憶手 段に記憶されるように構成されているものである。  Further, in one configuration example of the image input device of the present invention, when an image is stored based on an instruction of the instruction means, an image in which a mark image is superimposed on a captured image is stored in the image storage means. It is configured so that:
また、本発明の画像入力装置の 1構成例は、前記指示手段の指示に基づいて画 像が記憶される際、撮影画像と、撮影時に用レ、られたマーク画像とが、別々に前記 画像記憶手段に記憶されるように構成されてレ、るものである。  Further, in one configuration example of the image input device of the present invention, when an image is stored based on an instruction of the instruction means, a captured image and a mark image used for image capturing are separately stored in the image input device. It is configured to be stored in the storage means.
また、本発明の画像入力装置の 1構成例において、前記指示手段は、撮影しようと する対象物の画像の静止を検出し、静止が検出された場合に画像の記憶の指示を 行なうように構成されているものである。 Further, in one configuration example of the image input device of the present invention, the instructing unit may be configured to shoot It is configured to detect the stillness of the image of the object to be processed and to instruct the storage of the image when the stillness is detected.
また、本発明の画像入力装置の 1構成例は、前記画像記憶手段が、画像入力装置 とデータの送受信ができる遠隔地に設けられていることを特徴とするものである。  Further, one configuration example of the image input device of the present invention is characterized in that the image storage means is provided in a remote place where data can be transmitted and received with the image input device.
[0015] また、本発明の画像入力装置の 1構成例は、前記画像記憶手段に記憶されている 画像を解析し、対象物の認識処理を行なう画像認識手段をさらに有するものである。 また、本発明の画像入力装置の 1構成例は、前記画像認識手段が、画像入力装置 とデータの送受信ができる遠隔地に設けられているものである。  [0015] One configuration example of the image input device of the present invention further includes an image recognition unit that analyzes an image stored in the image storage unit and performs a target object recognition process. In one configuration example of the image input device of the present invention, the image recognition means is provided in a remote place where data can be transmitted and received with the image input device.
また、本発明の画像入力装置の 1構成例において、前記画像認識手段は、前記マ ーク画像種別情報を参照して、解析しょうとする画像の対象物又は対象物の特定部 分の種別を特定し、画像の解析処理を行なうように構成されているものである。  In one configuration example of the image input device of the present invention, the image recognizing means refers to the mark image type information to determine a target object of the image to be analyzed or a type of a specific part of the target object. It is configured to identify and perform image analysis processing.
また、本発明の画像入力装置の 1構成例において、前記画像認識手段は、前記マ ーク表示位置情報を参照して、解析しょうとする画像の対象物又は対象物の特定部 分の位置を特定し、画像の解析処理を行なうように構成されているものである。  Further, in one configuration example of the image input device of the present invention, the image recognition means refers to the mark display position information to determine a position of an object or a specific portion of the object to be analyzed. It is configured to identify and perform image analysis processing.
また、本発明の画像入力装置の 1構成例において、前記画像認識手段は、前記マ ーク画像が重畳された画像から前記マーク画像を認識することによって、解析しようと する画像の対象物又は対象物の特定部分を特定し、画像の解析処理を行なうように 構成されているものである。  In one configuration example of the image input device of the present invention, the image recognition unit recognizes the mark image from an image on which the mark image is superimposed, thereby detecting an object or an object of an image to be analyzed. It is configured to specify a specific part of an object and perform image analysis processing.
また、本発明の画像入力装置の 1構成例において、前記画像認識手段は、記録さ れた画像とマーク画像とを比較することにより、解析しょうとする画像の対象物又は対 象物の特定部分を特定し、画像の解析処理を行なうように構成されているものである また、本発明は、画像入力装置が搭載されたロボットである。  Further, in one configuration example of the image input device of the present invention, the image recognition means compares a recorded image with a mark image to specify a specific part of an object or an object of an image to be analyzed. Further, the present invention is a robot equipped with an image input device.
[0016] また、本発明は、画像入力装置としてコンピュータを機能させる画像入力プログラム であって、撮影しょうとする対象物の画像を表示する表示ステップと、表示されている 対象物の画像に重畳して、対象物又は対象物の特定部分が配置されるべき位置を 示すマーク画像を表示するマーク重畳表示ステップとをコンピュータに実行させるよう にしたものである。 また、本発明の画像入力プログラムの 1構成例において、前記対象物の画像は、対 象物を画像解析により認識する為に入力される画像である。 Further, the present invention is an image input program for causing a computer to function as an image input device, comprising: a display step of displaying an image of an object to be photographed; and a display step of superimposing the image on the displayed image of the object. And a mark superimposing display step of displaying a mark image indicating a position where the target object or a specific part of the target object is to be arranged. In one configuration example of the image input program according to the present invention, the image of the target object is an image input for recognizing the target object by image analysis.
また、本発明の画像入力プログラムの 1構成例において、前記マーク重畳表示ステ ップは、記憶手段に記憶されている複数のマーク画像の中から、認識しょうとする対 象物又は対象物の特定部分に適したマーク画像を選択する選択ステップと、前記選 択ステップにより、選択されたマーク画像を、対象物の画像に重畳して表示する重畳 表示ステップとを備えるものである。  Further, in one configuration example of the image input program of the present invention, the mark superimposing display step includes specifying an object or an object to be recognized from a plurality of mark images stored in the storage means. A selection step of selecting a mark image suitable for the portion; and a superimposition display step of superimposing and displaying the mark image selected by the selection step on the image of the target object.
また、本発明の画像入力プログラムの 1構成例において、前記マーク画像は、対象 物又は対象物の特定部分の配置を、一つの指標画像で特定するような画像である。 また、本発明の画像入力プログラムの 1構成例において、前記マーク画像は、対象 物又は対象物の特定部分の配置を、複数の指標画像で特定するような画像である。 また、本発明の画像入力プログラムの 1構成例において、前記マーク画像は、画像 中の一つの対象物又は対象物の特定部分を特定するような画像である。  In one configuration example of the image input program of the present invention, the mark image is an image that specifies the location of a target object or a specific portion of the target object with one index image. In one configuration example of the image input program according to the present invention, the mark image is an image that specifies an arrangement of a target or a specific portion of the target with a plurality of index images. In one configuration example of the image input program of the present invention, the mark image is an image that specifies one target object or a specific portion of the target object in the image.
また、本発明の画像入力プログラムの 1構成例において、前記マーク画像は、画像 中の複数の対象物又は対象物の特定部分を特定するような画像である。  In one configuration example of the image input program according to the present invention, the mark image is an image that specifies a plurality of objects or specific portions of the objects in the image.
また、本発明の画像入力プログラムの 1構成例において、前記マーク重畳表示ステ ップは、マーク画像の表示位置を移動させるマーク画像移動ステップを備えるもので める。  In one configuration example of the image input program of the present invention, the mark superimposing display step may include a mark image moving step of moving a display position of a mark image.
また、本発明の画像入力プログラムの 1構成例において、前記マーク重畳表示ステ ップは、マーク画像の大きさを調整するマーク画像調整ステップを備えるものである。 また、本発明の画像入力プログラムの 1構成例において、前記マーク重畳表示ステ ップは、マーク画像の色を変更するマーク画像色変更ステップを備えるものである。 また、本発明の画像入力プログラムの 1構成例において、前記マーク重畳表示ステ ップは、マーク画像の輝度を調整するマーク画像輝度調整ステップを備えるものであ る。  In one configuration example of the image input program according to the present invention, the mark superimposing display step includes a mark image adjusting step of adjusting a size of a mark image. In one configuration example of the image input program according to the present invention, the mark superimposing display step includes a mark image color changing step of changing a color of the mark image. In one configuration example of the image input program of the present invention, the mark superimposing display step includes a mark image luminance adjusting step of adjusting the luminance of the mark image.
また、本発明の画像入力プログラムの 1構成例において、前記マーク重畳表示ステ ップは、前記マーク画像を重畳表示する際、記憶手段に記憶されているそのマーク 画像の説明も表示手段に表示するマーク画像説明表示ステップを備えるものである また、本発明の画像入力プログラムの 1構成例は、表示手段に表示されている画像 の記憶の指示を行なう指示ステップと、前記指示ステップの指示に基づいて、前記画 像を画像記憶手段に格納するステップとをさらに備えるものである。 In one configuration example of the image input program of the present invention, when the mark superimposing display step superimposes and displays the mark image, the description of the mark image stored in the storage means is also displayed on the display means. Mark image description display step is provided. One example of the configuration of the image input program according to the present invention includes an instruction step for giving an instruction to store an image displayed on the display means, and storing the image in the image storage means based on the instruction in the instruction step. And the step of performing.
また、本発明の画像入力プログラムの 1構成例は、前記指示ステップの指示に基づ レ、て画像が記憶される際、撮影画像と、撮影時に用レ、られたマーク画像を識別する マーク画像種別情報とを、前記画像記憶手段に格納するステップを備えるものである また、本発明の画像入力プログラムの 1構成例は、前記指示ステップの指示に基づ レ、て画像が記憶される際、撮影画像と、撮影時に用レ、られたマーク画像の表示位置 の情報であるマーク表示位置情報とを、前記画像記憶手段に格納するステップを備 えるものである。  One example of the configuration of the image input program according to the present invention is a mark image for identifying a photographed image and a mark image used for photographing when the image is stored based on the instruction in the instruction step. A step of storing the type information in the image storage means.In one embodiment of the image input program of the present invention, when an image is stored based on the instruction in the instruction step, A step of storing, in the image storage means, a photographed image and mark display position information which is information on a display position of a mark image used at the time of photographing.
また、本発明の画像入力プログラムの 1構成例は、前記指示ステップの指示に基づ レ、て画像が記憶される際、撮影画像にマーク画像が重畳された画像を、前記画像記 憶手段に格納するステップを備えるものである。  Also, one configuration example of the image input program of the present invention is such that, when an image is stored based on an instruction in the instruction step, an image in which a mark image is superimposed on a captured image is stored in the image storage unit. And a step of storing.
また、本発明の画像入力プログラムの 1構成例は、前記指示ステップの指示に基づ レ、て画像が記憶される際、撮影画像と、撮影時に用いられたマーク画像とが、別々に 前記画像記憶手段に格納するステップを備えるものである。  Also, one configuration example of the image input program of the present invention is such that when an image is stored based on the instruction in the instruction step, the captured image and the mark image used at the time of the imaging are separately stored in the image. And storing the data in a storage means.
また、本発明の画像入力プログラムの 1構成例において、前記指示ステップは、撮 影しょうとする対象物の画像の静止を検出し、静止が検出された場合に画像の記憶 の指示を行なうステップを備えるものである。  Further, in one configuration example of the image input program of the present invention, the instruction step includes a step of detecting a stillness of an image of an object to be captured, and instructing storage of the image when the stillness is detected. It is provided.
また、本発明の画像入力プログラムの 1構成例は、前記画像記憶手段に記憶され てレ、る画像を解析し、対象物又は対象物の特定部分の認識処理を行なう画像認識 ステップをさらに備えるものである。  Further, one example of the configuration of the image input program of the present invention further comprises an image recognition step of analyzing an image stored in the image storage means and performing a recognition process of a target or a specific portion of the target. It is.
また、本発明の画像入力プログラムの 1構成例において、前記画像認識ステップは In one configuration example of the image input program of the present invention, the image recognition step
、前記マーク画像種別情報を参照して、解析しょうとする画像の対象物又は対象物 の特定部分の種別を特定し、画像の解析処理を行なうステップを備えるものである。 また、本発明の画像入力プログラムの 1構成例において、前記画像認識ステップは 、前記マーク表示位置情報を参照して、解析しょうとする画像の対象物又は対象物 の特定部分の位置を特定し、画像の解析処理を行なうステップを備えるものである。 また、本発明の画像入力プログラムの 1構成例において、前記画像認識ステップはAnd a step of referring to the mark image type information to specify a type of a target object or a specific portion of the target object of the image to be analyzed, and performing an image analysis process. In one configuration example of the image input program of the present invention, the image recognition step A step of identifying the position of an object or a specific portion of the object to be analyzed with reference to the mark display position information, and performing an image analysis process. In one configuration example of the image input program of the present invention, the image recognition step
、前記マーク画像が重畳された画像から前記マーク画像を認識することによって、解 析しょうとする画像の対象物又は対象物の特定部分を特定し、画像の解析処理を行 なうステップを備えるものである。 A step of recognizing the mark image from the image on which the mark image is superimposed, specifying an object or a specific portion of the object to be analyzed, and performing an image analysis process. It is.
また、本発明の画像入力プログラムの 1構成例において、前記画像認識ステップは In one configuration example of the image input program of the present invention, the image recognition step
、記録された画像とマーク画像とを比較することにより、解析しょうとする画像の対象 物又は対象物の特定部分を特定し、画像の解析処理を行なうステップを備えるもの である。 And comparing the recorded image with the mark image to identify a target object or a specific part of the target object of the image to be analyzed, and perform an image analysis process.
発明の効果  The invention's effect
[0019] 本発明によれば、対象物を撮影する際、対象物や、対象物の特定部分を適切な位 置、大きさで撮影、記録することができる。  According to the present invention, when photographing an object, the object and a specific portion of the object can be photographed and recorded at an appropriate position and size.
[0020] また、画像記録時に、マーク画像の位置や、マークの意味等の情報も一緒に記録 し、これらの情報を、画像を解析して対象物や対象物の特定部分を認識する際に用 レ、るようにすれば、精度良ぐ対象物や、対象物の特定部分を抽出することができ、 対象物や対象物の特定部分の検出時間を大幅に短縮できるとともに、対象物の認識 精度を大幅に向上することができる。  [0020] Further, at the time of image recording, information such as the position of the mark image and the meaning of the mark is also recorded, and the information is used when analyzing the image and recognizing the target or a specific part of the target. By doing so, it is possible to extract an object with high accuracy and a specific part of the object, greatly reduce the time required to detect the object and the specific part of the object, and recognize the object. Accuracy can be greatly improved.
図面の簡単な説明  Brief Description of Drawings
[0021] [図 1]図 1は、本発明の第 1実施例における画像入力装置の構成を示すブロック図で める。  FIG. 1 is a block diagram showing a configuration of an image input device according to a first embodiment of the present invention.
[図 2]図 2は、本発明の第 1実施例におけるマーク画像の一例を示す図である。  FIG. 2 is a diagram illustrating an example of a mark image according to the first embodiment of the present invention.
[図 3]図 3は、本発明の第 1実施例におけるマーク画像生成手段の構成を示すブロッ ク図である。  FIG. 3 is a block diagram showing a configuration of a mark image generating unit according to the first embodiment of the present invention.
[図 4]図 4は、本発明の第 1実施例におけるマーク画像生成手段の他の構成を示す ブロック図である。  FIG. 4 is a block diagram showing another configuration of the mark image generating means in the first embodiment of the present invention.
[図 5]図 5は、本発明の第 1実施例におけるマーク画像生成手段の他の構成を示す ブロック図である。 [図 6]図 6は、本発明の第 1実施例におけるマーク画像の他の例を示す図である。 FIG. 5 is a block diagram showing another configuration of the mark image generating means in the first embodiment of the present invention. FIG. 6 is a diagram showing another example of a mark image in the first embodiment of the present invention.
[図 7]図 7は、本発明の第 1実施例における画像重畳手段の構成を示すブロック図で める。 FIG. 7 is a block diagram illustrating a configuration of an image superimposing unit according to the first embodiment of the present invention.
[図 8]図 8は、本発明の第 1実施例における指示手段の構成を示すブロック図である。  FIG. 8 is a block diagram showing a configuration of an instruction unit according to the first embodiment of the present invention.
[図 9]図 9は、本発明の第 1実施例における動作の一例を示す図である。 FIG. 9 is a diagram showing an example of an operation in the first example of the present invention.
[図 10]図 10は、本発明の第 1実施例における別の動作の一例を示す図である。 FIG. 10 is a diagram showing an example of another operation in the first example of the present invention.
[図 11]図 11は、本発明の第 2実施例におけるマーク画像の一例を示す図である。 FIG. 11 is a diagram showing an example of a mark image according to a second embodiment of the present invention.
[図 12]図 12は、本発明の第 2実施例におけるマーク画像の他の例を示す図である。 FIG. 12 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
[図 13]図 13は、本発明の第 2実施例におけるマーク画像の他の例を示す図である。 FIG. 13 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
[図 14]図 14は、本発明の第 2実施例におけるマーク画像の他の例を示す図である。 FIG. 14 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
[図 15]図 15は、本発明の第 2実施例におけるマーク画像の他の例を示す図である。 FIG. 15 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
[図 16]図 16は、本発明の第 2実施例におけるマーク画像の他の例を示す図である。 FIG. 16 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
[図 17]図 17は、本発明の第 2実施例におけるマーク画像の他の例を示す図である。 FIG. 17 is a diagram showing another example of a mark image in the second embodiment of the present invention.
[図 18]図 18は、本発明の第 2実施例におけるマーク画像の他の例を示す図である。 FIG. 18 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
[図 19]図 19は、本発明の第 2実施例におけるマーク画像の他の例を示す図である。 FIG. 19 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
[図 20]図 20は、本発明の第 2実施例におけるマーク画像の他の例を示す図である。 FIG. 20 is a diagram showing another example of a mark image according to the second embodiment of the present invention.
[図 21]図 21は、本発明の第 2実施例におけるマーク画像生成手段の構成を示すブ ロック図である。 FIG. 21 is a block diagram showing a configuration of a mark image generating unit according to a second embodiment of the present invention.
[図 22]図 22は、本発明の第 3実施例における画像入力装置の構成を示すブロック図 である。  FIG. 22 is a block diagram showing a configuration of an image input device according to a third embodiment of the present invention.
[図 23]図 23は、本発明の第 4実施例における画像入力装置の構成を示すブロック図 である。  FIG. 23 is a block diagram showing a configuration of an image input device according to a fourth embodiment of the present invention.
[図 24]図 24は、本発明の第 4実施例における画像認識手段の第 1の態様を示すプロ ック図である。  FIG. 24 is a block diagram showing a first mode of the image recognition means in the fourth embodiment of the present invention.
[図 25]図 25は、本発明の第 4実施例における画像認識手段の第 1の態様を説明する 為の図である。  FIG. 25 is a diagram for explaining a first mode of the image recognition means in the fourth embodiment of the present invention.
[図 26]図 26は、本発明の第 4実施例における画像認識手段の第 1の態様を説明する 為の図である。 [図 27]図 27は、本発明の第 4実施例における画像認識手段の第 1の態様を説明する 為の図である。 FIG. 26 is a diagram for explaining a first mode of the image recognition means in the fourth embodiment of the present invention. FIG. 27 is a view for explaining a first mode of the image recognition means in the fourth embodiment of the present invention.
[図 28]図 28は、本発明の第 4実施例における画像認識手段の第 1の態様を説明する 為の図である。  FIG. 28 is a diagram for explaining a first mode of the image recognition means in the fourth embodiment of the present invention.
[図 29]図 29は、本発明の第 4実施例における画像認識手段の第 2の態様を示すプロ ック図である。  FIG. 29 is a block diagram showing a second mode of the image recognition means in the fourth embodiment of the present invention.
[図 30]図 30は、本発明の第 4実施例における画像認識手段の第 2の態様を説明する 為の図である。  FIG. 30 is a view for explaining a second mode of the image recognition means in the fourth embodiment of the present invention.
[図 31]図 31は、本発明の第 4実施例における画像認識手段の第 3の態様を示すプロ ック図である。  FIG. 31 is a block diagram showing a third mode of the image recognition means in the fourth embodiment of the present invention.
[図 32]図 32は、本発明の第 4実施例における画像認識手段の第 3の態様を説明する 為の図である。  FIG. 32 is a diagram for describing a third mode of the image recognition means in the fourth embodiment of the present invention.
[図 33]図 33は、本発明の第 4実施例における画像認識手段の第 3の態様を説明する 為の図である。  FIG. 33 is a diagram for explaining a third mode of the image recognition means in the fourth embodiment of the present invention.
[図 34]図 34は、本発明の第 4実施例における画像認識手段の第 3の態様の別の構 成を示すブロック図である。  FIG. 34 is a block diagram showing another configuration of the third mode of the image recognition means in the fourth embodiment of the present invention.
[図 35]図 35は、本発明の第 4実施例における画像認識手段の第 3の態様の別の構 成を説明する為の図である。  FIG. 35 is a diagram for explaining another configuration of the third mode of the image recognition means in the fourth embodiment of the present invention.
[図 36]図 36は、本発明の第 4実施例における画像認識手段の第 4の態様を示すプロ ック図である。  FIG. 36 is a block diagram showing a fourth mode of the image recognition means in the fourth embodiment of the present invention.
[図 37]図 37は、本発明の第 4実施例における画像認識手段の第 4の態様を説明する 為の図である。  FIG. 37 is a view for explaining a fourth mode of the image recognition means in the fourth embodiment of the present invention.
[図 38]図 38は、本発明の第 4実施例における画像認識手段の第 5の態様を示すプロ ック図である。  FIG. 38 is a block diagram showing a fifth mode of the image recognition means in the fourth embodiment of the present invention.
[図 39]図 39は、本発明の第 4実施例における画像認識手段の第 5の態様を説明する 為の図である。  FIG. 39 is a view for explaining a fifth mode of the image recognition means in the fourth embodiment of the present invention.
[図 40]図 40は、本発明の第 4実施例における画像認識手段の第 6の態様を示すプロ ック図である。 [図 41]図 41は、本発明の第 4実施例における画像認識手段の第 6の態様を説明する 為の図である。 FIG. 40 is a block diagram showing a sixth mode of the image recognition means in the fourth embodiment of the present invention. FIG. 41 is a diagram for describing a sixth mode of the image recognition means in the fourth embodiment of the present invention.
[図 42]図 42は、本発明の第 4実施例における画像認識手段の第 7の態様を示すプロ ック図である。  FIG. 42 is a block diagram showing a seventh mode of the image recognition means in the fourth embodiment of the present invention.
[図 43]図 43は、本発明の第 4実施例における画像認識手段の第 7の態様を説明する 為の図である。  FIG. 43 is a diagram for explaining a seventh mode of the image recognition means in the fourth embodiment of the present invention.
[図 44]図 44は、本発明の第 5実施例となるコンピュータの構成を示すブロック図であ る。  FIG. 44 is a block diagram showing a configuration of a computer according to a fifth embodiment of the present invention.
[図 45]図 45は、本発明の第 6実施例のロボットを示す図である。  FIG. 45 is a diagram showing a robot according to a sixth embodiment of the present invention.
発明を実施するための最良の形態  BEST MODE FOR CARRYING OUT THE INVENTION
[0022] [第 1実施例] [First Example]
本発明の第 1実施例を説明する。図 1は第 1実施例における画像入力装置のブロッ ク図である。第 1実施例における画像入力装置は、図 1に示される如ぐ認識しようと する対象物を撮影するための画像入力手段 1と、認識すべき対象物又は対象物の特 定部分を配置すべき位置を示すマーク画像を生成するマーク画像生成手段 2と、画 像入力手段 1からえられた画像とマーク画像生成手段 2からえられたマーク画像とを 合成して、入力画像にマーク画像が重畳された画像を生成する画像重畳手段 3と、こ の画像重畳手段 3によって生成された画像が表示され、撮影される範囲 (撮影領域) を示す表示手段 4と、画像の記録を指示する指示手段 5と、指示手段 5より画像記録 の指示を受けて画像入力手段 1からの画像を記録する画像記憶手段 6とから構成さ れる。マーク画像生成手段 2と画像重畳手段 3とは、マーク重畳表示手段を構成して いる。  A first embodiment of the present invention will be described. FIG. 1 is a block diagram of the image input device according to the first embodiment. The image input device in the first embodiment should be provided with an image input means 1 for photographing an object to be recognized as shown in FIG. 1, and an object to be recognized or a specific portion of the object. The mark image generating means 2 for generating the mark image indicating the position, the image obtained from the image input means 1 and the mark image obtained from the mark image generating means 2 are combined, and the mark image is superimposed on the input image. Image superimposing means 3 for generating a captured image, display means 4 for displaying an image generated by the image superimposing means 3 and indicating a photographed area (imaging area), and instructing means for instructing recording of the image 5 and an image storage means 6 for receiving an image recording instruction from the instruction means 5 and recording an image from the image input means 1. The mark image generating means 2 and the image superimposing means 3 constitute a mark superimposing display means.
[0023] 画像入力手段 (撮像手段) 1は、認識しょうとする対象物 (被写体)を撮影して、その 対象物の画像を入力するためのものであり、例えば、 CCDのような撮像素子で構成 されたカメラである。  Image input means (imaging means) 1 is for taking an image of an object (subject) to be recognized and inputting an image of the object. It is a configured camera.
[0024] マーク画像生成手段 2は、画像入力手段 1により撮影される認識すべき対象物又は 対象物のうち特定部分を、どの位置に配置して撮影すれば良レ、かを示すマーク画像 を生成するものであって、そのマーク画像は、画像重畳手段 3により、対象物の画像 に重畳された形で表示手段 4に表示される。そして、マーク画像の形状や大きさ、表 示手段 4に配置される位置等は、認識すべき対象物や、対象物の特定部分の種類 や、撮影形態(撮影時のアングル等)によって異なる。 [0024] The mark image generating means 2 generates a mark image indicating the position of a target object to be recognized or a specific portion of the target object to be photographed by the image input means 1 which should be arranged and photographed. The mark image is generated by the image superimposing means 3 by using the image of the object. It is displayed on the display means 4 in a form superimposed on. The shape and size of the mark image, the position of the mark image on the display means 4, and the like differ depending on the target object to be recognized, the type of a specific portion of the target object, and the shooting mode (angle at the time of shooting, etc.).
[0025] 例えば、認識すべき対象物が人間の顔である場合、顔を認識する為の特定部分と して人間の両目が考えられる。その為には、両目の位置等がわかるように撮影される ことが必要である。 For example, when the object to be recognized is a human face, both eyes of a human can be considered as a specific part for recognizing the face. For that purpose, it is necessary to take pictures so that the positions of both eyes can be understood.
[0026] そこで、マーク画像生成手段 2は、人の両目が理想的な位置や大きさで撮影される よう、人間の両目をそれぞれ配置する位置を示す指標画像(図 2では十字)からなる マーク画像を生成する。ここで、指標画像は、対象物や対象物の特定部分を配置す る位置を示すようなものであれば良ぐ図 2の例では、指標画像を十字形状のものを 用いたが、これに限ることなぐ例えば、円状、実線、点線、四角形等の形状のような ものであっても良い。  Therefore, the mark image generating means 2 is a mark composed of an index image (cross in FIG. 2) indicating the positions of the human eyes so that the human eyes are photographed at ideal positions and sizes. Generate an image. Here, the index image may be any as long as it shows the position where the target object or a specific part of the target object is arranged.In the example of FIG. 2, the cross-shaped index image is used. For example, a shape such as a circle, a solid line, a dotted line, and a rectangle may be used.
[0027] また、マーク画像を、単数の指標画像でなぐ複数の指標画像で構成すれば、対象 物や対象物の特定部分の方向や向きも正しく配置することができる。例えば、図 2に 示す如ぐ二つの指標画像を用いて、その二つの指標画像に両目をそれぞれ配置 するようにすれば、顔の向きが正面を向いた状態で撮影、記録ができる。  [0027] Further, if the mark image is composed of a plurality of index images connected by a single index image, the direction and the direction of the target object or a specific portion of the target object can be correctly arranged. For example, by using two index images as shown in FIG. 2 and arranging both eyes on the two index images, shooting and recording can be performed with the face facing forward.
[0028] 尚、以下の説明において、単数又は複数の指標画像を含んだ全体のものをマーク 画像として説明する。  In the following description, the whole image including one or more index images will be described as a mark image.
[0029] マーク画像生成手段 2の一例を図 3に示す。図 3に示す如ぐマーク画像を表示手 段 4は、画像生成手段 21とマーク基本情報保持手段 22とを有する。マーク基本情報 保持手段 22は、記憶手段、マーク画像種別情報記憶手段およびマーク画像表示位 置情報記憶手段を構成してレ、る。  FIG. 3 shows an example of the mark image generating means 2. The means 4 for displaying a mark image as shown in FIG. 3 includes an image generating means 21 and a mark basic information holding means 22. The mark basic information holding means 22 constitutes a storage means, a mark image type information storage means and a mark image display position information storage means.
[0030] マーク基本情報保持手段 22は、マークに関する基本情報 (マークの画像データと、 その座標値、例えば、表示手段 4の表示領域における右目の位置と左目の座標値) を保持している。  The mark basic information holding unit 22 holds basic information on the mark (image data of the mark and its coordinate value, for example, the position of the right eye and the coordinate value of the left eye in the display area of the display unit 4).
[0031] 画像生成手段 21は、マーク基本情報保持手段 22から、マークに関する基本情報 を読み出して、マーク画像を生成し、画像重畳手段 3に出力する。  The image generating means 21 reads out basic information on the mark from the mark basic information holding means 22, generates a mark image, and outputs the mark image to the image superimposing means 3.
[0032] 尚、利用者の便宜を図るため、マーク画像生成手段 2を、マークの大きさ(十字のサ ィズ)や、位置、外形のサイズを変更できるように構成しても良い。この場合、図 4に示 す如ぐマークの大きさ(十字のサイズ)や、位置、外形のサイズを変更するマーク位 置'サイズ変更手段 23を、マーク画像生成手段 2に追加する。このような構成をとるこ とにより、利用者にとって認識しやすい大きさ等にマークを変更することができる。マ ーク位置 ·サイズ変更手段 23は、マーク画像移動手段およびマーク画像調整手段を 構成している。 [0032] For the convenience of the user, the mark image generating means 2 is provided with a mark size (cross-shaped support). Size), the position, and the size of the outer shape may be changed. In this case, a mark position 'size changing means 23 for changing a mark size (cross size), a position and an outer size as shown in Fig. 4 is added to the mark image generating means 2. By adopting such a configuration, the mark can be changed to a size or the like that can be easily recognized by the user. The mark position / size changing means 23 constitutes mark image moving means and mark image adjusting means.
[0033] また、マーク画像の色も変更できるように構成しても良い。この場合、図 5に示す如く 、マークの色を変更するマーク色変更手段 24を、マーク画像生成手段 2に追加する 。このような構成をとることにより、逆光時や、夜間の撮影時にも、利用者にとって、マ 一クの色を認識しやすい色にすることができる。マーク色変更手段 24は、マーク画像 色変更手段を構成してレ、る。  [0033] Further, a configuration may be adopted in which the color of the mark image can also be changed. In this case, as shown in FIG. 5, a mark color changing means 24 for changing the mark color is added to the mark image generating means 2. By adopting such a configuration, it is possible to make the color of the mark easily recognizable to the user even in backlight or at night. The mark color changing means 24 constitutes a mark image color changing means.
[0034] 更に、マーク画像の説明を表示できるように構成しても良レ、。例えば、図 6に示す如 く、「右目」、「左目」といった説明や、「目の位置にあわせてください」といった説明を マーク画像とともに表示するようにしても良い。この場合、マーク基本情報保持手段 2 2にマーク画像の説明の情報も保持しておくようにする。  [0034] Further, it may be configured to display the description of the mark image. For example, as shown in FIG. 6, a description such as “Right eye” or “Left eye” or a description such as “Adjust to eye position” may be displayed together with the mark image. In this case, the mark basic information holding means 22 also holds information on the description of the mark image.
[0035] 画像重畳手段 3は、画像入力手段 1からの対象物の画像と、マーク画像生成手段 2 よりえられたマーク画像とを合成して、対象物の画像(入力画像)にマーク画像が重 畳された画像を生成するものである。画像重畳手段 3は、重畳表示手段、マーク画像 説明表示手段およびマーク画像輝度調整手段を構成している。  The image superimposing means 3 combines the image of the object from the image input means 1 and the mark image obtained by the mark image generating means 2 to form a mark image on the image of the object (input image). This is to generate a superimposed image. The image superimposing means 3 constitutes superimposing display means, mark image explanation displaying means, and mark image luminance adjusting means.
[0036] 重畳方法の第 1の例としては、マーク画像を入力画像に優先するマーク画像優先 型が考えられる。この方法は、入力画像を f (X, y)、マーク画像を g (x, y)、重畳画像 を h (x, y)とした場合、以下のように表すことができる。  As a first example of the superposition method, a mark image priority type in which a mark image is prioritized over an input image can be considered. This method can be expressed as follows when the input image is f (X, y), the mark image is g (x, y), and the superimposed image is h (x, y).
[0037] [数 1] h (x, y)二 f (x, y) i f g (x, y)二 0 · ' ' ( i ) h (x , y)= g (x , y) i f g(x , y)≠0 . . . ( 2 ) [0037] [Equation 1] h (x, y) ii f (x, y) ifg (x, y) ii 0 · '' (i) h (x, y) = g (x, y) ifg (x , y) ≠ 0... (2)
[0038] すなわち、入力画像とマーク画像とが同一の表示座標にある場合、マーク画像を優 先して表示するように構成してレ、る。 [0038] That is, when the input image and the mark image are at the same display coordinates, the mark image is configured to be displayed preferentially.
[0039] 重畳方法の第 2の例としては、入力画像とマーク画像との輝度値を混合する混合型 が考えられる。この方法は、入力画像を f (X, y)、マーク画像を g(x, y)、重畳画像を h(x, y)とした場合、以下のように表すことができる。 [0039] As a second example of the superposition method, a mixed type that mixes luminance values of an input image and a mark image is used. Can be considered. This method can be expressed as follows when the input image is f (X, y), the mark image is g (x, y), and the superimposed image is h (x, y).
[0040] [数 2] h( , y)=axfix, y)+ xg(x , y j . · · (3)[0040] [Equation 2] h (, y) = axfix, y) + xg (x, y j. · · (3)
[0041] ここで、 ひ、 βは重み付けの定数であるが、 aぐ βの場合には入力画像よりもマー ク画像がはっきり見え、 a > j3の場合にはマーク画像よりも入力画像がはっきり見え るようになる。また、 ひ、 /3を任意の値に変更できるように構成して重畳比率を変更で きるように構成し、任意に、マーク画像を透明にしたり、半透明にしたりできるようにし ても良い。 Here, β is a weighting constant. When a is β, the mark image is more visible than the input image, and when a> j3, the input image is more clear than the mark image. It becomes visible. Also, the configuration may be such that // 3 can be changed to any value and the superimposition ratio can be changed so that the mark image can be made transparent or translucent arbitrarily.
[0042] 重畳方法の第 3の例としては、マーク画像を破線'点線等で表現する位置的混合型 が考えられる。この方法は、入力画像を f (X, y)、マーク画像を g(x, y)、重畳画像を h(x, y)とした場合、以下のように表すことができる。  [0042] As a third example of the superposition method, a position-mixed type in which a mark image is represented by a broken line or a dotted line can be considered. This method can be expressed as follows when the input image is f (X, y), the mark image is g (x, y), and the superimposed image is h (x, y).
[0043] [数 3] h(x, y)= g(x, y) i f(i(x, y)=0) … (4) h( , y)= f ( , y) e l s e . . . (5) [Equation 3] h (x, y) = g (x, y) if (i (x, y) = 0)… ( 4 ) h (, y) = f (, y) else. (Five)
[0044] ここで、 i(x, y)は、 x, yに関する点線や、破線といった条件である。 Here, i (x, y) is a condition such as a dotted line or a broken line regarding x and y.
[0045] 以上の如ぐ入力画像とマーク画像との重畳方法の例を説明したが、これに限るも のでなぐ例えば、輝度混合型と位置的混合型を組み合わせて使用しても良い。  [0045] The example of the method of superimposing the input image and the mark image as described above has been described. However, the present invention is not limited to this. For example, a combination of a luminance mixing type and a positional mixing type may be used.
[0046] また、画像重畳手段 3は、利用者がマーク画像をオンオフできるような機構を備える ようにしても良い。この場合、画像重畳手段 3は、図 7に示す如ぐ重畳画像生成手段 31及びマーク画像オンオフ指定手段 32を有し、マーク画像オンオフ指定手段 32に よるマーク画像のオン又はオフの指示に従い、重畳画像生成手段 31がマーク画像 の重畳をオン又はオフにするように構成する。  Further, the image superimposing means 3 may include a mechanism that allows the user to turn on and off the mark image. In this case, the image superimposing means 3 has a superimposed image generating means 31 and a mark image on / off designating means 32 as shown in FIG. 7, and superimposes according to a mark image on / off instruction by the mark image on / off designating means 32. The image generating means 31 is configured to turn on or off the superimposition of the mark image.
[0047] 表示手段 4は、画像重畳手段 3によって生成された画像が表示されるものである。  [0047] The display means 4 displays the image generated by the image superimposing means 3.
表示手段 4の具体例としては、デジタルカメラに用いられる液晶ディスプレイに限らず 、 CRTモニタ、プラズマディスプレイ等でも良い。また、光学的なファインダ一等でも 良い。 [0048] 指示手段 5は、画像記録の指示をするものであって、例えば、カメラのシャッターで ある。画像記録の指示は、シャッターを押す、又は利用者の指示する音声といったも ので行なわれる。 Specific examples of the display means 4 are not limited to a liquid crystal display used in a digital camera, but may be a CRT monitor, a plasma display, or the like. Alternatively, an optical finder may be used. The instruction means 5 is for instructing image recording, and is, for example, a shutter of a camera. The instruction to record an image is made by pressing a shutter or by a voice instructed by a user.
[0049] 尚、指示手段 5は、上述のカメラにおけるシャッター等のボタンによる手段や、音声 による指示、遠隔操作されたスィッチといった形態に加えて、映像処理技術に基づく 指示手段でもかまわない。  Note that the instruction means 5 may be an instruction means based on a video processing technique in addition to the above-mentioned means such as a button such as a shutter in a camera, an instruction by voice, and a remotely operated switch.
[0050] 例えば、図 8に示す如ぐ指示手段 5を、基本画像記憶手段 51と、画像比較手段 5 2と、保持時間記録手段 53と、指示決定手段 54とから構成する。そして、画像比較 手段 52が、入力画像と、基本画像記憶手段 51に記憶されている画像 (初期は黒又 は白の画像)とを比較し、あら力、じめ定めた閾値よりも違いが大きい(類似していなレ、) 場合には、保持時間記録手段 53の時間を 0として、基本画像記憶手段 51の画像を 入力画像に置き換えるように動作する。又、画像比較結果があらかじめ定めた閾値よ りも違いが小さい(類似している)場合には、基本画像記憶手段 51の画像を保持し、 保持時間記録手段 53に記憶されている時間を更新するように動作する。  For example, the instruction means 5 as shown in FIG. 8 includes a basic image storage means 51, an image comparison means 52, a holding time recording means 53, and an instruction determination means 54. Then, the image comparing means 52 compares the input image with the image (black or white image initially) stored in the basic image storing means 51 and finds that the difference is smaller than the roughness or the predetermined threshold. If it is large (not similar), the operation is performed such that the time of the holding time recording means 53 is set to 0 and the image of the basic image storage means 51 is replaced with the input image. When the image comparison result is smaller (similar) than the predetermined threshold value, the image in the basic image storage means 51 is retained and the time stored in the retention time recording means 53 is updated. To work.
[0051] 指示決定手段 54は、保持記録手段 53に記憶されている時間があら力じめ定めた 閾値を超えたときに、入力指示を行なう。  [0051] The instruction determining means 54 issues an input instruction when the time stored in the holding and recording means 53 exceeds a predetermined threshold.
[0052] このような構成をとることにより、入力画像が特定の時間変化がなかったときに、指 示入力を行なうことができるようになり、利用者は、カメラを特定の時間静止させること により、シャッターを押すことなぐ入力を行なうことができる。  [0052] By adopting such a configuration, it is possible to perform an instruction input when the input image has not changed for a specific time, and the user can stop the camera for a specific time to thereby make the camera stand still. , Input can be performed without pressing the shutter.
[0053] 上記の例では、顔画像をもとに説明した力 対象は顔でなくても、花や自動車、ビ ノレ、動物といった一般のオブジェクトに対して適用可能である。  [0053] In the above example, the force object described based on the face image is not a face, but can be applied to general objects such as flowers, cars, vinyl, and animals.
[0054] 画像記憶手段 6は、指示手段 5の記録指示により、画像入力手段 1からの画像を記 録する。尚、画像を記録する媒体は、 RAMや、フラッシュメモリー、ハードディスク等 である。  The image storage unit 6 records the image from the image input unit 1 according to the recording instruction of the instruction unit 5. The medium on which the image is recorded is a RAM, a flash memory, a hard disk, or the like.
[0055] 次に、上記のような構成における動作を説明する。  Next, an operation in the above configuration will be described.
[0056] 図 9は、第 1実施例における動作の一例を示す図である。 FIG. 9 is a diagram showing an example of the operation in the first embodiment.
[0057] 図 9において、画像入力手段 1により、被写体 (対象物)の画像が入力される。一方 、被写体の目の位置が表示画像上で配置されるべき位置を示したマーク画像が、マ ーク画像生成手段 2から出力される。 In FIG. 9, an image of a subject (object) is input by the image input unit 1. On the other hand, a mark image indicating the position where the eye position of the subject should be placed on the display image is Output from the image generator 2.
[0058] マーク画像と画像入力手段 1からの入力画像とは、画像重畳手段 3により重畳され 、重畳画像が表示手段 4に表示されて利用者に提示される。  [0058] The mark image and the input image from the image input means 1 are superimposed by the image superimposing means 3, and the superimposed image is displayed on the display means 4 and presented to the user.
[0059] 利用者は、画像入力手段 1のズームイン 'アウトの機能や、画像入力手段 1と被写 体との相対位置を修正することによって、重畳画像中で、 目の瞳の位置とマーク画像 との位置を重ね合わせるように調整する。そして、調整後、指示手段 5により、画像入 力取り込みを指示し、その時点での入力画像が画像記憶手段 6に記録される。  The user can adjust the position of the pupil of the eye and the mark image in the superimposed image by correcting the zoom-in / out function of the image input unit 1 and the relative position between the image input unit 1 and the object. Adjust so that the positions overlap. Then, after the adjustment, the instruction means 5 instructs image input capture, and the input image at that time is recorded in the image storage means 6.
[0060] このように動作させることにより、画像記憶手段 6に記録された画像は、マークの位 置に両目が映っている映像となり、両目(特定部分)の抽出の精度を大幅に向上する ことができ、更には、被写体認識精度を大幅に向上することができる。  By operating as described above, the image recorded in the image storage means 6 becomes a video in which both eyes are shown at the mark positions, and the accuracy of extracting both eyes (specific portions) is greatly improved. In addition, the object recognition accuracy can be greatly improved.
[0061] 図 10は第 1実施例における別の動作の一例を示す図である。  FIG. 10 is a diagram showing an example of another operation in the first embodiment.
[0062] 図 10では、車を対象物として認識する場合の例を示しており、タイヤが特定部分で ある場合の例である。そして、マーク画像は、特定部位のタイヤを配置すべき位置を 示すものである。  FIG. 10 shows an example in which a car is recognized as a target object, in which a tire is a specific part. Then, the mark image indicates a position where the tire of the specific part is to be arranged.
[0063] 画像入力手段 1は、最初、車を右斜めの方向から撮影している。マーク画像により タイヤの位置が規定され、それに合わせる形で車を横方向から撮影し、マーク画像と タイヤとの位置が合ったところで、画像を記録することにより、車が適切な位置、方向 で記録された画像となる。  [0063] The image input means 1 first captures an image of a car from a diagonally right direction. The position of the tires is defined by the mark image, and the car is photographed from the side in such a way as to match it, and when the position of the mark image and the tire match, the image is recorded, so that the car is recorded in the appropriate position and direction. Image.
[0064] 上述の如ぐ本発明によれば、対象物や、対象物の特定部分が画像の中で理想的 な位置、大きさで配置された画像を記録することができ、又、複数の指標画像で構成 されたマーク画像では対象物や対象物の特定部分の大きさや、方向、向きも画像の 中で正しく規定配置された画像を記録することができるので、対象物や、対象物の特 定部分の抽出の精度を大幅に向上することができ、更には、対象物や、対象物の特 定部分の認識精度を大幅に向上することができる。  According to the present invention as described above, an image in which an object or a specific portion of the object is arranged at an ideal position and size in the image can be recorded. In a mark image composed of index images, the size, direction, and orientation of the target object or a specific part of the target object can be recorded in an image that is correctly defined in the image, so that the target object and the target object can be recorded. It is possible to greatly improve the accuracy of extracting a specific part, and further, it is possible to greatly improve the recognition accuracy of the target object and the specific part of the target object.
なお、画像記憶手段 6は、必ずしも画像入力装置内部に設ける必要はなぐネットヮ ークによって接続された遠隔地のサーバに設けるように構成しても良レ、。画像記憶手 段 6は、高い処理能力を必要とする場合が多いので、携帯電話等の処理能力の少な レ、ものについては、このような構成が良レ、。 [0065] [第 2実施例] Note that the image storage means 6 may be provided in a remote server connected by a network, which is not necessarily provided inside the image input device. Since the image storage means 6 often requires a high processing capacity, such a configuration is good for a mobile phone or the like having a low processing capacity. [Second Example]
次に、本発明の第 2実施例を説明する。本実施例において、画像入力装置全体の 構成は第 1実施例と同様であるので、図 1の符号を用いて説明する。  Next, a second embodiment of the present invention will be described. In the present embodiment, since the configuration of the entire image input device is the same as that of the first embodiment, the description will be made using the reference numerals in FIG.
[0066] 第 1実施例では、認識すべき対象物が人間の顔であり、特定部分が人間の両目の 場合におけるマーク画像の例を説明した。し力 ながら、本発明は、認識すべき対象 物が人間の顔に限らず、人物、車、花、その他一般の対象物について適用可能であ る。そこで、第 2実施例では、認識すべき対象物や、対象物の特定部分の種別に応 じたマーク画像の例について説明する。以下に、マーク画像の例を説明する。 In the first embodiment, the example of the mark image in the case where the object to be recognized is a human face and the specific portion is the human eyes is described. However, the present invention can be applied not only to a human face but also to a person, a car, a flower, and other general objects. Therefore, in a second embodiment, an example of a mark image according to the type of an object to be recognized and a specific portion of the object will be described. Hereinafter, an example of the mark image will be described.
[0067] 図 11に示されるマーク画像は、 目のラインと口の位置とを利用者側に情報として提 供できるような形状を採用してレ、る。 The mark image shown in FIG. 11 adopts a shape that can provide the eye line and the position of the mouth as information to the user side.
[0068] 図 12に示されるマーク画像は、顔全体を特定部分と捉え、顔の輪郭を示すことによ り、認識しょうとする顔の画像が、適切な大きさ及び位置になるようにしている。 [0068] The mark image shown in Fig. 12 regards the entire face as a specific portion and shows the outline of the face, so that the face image to be recognized has an appropriate size and position. I have.
[0069] 図 13に示されるマーク画像は、顔全体を特定部分と捉える場合の他の例であってThe mark image shown in FIG. 13 is another example in which the entire face is regarded as a specific part.
、外接四角形の形状をしている。 , Has the shape of a circumscribed rectangle.
[0070] 図 14に示されるマーク画像は、複数のオブジェクトの位置関係まで含めて調整でき るマーク画像の例であり、具体的には、 2人の目の位置をマーク画像に合わせれば、 適切な画像を撮影できる例である。 [0070] The mark image shown in Fig. 14 is an example of a mark image that can be adjusted to include the positional relationship of a plurality of objects. This is an example in which a simple image can be captured.
[0071] 図 15は物体の詳細な記述をマーク画像に用いた例である。図 16では、馬の体型 がそのまま認識情報として利用でき、後述する第 3実施例で述べる認識処理側に送 ることにより、認識処理を大幅に軽減できる。 FIG. 15 is an example in which a detailed description of an object is used for a mark image. In FIG. 16, the body type of the horse can be used as it is as the recognition information, and by sending it to the recognition processing side described in the third embodiment described later, the recognition processing can be greatly reduced.
[0072] 図 16に示されるマーク画像は、実際の画像を彷彿させる表現を利用した例であり、 目の形をもじったマーク画像の例である。これにより、表示されるマーク画像が何の特 定部分を示してレ、るかが容易に利用者にわかるようになる。 The mark image shown in FIG. 16 is an example using an expression reminiscent of an actual image, and is an example of a mark image that resembles an eye. As a result, the user can easily recognize what specific part the displayed mark image indicates.
[0073] 図 17に示されるマーク画像は、人物の場所について規定したものである。野球のよ うなものや、複数人物での記念撮影等にも適用できる。 The mark image shown in FIG. 17 defines the location of a person. It can also be applied to things like baseball and commemorative photography with multiple people.
[0074] 図 18に示されるマーク画像は、花に対する入力に用いられる例である。中心(がく 等があるところ)と花びらとの位置情報を認識情報として、後述する第 3実施例で述べ る認識処理側に送ることにより、認識処理を大幅に軽減できる。 [0075] 図 19に示されるマーク画像は、風景の中での人物の顔位置を認識する場合のマ ーク画像である。風景の中に人物がまぎれてしまって、検出が難しい場合に、顔の位 置の情報を、第 3実施例で述べる認識処理側に送ることにより、顔検出作業を大幅に 軽減できる。 The mark image shown in FIG. 18 is an example used for inputting a flower. Recognition processing can be greatly reduced by sending the position information of the center (where there is a sepal, etc.) and the petals as recognition information to the recognition processing side described in the third embodiment described later. The mark image shown in FIG. 19 is a mark image for recognizing a face position of a person in a landscape. When it is difficult to detect a person in the scenery and the detection is difficult, by sending the information on the face position to the recognition processing side described in the third embodiment, the face detection operation can be greatly reduced.
[0076] 図 20に示されるマーク画像は、一点による指定で、大きさについて固定することは できないが、認識する対象物 (特定部分)が指輪等の小さいものの場合、これで十分 である場合も多い。  The size of the mark image shown in FIG. 20 cannot be fixed by specifying one point, but if the object to be recognized (specific part) is a small one such as a ring, this may be sufficient. Many.
[0077] 以上のように、マーク画像は、対象物や、対象物の特定部分の配置を指定すること により、画像中での対象物や、対象物の特定部分の大きさを正規化することもできる ものでも良いし、また、一点を示すことにより、検出の範囲を固定するようにしても良い 。また、複数の物体の部位をしめすことにより、映像中からの複数ある対象物を規定 することちでさる。  As described above, in the mark image, the size of the target object or the specific part of the target object in the image is normalized by designating the position of the target object or the specific part of the target object. Alternatively, the detection range may be fixed by indicating one point. In addition, by indicating the parts of a plurality of objects, it is possible to specify a plurality of objects from the video.
[0078] 上述したマーク画像は、一種類にして、あら力じめ規定としてしまっても良レ、が、複 数のマーク画像をマーク画像生成手段 2に用意し、利用者が事前にメニューの中か ら選択してマークを選択するという形態もとれる。この場合、マーク画像生成手段 2の 中に、図 21に示す如ぐメニューによるマーク選択手段 25を設ける。  [0078] The mark images described above may be of a single type and may be defined as a rough rule, but a plurality of mark images may be prepared in the mark image generating means 2 and the user may select a menu in advance. The mark can be selected by selecting from among them. In this case, a mark selection means 25 using a menu as shown in FIG. 21 is provided in the mark image generation means 2.
[0079] また、マーク画像を利用者が位置 ·場所 ·大きさ等新たに作成して登録することが可 能な形式にすることもできる。  [0079] Further, the mark image may be in a format that allows a user to newly create and register the position, location, size, and the like.
[0080] [第 3実施例]  [Third Example]
次に、本発明の第 3実施例を説明する。  Next, a third embodiment of the present invention will be described.
[0081] 上述した第 1実施例および第 2実施例では、マーク画像により、対象物や、対象物 の特定部分が適切な大きさ及び位置に配置された画像が記録される場合を説明した 。し力、しながら、記録された画像データと共に、マーク画像の位置情報や、そのマー ク画像の意味の情報等も一緒に記録し、これらの情報を画像認識処理時に用いるよ うにすれば、画像認識の精度上昇や、処理負担を軽減することができる。そこで、第 3実施例では、対象物の画像データのみならず、マーク画像の情報等も同時に記録 する例を説明する。  In the first and second embodiments described above, a case where an image in which a target object or a specific portion of the target object is arranged at an appropriate size and position is recorded by a mark image has been described. In addition to the recorded image data, the position information of the mark image, the information on the meaning of the mark image, and the like are also recorded, and if such information is used in the image recognition processing, the image The accuracy of recognition can be increased and the processing load can be reduced. Therefore, in the third embodiment, an example will be described in which not only image data of a target object but also information of a mark image and the like are simultaneously recorded.
[0082] 図 22は第 3実施例のブロック図である。尚、第 1実施例と同様なものについては、 同じ符号を付して詳細な説明は省略する。画像記憶手段 6aは、第 1実施例および第 2実施例で説明した機能に加えて、以下のような機能を有する。 FIG. 22 is a block diagram of the third embodiment. In addition, about the thing similar to 1st Example, The same reference numerals are given and detailed description is omitted. The image storage means 6a has the following functions in addition to the functions described in the first and second embodiments.
[0083] 第 1実施例および第 2実施例と異なるところは、マーク画像生成手段 2のマーク基本 情報保持手段 22に記録されてレ、るマーク画像の位置情報 (例では両目の座標位置 )が、画像記憶手段 6aに入力されている点である。そして、指示手段 5による画像の 記録の指示がだされた場合、マーク画像生成手段 2のマーク基本情報保持手段 22 に記録されてレ、るマーク画像の位置情報 (例では両目の座標位置)を、画像記憶手 段 6aに画像データと共に記録する。  The difference from the first embodiment and the second embodiment is that the position information (the coordinate position of both eyes in the example) of the mark image recorded in the mark basic information holding means 22 of the mark image generating means 2 is recorded. Is input to the image storage means 6a. When an instruction to record an image is issued by the instruction means 5, the position information of the mark image recorded in the mark basic information holding means 22 of the mark image generation means 2 (the coordinate position of both eyes in the example) is obtained. Then, it is recorded together with the image data in the image storage means 6a.
[0084] このようにすれば、画像認識処理時に、マーク画像の位置情報に基づいて、的確 に対象物や対象物の特定部分を抽出することができ、認識処理の精度の向上や、処 理負担の軽減ができる。  [0084] In this way, at the time of image recognition processing, it is possible to accurately extract a target object or a specific portion of the target object based on the position information of the mark image, thereby improving the accuracy of the recognition processing and processing. The burden can be reduced.
[0085] 更に、マーク画像の位置情報のみならず、そのマーク画像の種別(例えば、 目を配 置する為のマーク画像など)も記録するようにしても良い。例えば、撮影時に用いたマ ーク画像が人間の目を配置する位置を十字ほたは点)である場合、用いられたマー ク画像が人間の目のマーク画像であることと、そのマーク画像の位置情報とを記録し ておけば、認識処理時に、対象物の特定部分が目であり、その目の記録画像中の位 置もわかるので、認識処理の精度が向上し、処理負担も大幅に軽減ができる。  Further, not only the position information of the mark image but also the type of the mark image (for example, a mark image for arranging eyes) may be recorded. For example, when the mark image used at the time of photographing is a cross point where the position of the human eye is placed), the mark image used is the mark image of the human eye, and the mark image If the position information is recorded, the specific part of the object is the eye during the recognition process, and the position of the eye in the recorded image can be known, so that the accuracy of the recognition process is improved and the processing load is large. Can be reduced.
[0086] このように、対象物や、対象物の特定部分の位置だけでなぐ対象物や、対象物の 特定部分が何なのかの情報も、対象物の画像とともに記録するようにすれば、より一 層、認識処理の精度が向上し、処理負担も大幅に軽減ができる。  [0086] As described above, by recording an object, an object that is located only at the position of a specific portion of the object, and information about the specific portion of the object together with the image of the object, The accuracy of the recognition process is further improved, and the processing load can be greatly reduced.
[0087] 更に、複数のマーク画像がある場合や、認識エンジンを一般化したい場合には、入 力映像と、マーク画像の種別及び座標値というように、マーク情報をメタデータの形で 表現し、画像記憶手段 6aに記憶させても良い。  [0087] Further, when there are a plurality of mark images or when it is desired to generalize the recognition engine, mark information is represented in the form of metadata such as an input video and the type and coordinate value of the mark image. , May be stored in the image storage means 6a.
[0088] また、入力映像とマーク映像とを別々に画像記憶手段 6aに記憶させても良い。  Further, the input video and the mark video may be separately stored in the image storage unit 6a.
[0089] [第 4実施例]  [Fourth embodiment]
次に、本発明の第 4実施例を説明する。  Next, a fourth embodiment of the present invention will be described.
[0090] 上述の第 1実施例から第 3実施例では、認識対象となる画像の記録までを行なう構 成としたが、第 4実施例では、第 1実施例から第 3実施例に加え、記録された画像の 認識処理まで行なう。 In the first to third embodiments described above, the configuration is such that the recording of the image to be recognized is performed. However, in the fourth embodiment, in addition to the first to third embodiments, Of recorded images Performs up to recognition processing.
[0091] 図 23は第 4実施例を示すブロック図である。  FIG. 23 is a block diagram showing a fourth embodiment.
[0092] 第 4実施例では、第 1実施例から第 3実施例の構成に加えて、画像認識手段 7を設 けている。この画像認識手段 7は、画像記憶手段 6又は 6aに記録された画像データ に基づレ、て、画像を解析して対象部を認識する処理を行なう。  [0092] In the fourth embodiment, an image recognition means 7 is provided in addition to the configuration of the first to third embodiments. The image recognition means 7 performs a process of analyzing an image and recognizing a target portion based on the image data recorded in the image storage means 6 or 6a.
[0093] 以下に、画像認識手段 7の態様について詳細に説明する。尚、以下の説明におい て、画像を解析して対象物や対象物の特定部分を認識する際、対象物の画像デー タと共に第 3実施例で述べたマーク画像の意味情報(マーク画像種別情報)や位置 情報等が記録されているものとして説明する。  Hereinafter, the mode of the image recognition means 7 will be described in detail. In the following description, when an image is analyzed to recognize an object or a specific part of the object, the semantic information (mark image type information) of the mark image described in the third embodiment is used together with the image data of the object. ) And position information are recorded.
[0094] まず、画像認識手段 7の第 1の態様について説明する。  First, the first mode of the image recognition means 7 will be described.
[0095] 図 24は、第 1の態様による画像認識手段 7のブロック図である。  FIG. 24 is a block diagram of the image recognition means 7 according to the first embodiment.
[0096] 図 24に示される如ぐ画像認識手段 7は、認識用テンプレート記憶手段 71と、位置 整合手段 72と、類似度算出手段 73とを有している。  The image recognition means 7 as shown in FIG. 24 includes a recognition template storage means 71, a position matching means 72, and a similarity calculation means 73.
[0097] 認識用テンプレート記憶手段 71には、図 25に示される如ぐ入力画像との照合の 為の各人の顔を撮影したテンプレートが記憶されている。これら認識用のテンプレー トの記憶時には、本発明が提案する入力装置ないし、手動ないし、 自動的に認識用 テンプレートにおける両目の位置を抽出しておく。  [0097] In the recognition template storage means 71, as shown in Fig. 25, a template in which the face of each person is photographed for collation with the input image is stored. At the time of storing these recognition templates, the positions of both eyes in the recognition template are manually or automatically extracted from the input device proposed by the present invention.
[0098] また、人物では、顔の形はすべて違うため、 目の位置等も各人同一ではない。単純 に画像を重ね合わせると、図 26に示されように顔の違う部分を整合してしまう。そこで 、位置整合手段 72は、画像記憶手段 6又は 6aに記録された画像と、認識用テンプレ ート記憶手段 71に記憶されているテンプレートとの整合時に、記録された画像のマ ーク画像の位置情報と、テンプレートの位置情報とに基づいて、いずれか一方の画 像に対して、ァフィン変換 (拡大縮小と回転と位置を補正する変換)をかけ、図 27に 示されるようにほとんどの要素部品の位置が一致するようにする動作する。  [0098] In addition, since the shapes of faces are all different between persons, the positions of eyes and the like are not the same for each person. If the images are simply superimposed, different parts of the face will be aligned as shown in Figure 26. Therefore, the position matching unit 72 matches the image stored in the image storage unit 6 or 6a with the template stored in the recognition template storage unit 71, and matches the mark image of the recorded image. Based on the position information and the position information of the template, one of the images is subjected to an affine transformation (conversion to correct the enlargement / reduction, rotation, and position), and as shown in FIG. An operation is performed so that the positions of the parts match.
[0099] 類似度算出手段 73は、要素部品の位置が一致した状態において、各テンプレート と、画像記憶手段 6又は 6aに記録された画像との画素値を比較、例えば、画素毎に 輝度値等の特徴量の値を比較することにより、認識処理を行なう。  [0099] The similarity calculation means 73 compares the pixel values of each template with the image recorded in the image storage means 6 or 6a in a state where the positions of the element parts are coincident. Recognition processing is performed by comparing the values of the feature amounts of.
[0100] 尚、認識対象の状態によっては、特定部分が完全に表示されていない場合も考え られる。例えば、図 28に示されるように、サングラスをかけている場合などである。この ような場合、 目の位置の検出は、 自動では難しいが、画像記憶手段 6に記録された 画像には、 目の位置情報、すなわち、マーク画像の位置情報が一緒に記録されてお り、正確に位置あわせを行なうことができる。 [0100] Depending on the state of the recognition target, it may be considered that a specific portion is not completely displayed. Can be For example, as shown in FIG. 28, there is a case where sunglasses are worn. In such a case, it is difficult to automatically detect the position of the eye, but the image recorded in the image storage means 6 includes the position information of the eye, that is, the position information of the mark image, and Accurate positioning can be performed.
[0101] このように、対象物や、対象物の特定部分が配置されている位置が既知となること で、対象物や、対象物の特定部分の認識精度を大幅に向上することができる。  [0101] As described above, the position at which the target object and the specific part of the target object are arranged is known, so that the recognition accuracy of the target object and the specific part of the target object can be significantly improved.
[0102] 次に、画像認識手段 7の第 2の態様を説明する。  Next, a second mode of the image recognition means 7 will be described.
[0103] 認識処理の際、顔などの場合、表情等によって変化の大きい部位については、類 似度評価を行なわないことによって精度を向上させることができる。例えば、人物の 表情を撮影した場合、口の周りは表情による変化が大きい。こうした変化を考慮せず に均等に類似度を評価した場合、類似度の精度にずれが生じる。このような場合、 口 の周りの部分は類似度算出の際に利用せず、安定している部分のみを利用すること により問題を解決する。そこで、図 29に示される如ぐ画像認識手段 7に、位置整合 手段 72の代わりに類似度算出利用部設定手段 74を設ける。 [0103] In the recognition process, in the case of a face or the like, the accuracy can be improved by not performing the similarity evaluation for a part that largely changes due to facial expressions or the like. For example, when a facial expression of a person is photographed, the area around the mouth is largely changed by the facial expression. If the similarity is evaluated equally without taking such changes into account, the accuracy of the similarity will deviate. In such a case, the problem is solved by using only the stable part without using the part around the mouth when calculating the similarity. Therefore, the image recognition means 7 as shown in FIG. 29 is provided with a similarity calculation use section setting means 74 instead of the position matching means 72.
[0104] 例えば、図 30のように、記録された画像の口の周りの表情による変化が激しい場合 、類似度算出利用部設定手段 74により、口と指定された部分の周りの部分とにエリア を設定して、類似度評価を行なわないことで、表情の変動に起因する影響を除去し た画像解析を実現することが可能である。  For example, as shown in FIG. 30, when the recorded image has a drastic change due to the facial expression around the mouth, the similarity calculation use section setting means 74 sets the area to the area around the mouth and the designated part. By setting, and not performing the similarity evaluation, it is possible to realize an image analysis that eliminates the influence caused by the fluctuation of the facial expression.
[0105] 次に、画像認識手段 7の第 3の態様について説明する。  Next, a third mode of the image recognition means 7 will be described.
[0106] 本態様は、部位毎の類似度の総和を利用する方法である。これを実現する為の画 像認識手段 7の一例を図 31に示す。 The present embodiment is a method that utilizes the sum of similarities for each part. An example of the image recognition means 7 for realizing this is shown in FIG.
[0107] 図 31に示される如ぐ画像認識手段 7は、認識用部位テンプレート記憶手段 80と、 部位類似度算出手段 81と、部位抽出手段 82と、全体類似度導出手段 83とを有する  The image recognition means 7 as shown in FIG. 31 includes a recognition part template storage means 80, a part similarity calculation means 81, a part extraction means 82, and an overall similarity derivation means 83.
[0108] 図 32は、画像記憶手段 6又は 6aに記録された画像と、認識用テンプレート記憶手 段 80に記憶されている認識用テンプレートとを示しており、認識用テンプレートは、 顔の部位毎に保存されてレ、る。 FIG. 32 shows an image recorded in the image storage means 6 or 6a and a recognition template stored in the recognition template storage means 80. The recognition template is Stored in
[0109] 部位抽出手段 82は、画像記憶手段 6又は 6aに記録された画像のうち、マーク画像 の位置情報に基づいて対象物の特定部分、例えば、左目、右目、 口といった特定部 分の画像を画像中から抽出する。そして、図 33に示される如ぐ部位類似度算出手 段 81により、抽出された特定部分と各部位のテンプレートとが比較される。そして、全 体類似度導出手段 83が、部位類似度算出手段 81より算出された各部位の類似度 の総和を求めることにより、全体の類似度を規定する。 [0109] The part extraction means 82 is a part of the image stored in the image storage means 6 or 6a. Based on the position information, an image of a specific part of the object, for example, an image of a specific part such as a left eye, a right eye, and a mouth is extracted from the image. Then, the extracted specific part and the template of each part are compared by the part similarity calculating means 81 as shown in FIG. Then, the overall similarity deriving means 83 determines the total similarity of each part calculated by the part similarity calculating means 81, thereby defining the overall similarity.
[0110] 尚、この方法は、サングラス等、顔の一部が隠れている場合でも適用することができ る。このような適用例を、図 34に示す。図 34に示される如ぐ画像認識手段 7は、図 3 1の構成に加え、高類似選択手段 84を更に有する。  [0110] This method can be applied even when a part of the face is hidden, such as sunglasses. An example of such an application is shown in FIG. The image recognition means 7 as shown in FIG. 34 further includes high similarity selection means 84 in addition to the configuration of FIG.
[0111] このような構成においても、あらかじめ、マーク画像の位置情報により、 目の位置が 特定されているので、部位抽出手段 82は右目、左目として、サングラスの位置を抽出 することができ、全体類似度導出の前に、高類似度部選択手段 84において、図 35 に示すように高類似度の部分 (この例では、口)を選択、高類似度部のみを利用する ことにより、正しく全体類似度の導出が可能になる。  [0111] Also in such a configuration, since the position of the eye is specified in advance by the position information of the mark image, the part extracting means 82 can extract the position of the sunglasses as the right eye and the left eye, and Prior to similarity derivation, the high similarity portion selecting means 84 selects a high similarity portion (in this example, a mouth) as shown in FIG. Derivation of similarity becomes possible.
[0112] 次に、画像認識手段 7の第 4の態様について説明する。  Next, a fourth mode of the image recognition means 7 will be described.
[0113] 第 4の態様では、認識に対象の 3次元情報を利用する。認識対象に対する 3次元 情報を保持して、特定部分の情報により、画像の 3次元情報を推定、認識用 3次元デ ータより画像を作成して、認識を行なうものである。  [0113] In the fourth mode, target three-dimensional information is used for recognition. It holds three-dimensional information for the recognition target, estimates three-dimensional information of the image based on information of a specific part, creates an image from the three-dimensional data for recognition, and performs recognition.
[0114] 図 36は第 4の態様による画像認識手段 7のブロック図である。  FIG. 36 is a block diagram of the image recognition means 7 according to the fourth mode.
[0115] 画像認識手段 7は、 3次元顔情報記憶手段 90と、顔向き推定手段 91と、顔向き一 致画像生成手段 92と、類似度算出手段 93とを有する。  [0115] The image recognition means 7 includes a three-dimensional face information storage means 90, a face direction estimating means 91, a face direction matching image generating means 92, and a similarity calculating means 93.
[0116] 3次元顔情報記憶手段 90には 3次元の顔情報を記憶されている。そして、顔向き 推定手段 91は、画像記憶手段 6又は 6aに記録されている画像(対象物の入力画像) とマーク画像の位置情報とに基づいて、対象物の顔向き角度を推定する。例えば、 図 37に示すように、位置情報が両目と鼻の位置関係(マーク画像の位置情報)であ るならば、これらから対象物の顔向き角度を推定する。  [0116] The three-dimensional face information storage means 90 stores three-dimensional face information. Then, the face direction estimating means 91 estimates the face direction angle of the object based on the image (input image of the object) recorded in the image storage means 6 or 6a and the position information of the mark image. For example, as shown in FIG. 37, if the position information is a positional relationship between the eyes and the nose (position information of the mark image), the face direction angle of the target is estimated from these.
[0117] 顔向き一致画像生成手段 92は、顔向き推定手段 91より推定された顔向き角度と一 致するような顔の画像を、 3次元顔情報記憶手段 90に記憶されてレ、る 3次元顔情報 力 作成する。 [0118] 類似度算出手段 93は、画像記憶手段 6又は 6aに記録されている画像と、顔向き一 致画像生成手段 92により生成された顔の向きが一致した顔の画像との類似度を測 定し、認識処理を行なう。 [0117] The face orientation matching image generation means 92 stores a face image that matches the face orientation angle estimated by the face orientation estimation means 91 in the three-dimensional face information storage means 90. Create face information. [0118] The similarity calculating means 93 calculates the similarity between the image recorded in the image storage means 6 or 6a and the face image generated by the face orientation matching image generating means 92 and having the same face direction. Measure and perform recognition processing.
[0119] 次に、画像認識手段 7の第 5の態様について説明する。  Next, a fifth mode of the image recognition means 7 will be described.
[0120] 第 5の態様は、 3次元情報を、画像記憶手段 6又は 6aに記録されている画像に対し て適用した場合である。例えば、顔に関して、一般的な標準顔を作成しておき、画像 記録手段 6に記録されている画像の部位の情報に合わせて、 3次元標準顔画像上に マッピングする。 3次元標準顔画像にマッピングした後に、回転させて、擬似正面画 像を作成して、認識用顔情報とテンプレートマッチングを行なうように構成する。  [0120] The fifth mode is a case where three-dimensional information is applied to an image recorded in the image storage means 6 or 6a. For example, for a face, a general standard face is created, and is mapped onto a three-dimensional standard face image in accordance with information on a part of the image recorded in the image recording means 6. After mapping to a three-dimensional standard face image, the image is rotated to create a pseudo front image, and the recognition face information and template matching are performed.
[0121] 図 38は、このような画像認識手段 7のブロック図の一例である。  FIG. 38 is an example of a block diagram of such an image recognition means 7.
[0122] 画像認識手段 7は、 3次元標準顔画像マッピング手段 100と、正面顔生成手段 101 と、類似度算出手段 102と、認識用テンプレート記憶手段 103とを有している。  The image recognition means 7 has a three-dimensional standard face image mapping means 100, a front face generation means 101, a similarity calculation means 102, and a recognition template storage means 103.
[0123] 3次元標準顔画像マッピング手段 100は、図 39のように各部位の情報(マーク位置 情報)を用いて、認識用顔画像を 3次元標準顔上にマッピングする。正面顔生成手 段 101は、マッピングされた 3次元情報より擬似正面顔を生成する。そして、類似度 算出手段 102は、生成された擬似正面顔と、認識用テンプレート記憶手段 103に記 憶されている正面顔を蓄積した認識用テンプレートとの類似度を算出することにより、 類似度を算出、人物を特定する。  [0123] The three-dimensional standard face image mapping means 100 maps the recognition face image onto the three-dimensional standard face using information of each part (mark position information) as shown in FIG. The frontal face generating means 101 generates a pseudo frontal face from the mapped three-dimensional information. Then, the similarity calculating means 102 calculates the similarity between the generated pseudo frontal face and the recognition template storing the frontal face stored in the recognition template storage means 103, thereby calculating the similarity. Calculate and identify the person.
[0124] 上記の例では、顔画像をもとに作成した力 対象は顔でなくても、花や自動車、ビ ノレ、動物といった一般のオブジェクトに対して適用可能であることはいうまでもない。  In the above example, it is needless to say that the force object created based on the face image is not a face, but can be applied to general objects such as flowers, cars, vinyls, and animals. .
[0125] 次に、画像認識手段 7の第 6の態様について説明する。  Next, a sixth mode of the image recognition means 7 will be described.
[0126] 第 1から第 5の態様では、対象物や対象物の特定部分の認識の情報として、同時 に記録されたマーク画像の意味の情報や、位置情報を用いた。第 6の態様では、第 1から第 5の態様とは異なり、マーク画像が重畳された対象物の画像用いて、対象物 や対象物の特定部分の認識処理を行なう場合について説明する。  [0126] In the first to fifth aspects, as information for recognizing a target or a specific part of the target, information on the meaning of a mark image recorded at the same time and position information are used. In the sixth mode, unlike the first to fifth modes, a case will be described in which recognition processing of a target or a specific part of the target is performed using an image of the target on which the mark image is superimposed.
[0127] 図 40は第 6の態様による画像認識手段 7のブロック図である。 FIG. 40 is a block diagram of the image recognition means 7 according to the sixth mode.
[0128] 画像認識手段 7は、マーク情報抽出手段 110と、特徴量導出手段 111と、特徴量 計算手段 112と、認識用特長量記憶手段 113とを有している。 [0129] マーク抽出手段 110は、認識用の画像内に重畳されているマーク画像を、マーク 画像の色等により特定する。特徴量導出手段 111は、マーク抽出手段 110により特 定されたマークの内部もしくは近傍野の画素について特徴量を導出する。そして、特 徴量計算手段 112が、導出された特徴量と、認識用特長量記憶手段 113に記録さ れる特徴量とを照合し、認識が行われる。 The image recognition means 7 includes a mark information extraction means 110, a feature quantity derivation means 111, a feature quantity calculation means 112, and a recognition feature quantity storage means 113. [0129] The mark extracting means 110 specifies a mark image superimposed on the image for recognition based on the color of the mark image or the like. The feature amount deriving unit 111 derives a feature amount for a pixel inside or in the vicinity of the mark specified by the mark extracting unit 110. Then, the feature amount calculating unit 112 collates the derived feature amount with the feature amount recorded in the recognition feature amount storage unit 113 to perform recognition.
[0130] 図 41では、記録画像が花の画像であり、外輪にマーク画像が重畳されている例を 示している。マーク抽出手段 110により、マーク画像の色等によりマークが特定され、 特徴量導出手段 111がそのマークの内部にある花の部分についての色のヒストグラ ムが作成される。そして、特徴量計算手段 112により、そのヒストグラムと、データべ一 ス中の色ヒストグラムと比較することによって、花が特定されている。  FIG. 41 shows an example in which the recorded image is a flower image, and the mark image is superimposed on the outer ring. The mark is specified by the mark extracting means 110 based on the color of the mark image and the like, and the feature amount deriving means 111 creates a histogram of the color of the flower inside the mark. By comparing the histogram with the color histogram in the database by the feature amount calculating means 112, the flower is specified.
[0131] マーク情報 (例えば、マークの色情報)を利用することにより、茎や葉の部分の画素 をヒストグラムの要素として加えることなぐ容易に花びらに関しての色情報を抽出、照 合に利用することができる。  [0131] By using mark information (for example, mark color information), it is easy to extract and use color information on petals without adding pixels of stems and leaves as elements of a histogram. Can be.
[0132] 次に、画像認識手段 7の第 7の態様について説明する。  Next, a seventh embodiment of the image recognition means 7 will be described.
[0133] 第 7の態様は、入力映像とマーク映像とが別々に画像記憶手段 6又は 6aに記憶さ れてレ、る場合の認識処理の一例である。  The seventh mode is an example of a recognition process in a case where an input video and a mark video are separately stored in the image storage means 6 or 6a.
[0134] 図 42は、第 7の態様の画像認識手段 7のブロック図である。 FIG. 42 is a block diagram of the image recognition means 7 of the seventh embodiment.
[0135] 図 42に示す如ぐ画像認識手段 7は、対象物抽出手段 120と、類似度算出手段 12 As shown in FIG. 42, the image recognizing means 7 includes an object extracting means 120 and a similarity calculating means 12
1と、認識用テンプレート記憶手段 122とを有している。 1 and a recognition template storage unit 122.
[0136] 対象物抽出手段 120は、図 43に示す如ぐ別々に記録されたマーク画像と入力画 像 (認識用画像)との積(アンド)の処理を行なうことによって、特定部分の画像を抽出 する。 [0136] The object extracting means 120 performs a product (AND) process of the mark image and the input image (recognition image) separately recorded as shown in FIG. Extract.
[0137] 類似度算出手段 121は、抽出された各部位の特徴量と、認識用テンプレート記憶 手段に記憶されている各部位の特徴量とを比較することにより、認識を行なう。  The similarity calculating means 121 performs recognition by comparing the extracted feature amount of each part with the feature amount of each part stored in the recognition template storage means.
[0138] 以上、画像認識手段 7について、第 1から第 7の態様を説明したが、これに限定され るものでなぐこれらを適時組み合わせても良い。  [0138] The first to seventh aspects of the image recognition means 7 have been described above. However, the present invention is not limited thereto, and may be combined as appropriate.
[0139] また、上述の説明では、画像解析時にマーク画像の位置情報や、マーク画像の意 味等の情報を用いた。し力、しながら、マーク画像により、適切な位置や大きさで対象 物や対象物の特定部分が撮影されてレ、るので、マーク画像の位置や意味等の情報 を用いずに画像解析を行なうことも可能である。 In the above description, position information of the mark image, information such as the meaning of the mark image, and the like are used at the time of image analysis. Target, at the appropriate position and size, depending on the mark image Since a specific part of an object or a target object is photographed, it is possible to perform image analysis without using information such as the position and meaning of the mark image.
[0140] 尚、画像認識手段 7は、必ずしも画像入力装置内部に設ける必要はなぐネットヮ ークによって接続された遠隔地のサーバに設けるように構成しても良レ、。画像認識手 段 7は、高い処理能力を必要とする場合が多いので、携帯電話等の処理能力の少な レ、ものについては、このような構成が良レ、。  The image recognition means 7 may be provided in a remote server connected via a network, which is not necessarily provided inside the image input device. Since the image recognition means 7 often requires a high processing capacity, such a configuration is good for a mobile phone or the like having a low processing capacity.
[0141] [第 5実施例] [0141] [Fifth embodiment]
次に、本発明の第 5実施例を説明する。  Next, a fifth embodiment of the present invention will be described.
[0142] 上述した第 1実施例から第 4実施例における手段の処理をプログラムで実行させる ことも可能である。そこで、第 5実施例では、上述した第 1実施例から第 4実施例にお ける手段の処理をプログラムで実行させる例を説明する。 [0142] The processing of the means in the first to fourth embodiments described above can be executed by a program. Thus, in a fifth embodiment, an example will be described in which the processing of the means in the first to fourth embodiments described above is executed by a program.
[0143] 図 44は第 5実施例となるコンピュータの構成を示すブロック図である。 FIG. 44 is a block diagram showing a configuration of a computer according to the fifth embodiment.
[0144] プログラムで実行させる場合、マーク画像生成手段 2、画像重畳手段 3及び画像記 録手段 6に代えて、実行用のプログラム等が格納されたプログラムメモリ 50と、マーク 画像や、マーク情報等が格納された情報メモリ 51と、プログラムにより、各処理を実行 するマイクロプロセッサ 52とを設ける。 In the case of executing the program, a program memory 50 storing an execution program and the like, instead of the mark image generating means 2, the image superimposing means 3 and the image recording means 6, a mark image, mark information, etc. An information memory 51 storing the information and a microprocessor 52 for executing each process by a program are provided.
[0145] マイクロプロセッサ 52は、情報メモリ 51より読み出された情報に基づきマーク画像を 作成し、画像入力装置 1より入力された画像と重畳してマーク画像を表示する。そし て、指示手段 5から指示により、画像記録後、画像認識プログラムと認識用辞書メモリ により、対象物の認識を行なう。 [0145] The microprocessor 52 creates a mark image based on the information read from the information memory 51, and superimposes the mark image on the image input from the image input device 1, and displays the mark image. Then, according to an instruction from the instruction means 5, after the image is recorded, the object is recognized by the image recognition program and the recognition dictionary memory.
[0146] 以上の如ぐ第 1実施例から第 5実施例を説明したが、本発明の画像入力装置が適 用できるシステムとしては、カメラ付携帯電話のような、カメラと表示装置並びに演算 装置が一体となったものが考えられる。演算装置付のビデオカメラや、 PDA、デジタ ノレカメラ等も同様である。 [0146] Although the first to fifth embodiments have been described above, examples of a system to which the image input device of the present invention can be applied include a camera, a display device, and an arithmetic device, such as a mobile phone with a camera. Can be considered as one. The same applies to video cameras with arithmetic units, PDAs, digital cameras, etc.
[0147] また、画像入力手段 1と表示手段 4とが別のものであっても適用可能である。例えば[0147] Further, the present invention is applicable even if the image input means 1 and the display means 4 are different. For example
、カメラとディスプレイと力 一体となって構成されている必要はない。 However, it does not need to be integrated with the camera and display.
[0148] 更に、画像入力手段 1 (カメラ)の画像をリモートコントロールにより自由に調整し、そ れを手元の表示手段 4 (スクリーンもしくは大画面のスクリーン)に投影して調整する 形式であってもかまわなレ、。 [0148] Further, the image of the image input unit 1 (camera) is freely adjusted by remote control, and the image is adjusted by projecting the image on the display unit 4 (screen or large-screen screen) at hand. It can be in the form.
[0149] [第 6実施例]  [Sixth Embodiment]
次に、本発明の第 6実施例を説明する。  Next, a sixth embodiment of the present invention will be described.
[0150] 第 6実施例は、本発明の画像入力装置を、ロボットに適用した場合である。  The sixth embodiment is a case where the image input device of the present invention is applied to a robot.
[0151] 適用できるロボットの例としては、カメラ'ビデオカメラといった画像入力手段 1、及び 入力した画像を外部に表示する表示手段 4を有するロボットであれば適用可能であ る。そして、ロボット内部に、マーク画像生成手段 2、画像重畳手段 3、画像記憶手段 6又は 6a及び画像認識手段 7を設ければ、上述した第 1実施例から第 5実施例と同 様な処理をロボットに行なわせることが可能となる。図 45に本発明の画像入力装置を 適用したロボットを示す。  As an example of a robot that can be applied, any robot that has an image input unit 1 such as a camera and a video camera and a display unit 4 that externally displays an input image can be applied. If the mark image generating means 2, the image superimposing means 3, the image storing means 6 or 6a, and the image recognizing means 7 are provided inside the robot, the same processing as in the above-described first to fifth embodiments can be performed. It is possible for the robot to perform the operation. FIG. 45 shows a robot to which the image input device of the present invention is applied.
[0152] 図 45のロボットは、 目の部分にカメラ等の画像を入力する画像入力手段 1を有する 。また、ロボットの腹部に入力した画像を外部に表示する表示手段 4を有し、画像入 力する際に入力画像の特定部分が位置するべき場所を示すマーク画像が表示手段 4上に表示される。  The robot shown in FIG. 45 has image input means 1 for inputting an image from a camera or the like to the eye. In addition, the apparatus has a display unit 4 for externally displaying an image input to the abdomen of the robot, and a mark image indicating a position where a specific portion of the input image should be located when the image is input is displayed on the display unit 4. .
[0153] 図 45の例では、対象物は人物の顔であり、 目のあるべき位置を示すマーク画像が [0153] In the example of Fig. 45, the target object is a human face, and the mark image indicating the position where the eye should be located is displayed.
、表示手段 4の表示上に表示されている。利用者 (被写体)はマーク画像に自身の目 が重なるように、ロボットとの位置関係を調整する。 Are displayed on the display of the display means 4. The user (subject) adjusts the positional relationship with the robot so that his or her eyes overlap the mark image.
[0154] このとき、被写体自らが移動してもかまわないし、ロボットの位置や画像入力手段 1 ( カメラ)の状態 (ズーム等)を変更する指示を与えてもょレ、。 [0154] At this time, the subject itself may move, or an instruction to change the position of the robot or the state (zoom or the like) of the image input means 1 (camera) may be given.
[0155] マークと両目が重なったときに、入力画像取り込みを指示する。指示は、人間の声 の発声でも良いし、遠隔操作されたスィッチでも良い。 When the mark and both eyes overlap, an instruction to input an input image is issued. The instruction can be a human voice or a remotely operated switch.
[0156] ロボットは、内部の画像認識手段 7により、記録された画像中の所定位置に、被写 体の特定部分が映っているとして、画像認識を行い、人物を特定することができる。 [0156] The robot can perform image recognition by using the internal image recognition means 7 assuming that a specific portion of the subject is shown at a predetermined position in the recorded image, and can specify a person.
[0157] このように、本発明の画像入力装置を適用したロボットであれば、画像認識能力を 大幅に向上させることができる。 [0157] Thus, a robot to which the image input device of the present invention is applied can greatly improve the image recognition ability.
[0158] 尚、本実施例では、画像入力手段 1 (カメラ)の位置をロボットの目の位置に、表示 手段 4 (ディスプレイ)の位置をロボットの腹部に設けたが、これに限らず、設置場所は 自由である。特に、表示に関しては、ロボットの筐体上ではなぐ別のモニタ上にあつ てもかまわない。 In the present embodiment, the position of the image input means 1 (camera) is provided at the position of the eyes of the robot, and the position of the display means 4 (display) is provided at the abdomen of the robot. The place is free. In particular, the display is not on the robot housing but on a separate monitor. It doesn't matter.
[0159] また、ロボットと被写体の位置関係調整するために、ロボットに対して「前に進め」「 後ろに下がれ」「ズームアップしろ」といった命令を、音声やコマンド 'リモートコント口 ール等で指示してもよい。  [0159] In order to adjust the positional relationship between the robot and the subject, commands such as "advance forward", "rear down", and "zoom up" are given to the robot by voice or commands such as the remote control. You may instruct.
[0160] 「この絵は何?」に対する絵画のフレーム情報、「このおもちやは何?」に対するおも ちゃの特定部分など、対象は人物以外であっても可能である。  [0160] The object may be a person other than a person, such as frame information of a painting for "What is this picture?" Or a specific part of a frame for "What is this toy?"
産業上の利用可能性  Industrial applicability
[0161] 本発明は、画像入力装置に適用することができる。 The present invention can be applied to an image input device.

Claims

請求の範囲 The scope of the claims
[1] 撮影しょうとする対象物の画像が表示される表示手段と、  [1] display means for displaying an image of an object to be photographed,
前記対象物の画像に重畳して、対象物又は対象物の特定部分を配置する位置を 示すマーク画像を前記表示手段に表示するマーク重畳表示手段とを有することを特 徴とする画像入力装置。  An image input device, comprising: mark superimposing display means for displaying, on the display means, a mark image indicating a position at which a target object or a specific portion of the target object is arranged, being superimposed on the image of the target object.
[2] 請求項 1記載の画像入力装置において、  [2] The image input device according to claim 1,
前記対象物の画像は、対象物を画像解析により認識する為に入力される画像であ ることを特徴とする画像入力装置。  The image input device, wherein the image of the target object is an image input for recognizing the target object by image analysis.
[3] 請求項 1記載の画像入力装置において、 [3] The image input device according to claim 1,
前記マーク重畳表示手段は、  The mark superimposing display means,
認識しょうとする対象物又は対象物の特定部分に応じた複数のマーク画像を記憶 した記憶手段と、  Storage means for storing a plurality of mark images corresponding to an object to be recognized or a specific portion of the object;
前記記憶手段に記憶されている複数のマーク画像の中から、認識しょうとする対象 物又は対象物の特定部分に適したマーク画像を選択する選択手段と、  Selecting means for selecting a mark image suitable for an object to be recognized or a specific part of the object from a plurality of mark images stored in the storage means;
前記選択手段により、選択されたマーク画像を、対象物の画像に重畳して表示する 重畳表示手段とを有することを特徴とする画像入力装置。  An image input device, comprising: a superimposition display unit that superimposes and displays the mark image selected by the selection unit on the image of the target object.
[4] 請求項 1記載の画像入力装置において、 [4] The image input device according to claim 1,
前記マーク画像は、対象物又は対象物の特定部分の配置を、一つの指標画像で 特定するような画像であることを特徴とする画像入力装置。  The image input device according to claim 1, wherein the mark image is an image that specifies an arrangement of a target object or a specific portion of the target object with one index image.
[5] 請求項 1記載の画像入力装置において、 [5] The image input device according to claim 1,
前記マーク画像は、対象物又は対象物の特定部分の配置を、複数の指標画像で 特定するような画像であることを特徴とする画像入力装置。  The image input device according to claim 1, wherein the mark image is an image that specifies an arrangement of a target object or a specific portion of the target object using a plurality of index images.
[6] 請求項 1記載の画像入力装置において、 [6] The image input device according to claim 1,
前記マーク画像は、画像中の一つの対象物又は対象物の特定部分を特定するよう な画像であることを特徴とする画像入力装置。  The image input device according to claim 1, wherein the mark image is an image for specifying one target object or a specific portion of the target object in the image.
[7] 請求項 1記載の画像入力装置において、 [7] The image input device according to claim 1,
前記マーク画像は、画像中の複数の対象物又は対象物の特定部分を特定するよう な画像であることを特徴とする画像入力装置。 The image input device according to claim 1, wherein the mark image is an image for identifying a plurality of objects or specific portions of the objects in the image.
[8] 請求項 1記載の画像入力装置において、 [8] The image input device according to claim 1,
前記マーク重畳表示手段は、マーク画像の表示位置を移動させるマーク画像移動 手段を有することを特徴とする画像入力装置。  The image input device, wherein the mark superimposing display means includes mark image moving means for moving a display position of a mark image.
[9] 請求項 1記載の画像入力装置において、 [9] The image input device according to claim 1,
前記マーク重畳表示手段は、マーク画像の大きさを調整するマーク画像調整手段 を有することを特徴とする画像入力装置。  The image input device, wherein the mark superimposing display means includes a mark image adjusting means for adjusting a size of a mark image.
[10] 請求項 1記載の画像入力装置において、 [10] The image input device according to claim 1,
前記マーク重畳表示手段は、マーク画像の色を変更するマーク画像色変更手段を 有することを特徴とする画像入力装置。  The image input device, wherein the mark superimposed display means includes a mark image color changing means for changing a color of a mark image.
[11] 請求項 1記載の画像入力装置において、 [11] The image input device according to claim 1,
前記マーク重畳表示手段は、マーク画像の輝度を調整するマーク画像輝度調整手 段を有することを特徴とする画像入力装置。  The image input device, characterized in that the mark superimposing display means has a mark image brightness adjusting means for adjusting the brightness of the mark image.
[12] 請求項 1記載の画像入力装置において、  [12] The image input device according to claim 1,
前記マーク重畳表示手段は、  The mark superimposing display means,
マーク画像の説明を記憶した記憶手段と、  Storage means for storing a description of the mark image;
前記マーク画像を重畳表示する際、前記記憶されてレ、るそのマーク画像の説明も 前記表示手段に表示するマーク画像説明表示手段とを更に有することを特徴とする 画像入力装置。  An image input apparatus, further comprising: a mark image explanation display unit for displaying the stored mark image on the display unit when the mark image is superimposed.
[13] 請求項 1記載の画像入力装置において、 [13] The image input device according to claim 1,
対象物を撮像する撮像手段を更に有することを特徴とする画像入力装置。  An image input device further comprising an image pickup means for picking up an image of an object.
[14] 請求項 13記載の画像入力装置において、 [14] The image input device according to claim 13,
前記撮像手段と前記表示手段とが、一つの筐体内に収められていないことを特徴 とする画像入力装置。  The image input device, wherein the imaging unit and the display unit are not housed in one housing.
[15] 請求項 1記載の画像入力装置において、 [15] The image input device according to claim 1,
前記表示手段に表示されている画像の記憶の指示を行なう指示手段と、 前記指示手段の指示に基づいて、前記画像を記憶する画像記憶手段とをさらに有 することを特徴とする画像入力装置。  An image input apparatus, further comprising: instruction means for instructing storage of an image displayed on the display means; and image storage means for storing the image based on an instruction from the instruction means.
[16] 請求項 15記載の画像入力装置において、 前記マーク重畳表示手段は、マーク画像に対応してそのマーク画像を識別する為 のマーク画像種別情報を記憶したマーク画像種別情報記憶手段を有し、 [16] The image input device according to claim 15, The mark superimposition display means has mark image type information storage means for storing mark image type information for identifying the mark image corresponding to the mark image,
前記指示手段の指示に基づいて画像が記憶される際、撮影画像と、撮影時に用い られたマーク画像のマーク画像種別情報とが、前記画像記憶手段に記憶されるよう に構成されてレ、ることを特徴とする画像入力装置。  When an image is stored based on the instruction of the instruction means, the captured image and mark image type information of the mark image used at the time of the imaging are configured to be stored in the image storage means. An image input device, characterized in that:
[17] 請求項 15記載の画像入力装置において、  [17] The image input device according to claim 15,
前記マーク重畳表示手段は、マーク画像に対応してそのマーク画像の表示位置の 情報であるマーク表示位置情報を記憶したマーク画像表示位置情報記憶手段を有 し、  The mark superimposition display means includes mark image display position information storage means for storing mark display position information, which is information on the display position of the mark image, corresponding to the mark image,
前記指示手段の指示に基づいて画像が記憶される際、撮影画像と、撮影時に用い られたマーク画像のマーク画像表示位置情報とが、前記画像記憶手段に記憶される ように構成されてレ、ることを特徴とする画像入力装置。  When an image is stored based on the instruction of the instruction means, the captured image and mark image display position information of the mark image used at the time of imaging are configured to be stored in the image storage means. An image input device, comprising:
[18] 請求項 15記載の画像入力装置において、  [18] The image input device according to claim 15,
前記指示手段の指示に基づいて画像が記憶される際、撮影画像にマーク画像が 重畳された画像が、前記画像記憶手段に記憶されるように構成されていることを特徴 とする画像入力装置。  An image input apparatus, wherein an image in which a mark image is superimposed on a photographed image is stored in the image storage means when an image is stored based on an instruction of the instruction means.
[19] 請求項 15記載の画像入力装置において、  [19] The image input device according to claim 15,
前記指示手段の指示に基づいて画像が記憶される際、撮影画像と、撮影時に用い られたマーク画像とが、別々に前記画像記憶手段に記憶されるように構成されている ことを特徴とする画像入力装置。  When an image is stored based on an instruction from the instruction means, a captured image and a mark image used at the time of imaging are configured to be separately stored in the image storage means. Image input device.
[20] 請求項 15記載の画像入力装置において、  [20] The image input device according to claim 15,
前記指示手段は、撮影しょうとする対象物の画像の静止を検出し、静止が検出され た場合に画像の記憶の指示を行なうように構成されていることを特徴とする画像入力  The image input means is configured to detect a stillness of an image of an object to be photographed, and to issue an instruction to store an image when the stillness is detected.
[21] 請求項 15記載の画像入力装置において、 [21] The image input device according to claim 15,
前記画像記憶手段が、画像入力装置とデータの送受信ができる遠隔地に設けられ ていることを特徴とする画像入力装置。  The image input device, wherein the image storage means is provided at a remote place where data can be transmitted and received to and from the image input device.
[22] 請求項 15記載の画像入力装置において、 前記画像記憶手段に記憶されてレ、る画像を解析し、対象物の認識処理を行なう画 像認識手段をさらに有することを特徴とする画像入力装置。 [22] The image input device according to claim 15, An image input apparatus, further comprising: an image recognizing unit that analyzes an image stored in the image storage unit and performs a target object recognizing process.
[23] 請求項 22記載の画像入力装置において、  [23] The image input device according to claim 22, wherein
前記画像認識手段が、画像入力装置とデータの送受信ができる遠隔地に設けられ ていることを特徴とする画像入力装置。  The image input device, wherein the image recognition means is provided at a remote place where data can be transmitted and received to and from the image input device.
[24] 請求項 22記載の画像入力装置において、 [24] The image input device according to claim 22,
前記画像認識手段は、前記マーク画像種別情報を参照して、解析しょうとする画像 の対象物又は対象物の特定部分の種別を特定し、画像の解析処理を行なうように構 成されていることを特徴とする画像入力装置。  The image recognizing means is configured to refer to the mark image type information, specify a type of a target object or a specific portion of the target object of the image to be analyzed, and perform an image analysis process. An image input device characterized by the above-mentioned.
[25] 請求項 22記載の画像入力装置において、 [25] The image input device according to claim 22,
前記画像認識手段は、前記マーク表示位置情報を参照して、解析しょうとする画像 の対象物又は対象物の特定部分の位置を特定し、画像の解析処理を行なうように構 成されていることを特徴とする画像入力装置。  The image recognizing means is configured to refer to the mark display position information to specify a position of an object or a specific portion of the object to be analyzed, and perform an image analysis process. An image input device characterized by the above-mentioned.
[26] 請求項 22記載の画像入力装置において、 [26] The image input device according to claim 22,
前記画像認識手段は、前記マーク画像が重畳された画像から前記マーク画像を認 識することによって、解析しょうとする画像の対象物又は対象物の特定部分を特定し 、画像の解析処理を行なうように構成されてレ、ることを特徴とする画像入力装置。  The image recognizing means recognizes the mark image from the image on which the mark image is superimposed, specifies an object or a specific portion of the object to be analyzed, and performs an image analysis process. An image input device comprising:
[27] 請求項 22記載の画像入力装置において、 [27] The image input device according to claim 22, wherein
前記画像認識手段は、記録された画像とマーク画像とを比較することにより、解析し ようとする画像の対象物又は対象物の特定部分を特定し、画像の解析処理を行なう ように構成されてレ、ることを特徴とする画像入力装置。  The image recognizing means is configured to compare a recorded image with a mark image to specify an object or a specific portion of the object to be analyzed, and to perform an image analysis process. An image input device characterized in that:
[28] 請求項 1記載の画像入力装置が搭載されたことを特徴とするロボット。 [28] A robot equipped with the image input device according to claim 1.
[29] 請求項 15記載の画像入力装置が搭載されたことを特徴とするロボット。 [29] A robot equipped with the image input device according to claim 15.
[30] 請求項 22記載の画像入力装置が搭載されたことを特徴とするロボット。 [30] A robot equipped with the image input device according to claim 22.
[31] 画像入力装置としてコンピュータを機能させる画像入力プログラムであって、 [31] An image input program that causes a computer to function as an image input device,
撮影しょうとする対象物の画像を表示する表示ステップと、  A display step of displaying an image of an object to be shot;
表示されている対象物の画像に重畳して、対象物又は対象物の特定部分が配置さ れるべき位置を示すマーク画像を表示するマーク重畳表示ステップとをコンピュータ に実行させることを特徴とする画像入力プログラム。 A mark superimposing display step of displaying a mark image indicating a position where the target object or a specific part of the target object is to be arranged so as to be superimposed on the displayed image of the target object. An image input program characterized by being executed by a user.
[32] 請求項 31記載の画像入力プログラムにおいて、  [32] The image input program according to claim 31, wherein
前記対象物の画像は、対象物を画像解析により認識する為に入力される画像であ ることを特徴とする画像入力プログラム。  The image input program, wherein the image of the object is an image input for recognizing the object by image analysis.
[33] 前記マーク重畳表示ステップは、 [33] The mark superimposed display step includes:
記憶手段に記憶されている複数のマーク画像の中から、認識しょうとする対象物又 は対象物の特定部分に適したマーク画像を選択する選択ステップと、  A selection step of selecting a mark image suitable for an object to be recognized or a specific portion of the object from a plurality of mark images stored in the storage means;
前記選択ステップにより、選択されたマーク画像を、対象物の画像に重畳して表示 する重畳表示ステップとを備えることを特徴とする画像入力プログラム。  A superimposing display step of superimposing and displaying the mark image selected in the selecting step on the image of the target object.
[34] 請求項 31記載の画像入力プログラムにおいて、 [34] The image input program according to claim 31, wherein
前記マーク画像は、対象物又は対象物の特定部分の配置を、一つの指標画像で 特定するような画像であることを特徴とする画像入力プログラム。  The image input program according to claim 1, wherein the mark image is an image that specifies an arrangement of a target object or a specific portion of the target object with one index image.
[35] 請求項 31記載の画像入力プログラムにおいて、 [35] The image input program according to claim 31, wherein
前記マーク画像は、対象物又は対象物の特定部分の配置を、複数の指標画像で 特定するような画像であることを特徴とする画像入力プログラム。  The image input program according to claim 1, wherein the mark image is an image that specifies an arrangement of a target object or a specific portion of the target object by a plurality of index images.
[36] 請求項 31記載の画像入力プログラムにおいて、 [36] The image input program according to claim 31, wherein
前記マーク画像は、画像中の一つの対象物又は対象物の特定部分を特定するよう な画像であることを特徴とする画像入力プログラム。  The image input program according to claim 1, wherein the mark image is an image that specifies one target object or a specific portion of the target object in the image.
[37] 請求項 31記載の画像入力プログラムにおいて、 [37] The image input program according to claim 31, wherein
前記マーク画像は、画像中の複数の対象物又は対象物の特定部分を特定するよう な画像であることを特徴とする画像入力プログラム。  The image input program according to claim 1, wherein the mark image is an image for specifying a plurality of objects or specific portions of the objects in the image.
[38] 請求項 31記載の画像入力プログラムにおいて、 [38] The image input program according to claim 31, wherein
前記マーク重畳表示ステップは、マーク画像の表示位置を移動させるマーク画像 移動ステップを備えることを特徴とする画像入力プログラム。  The image input program, wherein the mark superimposing display step includes a mark image moving step of moving a display position of the mark image.
[39] 請求項 31記載の画像入力プログラムにおいて、 [39] The image input program according to claim 31, wherein
前記マーク重畳表示ステップは、マーク画像の大きさを調整するマーク画像調整ス テツプを備えることを特徴とする画像入力プログラム。  The mark input superimposing step includes a mark image adjusting step for adjusting the size of the mark image.
[40] 請求項 31記載の画像入力プログラムにおいて、 前記マーク重畳表示ステップは、マーク画像の色を変更するマーク画像色変更ス テツプを備えることを特徴とする画像入力プログラム。 [40] The image input program according to claim 31, wherein The image input program, wherein the mark superimposing display step includes a mark image color changing step of changing a color of the mark image.
[41] 請求項 31記載の画像入力プログラムにおいて、  [41] The image input program according to claim 31, wherein
前記マーク重畳表示ステップは、マーク画像の輝度を調整するマーク画像輝度調 整ステップを備えることを特徴とする画像入力プログラム。  An image input program, characterized in that the mark superimposing and displaying step includes a mark image luminance adjusting step of adjusting the luminance of the mark image.
[42] 請求項 31記載の画像入力プログラムにおいて、 [42] The image input program according to claim 31, wherein
前記マーク重畳表示ステップは、  The mark superimposing display step includes:
前記マーク画像を重畳表示する際、記憶手段に記憶されているそのマーク画像の 説明も表示手段に表示するマーク画像説明表示ステップを備えることを特徴とする画 像入力プログラム。  When the mark image is superimposed and displayed, the image input program is provided with a mark image explanation displaying step of also displaying the explanation of the mark image stored in the storage means on the display means.
[43] 請求項 31記載の画像入力プログラムにおいて、 [43] The image input program according to claim 31, wherein
表示手段に表示されている画像の記憶の指示を行なう指示ステップと、 前記指示ステップの指示に基づいて、前記画像を画像記憶手段に格納するステツ プとをさらに備えることを特徴とする画像入力プログラム。  An image input program, further comprising: an instruction step for giving an instruction to store an image displayed on the display means; and a step of storing the image in the image storage means based on the instruction in the instruction step. .
[44] 請求項 43記載の画像入力プログラムにおいて、 [44] The image input program according to claim 43,
前記指示ステップの指示に基づいて画像が記憶される際、撮影画像と、撮影時に 用レ、られたマーク画像を識別するマーク画像種別情報とを、前記画像記憶手段に格 納するステップを備えることを特徴とする画像入力プログラム。  When an image is stored based on the instruction in the instruction step, a step of storing a captured image and mark image type information for identifying a mark image used for shooting in the image storage unit is provided. An image input program characterized by the following.
[45] 請求項 43記載の画像入力プログラムにおいて、 [45] The image input program according to claim 43,
前記指示ステップの指示に基づいて画像が記憶される際、撮影画像と、撮影時に 用いられたマーク画像の表示位置の情報であるマーク表示位置情報とを、前記画像 記憶手段に格納するステップを備えることを特徴とする画像入力プログラム。  When an image is stored based on the instruction in the instruction step, a step of storing a captured image and mark display position information that is information on a display position of a mark image used at the time of image capturing in the image storage unit An image input program, characterized in that:
[46] 請求項 43記載の画像入力プログラムにおいて、 [46] The image input program according to claim 43,
前記指示ステップの指示に基づいて画像が記憶される際、撮影画像にマーク画像 が重畳された画像を、前記画像記憶手段に格納するステップを備えることを特徴とす る画像入力プログラム。  When an image is stored based on the instruction in the instruction step, the image input program includes a step of storing an image in which a mark image is superimposed on a captured image in the image storage means.
[47] 請求項 43記載の画像入力プログラムにおいて、 [47] The image input program according to claim 43,
前記指示ステップの指示に基づいて画像が記憶される際、撮影画像と、撮影時に 用いられたマーク画像とが、別々に前記画像記憶手段に格納するステップを備える ことを特徴とする画像入力プログラム。 When an image is stored based on the instruction in the instruction step, a captured image and An image input program comprising a step of separately storing a used mark image in the image storage means.
[48] 請求項 43記載の画像入力プログラムにおいて、  [48] The image input program according to claim 43,
前記指示ステップは、撮影しょうとする対象物の画像の静止を検出し、静止が検出 された場合に画像の記憶の指示を行なうステップを備えることを特徴とする画像入力  The image inputting step includes a step of detecting a stillness of an image of an object to be photographed, and instructing storage of the image when the stillness is detected.
[49] 請求項 43記載の画像入力プログラムにおいて、 [49] The image input program according to claim 43,
前記画像記憶手段に記憶されてレ、る画像を解析し、対象物又は対象物の特定部 分の認識処理を行なう画像認識ステップをさらに備えることを特徴とする画像入力プ ログラム。  An image input program, further comprising an image recognition step of analyzing an image stored in the image storage means and performing a recognition process for a target object or a specific portion of the target object.
[50] 請求項 49記載の画像入力プログラムにおいて、  [50] The image input program according to claim 49, wherein
前記画像認識ステップは、前記マーク画像種別情報を参照して、解析しょうとする 画像の対象物又は対象物の特定部分の種別を特定し、画像の解析処理を行なうス テツプを備えることを特徴とする画像入力プログラム。  The image recognition step includes a step of referring to the mark image type information, specifying a type of an object to be analyzed or a specific portion of the object, and performing an image analysis process. Image input program to do.
[51] 請求項 49記載の画像入力プログラムにおいて、  [51] The image input program according to claim 49, wherein
前記画像認識ステップは、前記マーク表示位置情報を参照して、解析しょうとする 画像の対象物又は対象物の特定部分の位置を特定し、画像の解析処理を行なうス テツプを備えることを特徴とする画像入力プログラム。  The image recognition step includes a step of referring to the mark display position information, specifying a position of an object or a specific portion of the object to be analyzed, and performing an image analysis process. Image input program to do.
[52] 請求項 49記載の画像入力プログラムにおいて、  [52] The image input program according to claim 49, wherein
前記画像認識ステップは、前記マーク画像が重畳された画像から前記マーク画像 を認識することによって、解析しょうとする画像の対象物又は対象物の特定部分を特 定し、画像の解析処理を行なうステップを備えることを特徴とする画像入力:  The image recognizing step is a step of recognizing the mark image from the image on which the mark image is superimposed, specifying an object or a specific portion of the object to be analyzed, and performing an image analysis process. Image input characterized by comprising:
[53] 請求項 49記載の画像入力プログラムにおいて、 [53] In the image input program according to claim 49,
前記画像認識ステップは、記録された画像とマーク画像とを比較することにより、解 析しょうとする画像の対象物又は対象物の特定部分を特定し、画像の解析処理を行 なうステップを備えることを特徴とする画像入力:  The image recognition step includes a step of identifying an object or a specific portion of the object to be analyzed by comparing the recorded image with the mark image, and performing an image analysis process. Image input characterized by:
PCT/JP2004/009193 2003-06-30 2004-06-30 Image input device, robot, and program WO2005001764A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003186216 2003-06-30
JP2003-186216 2003-06-30

Publications (1)

Publication Number Publication Date
WO2005001764A1 true WO2005001764A1 (en) 2005-01-06

Family

ID=33549684

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/009193 WO2005001764A1 (en) 2003-06-30 2004-06-30 Image input device, robot, and program

Country Status (1)

Country Link
WO (1) WO2005001764A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102761705A (en) * 2011-04-25 2012-10-31 奥林巴斯映像株式会社 An image recording device, an image editing device and an image capturing device
CN108604131A (en) * 2016-03-04 2018-09-28 新日铁住金系统集成株式会社 Display system, information processing unit, information processing method and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07289507A (en) * 1994-04-22 1995-11-07 Olympus Optical Co Ltd Freezing device
JPH0946560A (en) * 1995-08-02 1997-02-14 Canon Inc Image input device
JP2002288178A (en) * 2001-03-23 2002-10-04 Toshiba Corp Multimedia information collection and management device and program
JP2002288671A (en) * 2001-03-26 2002-10-04 Secom Co Ltd Personal authentication device
JP2003141541A (en) * 2001-10-31 2003-05-16 Toshiba Corp Individual recognition device and passage control device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07289507A (en) * 1994-04-22 1995-11-07 Olympus Optical Co Ltd Freezing device
JPH0946560A (en) * 1995-08-02 1997-02-14 Canon Inc Image input device
JP2002288178A (en) * 2001-03-23 2002-10-04 Toshiba Corp Multimedia information collection and management device and program
JP2002288671A (en) * 2001-03-26 2002-10-04 Secom Co Ltd Personal authentication device
JP2003141541A (en) * 2001-10-31 2003-05-16 Toshiba Corp Individual recognition device and passage control device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102761705A (en) * 2011-04-25 2012-10-31 奥林巴斯映像株式会社 An image recording device, an image editing device and an image capturing device
CN102761705B (en) * 2011-04-25 2015-07-22 奥林巴斯映像株式会社 An image recording device, an image editing device and an image capturing device
CN108604131A (en) * 2016-03-04 2018-09-28 新日铁住金系统集成株式会社 Display system, information processing unit, information processing method and program

Similar Documents

Publication Publication Date Title
US7349020B2 (en) System and method for displaying an image composition template
US7995106B2 (en) Imaging apparatus with human extraction and voice analysis and control method thereof
JP4218348B2 (en) Imaging device
JP4196714B2 (en) Digital camera
US8831282B2 (en) Imaging device including a face detector
JP4663699B2 (en) Image display device and image display method
WO2021027537A1 (en) Method and apparatus for taking identification photo, device and storage medium
WO2019137131A1 (en) Image processing method, apparatus, storage medium, and electronic device
US20100302595A1 (en) Image Reproducing Apparatus And Imaging Apparatus
US8055016B2 (en) Apparatus and method for normalizing face image used for detecting drowsy driving
JP4459788B2 (en) Facial feature matching device, facial feature matching method, and program
JP2004317699A (en) Digital camera
JP2004320286A (en) Digital camera
JP2006319610A (en) Camera
KR101923177B1 (en) Appratus and method for providing augmented reality information based on user
WO2008012905A1 (en) Authentication device and method of displaying image for authentication
US8400532B2 (en) Digital image capturing device providing photographing composition and method thereof
KR20170074742A (en) Image processing device, image processing method amd program
CN110326287A (en) Image pickup method and device
JP2004320285A (en) Digital camera
JP5880135B2 (en) Detection apparatus, detection method, and program
JPH08287216A (en) In-face position recognizing method
US20090202180A1 (en) Rotation independent face detection
CN112073640B (en) Panoramic information acquisition pose acquisition method, device and system
CN113747044A (en) Panoramic shooting method and device

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP