WO2019225595A1 - 辞書学習装置、情報処理装置、辞書学習方法およびプログラム記憶媒体 - Google Patents

辞書学習装置、情報処理装置、辞書学習方法およびプログラム記憶媒体 Download PDF

Info

Publication number
WO2019225595A1
WO2019225595A1 PCT/JP2019/020088 JP2019020088W WO2019225595A1 WO 2019225595 A1 WO2019225595 A1 WO 2019225595A1 JP 2019020088 W JP2019020088 W JP 2019020088W WO 2019225595 A1 WO2019225595 A1 WO 2019225595A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image area
area
dictionary
enlarged
Prior art date
Application number
PCT/JP2019/020088
Other languages
English (en)
French (fr)
Inventor
丈晴 北川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/056,984 priority Critical patent/US11600086B2/en
Priority to JP2020521248A priority patent/JP7103412B2/ja
Publication of WO2019225595A1 publication Critical patent/WO2019225595A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Definitions

  • the present invention relates to a technique for learning a dictionary including reference data to be referred to when a computer executes processing.
  • the length of an object to be observed is measured using a captured image of the object to be observed photographed by the photographing device.
  • the computer when measuring the length of an object from a captured image using a computer, for example, the computer performs processing for detecting both ends of the length measurement target portion of the object from the captured image, and then The process of calculating the length between the detected ends is performed.
  • the computer In the process of detecting both ends of the length measurement target portion as described above from the photographed image, the computer refers to, for example, reference data in a dictionary held in the storage device.
  • a reference data generation method for example, there is machine learning using a plurality of different teacher data in which both ends of a length measurement target portion of an object to be observed are photographed.
  • Patent Document 1 discloses a technique related to generation of a cut-out area detection model used in a process of cutting out an image area necessary for personal authentication and motion recognition from a captured image.
  • both ends of the object length measurement target portion such a portion to be detected is also referred to as a detection target hereinafter
  • a detection target sometimes caused problems.
  • one of the problems is that the detection target may not be detected even though the object to be observed is captured in the captured image.
  • Another problem is that even if the computer detects the detection target from the captured image, the detected position of the detection target is deviated from the correct position (for example, both ends of the length measurement target portion). .
  • a main object of the present invention is to provide a technique for increasing the detection rate for detecting a detection target from a captured image and the probability of the detection position of the detection target.
  • a dictionary learning apparatus provides: A reference data extraction unit that extracts an image of a reference image area serving as a reference including a detection target in the recognition target object based on reference cut-out information from a captured image by a photographing device that captures the recognition target object; An image of an enlarged image area that includes the reference image area and is wider than the reference image area and includes a background that represents other than the object to be recognized is extracted from the captured image based on enlarged cutout information An enlarged data extractor, Reduction that extracts an image of a reduced image area that includes the detection target and is narrower than the reference image area, and in which the object to be recognized is partially outside the area, from the captured image based on reduced cutout information A data extractor; And a learning unit that learns a dictionary including reference data to be referred to in a detection process for detecting the detection target from the captured image, using the images of the reference image area, the enlarged image area, and the reduced image area.
  • An information processing apparatus includes: A storage device that holds a dictionary learned by the dictionary learning device according to the present invention; A detection unit that detects a detection target in an object to be recognized from an image captured by the imaging device using a dictionary of the storage device; A processing unit that executes processing using the detected detection target.
  • the dictionary learning method includes: By computer An image of a reference image region serving as a reference including a detection target in the recognition target object is extracted based on reference cut-out information from a captured image by a shooting device that captures the recognition target object.
  • An image of an enlarged image area that includes the reference image area and is wider than the reference image area and includes a background that represents other than the object to be recognized is extracted from the captured image based on enlarged cutout information
  • An image area including the detection target and narrower than the reference image area, and an image of a reduced image area in which the object to be recognized is partially outside the area is extracted from the captured image based on reduced cutout information;
  • a dictionary including reference data to be referred to in a detection process for detecting the detection target from the captured image is learned using images of the reference image region, the enlarged image region, and the reduced image region.
  • a program storage medium includes: A process of extracting an image of a reference image region serving as a reference including a detection target in the recognition target object from a captured image by a photographing device that captures the recognition target object based on reference cutout information; An image of an enlarged image area that includes the reference image area and is wider than the reference image area and includes a background that represents other than the object to be recognized is extracted from the captured image based on enlarged cutout information Processing to Processing for extracting an image of a reduced image area that includes the detection target and is narrower than the reference image area, and in which the recognition target object is partially outside the area, from the captured image based on reduced cutout information
  • the computer executes a process of learning a dictionary including reference data to be referred to in the detection process for detecting the detection target from the photographed image using the image of the reference image area, the enlarged image area, and the reduced image area.
  • a computer program to be stored is stored.
  • the present invention it is possible to increase the detection rate for detecting the detection target from the captured image and the probability of the detection position of the detection target.
  • FIG. 19 is a diagram illustrating a specific example of a reference image area, an enlarged image area, and a reduced image area for the recognition target object shown in FIG. 18.
  • FIG. 22 is a block diagram illustrating a simplified configuration of an information processing apparatus that uses a dictionary learned by the dictionary learning apparatus in FIG. 21. It is a figure explaining an example of the process of the detection part with which the information processing apparatus is equipped. It is a figure which further demonstrates an example of the process of the detection part with which the information processing apparatus is equipped. It is a block diagram explaining the structure of the dictionary learning apparatus of 3rd Embodiment which concerns on this invention.
  • FIG. 1 is a block diagram showing a simplified configuration of the dictionary learning apparatus according to the first embodiment of the present invention.
  • the dictionary learning device 10 of the first embodiment is a device that learns a dictionary used by a computer.
  • the dictionary here is held in the storage device 3 provided in the information processing apparatus (computer) 1 as shown in FIG. 2, and the control device (processor) 2 of the information processing apparatus 1 executes the processing. It includes reference data to be referred to.
  • the control device 2 of the information processing device 1 that uses a dictionary learned by the dictionary learning device 10 includes a detection unit 6 and a processing unit 7 as functional units.
  • the detection unit 6 has a function of detecting a predetermined detection target in an object to be recognized from an image captured by the imaging device 40 with reference to the dictionary 5.
  • the detection unit 6 is a bifurcated portion T of the mouth H and tail of the fish 80 as the detection target from the captured image of the fish 80 that is the recognition target object as shown in FIG. Is detected with reference to the dictionary 5.
  • the detection unit 6 detects the dorsal apex B and the ventral bulge portion P of the fish 80 from the captured image of the recognition target object (fish) 80 with reference to the dictionary 5 as necessary.
  • the detection unit 6 may detect the base of the belly fin instead of the bulging portion P on the ventral side.
  • the processing unit 7 has a function of executing processing using the detection target detected by the detection unit 6. As a specific example, the processing unit 7 calculates position information of the mouth T and the tail bifurcated portion T detected by the detecting unit 6, and calculates the position of the mouth H and the tail bifurcated portion T. The fork length of the fish 80 is calculated based on the information. Further, when the detection unit 6 detects the dorsal apex B and the ventral bulge portion (or the base of the belly fin) P of the fish 80, the processing unit 7 may detect the dorsal apex B and the ventral bulge portion. (Position of the stomach fin) The position information of P may be calculated, and the body height of the fish 80 may be calculated based on the calculated position information. Further, the processing unit 7 may estimate the weight of the fish 80 using the calculated fork length and body height.
  • the imaging device 40 has a configuration capable of generating a stereoscopic photograph by realizing binocular parallax, for example, by capturing an object simultaneously from a plurality of different directions.
  • An imaging apparatus having such a configuration is referred to as a stereo camera (a camera that is mounted with a plurality of lenses arranged in parallel on one camera and can acquire a plurality of captured images simultaneously captured through the lenses).
  • an apparatus having a configuration in which two cameras are fixed to a support member in a state in which two cameras are arranged in parallel with a distance may be used as the photographing apparatus 40.
  • a captured image by the imaging device 40 is an image that can acquire not only length information in the vertical direction and horizontal direction of the captured image but also length information in the depth direction of the captured image.
  • the photographing device 40 may have a function of photographing a moving image, may have a function of photographing a still image without having a function of photographing a moving image, or has a function of photographing a moving image and a still image. You may have.
  • the imaging device 40 enters a ginger in which fish is cultivated, and is disposed at a water depth and a lens orientation that are determined to be appropriate for fish observation (in other words, imaging of a fish to be observed). Take a picture.
  • a technique for giving a photographed image of a fish photographed by the photographing apparatus 40 to the dictionary learning apparatus 10 or the information processing apparatus 1 in this way for example, there is a technique using wired communication or wireless communication.
  • a portable storage medium for example, an SD (Secure Digital) card
  • the dictionary learning device 10 of the first embodiment has a function of learning the dictionary 5 to be given to the information processing device 1 by using a supervised learning method using teacher data using a photographed image by the photographing device 40.
  • the dictionary learning device 10 is configured by a computer.
  • the computer may be a device dedicated to dictionary learning, or may be a device that executes not only the dictionary learning function but also processing using a dictionary (for example, processing for calculating fish fork length and weight). Good. That is, the information processing apparatus 1 as shown in FIG. 2 may have a function as the dictionary learning apparatus 10.
  • the dictionary learning device 10 is connected to an input device 50 and a display device 60 as shown in FIG.
  • the input device 50 is a device (for example, a keyboard, a mouse, or a touch panel) that inputs information to the dictionary learning device 10 by an operation of a user (operator) who operates the dictionary learning device 10.
  • the display device 60 is a device (display) that displays information.
  • the dictionary learning device 10 may be further connected to an external storage device 70 that is separate from the dictionary learning device 10.
  • the dictionary learning device 10 includes a control device 20 and a storage device 30 as a general configuration.
  • the storage device 30 has a function of storing various data and computer programs, and is realized by a storage medium such as a hard disk device or a semiconductor memory, for example.
  • the storage device provided in the dictionary learning device 10 is not limited to one, and a plurality of types of storage devices may be provided in the dictionary learning device 10. In this case, the storage devices are collectively referred to as a plurality of storage devices. 30.
  • the storage device 70 has a function of storing various data and computer programs, and is realized by a storage medium such as a hard disk device or a semiconductor memory.
  • the dictionary learning device 10 when the dictionary learning device 10 is connected to the storage device 70, appropriate information is stored in the storage device 70. In this case, the dictionary learning device 10 appropriately executes a process of writing information to the storage device 70 and a process of reading out the information. However, in the following description, the description of the process related to the storage device 70 is omitted.
  • the storage device 30 stores an image captured by the image capturing device 40 in a state associated with identification information for identifying the image capturing device 40 that has been imaged and information related to the image capturing status, such as information on the image capturing time. Is done.
  • the control device 20 includes a processor such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).
  • the control device 20 can have the following functions when, for example, the processor executes a computer program stored in the storage device 30. That is, the control device 20 includes a reference data extraction unit 21, an enlarged data extraction unit 22, a reduced data extraction unit 23, a modified data extraction unit 24, a learning unit 25, and a display control unit 26 as functional units. I have.
  • the display control unit 26 has a function of controlling the display operation of the display device 60. For example, the display control unit 26 displays information input to the dictionary learning device 10 by the operation of the input device 50 by the user on the display device 60. Further, the display control unit 26 displays information requested to be displayed by the reference data extraction unit 21 or the like on the display device 60.
  • the reference data extraction unit 21 has a function of extracting a reference image area including a detection target of an object to be recognized from a photographed image by the photographing device 40 in order to generate teacher data.
  • the reference image region is an image region that serves as a reference when extracting an image region used for generating teacher data from a captured image. For example, a reference extraction determined by a user in consideration of processing using a detection target or the like It is an area that satisfies the conditions.
  • the reference data extraction unit 21 uses teacher data for learning a dictionary used in processing for detecting a fish tip H, a bifurcated portion T of the tail, a ventral bulge portion P, and a dorsal apex B as detection targets. It is assumed that a reference image region used for generating the image is extracted.
  • An example of the reference image area in this case is a reference image area Gs in the captured image 42 as shown in FIG.
  • the reference image area Gs is determined by the user in consideration of the calculation processing of the measurement values of the length of the fork and the body height using the detection targets H, T, P, and B in the fish 80 that is the recognition target object. This is a region that satisfies the following criteria extraction condition.
  • the reference extraction conditions include that the region is rectangular, that all of the detection targets H, T, P, and B are included, and that the posture of the fish 80 is a basic posture suitable for length calculation (that is, from head to tail). And a posture that can be regarded as straight) and that the background other than the fish 80 is suppressed from entering.
  • the reference data extraction unit 21 displays a display such as a message prompting the user to specify a reference image region and a detection target in a state where an image captured by the imaging device 40 is displayed on the display device 60.
  • a display such as a message prompting the user to specify a reference image region and a detection target in a state where an image captured by the imaging device 40 is displayed on the display device 60.
  • the reference data extraction unit 21 acquires information related to the position and size of the designated reference image area from the display control unit 26 as reference cutout information.
  • the acquired reference cutout information is stored in the storage device 30 by the reference data extraction unit 21, for example.
  • the reference data extraction unit 21 extracts an image of the reference image region from the captured image based on the reference cutout information acquired from the display control unit 26. Furthermore, the reference data extraction unit 21 associates position information indicating the position of the detection target designated by the user with the extracted image of the reference image area, thereby detecting the image of the reference image area and the detection in the reference image area. Teacher data including target position information is generated.
  • the position information of the detection target is expressed using partial areas Ph, Pt, Pp, and Pb as shown in FIGS. 5A and 5B.
  • FIG. 5B is a diagram obtained by removing the image of the fish 80 from FIG. 5A in order to make the partial areas Ph, Pt, Pp, and Pb easy to understand.
  • the partial areas Ph, Pt, Pp, and Pb have a rectangular shape, and vertices set as reference points among the four corner vertices coincide with the corresponding vertices of the reference image area Gs, and are detected at the center position.
  • This is an area where H, T, P, and B are located. That is, in the partial area Ph, the lower left vertex in FIGS. 5A and 5B is set as a reference point, the reference point coincides with the lower left vertex of the reference image area Gs, and the center position is a detection target. This is an area where the mouth H of the fish 80 is located.
  • the reference point coincides with the upper right vertex of the reference image area Gs, and the fish 80 to be detected is located at the center position. This is a region where the bifurcated portion T of the tail is located.
  • the lower left vertex in FIGS. 5A and 5B is set as the reference point, the reference point coincides with the lower left vertex of the reference image area Gs, and the detection target fish 80 is located at the center position thereof. This is a region where the bulging portion P of the stomach is located.
  • the upper left vertex in FIGS. 5A and 5B is set as a reference point, the reference point coincides with the upper left vertex of the reference image area Gs, and the detection target fish 80 is located at the center position thereof. This is a region where the top B on the back side is located.
  • the partial areas Ph, Pt, Pp, and Pb represent the positions of the detection targets H, T, P, and B depending on their center positions.
  • the reference data extraction unit 21 stores the teacher data generated using the reference image area extracted from the captured image as described above in the storage device 30.
  • the enlarged data extraction unit 22 has a function of extracting an enlarged image area from a photographed image by the photographing device 40.
  • the enlarged image area is an image area that includes the reference image area and is wider than the reference image area, and includes a background in which objects other than the recognition target object are represented. 6 to 9 show specific examples of the enlarged image area.
  • the enlarged image region Ge in FIG. 6 is an image region obtained by enlarging the reference image region Gs in the upward direction as indicated by the dotted line in FIG. 6 or in the downward direction as indicated by the chain line.
  • An enlarged image area Ge in FIG. 7 is an image area obtained by enlarging the reference image area Gs in the left direction as indicated by a dotted line or the right direction as indicated by a chain line in FIG.
  • the enlarged image region Ge in FIG. 8 is an image region obtained by enlarging the reference image region Gs in two directions of the upward direction, the downward direction, the left direction, and the right direction in FIG. That is, in the enlarged image region Ge, the reference image region Gs is divided into two directions, ie, a downward direction and a right direction as indicated by a dotted line in FIG. 8, and an upward direction and a left direction as indicated by a chain line in FIG. There are image areas enlarged in two directions, upward and downward, two directions in the right and left directions, two directions in the upward and right directions, and two directions in the downward and left directions.
  • the enlarged image region Ge is an image region obtained by enlarging the reference image region Gs in at least three directions of the upward direction, the downward direction, the left direction, and the right direction in FIG. That is, in the enlarged image region Ge, the reference image region Gs is divided into three directions, that is, an upward direction, a left direction, and a downward direction as indicated by a dotted line in FIG. 9, and an upward direction and a right direction as indicated by a chain line in FIG. There are three image areas that are expanded in three directions, ie, three directions, ie, upward, right, and left, and three directions, downward, right, and left. Furthermore, the enlarged image area Ge includes an image area obtained by enlarging the reference image area Gs in four directions, ie, upward, downward, leftward, and rightward.
  • the enlarged data extraction unit 22 is stored in the storage device 30 from a captured image obtained by extracting the reference image region Gs after the reference image region Gs is extracted by the reference data extraction unit 21.
  • An enlarged image region Ge is extracted based on the enlarged cutout information.
  • the enlarged cut-out information is information including information on the number of enlarged image regions Ge extracted based on the reference image region Gs, the enlargement direction of the enlarged image region Ge with respect to the reference image region Gs, and the enlargement ratio thereof.
  • the enlarged cut-out information includes information in which the number of enlarged image areas Ge extracted based on the reference image area Gs is “3”.
  • the enlarged cut-out information includes information of three enlarged types I, II, and III.
  • the enlargement type I is information such that the enlargement direction with respect to the reference image region Gs is “upward and leftward” and the enlargement ratio is “110%”.
  • the enlargement type II is information such that the enlargement direction with respect to the reference image region Gs is “upward” and the enlargement ratio is “125%”.
  • the enlargement type III is information such that the enlargement direction with respect to the reference image region Gs is “left direction and right direction”, and the enlargement ratio is “110%”.
  • the enlarged data extraction unit 22 extracts the enlarged image region Ge from the captured image.
  • the enlarged data extraction unit 22 acquires the enlarged cutout information as follows, and the enlarged data extraction unit is based on the acquired enlarged cutout information. 22 may extract the enlarged image region Ge from the captured image. In other words, the enlarged data extraction unit 22 performs an operation for designating the enlarged image region Ge to the user in a state where the image captured by the imaging device 40 is displayed on the display device 60 together with the information indicating the extracted reference image region Gs.
  • the display control unit 26 is requested to display a prompt message or the like.
  • the enlarged data extracting unit 22 acquires information related to the position and size of the designated enlarged image region Ge from the display control unit 26 as enlarged cutout information. Furthermore, the enlarged data extraction unit 22 extracts an image of the enlarged image region Ge from the captured image based on the enlarged cutout information acquired from the display control unit 26.
  • the enlarged data extraction unit 22 further associates position information indicating the position of the detection target with the extracted image of the enlarged image area Ge, so that the image of the enlarged image area Ge and the position of the detection target in the enlarged image area Ge Teacher data including information is generated.
  • the position information of the detection target associated with the image of the enlarged image area Ge is information that uses the partial areas Ph, Pt, Pp, and Pb, similarly to the position information of the detection target associated with the image of the reference image area Gs.
  • the partial areas Ph, Pt, Pp, and Pb used for the position information of the detection target associated with the image of the enlarged image area Ge have their vertices as reference points coincide with the corresponding vertices of the enlarged image area Ge. Alternatively, it may coincide with the corresponding vertex of the reference image area Gs.
  • the positions and sizes of the partial areas Ph, Pt, Pp, and Pb are This is the same as the partial areas Ph, Pt, Pp, and Pb in the image area Gs.
  • the enlarged image area Ge is the reference image area of the partial areas Ph, Pt, Pp, and Pb.
  • the area becomes larger than the partial areas Ph, Pt, Pp, and Pb in the reference image area Gs.
  • the enlarged data extraction unit 22 generates teacher data using the enlarged image area extracted from the captured image as described above, and stores the generated teacher data in the storage device 30.
  • the reduced data extraction unit 23 has a function of extracting a reduced image area from an image captured by the imaging device 40.
  • the reduced image area is an image area that includes a detection target and is narrower than the reference image area, and in which an object to be recognized is partially outside the area.
  • FIG. 10 shows a specific example of the reduced image area.
  • the reduced image region Gr in FIG. 10 is a region that includes the detection targets H, T, P, and B and is reduced more than the reference image region Gs, and a part of the tail of the fish 80 that is the recognition target object is outside the region. Image area.
  • the reduced image area Gr is separated from the reference image area Gs in one of the upward direction, the downward direction, the left direction, and the right direction, or in the two directions of the upward direction, the downward direction, the left direction, and the right direction. There is a reduced image area. Further, the reduced image area Gr is reduced from the reference image area Gs in three directions of up, down, left, and right, and in four directions of up, down, left, and right. There is an image area.
  • the reduced data extraction unit 23 is based on the reduced cutout information stored in the storage device 30 from the captured image from which the reference image region Gs is extracted after the reference image region Gs is extracted by the reference data extraction unit 21.
  • a reduced image region Gr is extracted.
  • the reduced cutout information is information including information on the number of reduced image areas Gr extracted based on the reference image area Gs, the reduction direction of the reduced image area Gr with respect to the reference image area Gs, and the reduction rate thereof.
  • a plurality of reduced image areas Gr to be extracted based on the reference image area Gs a plurality of reduction types with different one or both of the reduction direction and the reduction rate of the extracted reduced image area Gr. Information is included in the reduced cutout information.
  • the reduced cutout information includes information in which the number of reduced image areas Gr extracted based on the reference image area Gs is “2”.
  • the reduced cutout information includes information of two reduction types I and II.
  • the reduction type I is information such that the reduction direction with respect to the reference image region Gs is “leftward” and the reduction rate is “95%”.
  • the reduction type II is information such that the reduction direction with respect to the reference image region Gs is “upward and leftward”, and the reduction ratio is “upward: 95%, left: 92%”.
  • the reduced data extraction unit 23 extracts the reduced image area Gr from the captured image.
  • the reduced data extraction unit 23 acquires the reduced cutout information as follows, and the reduced data extraction unit is based on the acquired reduced cutout information.
  • 23 may extract the reduced image region Gr from the captured image. That is, the reduced data extraction unit 23 performs an operation for designating the reduced image region Gr to the user in a state where the image captured by the imaging device 40 is displayed on the display device 60 together with the information indicating the extracted reference image region Gs.
  • the display control unit 26 is requested to display a prompt message or the like. Assume that the user designates the reduced image area Gr in the captured image by operating the input device 50 in response to the display of the display device 60 by the display control unit 26 in response to the request.
  • the reduced data extraction unit 23 acquires information related to the position and size of the designated reduced image region Gr from the display control unit 26 as reduced cutout information. Further, the reduced data extraction unit 23 extracts an image of the reduced image region Gr from the captured image based on the reduced cutout information acquired from the display control unit 26.
  • the reduced data extraction unit 23 associates position information indicating the position of the detection target with the extracted image of the reduced image area Gr, whereby the image of the reduced image area Gr and the position of the detection target in the reduced image area Gr. Teacher data including information is generated.
  • the position information of the detection target associated with the image of the reduced image area Gr is information using the partial areas Ph, Pt, Pp, and Pb, similarly to the position information of the detection target associated with the image of the reference image area Gs.
  • the partial areas Ph, Pt, Pp, and Pb in the reduced image area Gr are rectangular, and vertices set as reference points among the vertices at the four corners coincide with corresponding vertices in the reduced image area Gr, and This is an area where the detection targets H, T, P, and B are located at the center position.
  • the partial areas Ph, Pt, Pp, and Pb in the reduced image area Gr are more than the partial areas Ph, Pt, Pp, and Pb in the reference image area Gs depending on the direction in which the reduced image area Gr is reduced than the reference image area Gs. Is also a reduced area.
  • the reduced data extraction unit 23 generates teacher data using the reduced image area extracted from the captured image as described above, and stores the generated teacher data in the storage device 30.
  • the deformation data extraction unit 24 has a function of extracting an image area including the recognition target object in the deformation state from the photographed image based on the deformation extraction information.
  • the deformation state is a state in which the basic posture of the recognition target object is set in consideration of the processing of the processing unit 7 of the information processing apparatus 1 that uses the detection target detected from the recognition target object. .
  • FIG. 11 shows a specific example of a recognition target object (fish) in a deformed state.
  • a state in which a part of the recognition target object (fish 80) as shown in FIG. 12 is hidden by another object 81 is also a deformed state.
  • the deformation data extraction unit 24 prompts the user to perform an operation of designating a deformation image region including a recognition target object in a deformation state and a detection target in a state where a captured image by the photographing device 40 is displayed on the display device 60.
  • the display control unit 26 is requested to display a message or the like. Assume that the display device 60 is displayed by the display control unit 26 in response to the request, and the user designates a deformed image region and a detection target in the captured image by operating the input device 50.
  • the deformation data extraction unit 24 acquires information related to the position and size of the specified deformation image region from the display control unit 26 as deformation extraction information. Further, the deformation data extraction unit 24 extracts an image of the deformation image region from the captured image based on the deformation extraction information acquired from the display control unit 26.
  • the deformation data extraction unit 24 associates position information indicating the position of the detection target designated by the user with the extracted image of the deformation image area, thereby detecting the image of the deformation image area and the detection in the deformation image area.
  • Teacher data including target position information is generated.
  • the position information of the detection target is represented using, for example, the partial areas Ph, Pt, Pp, and Pb as described above. That is, the partial areas Ph, Pt, Pp, and Pb are rectangular, and the vertex set as the reference point among the vertices at the four corners coincides with the corresponding vertex of the deformed image area and is detected at the center position. This is an area where the objects H, T, P, and B are located.
  • the modified data extraction unit 24 generates teacher data using the modified image area extracted from the captured image as described above, and stores the generated teacher data in the storage device 30.
  • the learning unit 25 has a function of learning a dictionary used in the detection process in the detection unit 6 of the information processing device 1 using the teacher data stored in the storage device 30.
  • the method of learning the dictionary is not particularly limited as long as it is a learning method with teacher data, and the description thereof is omitted here.
  • the dictionary learning device 10 of the first embodiment is configured as described above.
  • an operation example related to generation of teacher data in the dictionary learning device 10 will be described with reference to the flowchart of FIG.
  • the reference data extraction unit 21 requests the display control unit 26 to display a message or the like that prompts an operation for specifying the reference image region and the detection target. To do.
  • the display device 60 is displayed by the display control unit 26 in response to the request and the user designates a reference image area in the captured image by operating the input device 50
  • the reference data extraction unit 21 designates the designated reference image.
  • Information representing a region is acquired as reference cutout information.
  • the reference data extraction unit 21 extracts the reference image region Gs from the captured image based on the reference cutout information (Step S101 in FIG. 13).
  • the reference data extraction unit 21 acquires the position information of the detection target in the captured image specified by the user, and based on the acquired information, the reference data set in the reference image region Gs is used to detect the detection target. Position information representing the position is calculated (step S102). After that, the reference data extraction unit 21 associates position information indicating the position of the detection target with the extracted image of the reference image area, so that the image of the reference image area and the position information of the detection target in the reference image area are related. To generate teacher data.
  • the enlarged data extraction unit 22 extracts the enlarged image area Ge from the captured image based on the enlarged cutout information in the storage device 30 (step S103). The enlarged data extraction unit 22 then associates the position information indicating the position of the detection target with the image of the enlarged image area Ge, whereby the image of the enlarged image area Ge, the position information of the detection target in the enlarged image area Ge, and To generate teacher data.
  • the reduced data extraction unit 23 extracts the reduced image region Gr from the captured image based on the reduced cutout information in the storage device 30 (step S104). After that, the reduced data extraction unit 23 associates the position information indicating the position of the detection target with the image of the reduced image area Gr, so that the image of the reduced image area Gr and the position information of the detection target in the reduced image area Gr To generate teacher data.
  • step S105 an instruction to end the generation of the basic state teacher data based on the reference image region Gs and the enlarged image region Ge and the reduced image region Gr related to the reference image region Gs is input by the user. It is determined whether or not the call is transmitted (step S105). If there is no end instruction, the operations in and after step S101 are repeated.
  • the deformation data extraction unit 24 performs an operation for designating the deformation image region including the recognition target object in the deformation state and the detection target together with the captured image by the imaging device 40.
  • the display control unit 26 is requested to display a prompt message or the like.
  • the display control unit 26 receives the display on the display device 60, and when the user designates a deformed image area in the photographed image by operating the input device 50, the deformed data extraction unit 24 selects the designated deformed image. Information representing a region is acquired as modified cutout information. Then, the deformation data extraction unit 24 extracts a deformation image area from the captured image based on the deformation cut-out information (Step S106).
  • the deformation data extraction unit 24 acquires the position information of the detection target in the captured image designated by the user, and based on the acquired information, uses the reference point set in the deformation image area to detect the position of the detection target. Is calculated. After that, the deformation data extraction unit 24 associates position information indicating the position of the detection target with the extracted image of the deformation image area, and thereby the position information of the detection target in the deformation image area. To generate teacher data.
  • step S107 it is determined whether or not an instruction to end the generation of the deformed teacher data based on the deformed image area is transmitted by the user operating the input device 50 (step S107). Then, when there is no instruction to end, the operations after step S106 are repeated. If there is an instruction for termination, the teacher data generation operation is terminated.
  • the operation related to the generation of the teacher data in the control device 20 is not limited to the operation order shown in FIG. 13 and can be changed as appropriate.
  • the enlarged data extracting unit 22 may extract the enlarged image area.
  • the timing for generating the teacher data is set as appropriate. For example, after extracting the reference image region Gs, the enlarged image region Ge, and the reduced image region Gr, teacher data based on the reference image region Gs, teacher data based on the enlarged image region Ge, and teacher data based on the reduced image region Gr are generated. May be.
  • step S103 the control device 20 causes the user to determine whether or not teacher data based on the enlarged image region Ge and the reduced image region Gr is necessary. If necessary, the control device 20 proceeds to the operation of step S103. However, if unnecessary, the operation may proceed to step S106.
  • the generation ratio of the teacher data based on the reference image region Gs, the teacher data based on the enlarged image region Ge, and the teacher data based on the reduced image region Gr is set as appropriate.
  • the generation ratio is set to 1: 1 on the basis of a processing method using a dictionary learned from teacher data, a background of an object to be recognized in a captured image, and the like.
  • the dictionary learning device 10 can obtain the following effects by having the above-described configuration. That is, the dictionary learning device 10 not only generates teacher data based on the reference image region Gs but also teacher data based on the enlarged image region Ge obtained by enlarging the reference image region Gs and a reduced image region obtained by reducing the reference image region Gs. Teacher data based on Gr is also generated. As a result, the dictionary learning device 10 can increase the number of teacher data generated and variations, so that the reliability of the dictionary can be increased by increasing the learning amount and expanding the learning content.
  • the processing area N is an area where detection of a detection target can be appropriately processed (that is, an area similar to the reference image area Gs described above).
  • the detection unit 6 of the information processing apparatus 1 uses the dictionary 5 to correctly detect the detection targets H and T (here, the description of the detection targets P and B is omitted for easy understanding). ) Can be detected.
  • the dictionary learning device 10 does not use the teacher data for the enlarged image region Ge and the reduced image region Gr for learning.
  • the dictionary 5 generated in this case does not reflect teacher data information about the enlarged image region Ge and the reduced image region Gr. That is, for example, when information on the partial areas Ph and Pt as described above is given as information representing the positions of the detection targets H and T, the information obtained by learning the partial areas Ph and Pt includes an enlarged image area. Information on Ge and reduced image area Gr is not reflected. For this reason, if the user designates a region N1 that is larger than the reference processing region N as shown in FIG. 14 as the processing region, the region is enlarged due to the enlarged region N1.
  • the partial areas Ph1 and Pt1 are detected based on the dictionary. Since the center positions of the partial areas Ph1 and Pt1 represent the detection target, the positions of the detected detection targets H1 and T1 deviate from the correct detection targets H and T due to the enlargement of the partial areas Ph1 and Pt1. Further, even when the user designates a region N1 that is smaller than the reference processing region N as shown in FIG. 14 as the processing region, the detection targets H and T cannot be detected at the correct positions. There is.
  • the dictionary learning device 10 learns a dictionary in consideration of not only the reference image region Gs but also the enlarged image region Ge and the reduced image region Gr. From this, the dictionary learning device 10 can provide a dictionary that can increase the probability of the detection position of the detection target when a processing region enlarged or reduced from the reference region N as described above is designated. .
  • the dictionary learning device 10 generates teacher data about the object to be recognized in the deformation state by the deformation data extraction unit 24 and uses it for learning the dictionary. It is possible to generate a dictionary effective for the process of detecting the detection target from the recognition target object that changes every moment.
  • the dictionary learning device 10 generates teacher data when a part of the object to be recognized as shown in FIG. 12 is not reflected in the captured image by another object, and is used for learning the dictionary. Further, the dictionary learning device 10 generates teacher data based on an image in a reduced image area in which a part of an object to be recognized is outside the area, and is used for learning a dictionary. Therefore, the dictionary learning device 10 can generate a dictionary that can detect the detection target in the recognition target object even when a part of the recognition target object is not reflected in the captured image.
  • the reference data extraction unit 21 uses the designated area as the reference image area as it is. Instead of this, the following processing may be executed. For example, the reference data extraction unit 21 performs a process of confirming to the user whether the designated area is the reference image area or the deformed image area. If the specified area is the reference image area, the reference data area is extracted as described above. Processing related to generation of teacher data is performed. On the other hand, in the case of the deformed image area, the reference data extraction unit 21 stops the process. Then, instead of the reference data extracting unit 21, the modified data extracting unit 24 uses the designated region as a modified image region, and performs processing relating to extraction of the modified image region and generation of teacher data.
  • the reference image area, the enlarged image area, the reduced image area, and the deformed image area are rectangular, but other shapes may be used.
  • the dictionary learning device is a device that learns a dictionary referred to by the control device 2 of the information processing device 1 by a learning method with teacher data. Learn the dictionary to be used in the detection process that detects one detection target from the list. Similar to the dictionary learning device 10 of the first embodiment, the dictionary learning device of the second embodiment has a configuration as shown in FIG. However, the dictionary learning device 10 of the first embodiment and the dictionary learning device 10 of the second embodiment have the following differences due to the fact that the number of detection targets to be detected from the recognition target object is one. is there.
  • the image learning area 10 captures the image area in which the detection target in the recognition target object is located at the center as the reference image area, the enlarged image area, the reduced image area, and the deformed image area. Extracted from the image.
  • the information processing apparatus 1 that uses a dictionary learned by the dictionary learning apparatus 10 is mounted on a movable body such as a movable robot.
  • the detection unit 6 of the information processing apparatus 1 has a function of detecting the center of the mark 83 as illustrated in FIG. 15 as the detection target M in the object to be recognized, and the processing unit 7 moves toward the detection target M.
  • a function for controlling the moving means to move the moving body is provided.
  • the dictionary learning device 10 of the second embodiment learns a dictionary used by the detection unit 6 of such an information processing device 1.
  • the place where the recognition target object (mark 83) is arranged is not limited, and the recognition target object (mark 83) is arranged at an appropriate place (for example, a wall of a building) according to the application. .
  • the reference image area Gs, the enlarged image area Ge, and the reduced image area Gr centered on the detection target M are respectively referred to as the reference data extraction unit 21 and the enlarged data extraction unit. 22 and the reduced data extraction unit 23 extract the captured image 42.
  • the reference data extraction unit 21 displays, for example, a message such as a message for prompting the user to specify the detection target M on the display control unit 26 in a state where the image captured by the imaging device 40 is displayed on the display device 60. Request. It is assumed that the display device 60 is displayed by the display control unit 26 in response to the request, and the user designates the detection target (center portion of the mark 83) M in the photographed image by operating the input device 50. In this case, the reference data extraction unit 21 further executes a process for allowing the user to specify a reference image region Gs having the detection target M as the center.
  • the reference image region Gs means that the detection target M is located in the center, that the entire object to be recognized is included, and that the background other than the object to be recognized is prevented from entering. It is an image area that satisfies the standard extraction condition of satisfying all of the above.
  • the reference data extraction unit 21 relates to the position and width of the designated reference image area Gs in the photographed image 42.
  • the information to be acquired is acquired from the display control unit 26 as reference cutout information.
  • the acquired reference cutout information is stored in the storage device 30 by the reference data extraction unit 21, for example.
  • the reference data extraction unit 21 extracts an image of the reference image region Gs from the photographed image based on the reference cutout information acquired from the display control unit 26. Furthermore, the reference data extraction unit 21 associates position information indicating the position of the detection target M designated by the user with the extracted image of the reference image region Gs, and thereby the image of the reference image region Gs and the reference image. Teacher data including the position information of the detection target in the region Gs is generated. The teacher data generated in this way is stored in the storage device 30.
  • the enlarged data extraction unit 22 and the reduced data extraction unit 23 extract the enlarged image region Ge and the reduced image region Gr from the captured image 42, respectively, similarly to the enlarged data extraction unit 22 and the reduced data extraction unit 23 in the first embodiment.
  • teacher data is generated.
  • the generated teacher data is stored in the storage device 30.
  • the detection target M is located at the center of the extracted enlarged image region Ge and reduced image region Gr.
  • the deformation data extraction unit 24 performs an operation of designating the detection target M in the recognition target object in the deformation state as illustrated in FIG. 17, for example, in a state where the image captured by the imaging device 40 is displayed on the display device 60.
  • the display control unit 26 is requested to display a message prompting the user. It is assumed that the display device 60 is displayed by the display control unit 26 in response to the request, and the user designates the detection target (center portion of the mark 83) M in the photographed image by operating the input device 50.
  • the deformation data extraction unit 24 further executes a process for allowing the user to specify a deformation image region centered on the detection target M.
  • the deformed image area here means that the detection target M is located in the center, that the entire object to be recognized is included, and that the background other than the object to be recognized is prevented from entering. It is an image area that satisfies the extraction condition of satisfying all of that.
  • the deformed data extraction unit 24 transforms information related to the position and size of the designated deformed image area in the photographed image. It is acquired from the display control unit 26 as cutout information. The acquired reference cutout information is stored in the storage device 30 by the deformation data extraction unit 24, for example.
  • the deformation data extraction unit 24 extracts an image of the deformation image region from the captured image based on the deformation cutout information acquired from the display control unit 26. Furthermore, the deformation data extraction unit 24 associates position information indicating the position of the detection target M designated by the user with the extracted image of the deformation image area, so that the image of the deformation image area and the deformation image area Teacher data including position information to be detected is generated. The teacher data generated in this way is stored in the storage device 30.
  • the dictionary learning device 10 extracts the reference image area, the enlarged image area, the reduced image area, and the deformed image area from the photographed image as described above, and uses the teacher data based on the extracted image area to create a dictionary. To learn.
  • Other configurations of the dictionary learning device 10 of the second embodiment are the same as those of the dictionary learning device 10 of the first embodiment.
  • the dictionary learning device 10 according to the second embodiment is not limited to the reference image region Gs but also the enlarged image region, even when there is only one detection target in the recognition target object. Ge and reduced image region Gr are also extracted from the captured image to generate teacher data.
  • the dictionary learning device 10 of the second embodiment can also increase the number of teacher data generations and variations, so that the trust of the dictionary can be increased by increasing the learning amount and expanding the learning content. Can increase the sex. That is, the dictionary learning device 10 according to the second embodiment can increase the probability of the detection position of the detection target detected by the information processing device 1.
  • the detection unit 6 of the information processing device 1 performs the detection process.
  • the problem is that the detection unit 6 cannot detect the detection target even though the detection target of the recognition target object is shown in the captured image.
  • One of the causes of this problem is, for example, when the user designates an image area to be detected in the captured image using the input device 50, the image area to be detected is an object to be recognized. This is probably because it is too wide and contains a lot of background information. Another cause is considered to be that the detection target image area specified by the user does not include the entire object to be recognized.
  • the dictionary learning device 10 of the second embodiment generates teacher data based on the enlarged image region Ge so that the dictionary can be learned in consideration of the background information of the recognition target object. Further, the dictionary learning device 10 generates teacher data based on the reduced image region Gr so as to learn the dictionary in consideration of a case where some information in the recognition target object is not included. For this reason, the dictionary learning device 10 can generate a dictionary that can reduce the occurrence of the problem that the detection target as described above cannot be detected. By using such a dictionary generated by the dictionary learning device 10, the information processing device 1 can increase the detection rate of the detection target.
  • a stationary object as shown in FIG. 15 is described as an example of a recognition target object.
  • the dictionary learning device 10 of the second embodiment can generate a dictionary used by the detection unit 6 of the information processing device 1 as described above.
  • the detection target is, for example, a part corresponding to the center of gravity of the recognition target object.
  • FIG. 18 shows an example of an object to be recognized.
  • the recognition target object in FIG. 18 is a torso portion of the humanoid robot 85, and the detection target is a portion M corresponding to the center of gravity of the humanoid robot 85.
  • FIG. 19 shows the reference image region and the enlarged image region extracted by the reference data extraction unit 21, the enlarged data extraction unit 22, and the reduced data extraction unit 23 of the control device 20 in the dictionary learning device 10 for the object to be recognized in FIG.
  • a specific example of an image in the reduced image area is shown.
  • the detection target M is located at the center of the reference image area, the enlarged image area, and the reduced image area.
  • FIG. 20 shows a specific example of the image of the deformed image area extracted by the deformation data extracting unit 24 with respect to the object to be recognized in FIG. Even in the image of the deformed image region as described above, a part corresponding to the center of gravity of the recognition target object (humanoid robot 85) is located at the center.
  • the detection unit 6 of the information processing apparatus 1 can detect the position of the humanoid robot 85 even when the leg and one arm of the humanoid robot 85 that is the object to be recognized are hidden by another object. Has been confirmed by the inventors' experiments. Thereby, the information processing apparatus 1 can improve the performance of the tracking process of, for example, the recognition target object by the processing unit 7.
  • the object to be recognized which is a moving object such as the humanoid robot 85, is not limited to a moving object that operates in water, a moving object that operates in water, a moving object that can operate in both water and land, It may be a moving body that moves or flies in the air or space.
  • the dictionary learning device 10 according to the third embodiment has a function of learning a dictionary including reference data used in the object recognition process in addition to the configuration of the dictionary learning device 10 according to the first or second embodiment.
  • the object recognition processing is processing performed before the detection processing in which the detection unit 6 of the control device 2 of the information processing device 1 detects the detection target from the recognition target object, and detects (recognizes the recognition target object in the captured image). ). That is, the dictionary learning device 10 according to the third embodiment learns a dictionary used by the detection unit 6 that executes the following process in the information processing device 1.
  • the detection unit 6 first detects an object to be recognized (for example, fish 80) in the captured image 42 as shown in FIG. 23A.
  • This process is an object recognition process.
  • an object to be recognized for example, fish 80
  • a rectangular image region Z including a recognition target object fish 80
  • the detection unit 6 uses a dictionary including reference data for object recognition (herein referred to as a dictionary 5A (see FIG. 2)).
  • the dictionary 5 ⁇ / b> A is stored in the storage device 3 of the information processing apparatus 1.
  • the detection unit 6 detects a detection target (for example, points H, T, P, and B) in the recognition target object (fish 80) in the detected image region Z as shown in FIG. 23B. .
  • a detection target for example, points H, T, P, and B
  • the detection unit 6 uses a dictionary (referred to as a dictionary 5B (see FIG. 2) here) that includes reference data for detection target detection.
  • the dictionary 5B is also stored in the storage device 3 of the information processing apparatus 1 like the dictionary 5A.
  • the dictionary learning device 10 in the first and second embodiments has a function of learning the dictionary 5B used in the process of detecting the detection target in the recognition target object as described above.
  • the dictionary learning device 10 of the third embodiment has a function of learning the dictionary 5A used in the object recognition process in addition to the function of learning the dictionary 5B.
  • the dictionary learning device 10 includes an object recognition data generation unit 27 as shown in FIG. 24 in addition to the configuration shown in FIG. In FIG. 24, the reference data extraction unit 21, the enlarged data extraction unit 22, the reduced data extraction unit 23, and the modified data extraction unit 24 related to learning of the dictionary 5B are omitted.
  • the object recognition data generation unit 27 has a function of generating teacher data used for learning the dictionary 5A. For example, the object recognition data generation unit 27 displays on the display control unit 26 a message or the like that prompts the user to specify an object to be recognized in a state where an image captured by the imaging device 40 is displayed on the display device 60. Request.
  • the number of objects to be recognized that are specified in the captured image is not limited to one, and the user can specify a plurality of objects to be recognized according to the number of objects to be recognized in the captured image.
  • a prompt message or the like is displayed on the display device 60 by the display control unit 26.
  • an object detection region including an object to be recognized is specified in the captured image.
  • 25 to 27 show specific examples of captured images in which an object detection area is designated (set).
  • the object to be recognized is a fish body
  • the object detection area including the object to be recognized is specified by a rectangular image area K in the captured image 42.
  • a rectangular frame is displayed in the captured image 42 displayed by the display device 60 to clearly indicate the object detection region K.
  • the number of object detection areas K specified in the photographed image 42 differs depending on the photographing state including the number of objects to be recognized in the photographed image 42. That is, as the number of objects to be recognized in the captured image 42 increases, the number of recognizable objects increases, so the number of object detection areas K also increases. However, even if the number of objects to be recognized shown in the captured image 42 is the same, the number of objects to be recognized in the captured image 42 varies because the number of objects that can be recognized changes due to the overlap between the objects. And the number of the object detection areas K does not always have a proportional relationship.
  • the object to be recognized that is the basic posture is specified, but also the object to be recognized in a deformed state as shown in FIG. A message to that effect is displayed on the display device 60.
  • a plurality of recognition target objects having different sizes a recognition target object rotating from a basic posture, a recognition target object in which a part of the object is deformed (for example, a twisted fish body, A fish whose mouth is open) is also specified.
  • a recognition target object close to the photographing apparatus 40, a far recognition target object, a recognition target object partially hidden behind another object, and the like are also designated.
  • the object recognition data generation unit 27 generates the captured image data associated with the object information as teacher data by associating the information of the designated object detection region K with the captured image 42 as object information, and generates the generated teacher data. Is stored in the storage device 30.
  • the learning unit 25 uses the teacher data generated by the object recognition data generation unit 27 and stored in the storage device 30 to generate a dictionary 5A to be used for object recognition processing in the detection unit 6 of the information processing device 1 by learning. It has a function to do.
  • the teacher data used by the learning unit 25 for learning the dictionary 5A is, for example, a large amount of data based on photographed images with different photographing conditions such as the number of objects to be recognized and the image sharpness.
  • the method by which the learning unit 25 learns the dictionary 5A is not limited, and the description thereof is omitted here.
  • the dictionary learning device 10 of the third embodiment has the configuration of the first or second embodiment, the same effects as those of the first or second embodiment can be obtained. Furthermore, the dictionary learning device 10 of the third embodiment can learn the dictionary 5A used by the detection unit 6 of the information processing device 1 in the object recognition process.
  • the dictionary learning device 10 does not use the image of one recognition target object extracted from the captured image 42 as teacher data, but associates object information representing an image region including the recognition target object for each object.
  • the dictionary 5A is learned by using the data of the entire photographed image as teacher data.
  • the detection unit 6 recognizes (detects) the captured image 42. The number of objects to be recognized can be increased.
  • the object recognition data generation unit 27 generates teacher data by associating information on the object detection area K designated by the user with the captured image 42 as object information.
  • the object recognition data generation unit 27 may generate, as teacher data, captured image data associated with object information that is information on the object detection region K by the following processing.
  • object reference data is registered in the storage device 30 in advance.
  • the object reference data is, for example, data obtained by learning using an image of a recognition target object alone extracted from a captured image as teacher data.
  • the object recognition data generation unit 27 detects an object to be recognized (object detection region K) in the captured image 42 using such object reference data.
  • object detection region K object detection region K
  • the object recognition data generation unit 27 detects the number of object detection regions K corresponding to the number of objects to be recognized in the captured image 42. Then, the object recognition data generation unit 27 generates teacher data by associating the detected information of the object detection region K with the captured image 42 as object information.
  • the learning unit 25 of the dictionary learning device 10 learns the dictionary 5A and the dictionary 5B.
  • the learning unit 25 uses the teacher data generated by the reference data extraction unit 21, the enlarged data extraction unit 22, the reduced data extraction unit 23, the modified data extraction unit 24, and the object recognition data generation unit 27, respectively. You may learn one dictionary using it.
  • the detection unit 6 of the information processing apparatus 1 uses the dictionary to detect a recognition target object from the captured image and to detect a detection target in the recognition target object.
  • the recognition target object related to the dictionary generated by the dictionary learning device 10 is not limited to the fish body, the mark, or the humanoid robot used in the description of the first to third embodiments.
  • the detection unit 6 of the information processing apparatus 1 detects one type of recognition target object in the captured image 42 using the dictionary 5A.
  • the information processing apparatus 1 recognizes a dictionary 5A_1 used when detecting a cocoon as one of recognition target objects by object recognition processing and a cocoon as another recognition target object. You may provide dictionary 5A_2 utilized when detecting by a process.
  • the detection unit 6 of the information processing apparatus 1 can detect cocoons and cocoons by type and individually (one by one) from the captured image 42 by using the dictionaries 5A_1 and 5A_2. As described above, when executing the object recognition processing, the detection unit 6 may detect a plurality of types of recognition target objects from the captured image by using a plurality of dictionaries.
  • the object detection region K is specified over the entire captured image.
  • the region in which the object detection region K is specified in the captured image is, for example, calibration of the imaging device 40. You may restrict
  • the dictionary learning device 10 of the third embodiment has a function of learning both the dictionary 5A and the dictionary 5B.
  • the dictionary learning device 10 may be a device that learns the dictionary 5A by omitting the reference data extraction unit 21, the enlarged data extraction unit 22, the reduced data extraction unit 23, and the modified data extraction unit 24.
  • FIG. 21 is a block diagram showing the configuration of a dictionary learning apparatus according to another embodiment of the present invention.
  • FIG. 22 is a block diagram illustrating the configuration of an information processing apparatus that uses a dictionary generated by the dictionary learning apparatus in FIG.
  • a dictionary learning apparatus 100 in FIG. 21 includes a reference data extraction unit 101, an enlarged data extraction unit 102, a reduced data extraction unit 103, and a learning unit 104.
  • the reference data extraction unit 101 has a function of extracting an image of a reference image region serving as a reference including a detection target in the recognition target object from a photographed image by a photographing device that captures the recognition target object based on the reference cutout information.
  • the enlarged data extraction unit 102 captures an image of an enlarged image area that includes a reference image area and is wider than the reference image area, and includes a background representing an object other than the recognition target object, based on the enlarged cut-out information.
  • a function to extract from an image is provided.
  • the reduced data extraction unit 103 includes an image of a reduced image area that includes a detection target and is narrower than the reference image area, and the recognition target object is partially outside the area, based on the reduced cutout information.
  • the learning unit 104 has a function of learning a dictionary including reference data to be referred to in detection processing for detecting a detection target from a captured image, using images of a standard image area, an enlarged image area, and a reduced image area.
  • the information processing apparatus 110 includes a detection unit 111, a processing unit 112, and a storage device 113.
  • the storage device 113 is a storage device that holds the dictionary 114 learned (generated) by the dictionary learning device 100.
  • the detection unit 111 has a function of detecting a detection target of an object to be recognized from an image captured by the imaging apparatus using the dictionary 114 of the storage device 113.
  • the processing unit 112 has a function of executing processing using the detected detection target.
  • the dictionary learning device 100 and the information processing device 110 as described above can achieve the same effects as those of the first and second embodiments by having the above-described configuration.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

撮影画像から検知対象を検知する検知率、および、検知対象の検知位置の確からしさを高める技術を提供するために、辞書学習装置100は、基準データ抽出部101と拡大データ抽出部102と縮小データ抽出部103と学習部104を備える。基準データ抽出部101は、認識対象の物体を撮影する撮影装置による撮影画像から、認識対象の物体における検知対象を含む基準となる基準画像領域の画像を抽出する。拡大データ抽出部102は、基準画像領域を含み基準画像領域よりも広い画像領域であって、認識対象の物体以外が表されている背景を含む拡大画像領域の画像を撮影画像から抽出する。縮小データ抽出部103は、検知対象を含み基準画像領域よりも狭い画像領域であって、認識対象の物体が部分的に領域外となる縮小画像領域の画像を撮影画像から抽出する。学習部104は、抽出した画像領域の画像を利用して辞書を学習する。

Description

辞書学習装置、情報処理装置、辞書学習方法およびプログラム記憶媒体
 本発明は、コンピュータが処理を実行する際に参照する参考データを含む辞書を学習する技術に関する。
 撮影装置により撮影された観察対象の物体の撮影画像を利用して、その観察対象の物体の長さなどを計測する場合がある。このような場合にコンピュータを利用して撮影画像から物体の長さ等を計測する場合には、コンピュータは、例えば、物体における長さ計測対象部分の両端を撮影画像から検知する処理を行い、その後、検知した両端間の長さを算出する処理を行う。
 撮影画像から上述したような長さ計測対象部分の両端を検知する処理では、コンピュータは、例えば、記憶装置に保持されている辞書の参考データを参照する。その参考データの生成手法としては、例えば、観察対象の物体における長さ計測対象部分の両端が撮影されている互いに異なる複数の教師データを利用した機械学習がある。
 なお、特許文献1には、撮影画像から個人認証や動作認識に必要な画像領域を切り出す処理で利用する切り出し領域検出用モデルの生成に関する技術が開示されている。
特開2005-250863号公報
 ところで、コンピュータが辞書の参考データを利用して例えば物体の長さ計測対象部分の両端(このような検知すべき部位を以下、検知対象とも記す)を撮影画像から検知する処理において、次のような問題が生じることがあった。例えば、問題の一つは、撮影画像に観察対象の物体が撮影されているのにも拘わらず、検知対象を検知できないことがあるという問題である。また、別の問題としては、コンピュータが撮影画像から検知対象を検知しても、その検知した検知対象の位置が、正しい位置(例えば長さ計測対象部分の両端)からずれているという問題もある。
 本発明は上記課題を解決するために考え出された。すなわち、本発明の主な目的は、撮影画像から検知対象を検知する検知率、および、検知対象の検知位置の確からしさを高める技術を提供することにある。
 上記目的を達成するために、本発明に係る辞書学習装置は、
 認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する基準データ抽出部と、
 前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出する拡大データ抽出部と、
 前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出する縮小データ抽出部と、
 前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域の画像を利用して学習する学習部と
を備える。
 本発明に係る情報処理装置は、
 本発明に係る辞書学習装置により学習された辞書を保持する記憶装置と、
 撮影装置による撮影画像から認識対象の物体における検知対象を前記記憶装置の辞書を利用して検知する検知部と、
 前記検知された検知対象を利用した処理を実行する処理部と
を備える。
 本発明に係る辞書学習方法は、
 コンピュータによって、
 認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出し、
 前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出し、
 前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出し、
 前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域の画像を利用して学習する。
 本発明に係るプログラム記憶媒体は、
 認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する処理と、
 前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出する処理と、
 前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出する処理と、
 前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域の画像を利用して学習する処理と
をコンピュータに実行させるコンピュータプログラムを記憶する。
 本発明によれば、撮影画像から検知対象を検知する検知率、および、検知対象の検知位置の確からしさを高めることができる。
本発明に係る第1実施形態の辞書学習装置の構成を簡略化して表すブロック図である。 第1実施形態の辞書学習装置により学習された辞書を利用する情報処理装置の構成を簡略化して表すブロック図である。 認識対象の物体とその検知対象の具体例を表すモデル図である。 撮影画像における基準画像領域の一例を説明する図である。 基準画像領域における検知対象の位置情報を図5Bと共に説明する図である。 基準画像領域における検知対象の位置情報を図5Aと共に説明する図である。 拡大画像領域の具体例を表すモデル図である。 拡大画像領域の別の具体例を表すモデル図である。 さらに、拡大画像領域の別の具体例を表すモデル図である。 さらにまた、拡大画像領域の別の具体例を表すモデル図である。 縮小画像領域の具体例を表すモデル図である。 変形画像領域の具体例を表すモデル図である。 変形画像領域の別の具体例を表すモデル図である。 第1実施形態の辞書学習装置における教師データの生成に係る動作の一例を表すフローチャートである。 第1実施形態の辞書学習装置における効果の説明で利用する図である。 第2実施形態における認識対象の物体とその検知対象の具体例を表すモデル図である。 第2実施形態における基準画像領域と拡大画像領域と縮小画像領域の具体例を表す図である。 第2実施形態における変形画像領域の具体例を表す図である。 認識対象の物体とその検知対象のさらに別の具体例を表すモデル図である。 図18に表される認識対象の物体についての基準画像領域と拡大画像領域と縮小画像領域の具体例を表す図である。 図18に表される認識対象の物体についての変形画像領域の具体例を表す図である。 本発明に係るその他の実施形態の辞書学習装置の構成を簡略化して表すブロック図である。 図21における辞書学習装置により学習された辞書を利用する情報処理装置の構成を簡略化して表すブロック図である。 情報処理装置に備えられている検知部の処理の一例を説明する図である。 情報処理装置に備えられている検知部の処理の一例をさらに説明する図である。 本発明に係る第3実施形態の辞書学習装置の構成を説明するブロック図である。 撮影画像における認識対象の物体と物体検知領域の具体例を表す図である。 撮影画像における認識対象の物体と物体検知領域の別の具体例を表す図である。 撮影画像における認識対象の物体と物体検知領域のさらに別の具体例を表す図である。
 以下に、本発明に係る実施形態を図面を参照しつつ説明する。
 <第1実施形態>
 図1は、本発明に係る第1実施形態の辞書学習装置の構成を簡略化して表すブロック図である。第1実施形態の辞書学習装置10は、コンピュータが利用する辞書を学習する装置である。ここでの辞書とは、図2に表されているような情報処理装置(コンピュータ)1に備えられている記憶装置3に保持され、情報処理装置1の制御装置(プロセッサ)2が処理を実行する際に参照する参考データを含むものである。
 第1実施形態では、辞書学習装置10が学習する辞書を利用する情報処理装置1の制御装置2は、機能部として、検知部6と処理部7を備える。検知部6は、撮影装置40による撮影画像から認識対象の物体における予め定められた検知対象を、辞書5を参照して検知する機能を備える。具体例を挙げると、検知部6は、図3に表されているような認識対象の物体である魚80の撮影画像から、検知対象としての魚80の口先Hと尾の二叉する部分Tを、辞書5を参照して検知する。さらに、検知部6は、必要に応じて、認識対象の物体(魚)80の撮影画像から、魚80の背側の頂部Bと腹側の膨らみ部分Pを、辞書5を参照して検知する。なお、検知部6は、腹側の膨らみ部分Pに代えて、腹びれの付け根を検知してもよい。
 処理部7は、検知部6により検知された検知対象を利用した処理を実行する機能を備える。具体例を挙げると、処理部7は、検知部6により検知された口先Hと尾の二叉する部分Tの位置情報を算出し、算出した口先Hと尾の二叉する部分Tとの位置情報に基づいて魚80の尾叉長を算出する。また、処理部7は、検知部6が魚80の背側の頂部Bと腹側の膨らみ部分(あるいは腹びれの付け根)Pを検知した場合には、それら背側の頂部Bと腹側の膨らみ部分(腹びれの付け根)Pの位置情報を算出し、算出した位置情報に基づいて魚80の体高を算出してもよい。さらに、処理部7は、算出した尾叉長と体高を利用して魚80の体重を推定してもよい。
 検知部6と処理部7が上述したような具体例の処理を実行する場合には、撮影装置40として次のような撮影装置が用いられる。すなわち、撮影装置40は、例えば、複数の異なる方向から同時に対象物を撮影することにより両眼視差を実現することによって立体写真を生成可能な構成を備えている。このような構成を備える撮影装置として、ステレオカメラ(1台のカメラに複数のレンズが並設された状態で搭載され当該レンズを通して同時に撮影された複数の撮影画像を取得可能なカメラ)と称されるカメラがあるが、2台のカメラが間隔(例えば基線長:1メートル)を介し並設されている状態で支持部材に固定されている構成を持つ装置を撮影装置40として利用してもよい。このような撮影装置40による撮影画像は、当該撮影画像の縦方向と横方向の長さ情報だけなく、撮影画像の奥行き方向の長さ情報をも取得可能な画像である。なお、撮影装置40は、動画を撮影する機能を備えていてもよいし、動画撮影機能を持たずに静止画を撮影する機能を備えていてもよいし、動画および静止画を撮影する機能を備えていてもよい。
 撮影装置40は、例えば、魚が養殖されている生簀内に進入し、魚の観察(換言すれば、観察対象の魚の撮影)に適切と判断された水深およびレンズの向きで配設され、魚を撮影する。このように撮影装置40により撮影された魚の撮影画像を辞書学習装置10や情報処理装置1に与える手法としては、例えば、有線通信あるいは無線通信を利用する手法がある。あるいは、魚の撮影画像を撮影装置40から可搬型記憶媒体(例えば、SD(Secure Digital)カード)に格納した後に当該可搬型記憶媒体から辞書学習装置10や情報処理装置1に与える手法もある。
 第1実施形態の辞書学習装置10は、撮影装置40による撮影画像を用いた教師データを利用して、情報処理装置1に与える辞書5を教師有り学習手法により学習する機能を備えている。
 すなわち、辞書学習装置10は、コンピュータにより構成されている。当該コンピュータは、辞書学習専用の装置であってもよいし、辞書学習機能だけでなく、辞書を利用した処理(例えば魚の尾叉長や体重を算出する処理)をも実行する装置であってもよい。つまり、図2のような情報処理装置1が、辞書学習装置10としての機能をも備えている構成であってもよい。
 辞書学習装置10は、図1に表されているように、入力装置50と表示装置60に接続されている。入力装置50は、辞書学習装置10を操作するユーザ(操作者)の操作により情報を辞書学習装置10に入力する装置(例えば、キーボードやマウスやタッチパネル)である。表示装置60は、情報を表示する装置(ディスプレイ)である。辞書学習装置10は、さらに、当該辞書学習装置10とは別体の外付けの記憶装置70に接続されていてもよい。
 辞書学習装置10は、大概構成として、制御装置20と記憶装置30を備えている。記憶装置30は、各種データやコンピュータプログラムを記憶する機能を有し、例えば、ハードディスク装置や半導体メモリ等の記憶媒体により実現される。辞書学習装置10に備えられる記憶装置は一つに限定されず、複数種の記憶装置が辞書学習装置10に備えられていてもよく、この場合には、複数の記憶装置を総称して記憶装置30と記すものとする。また、記憶装置70も、記憶装置30と同様に、各種データやコンピュータプログラムを記憶する機能を有し、例えば、ハードディスク装置や半導体メモリ等の記憶媒体により実現される。なお、辞書学習装置10が記憶装置70に接続されている場合には、記憶装置70には適宜な情報が格納される。また、この場合には、辞書学習装置10は、適宜、記憶装置70に情報を書き込む処理および読み出す処理を実行するが、以下の説明では、記憶装置70に係る処理の説明を省略する。
 第1実施形態では、記憶装置30には、撮影装置40による撮影画像が、撮影した撮影装置40を識別する識別情報や、撮影時間の情報などの撮影状況に関わる情報に関連付けられた状態で格納される。
 制御装置20は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などのプロセッサにより構成される。制御装置20は、例えばプロセッサが記憶装置30に格納されているコンピュータプログラムを実行することにより、次のような機能を有することができる。すなわち、制御装置20は、機能部として、基準データ抽出部21と、拡大データ抽出部22と、縮小データ抽出部23と、変形データ抽出部24と、学習部25と、表示制御部26とを備えている。
 表示制御部26は、表示装置60の表示動作を制御する機能を備えている。例えば、表示制御部26は、ユーザによる入力装置50の操作によって辞書学習装置10に入力された情報を表示装置60に表示する。また、表示制御部26は、基準データ抽出部21などから表示を要求された情報を表示装置60に表示する。
 基準データ抽出部21は、教師データを生成するために、撮影装置40による撮影画像から認識対象の物体の検知対象を含む基準画像領域を抽出する機能を備えている。基準画像領域とは、撮影画像から教師データの生成に利用する画像領域を抽出する際に基準となる画像領域であり、例えば検知対象を利用する処理などを考慮してユーザにより定められた基準抽出条件を満たす領域である。
 例えば、基準データ抽出部21は、検知対象として魚の口先Hと尾の二叉する部分Tと腹側の膨らみ部分Pと背側の頂部Bを検知する処理で利用される辞書の学習で用いる教師データの生成に用いる基準画像領域を抽出するとする。この場合における基準画像領域の一例が、図4に表されているような撮影画像42における基準画像領域Gsである。この基準画像領域Gsは、認識対象の物体である魚80における検知対象H,T,P,Bを利用した尾叉長や体高などの長さの計測値の算出処理を考慮してユーザにより定められた次のような基準抽出条件を満たす領域である。その基準抽出条件とは、領域が矩形状であることと、検知対象H,T,P,Bを全て含むことと、魚80の姿勢が長さ算出に適切な基本姿勢(つまり、頭から尾に掛けて真っ直ぐ、あるいは、真っ直ぐと見なせる姿勢)であることと、魚80以外の背景の入り込みが抑えられていることとの全てを満たすという条件である。
 基準データ抽出部21は、例えば、撮影装置40による撮影画像が表示装置60に表示されている状態において、ユーザに基準画像領域と検知対象を指定する操作を促すメッセージ等の表示を表示制御部26に要求する。その要求に応じた表示制御部26による表示装置60の表示を受けて、ユーザが入力装置50の操作により撮影画像において基準画像領域を指定したとする。この場合には、基準データ抽出部21は、指定された基準画像領域の位置と広さに関連する情報を基準切り出し情報として表示制御部26から取得する。取得した基準切り出し情報は、例えば基準データ抽出部21によって記憶装置30に格納される。
 さらに、基準データ抽出部21は、表示制御部26から取得した基準切り出し情報に基づいて撮影画像から基準画像領域の画像を抽出する。さらにまた、基準データ抽出部21は、抽出した基準画像領域の画像に、ユーザにより指定された検知対象の位置を表す位置情報を関連付けることにより、基準画像領域の画像と、当該基準画像領域における検知対象の位置情報とを含む教師データを生成する。ここでは、検知対象の位置情報は、図5A、図5Bに表されるような部分領域Ph,Pt,Pp,Pbを利用して表される。なお、図5Bは、部分領域Ph,Pt,Pp,Pbを分かり易くするために、図5Aから魚80の画像を除いた図である。
 部分領域Ph,Pt,Pp,Pbは、矩形状であり、四隅の頂点の中から基準点として設定された頂点が基準画像領域Gsの対応する頂点に一致し、かつ、その中心位置に検知対象H,T,P,Bが位置している領域である。つまり、部分領域Phは、図5A、図5Bにおける左下の頂点が基準点に設定され、当該基準点が基準画像領域Gsの左下の頂点に一致し、かつ、その中心位置には検知対象である魚80の口先Hが位置している領域である。部分領域Ptは、図5A、図5Bにおける右上の頂点が基準点に設定され、当該基準点が基準画像領域Gsの右上の頂点に一致し、かつ、その中心位置には検知対象である魚80の尾の二叉する部分Tが位置している領域である。部分領域Ppは、図5A、図5Bにおける左下の頂点が基準点に設定され、当該基準点が基準画像領域Gsの左下の頂点に一致し、かつ、その中心位置には検知対象である魚80の腹の膨らんでいる部分Pが位置している領域である。部分領域Pbは、図5A、図5Bにおける左上の頂点が基準点に設定され、当該基準点が基準画像領域Gsの左上の頂点に一致し、かつ、その中心位置には検知対象である魚80の背側の頂部Bが位置している領域である。
 すなわち、部分領域Ph,Pt,Pp,Pbは、その中心位置によって、検知対象H,T,P,Bの位置を表す。
 基準データ抽出部21は、上記のように撮影画像から抽出した基準画像領域を利用して生成した教師データを記憶装置30に格納する。
 拡大データ抽出部22は、撮影装置40による撮影画像から拡大画像領域を抽出する機能を備えている。拡大画像領域とは、基準画像領域を含み当該基準画像領域よりも広い画像領域であって、認識対象の物体以外が表されている背景を含む画像領域である。図6~図9には、拡大画像領域の具体例が表されている。図6における拡大画像領域Geは、基準画像領域Gsを図6における点線に示すような上方向あるいは鎖線に示すような下方向に拡大した画像領域である。図7における拡大画像領域Geは、基準画像領域Gsを図7における点線に示すような左方向あるいは鎖線に示すような右方向に拡大した画像領域である。図8における拡大画像領域Geは、基準画像領域Gsを図8における上方向と下方向と左方向と右方向のうちの二方向に拡大した画像領域である。つまり、拡大画像領域Geには、基準画像領域Gsを、図8における点線に示すような下方向と右方向の二方向や、図8における鎖線に示すような上方向と左方向の二方向や、上方向と下方向の二方向や、右方向と左方向の二方向や、上方向と右方向の二方向や、下方向と左方向の二方向に拡大した画像領域がある。図9における拡大画像領域Geは、基準画像領域Gsを図9における上方向と下方向と左方向と右方向のうちの少なくとも三方向に拡大した画像領域である。つまり、拡大画像領域Geには、基準画像領域Gsを、図9における点線に示すような上方向と左方向と下方向の三方向や、図9における鎖線に示すような上方向と右方向と下方向の三方向や、上方向と右方向と左方向の三方向や、下方向と右方向と左方向の三方向に拡大した画像領域がある。さらに、拡大画像領域Geには、基準画像領域Gsを、上方向と下方向と左方向と右方向の四方向に拡大した画像領域がある。
 第1実施形態では、拡大データ抽出部22は、基準データ抽出部21により基準画像領域Gsが抽出された以降に、当該基準画像領域Gsを抽出した撮影画像から、記憶装置30に格納されている拡大切り出し情報に基づいて拡大画像領域Geを抽出する。拡大切り出し情報は、基準画像領域Gsに基づいて抽出する拡大画像領域Geの数と、基準画像領域Gsに対する拡大画像領域Geの拡大方向およびその拡大率との情報を含む情報である。なお、基準画像領域Gsに基づいて抽出する拡大画像領域Geが複数である場合には、抽出される拡大画像領域Geの拡大方向と拡大率とのうちの一方あるいは両方が異なる複数の拡大タイプの情報が拡大切り出し情報に含まれる。具体例を挙げると、拡大切り出し情報は、基準画像領域Gsに基づいて抽出する拡大画像領域Geの数が『3』である情報を含むとする。この場合には、拡大切り出し情報は、3つの拡大タイプI、II、IIIの情報を含む。例えば、拡大タイプIは、基準画像領域Gsに対する拡大方向は『上方向および左方向』であり、その拡大率は『110%』であるというような情報である。拡大タイプIIは、基準画像領域Gsに対する拡大方向は『上方向』であり、その拡大率は『125%』であるというような情報である。拡大タイプIIIは、基準画像領域Gsに対する拡大方向は『左方向と右方向』であり、その拡大率は『110%』であるというような情報である。
 このような拡大切り出し情報に基づいて、拡大データ抽出部22は拡大画像領域Geを撮影画像から抽出する。
 なお、拡大切り出し情報が予め記憶装置30に格納されているのに代えて、拡大データ抽出部22が次のように拡大切り出し情報を取得し、当該取得した拡大切り出し情報に基づいて拡大データ抽出部22が撮影画像から拡大画像領域Geを抽出してもよい。すなわち、拡大データ抽出部22は、撮影装置40による撮影画像が、抽出された基準画像領域Gsを表す情報と共に表示装置60に表示されている状態において、ユーザに拡大画像領域Geを指定する操作を促すメッセージ等の表示を表示制御部26に要求する。その要求に応じた表示制御部26による表示装置60の表示を受けて、ユーザが入力装置50の操作により撮影画像において拡大画像領域Geを指定したとする。この場合には、拡大データ抽出部22は、指定された拡大画像領域Geの位置と広さに関連する情報を拡大切り出し情報として表示制御部26から取得する。さらに、拡大データ抽出部22は、表示制御部26から取得した拡大切り出し情報に基づいて撮影画像から拡大画像領域Geの画像を抽出する。
 拡大データ抽出部22は、さらに、抽出した拡大画像領域Geの画像に、検知対象の位置を表す位置情報を関連付けることにより、拡大画像領域Geの画像と、当該拡大画像領域Geにおける検知対象の位置情報とを含む教師データを生成する。
 なお、拡大画像領域Geの画像に関連付ける検知対象の位置情報は、基準画像領域Gsの画像に関連付ける検知対象の位置情報と同様に、部分領域Ph,Pt,Pp,Pbを利用する情報とする。ただ、拡大画像領域Geの画像に関連付ける検知対象の位置情報に利用される部分領域Ph,Pt,Pp,Pbは、その基準点としての頂点が拡大画像領域Geの対応する頂点に一致してもよいし、基準画像領域Gsの対応する頂点に一致してもよい。つまり、部分領域Ph,Pt,Pp,Pbの基準点としての頂点が基準画像領域Gsの対応する頂点に一致する場合には、部分領域Ph,Pt,Pp,Pbの位置および大きさは、基準画像領域Gsにおける部分領域Ph,Pt,Pp,Pbと同様である。部分領域Ph,Pt,Pp,Pbの基準点としての頂点が拡大画像領域Geの対応する頂点に一致する場合には、部分領域Ph,Pt,Pp,Pbは、拡大画像領域Geが基準画像領域Gsから拡大した方向によっては、基準画像領域Gsにおける部分領域Ph,Pt,Pp,Pbよりも拡大した領域となる。
 拡大データ抽出部22は、上記のように撮影画像から抽出した拡大画像領域を利用して教師データを生成し、当該生成した教師データを記憶装置30に格納する。
 縮小データ抽出部23は、撮影装置40による撮影画像から縮小画像領域を抽出する機能を備えている。縮小画像領域とは、検知対象を含み基準画像領域よりも狭い画像領域であって、認識対象の物体が部分的に領域外となる画像領域である。図10には、縮小画像領域の具体例が表されている。図10における縮小画像領域Grは、検知対象H,T,P,Bを含み基準画像領域Gsよりも縮小した領域であり、認識対象の物体である魚80の尾の一部が領域外となっている画像領域である。図10における縮小画像領域Grの変形例としては、認識対象の物体である魚80の尾の一部だけでなく、腹びれも領域外となっている画像領域であってもよい。また、図10における縮小画像領域Grの別の変形例としては、認識対象の物体である魚80の尾全体は縮小画像領域Grに含まれているが、魚80の腹びれと背びれの一方又は両方が領域外となっている画像領域であってもよい。つまり、縮小画像領域Grには、基準画像領域Gsから、上方向と下方向と左方向と右方向のうちの一方向や、上方向と下方向と左方向と右方向のうちの二方向に縮小した画像領域がある。また、縮小画像領域Grには、基準画像領域Gsから、上方向と下方向と左方向と右方向のうちの三方向や、上方向と下方向と左方向と右方向の四方向に縮小した画像領域がある。
 縮小データ抽出部23は、基準データ抽出部21により基準画像領域Gsが抽出された以降に、当該基準画像領域Gsを抽出した撮影画像から、記憶装置30に格納されている縮小切り出し情報に基づいて縮小画像領域Grを抽出する。縮小切り出し情報は、基準画像領域Gsに基づいて抽出する縮小画像領域Grの数と、基準画像領域Gsに対する縮小画像領域Grの縮小方向およびその縮小率との情報を含む情報である。なお、基準画像領域Gsに基づいて抽出する縮小画像領域Grが複数である場合には、抽出される縮小画像領域Grの縮小方向と縮小率とのうちの一方あるいは両方が異なる複数の縮小タイプの情報が縮小切り出し情報に含まれる。具体例を挙げると、縮小切り出し情報は、基準画像領域Gsに基づいて抽出する縮小画像領域Grの数が『2』である情報を含むとする。この場合には、縮小切り出し情報は、2つの縮小タイプI、IIの情報を含む。例えば、縮小タイプIは、基準画像領域Gsに対する縮小方向は『左方向』であり、その縮小率は『95%』であるというような情報である。縮小タイプIIは、基準画像領域Gsに対する縮小方向は『上方向と左方向』であり、その縮小率は『上:95%、左:92%』であるというような情報である。
 このような縮小切り出し情報に基づいて、縮小データ抽出部23は縮小画像領域Grを撮影画像から抽出する。
 なお、縮小切り出し情報が予め記憶装置30に格納されているのに代えて、縮小データ抽出部23が次のように縮小切り出し情報を取得し、当該取得した縮小切り出し情報に基づいて縮小データ抽出部23が撮影画像から縮小画像領域Grを抽出してもよい。すなわち、縮小データ抽出部23は、撮影装置40による撮影画像が、抽出された基準画像領域Gsを表す情報と共に表示装置60に表示されている状態において、ユーザに縮小画像領域Grを指定する操作を促すメッセージ等の表示を表示制御部26に要求する。その要求に応じた表示制御部26による表示装置60の表示を受けて、ユーザが入力装置50の操作により撮影画像において縮小画像領域Grを指定したとする。この場合には、縮小データ抽出部23は、指定された縮小画像領域Grの位置と広さに関連する情報を縮小切り出し情報として表示制御部26から取得する。さらに、縮小データ抽出部23は、表示制御部26から取得した縮小切り出し情報に基づいて撮影画像から縮小画像領域Grの画像を抽出する。
 縮小データ抽出部23は、さらに、抽出した縮小画像領域Grの画像に、検知対象の位置を表す位置情報を関連付けることにより、縮小画像領域Grの画像と、当該縮小画像領域Grにおける検知対象の位置情報とを含む教師データを生成する。
 なお、縮小画像領域Grの画像に関連付ける検知対象の位置情報は、基準画像領域Gsの画像に関連付ける検知対象の位置情報と同様に、部分領域Ph,Pt,Pp,Pbを利用する情報とする。縮小画像領域Grにおける部分領域Ph,Pt,Pp,Pbは、矩形状であり、四隅の頂点の中から基準点として設定された頂点が縮小画像領域Grの対応する頂点に一致し、かつ、その中心位置に検知対象H,T,P,Bが位置している領域である。つまり、縮小画像領域Grにおける部分領域Ph,Pt,Pp,Pbは、縮小画像領域Grが基準画像領域Gsよりも縮小した方向によっては、基準画像領域Gsにおける部分領域Ph,Pt,Pp,Pbよりも縮小した領域となる。
 縮小データ抽出部23は、上記のように撮影画像から抽出した縮小画像領域を利用して教師データを生成し、当該生成した教師データを記憶装置30に格納する。
 変形データ抽出部24は、変形状態における認識対象の物体を含む画像領域を変形抽出情報に基づいて撮影画像から抽出する機能を備えている。変形状態とは、認識対象の物体から検知される検知対象を利用する情報処理装置1の処理部7の処理を考慮して設定された認識対象の物体の基本姿勢から変形している状態である。図11には、変形状態の認識対象の物体(魚)の具体例が表されている。また、図12に表されているような認識対象の物体(魚80)の一部が他の物体81によって隠れているような状態も変形状態とする。
 変形データ抽出部24は、例えば、撮影装置40による撮影画像が表示装置60に表示されている状態において、変形状態の認識対象の物体を含む変形画像領域と検知対象を指定する操作をユーザに促すメッセージ等の表示を表示制御部26に要求する。その要求に応じた表示制御部26による表示装置60の表示を受けて、ユーザが入力装置50の操作により撮影画像において変形画像領域と検知対象を指定したとする。この場合には、変形データ抽出部24は、指定された変形画像領域の位置と広さに関連する情報を変形抽出情報として表示制御部26から取得する。さらに、変形データ抽出部24は、表示制御部26から取得した変形抽出情報に基づいて撮影画像から変形画像領域の画像を抽出する。
 さらにまた、変形データ抽出部24は、抽出した変形画像領域の画像に、ユーザにより指定された検知対象の位置を表す位置情報を関連付けることにより、変形画像領域の画像と、当該変形画像領域における検知対象の位置情報とを含む教師データを生成する。検知対象の位置情報は、例えば、前述したような部分領域Ph,Pt,Pp,Pbを利用して表される。つまり、部分領域Ph,Pt,Pp,Pbは、矩形状であり、四隅の頂点の中から基準点として設定された頂点が変形画像領域の対応する頂点に一致し、かつ、その中心位置に検知対象H,T,P,Bが位置している領域である。
 変形データ抽出部24は、上記のように撮影画像から抽出した変形画像領域を利用して教師データを生成し、当該生成した教師データを記憶装置30に格納する。
 学習部25は、記憶装置30に格納されている教師データを利用して情報処理装置1の検知部6における検知処理で使用する辞書を学習する機能を備えている。辞書を学習する手法は教師データ有りの学習手法であれば特に限定されず、ここでは、その説明は省略する。
 第1実施形態の辞書学習装置10は上記のように構成されている。以下に、辞書学習装置10における教師データの生成に関する動作例を図13のフローチャートを利用して説明する。
 まず、撮影装置40による撮影画像が表示装置60に表示されている状態において、基準データ抽出部21が、基準画像領域と検知対象を指定する操作を促すメッセージ等の表示を表示制御部26に要求する。その要求に応じた表示制御部26による表示装置60の表示を受けて、ユーザが入力装置50の操作により撮影画像において基準画像領域を指定すると、基準データ抽出部21は、その指定された基準画像領域を表す情報を基準切り出し情報として取得する。そして、基準データ抽出部21は、基準切り出し情報に基づき撮影画像から基準画像領域Gsを抽出する(図13におけるステップS101)。
 さらに、基準データ抽出部21は、ユーザにより指定された撮影画像における検知対象の位置情報を取得し、この取得した情報に基づき、基準画像領域Gsにおいて設定された基準点を利用して検知対象の位置を表す位置情報を算出する(ステップS102)。基準データ抽出部21は、然る後に、抽出した基準画像領域の画像に、検知対象の位置を表す位置情報を関連付けることにより、基準画像領域の画像と、当該基準画像領域における検知対象の位置情報とを含む教師データを生成する。
 基準画像領域が抽出された以降に、拡大データ抽出部22が、記憶装置30における拡大切り出し情報に基づいて撮影画像から拡大画像領域Geを抽出する(ステップS103)。拡大データ抽出部22は、その後、拡大画像領域Geの画像に、検知対象の位置を表す位置情報を関連付けることにより、拡大画像領域Geの画像と、当該拡大画像領域Geにおける検知対象の位置情報とを含む教師データを生成する。
 また、縮小データ抽出部23が、記憶装置30における縮小切り出し情報に基づいて撮影画像から縮小画像領域Grを抽出する(ステップS104)。縮小データ抽出部23は、その後、縮小画像領域Grの画像に、検知対象の位置を表す位置情報を関連付けることにより、縮小画像領域Grの画像と、当該縮小画像領域Grにおける検知対象の位置情報とを含む教師データを生成する。
 その後、基準画像領域Gsと、当該基準画像領域Gsに関連する拡大画像領域Geおよび縮小画像領域Grとに基づいた基本状態の教師データの生成を終了する旨の指示がユーザによる入力装置50の操作によって発信されたか否かが判断される(ステップS105)。そして、終了の指示が無い場合には、ステップS101以降の動作が繰り返される。
 また、終了の指示が有った場合には、変形データ抽出部24が、撮影装置40による撮影画像と共に、変形状態の認識対象の物体を含む変形画像領域と検知対象を指定する操作をユーザに促すメッセージ等の表示を表示制御部26に要求する。その要求に応じた表示制御部26による表示装置60の表示を受けて、ユーザが入力装置50の操作により撮影画像において変形画像領域を指定すると、変形データ抽出部24は、その指定された変形画像領域を表す情報を変形切り出し情報として取得する。そして、変形データ抽出部24は、変形切り出し情報に基づき撮影画像から変形画像領域を抽出する(ステップS106)。さらに、変形データ抽出部24は、ユーザにより指定された撮影画像における検知対象の位置情報を取得し、この取得した情報に基づき、変形画像領域において設定された基準点を利用して検知対象の位置を表す位置情報を算出する。変形データ抽出部24は、然る後に、抽出した変形画像領域の画像に、検知対象の位置を表す位置情報を関連付けることにより、変形画像領域の画像と、当該変形画像領域における検知対象の位置情報とを含む教師データを生成する。
 その後、変形画像領域に基づいた変形状態の教師データの生成を終了する旨の指示がユーザによる入力装置50の操作によって発信されたか否かが判断される(ステップS107)。そして、終了の指示が無い場合には、ステップS106以降の動作が繰り返される。また、終了の指示が有った場合には、教師データの生成動作を終了する。
 なお、制御装置20における教師データの生成に関する動作は図13に表される動作順に限定されるものではなく、適宜変更され得る。例えば、縮小画像領域を抽出した後に、拡大データ抽出部22が拡大画像領域を抽出してもよい。また、教師データを生成するタイミングは適宜設定されるものである。例えば、基準画像領域Gsと拡大画像領域Geと縮小画像領域Grを抽出した後に、基準画像領域Gsに基づく教師データと拡大画像領域Geに基づく教師データと縮小画像領域Grに基づく教師データがそれぞれ生成されてもよい。
 さらに、制御装置20は、ステップS103の動作の前に、拡大画像領域Geと縮小画像領域Grに基づく教師データが必要か否かをユーザに判断させ、必要な場合にはステップS103の動作に移行し、不要な場合にはステップS106の動作に移行してもよい。
 さらに、基準画像領域Gsに基づく教師データと、拡大画像領域Geに基づく教師データと、縮小画像領域Grに基づく教師データとの生成比率は適宜設定される。例えば、その生成比率は、教師データによって学習される辞書を利用する処理の手法や、撮影画像における認識対象の物体の背景などを考慮して、1対1対1とする。
 第1実施形態の辞書学習装置10は、上記のような構成を備えていることにより、次のような効果を得ることができる。すなわち、辞書学習装置10は、基準画像領域Gsに基づく教師データを生成するだけでなく、基準画像領域Gsを拡大した拡大画像領域Geに基づく教師データと、基準画像領域Gsを縮小した縮小画像領域Grに基づく教師データをも生成する。これにより、辞書学習装置10は、教師データの生成数とバリエーションを増加することができるため、学習量の増加と学習内容の拡大により辞書の信頼性を高めることができる。
 例えば、図14に表されているような撮影画像42において、認識対象の物体(魚80)における検知対象を検知する処理を実行する処理領域Nをユーザが入力装置50の操作により指定したとする。また、処理領域Nは、検知対象の検知を適切に処理できる領域(つまり、前述した基準画像領域Gsと同様な領域)とであるとする。このような場合には、情報処理装置1の検知部6は、辞書5を利用して正しく検知対象H,T(ここでは、説明を分かり易くするために検知対象P,Bの説明は省略する)を検知できる。
 これに対し、仮に、辞書学習装置10が拡大画像領域Geと縮小画像領域Grについての教師データを学習に利用しなかったとする。この場合に生成される辞書5には、拡大画像領域Geと縮小画像領域Grについての教師データの情報が反映されていない。つまり、例えば検知対象H,Tの位置を表す情報として、前述したような部分領域Ph,Ptの情報が与えられている場合には、部分領域Ph,Ptの学習による情報には、拡大画像領域Geと縮小画像領域Grの情報が反映されていない。このため、処理領域として、図14に表されているような基準の処理領域Nよりも拡大された領域N1がユーザにより指定されてしまうと、拡大された領域N1に起因して、拡大された部分領域Ph1,Pt1が辞書に基づいて検知されてしまう。部分領域Ph1,Pt1の中心位置が検知対象を表すから、部分領域Ph1,Pt1の拡大に因り、検知される検知対象H1,T1の位置は正しい検知対象H,Tの位置からずれてしまう。また、処理領域として、図14に表されているような基準の処理領域Nよりも縮小された領域N1がユーザにより指定された場合においても、同様に検知対象H,Tを正しい位置に検知できないということがある。
 第1実施形態の辞書学習装置10は、基準画像領域Gsだけでなく、拡大画像領域Geと縮小画像領域Grを考慮して辞書を学習する。このことから、辞書学習装置10は、上述したような基準の領域Nよりも拡大あるいは縮小された処理領域が指定された場合において検知対象の検知位置の確からしさを高めることができる辞書を提供できる。
 また、辞書学習装置10は、変形データ抽出部24によって、変形状態の認識対象の物体についての教師データを生成し、辞書の学習に利用することから、魚のような、動きが速くて形状などが時々刻々と変化する認識対象の物体から検知対象を検知する処理に有効な辞書を生成できる。
 さらにまた、辞書学習装置10は、図12に表されるような認識対象の物体の一部が他の物体によって撮影画像に映っていない場合における教師データが生成され辞書の学習に利用される。また、辞書学習装置10は、認識対象の物体の一部が領域外となる縮小画像領域の画像に基づいた教師データが生成され辞書の学習に利用される。このため、辞書学習装置10は、認識対象の物体の一部が撮影画像に映っていない場合においても当該認識対象の物体における検知対象を検知可能な辞書を生成できる。
 なお、上述した説明では、基準データ抽出部21は、ユーザが入力装置50の操作により撮影画像において領域を指定した場合には、その指定された領域をそのまま基準画像領域としている。これに代えて、次のような処理が実行されてもよい。例えば、基準データ抽出部21は、指定された領域が基準画像領域か変形画像領域かをユーザに確認する処理を実行し、基準画像領域である場合には、前述同様の基準画像領域の抽出と教師データの生成に関する処理を行う。一方、変形画像領域である場合には、基準データ抽出部21は、処理を中止する。そして、基準データ抽出部21に代わって、変形データ抽出部24が、その指定された領域を変形画像領域とし、変形画像領域の抽出と教師データの生成に関する処理を行う。
 また、上述した説明では、基準画像領域と拡大画像領域と縮小画像領域と変形画像領域は矩形状であったが、それ以外の形状であってもよい。
 <第2実施形態>
 以下に、本発明に係る第2実施形態を説明する。なお、第2実施形態の説明において、第1実施形態の辞書学習装置と情報処理装置における構成部分の名称と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。
 第2実施形態の辞書学習装置は、第1実施形態と同様に、情報処理装置1の制御装置2が参照する辞書を教師データ有り学習手法により学習する装置であり、ここでは、認識対象の物体から検知対象を一つ検知する検知処理で使用する辞書を学習する。第2実施形態の辞書学習装置は、第1実施形態の辞書学習装置10と同様に、図1に表されるような構成を備える。ただ、第1実施形態の辞書学習装置10と、第2実施形態の辞書学習装置10とには、認識対象の物体から検知する検知対象の数が一つであることによる次のような相違がある。
 すなわち、第2実施形態では、認識対象の物体における検知対象が中心部に位置している画像領域が、基準画像領域、拡大画像領域、縮小画像領域、変形画像領域として、辞書学習装置10により撮影画像から抽出される。
 具体例を挙げると、辞書学習装置10により学習される辞書を利用する情報処理装置1は、移動可能なロボット等の移動体に搭載されるとする。情報処理装置1の検知部6は、図15に表されるような目印83の中心部を認識対象の物体における検知対象Mとして検知する機能を備えるとし、処理部7は検知対象Mに向かって移動体を移動させるべく移動手段を制御する機能を備えるとする。第2実施形態の辞書学習装置10は、そのような情報処理装置1の検知部6が利用する辞書を学習するとする。なお、認識対象の物体(目印83)が配設される場所は限定されず、認識対象の物体(目印83)は、用途に応じた適宜な場所(例えば、建物の壁)に配設される。
 このような場合には、図16に表されるように検知対象Mを中心とする基準画像領域Gsと拡大画像領域Geと縮小画像領域Grが、それぞれ、基準データ抽出部21と拡大データ抽出部22と縮小データ抽出部23により、撮影画像42から抽出される。
 すなわち、基準データ抽出部21は、例えば、撮影装置40による撮影画像が表示装置60に表示されている状態において、ユーザに検知対象Mを指定する操作を促すメッセージ等の表示を表示制御部26に要求する。その要求に応じた表示制御部26による表示装置60の表示を受けて、ユーザが入力装置50の操作により撮影画像において検知対象(目印83の中心部)Mを指定したとする。この場合には、基準データ抽出部21は、さらに、検知対象Mを中心部とする基準画像領域Gsをユーザに指定させる処理を実行する。ここでの基準画像領域Gsとは、検知対象Mが中心部に位置していることと、認識対象の物体の全体が含まれていることと、認識対象の物体以外の背景の入り込みが抑えられていることとの全てを満たすという基準抽出条件を満たす画像領域である。
 さらに、ユーザが入力装置50の操作により撮影画像42において基準画像領域Gsを指定した場合には、基準データ抽出部21は、指定された基準画像領域Gsの撮影画像42における位置と広さに関連する情報を基準切り出し情報として表示制御部26から取得する。取得した基準切り出し情報は、例えば基準データ抽出部21によって記憶装置30に格納される。
 さらに、基準データ抽出部21は、表示制御部26から取得した基準切り出し情報に基づいて撮影画像から基準画像領域Gsの画像を抽出する。さらにまた、基準データ抽出部21は、抽出した基準画像領域Gsの画像に、ユーザにより指定された検知対象Mの位置を表す位置情報を関連付けることにより、基準画像領域Gsの画像と、当該基準画像領域Gsにおける検知対象の位置情報とを含む教師データを生成する。このように生成された教師データは、記憶装置30に格納される。
 拡大データ抽出部22および縮小データ抽出部23は、それぞれ、第1実施形態における拡大データ抽出部22および縮小データ抽出部23と同様に、拡大画像領域Geと縮小画像領域Grを撮影画像42から抽出し、さらに、教師データを生成する。生成された教師データは記憶装置30に格納される。なお、前述したように、抽出される拡大画像領域Geと縮小画像領域Grにおいては、その中心部に検知対象Mが位置している。
 変形データ抽出部24は、撮影装置40による撮影画像が表示装置60に表示されている状態において、例えば図17に表されるような変形状態の認識対象の物体における検知対象Mを指定する操作をユーザに促すメッセージ等の表示を表示制御部26に要求する。その要求に応じた表示制御部26による表示装置60の表示を受けて、ユーザが入力装置50の操作により撮影画像において検知対象(目印83の中心部)Mを指定したとする。この場合には、変形データ抽出部24は、さらに、検知対象Mを中心部とする変形画像領域をユーザに指定させる処理を実行する。ここでの変形画像領域とは、検知対象Mが中心部に位置していることと、認識対象の物体の全体が含まれていることと、認識対象の物体以外の背景の入り込みが抑えられていることとの全てを満たすという抽出条件を満たす画像領域である。
 さらに、ユーザが入力装置50の操作により撮影画像において変形画像領域を指定した場合には、変形データ抽出部24は、撮影画像における指定された変形画像領域の位置と広さに関連する情報を変形切り出し情報として表示制御部26から取得する。取得した基準切り出し情報は、例えば変形データ抽出部24によって記憶装置30に格納される。
 さらに、変形データ抽出部24は、表示制御部26から取得した変形切り出し情報に基づいて撮影画像から変形画像領域の画像を抽出する。さらにまた、変形データ抽出部24は、抽出した変形画像領域の画像に、ユーザにより指定された検知対象Mの位置を表す位置情報を関連付けることにより、変形画像領域の画像と、当該変形画像領域における検知対象の位置情報とを含む教師データを生成する。このように生成された教師データは、記憶装置30に格納される。
 第2実施形態の辞書学習装置10は、上記のように基準画像領域と拡大画像領域と縮小画像領域と変形画像領域を撮影画像から抽出し、抽出した画像領域に基づく教師データを利用して辞書を学習する。第2実施形態の辞書学習装置10における上記以外の構成は第1実施形態の辞書学習装置10と同様である。
 第2実施形態の辞書学習装置10は、上記のように認識対象の物体における検知対象が一つである場合においても、第1実施形態と同様に、基準画像領域Gsだけでなく、拡大画像領域Geと縮小画像領域Grをも撮影画像から抽出して教師データを生成する。これにより、第1実施形態と同様に、第2実施形態の辞書学習装置10も、教師データの生成数とバリエーションを増加することができるため、学習量の増加と学習内容の拡大により辞書の信頼性を高めることができる。つまり、第2実施形態の辞書学習装置10は、情報処理装置1において検知される検知対象の検知位置の確からしさを高めることができる。
 ところで、仮に、辞書学習装置10が拡大画像領域Geと縮小画像領域Grに基づいた教師データを用いずに生成した辞書を利用して、情報処理装置1の検知部6が検知処理を行った場合に、次のような問題が発生する虞がある。つまり、その問題とは、撮影画像に認識対象の物体における検知対象が映っているのにも拘わらず、検知部6が検知対象を検知できないという問題である。この問題が発生する原因の一つは、例えば、撮影画像において検知処理の対象とする画像領域をユーザが入力装置50を利用して指定した場合に、その検知対象の画像領域が認識対象の物体よりも広すぎて背景の情報が多く含まれていることに因ると考えられる。また、別の原因の一つは、ユーザにより指定された検知対象の画像領域が認識対象の物体全体を含まないことに因ると考えられる。
 これに対し、第2実施形態の辞書学習装置10は、認識対象の物体における背景の情報をも考慮して辞書を学習させるべく、拡大画像領域Geに基づいた教師データを生成する。また、辞書学習装置10は、認識対象の物体における一部の情報が含まれていない場合を考慮して辞書を学習させるべく、縮小画像領域Grに基づいた教師データを生成する。このため、辞書学習装置10は、上述したような検知対象を検知できないという問題の発生を低減することができる辞書を生成できる。このような辞書学習装置10により生成された辞書を利用することにより、情報処理装置1は、検知対象の検知率を高めることができる。
 なお、第2実施形態では、認識対象の物体として、図15に表されるような静止している物体を例にして説明している。これに代えて、認識対象の物体が動く物体であっても、第2実施形態の辞書学習装置10は、上記同様に、情報処理装置1の検知部6が利用する辞書を生成することができる。この場合には、検知対象は、例えば、認識対象の物体における重心に応じた部位とする。図18には認識対象の物体の一例が表されている。図18における認識対象の物体は人型ロボット85の胴体部分であり、その検知対象は人型ロボット85の重心に応じた部位Mである。図19には、図18における認識対象の物体に関し、辞書学習装置10における制御装置20の基準データ抽出部21と拡大データ抽出部22と縮小データ抽出部23が抽出する基準画像領域と拡大画像領域と縮小画像領域の画像の具体例が表されている。この具体例においても、検知対象Mは、基準画像領域と拡大画像領域と縮小画像領域における中心部に位置している。また、図20は、図18における認識対象の物体に関し、変形データ抽出部24が抽出する変形画像領域の画像の具体例が表されている。これらのような変形画像領域の画像においても、その中心部は認識対象の物体(人型ロボット85)における重心に応じた部位が位置している。図19と図20に表されるような様々な画像領域の画像に基づいた教師データを利用して辞書学習装置10が学習した辞書を利用することにより、情報処理装置1は、検知部6の検知処理の性能を高めることができる。例えば、情報処理装置1の検知部6は、認識対象の物体である人型ロボット85の脚と片腕が他の物体によって隠れているような場合であっても人型ロボット85の位置を検知できることが本発明者の実験により確認されている。これにより、情報処理装置1は、処理部7による例えば認識対象の物体の追尾処理の性能を高めることができる。なお、人型ロボット85などの移動体である認識対象の物体は、水中で動作する移動体に限定されず、水中で動作する移動体や、水中と陸上の両方で動作可能な移動体や、空中や宇宙で移動あるいは飛行する移動体であってもよい。
 <第3実施形態>
 以下に、本発明に係る第3実施形態を説明する。なお、第3実施形態の説明において、第1や第2の実施形態の辞書学習装置と情報処理装置における構成部分の名称と同一名称部分には同一符号を付し、その共通部分の重複説明は省略する。
 第3実施形態の辞書学習装置10は、第1又は第2の実施形態における辞書学習装置10の構成に加えて、物体認識処理で利用する参考データを含む辞書を学習する機能を備える。物体認識処理とは、情報処理装置1の制御装置2の検知部6が認識対象の物体から検知対象を検知する検知処理の前に行う処理であり、撮影画像において認識対象の物体を検知(認識)する処理である。つまり、第3実施形態の辞書学習装置10は、情報処理装置1において次のような処理を実行する検知部6で利用される辞書を学習する。
 すなわち、検知部6は、まず、図23Aに表されるような撮影画像42において認識対象の物体(例えば魚80)を検知する。この処理が物体認識処理であり、ここでは、撮影画像42において、認識対象の物体(魚80)を含む矩形状の画像領域Zが検知部6により検知される。この物体認識処理では、検知部6は、物体認識用の参考データを含む辞書(ここでは、辞書5A(図2参照)と記すこととする)を利用する。辞書5Aは情報処理装置1の記憶装置3に格納されている。
 その後、検知部6は、検知された画像領域Zにおいて、図23Bに表されるように、認識対象の物体(魚80)における検知対象(例えば、点H,T,P,B)を検知する。この検知処理では、検知部6は、検知対象検知用の参考データを含む辞書(ここでは、辞書5B(図2参照)と記すこととする)を利用する。辞書5Bも、辞書5Aと同様に、情報処理装置1の記憶装置3に格納されている。
 第1と第2の実施形態における辞書学習装置10は、上述したような認識対象の物体において検知対象を検知する処理で利用する辞書5Bを学習する機能を備えている。第3実施形態の辞書学習装置10は、辞書5Bを学習する機能に加えて、物体認識処理で利用する辞書5Aをも学習する機能を備えている。
 すなわち、第3実施形態の辞書学習装置10は、図1に表される構成に加えて、図24に表されているような物体認識データ生成部27を備えている。なお、図24では、辞書5Bの学習に関わる基準データ抽出部21と拡大データ抽出部22と縮小データ抽出部23と変形データ抽出部24の図示が省略されている。
 物体認識データ生成部27は、辞書5Aの学習に利用する教師データを生成する機能を備えている。例えば、物体認識データ生成部27は、撮影装置40による撮影画像が表示装置60に表示されている状態において、ユーザに認識対象の物体を指定する操作を促すメッセージ等の表示を表示制御部26に要求する。第3実施形態では、撮影画像において指定される認識対象の物体の数は1つとは限らず、撮影画像における認識対象の物体の数に応じて複数の認識対象の物体を指定することをユーザに促すメッセージ等が表示制御部26によって表示装置60に表示される。この表示装置60の表示を受けて、ユーザが入力装置50を操作し、撮影画像において認識対象の物体を含む物体検知領域が指定されたとする。図25~図27は、物体検知領域が指定(設定)された撮影画像の具体例が表されている。これら具体例では、認識対象の物体は魚体であり、撮影画像42において、認識対象の物体を含む物体検知領域は矩形状の画像領域Kにより指定されている。また、第3実施形態では、表示装置60により表示されている撮影画像42には、物体検知領域Kを明示すべく矩形状の枠が表示される。
 図25~図27の具体例にも表されるように、撮影画像42において指定される物体検知領域Kの数は、撮影画像42における認識対象の物体の数を含む撮影状態に応じて異なる。つまり、撮影画像42における認識対象の物体の数が増加するに従って、認識可能な物体の数が増加するから物体検知領域Kの数も増加する。ただ、撮影画像42に映っている認識対象の物体の数が同じでも、物体同士の重なり等に因り認識可能な物体の数が変化する等の理由により、撮影画像42における認識対象の物体の数と、物体検知領域Kの数との変化傾向が比例関係になるとは限らない。
 また、第3実施形態では、基本姿勢である認識対象の物体だけが指定されるのではなく、例えば図11に表されるような変形状態の認識対象の物体をも指定されるように、例えば、その旨のメッセージが表示装置60に表示される。これにより、大きさが異なる複数の認識対象の物体や、基本姿勢から回転している認識対象の物体や、物体の一部が変形している認識対象の物体(例えば、くねっている魚体や、口が開いている魚体)なども指定されることとなる。さらに、撮影装置40に近い認識対象の物体や遠い認識対象の物体や、他の物体に一部が隠れている認識対象の物体などをも指定されることとなる。
 物体認識データ生成部27は、指定された物体検知領域Kの情報を物体情報として撮影画像42に関連付けることにより、物体情報が関連付けられた撮影画像のデータを教師データとして生成し、生成した教師データを記憶装置30に格納する。
 学習部25は、物体認識データ生成部27により生成され記憶装置30に格納されている教師データを利用して、情報処理装置1の検知部6における物体認識処理で利用する辞書5Aを学習により生成する機能を備える。学習部25が辞書5Aの学習に利用する教師データは、例えば映っている認識対象の物体の数や、画像の鮮明度などの撮影状況が異なる撮影画像に基づいた多数のデータである。学習部25が辞書5Aを学習する手法は限定されず、ここでは、その説明は省略される。
 第3実施形態の辞書学習装置10は、第1又は第2の実施形態の構成を備えているので、第1又は第2の実施形態と同様の効果を得ることができる。さらに、第3実施形態の辞書学習装置10は、情報処理装置1の検知部6が物体認識処理で利用する辞書5Aを学習することができる。辞書学習装置10は、撮影画像42から抽出された1つの認識対象の物体の画像を教師データとして利用するのではなく、認識対象の物体を含む画像領域を物体毎に表す物体情報が関連付けられた撮影画像全体のデータを教師データとして辞書5Aを学習する。このような教師データを利用した学習により生成された辞書5Aを利用することにより、情報処理装置1の検知部6が実行する物体認識処理において、検知部6は、撮影画像42において認識(検知)する認識対象の物体の数を増加させることができる。
 なお、上述した説明では、物体認識データ生成部27は、ユーザにより指定された物体検知領域Kの情報を物体情報として撮影画像42に関連付けることにより、教師データを生成している。これに代えて、物体認識データ生成部27は、次のような処理により、物体検知領域Kの情報である物体情報を関連付けた撮影画像のデータを教師データとして生成してもよい。例えば、記憶装置30には予め物体参考データが登録されているとする。その物体参考データは、例えば、撮影画像から抽出された認識対象の物体単独の画像を教師データとして利用した学習により得られるデータである。物体認識データ生成部27は、そのような物体参考データを利用して撮影画像42において認識対象の物体(物体検知領域K)を検知する。ここでは、図25~図27に表されるように、物体認識データ生成部27は、撮影画像42における認識対象の物体の数に応じた数の物体検知領域Kを検知する。そして、物体認識データ生成部27は、検知した物体検知領域Kの情報を物体情報として撮影画像42に関連付けることにより、教師データを生成する。
 また、第3実施形態では、辞書学習装置10の学習部25は、辞書5Aと辞書5Bを学習する例を説明している。これに代えて、例えば、学習部25は、基準データ抽出部21と拡大データ抽出部22と縮小データ抽出部23と変形データ抽出部24と物体認識データ生成部27によりそれぞれ生成された教師データを利用して、1つの辞書を学習してもよい。この場合には、情報処理装置1の検知部6は、その辞書を利用して、撮影画像から認識対象の物体を検知し、かつ、認識対象の物体における検知対象を検知する。
 さらに、辞書学習装置10が生成する辞書に関連する認識対象の物体は第1~第3の実施形態の説明に利用した魚体やマークや人型ロボットに限定されない。さらに、第3実施形態では、情報処理装置1の検知部6が辞書5Aを利用して撮影画像42において1種類の認識対象の物体を検知する例を説明している。これに代えて、例えば、情報処理装置1は、認識対象の物体の一つとしての鰤を物体認識処理により検知する際に利用する辞書5A_1と、別の認識対象の物体としての鯛を物体認識処理により検知する際に利用する辞書5A_2とを備えてもよい。この場合には、情報処理装置1の検知部6は、辞書5A_1,5A_2を利用することにより、撮影画像42から鰤と鯛を種別かつ個別(1体ずつ)に検知することが可能となる。このように、検知部6は、物体認識処理を実行する場合に、複数の辞書を利用することにより、撮影画像から複数種の認識対象の物体を検知してもよい。
 さらに、第3実施形態では、撮影画像の全体に亘り物体検知領域Kが指定される例を示しているが、例えば、撮影画像において物体検知領域Kを指定する領域が例えば撮影装置40のキャリブレーション処理に関連して定まる領域に制限されていてもよい。
 さらにまた、第3実施形態の辞書学習装置10は、辞書5Aと辞書5Bの両方の辞書を学習する機能を備えている。これに代えて、辞書学習装置10は、基準データ抽出部21と拡大データ抽出部22と縮小データ抽出部23と変形データ抽出部24が省略され、辞書5Aを学習する装置であってもよい。
 <その他の実施形態>
 なお、本発明は第1~第3の実施形態に限定されず、様々な実施の態様を採り得る。例えば、図21には、本発明に係るその他の実施形態の辞書学習装置の構成がブロック図により表されている。図22には、図21における辞書学習装置により生成された辞書を利用する情報処理装置の構成がブロック図により表されている。図21における辞書学習装置100は、基準データ抽出部101と拡大データ抽出部102と縮小データ抽出部103と学習部104を備える。基準データ抽出部101は、認識対象の物体を撮影する撮影装置による撮影画像から、認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する機能を備える。拡大データ抽出部102は、基準画像領域を含み基準画像領域よりも広い画像領域であって、認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて撮影画像から抽出する機能を備える。縮小データ抽出部103は、検知対象を含み基準画像領域よりも狭い画像領域であって、認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて撮影画像から抽出する機能を備える。学習部104は、撮影画像から検知対象を検知する検知処理で参照する参考データを含む辞書を、基準画像領域と拡大画像領域と縮小画像領域の画像を利用して学習する機能を備える。
 情報処理装置110は、検知部111と処理部112と記憶装置113を備える。記憶装置113は、辞書学習装置100により学習(生成)された辞書114を保持する記憶装置である。検知部111は、撮影装置による撮影画像から認識対象の物体における検知対象を記憶装置113の辞書114を利用して検知する機能を備える。処理部112は、検知された検知対象を利用した処理を実行する機能を備える。
 上記のような辞書学習装置100および情報処理装置110は上記のような構成を備えることにより、第1と第2の実施形態と同様の効果を奏することができる。
 以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 この出願は、2018年5月23日に出願された日本出願特願2018-098700および2018年9月26日に出願された日本出願特願2018-179775を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1,110 情報処理装置
 3,30 記憶装置
 5,114 辞書
 6,111 検知部
 7,112 処理部
 10,100 辞書学習装置
 21,101 基準データ抽出部
 22,102 拡大データ抽出部
 23,103 縮小データ抽出部
 24 変形データ抽出部
 27 物体認識データ生成部
 25,104 学習部

Claims (9)

  1.  認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する基準データ抽出手段と、
     前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出する拡大データ抽出手段と、
     前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出する縮小データ抽出手段と、
     前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域の画像を利用して学習する学習手段と
    を備える辞書学習装置。
  2.  前記基準画像領域と前記拡大画像領域と前記縮小画像領域は、その中心に前記検知対象が位置している画像領域である請求項1に記載の辞書学習装置。
  3.  前記基準画像領域には、互いに異なる複数の前記検知対象が含まれており、
     前記拡大画像領域と前記縮小画像領域は、それら複数の前記検知対象を含む画像領域である請求項1に記載の辞書学習装置。
  4.  前記基準画像領域と前記拡大画像領域と前記縮小画像領域との各画像領域における前記検知対象の位置情報は、それら画像領域内において設定され、かつ、前記検知対象が中心部に位置している部分領域の位置を利用して表される請求項3に記載の辞書学習装置。
  5.  前記撮影画像から、変形状態の前記認識対象の物体を含む変形画像領域の画像を変形切り出し情報に基づいて抽出する変形データ抽出手段をさらに備える請求項1乃至請求項4の何れか一項に記載の辞書学習装置。
  6.  前記認識対象の物体が含まれている画像領域を物体毎に表す物体情報が関連付けられ、かつ、前記物体情報の数が前記撮影画像における前記認識対象の物体の撮影状態に応じて異なる前記撮影画像のデータを生成する物体認識データ生成手段をさらに備え、
     前記学習手段は、前記認識対象の物体を検知する物体認識処理で参照する参考データを含む辞書を、前記物体情報が付与された前記撮影画像のデータを利用して学習する機能をさらに備える請求項1乃至請求項5の何れか一項に記載の辞書学習装置。
  7.  認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する基準データ抽出手段と、前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出する拡大データ抽出手段と、前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出する縮小データ抽出手段と、前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域の画像を利用して学習する学習手段とを備える辞書学習装置により学習された辞書を保持する記憶装置と、
     前記撮影画像から前記認識対象の物体における前記検知対象を前記記憶装置の辞書を利用して検知する検知手段と、
     検知された前記検知対象を利用した処理を実行する処理手段と
    を備える情報処理装置。
  8.  コンピュータによって、
     認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出し、
     前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出し、
     前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出し、
     前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域の画像を利用して学習する辞書学習方法。
  9.  認識対象の物体を撮影する撮影装置による撮影画像から、前記認識対象の物体における検知対象を含む基準となる基準画像領域の画像を基準切り出し情報に基づいて抽出する処理と、
     前記基準画像領域を含み前記基準画像領域よりも広い画像領域であって、前記認識対象の物体以外が表されている背景を含む拡大画像領域の画像を拡大切り出し情報に基づいて前記撮影画像から抽出する処理と、
     前記検知対象を含み前記基準画像領域よりも狭い画像領域であって、前記認識対象の物体が部分的に領域外となる縮小画像領域の画像を縮小切り出し情報に基づいて前記撮影画像から抽出する処理と、
     前記撮影画像から前記検知対象を検知する検知処理で参照する参考データを含む辞書を、前記基準画像領域と前記拡大画像領域と前記縮小画像領域の画像を利用して学習する処理と
    をコンピュータに実行させるコンピュータプログラムを記憶するプログラム記憶媒体。
PCT/JP2019/020088 2018-05-23 2019-05-21 辞書学習装置、情報処理装置、辞書学習方法およびプログラム記憶媒体 WO2019225595A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/056,984 US11600086B2 (en) 2018-05-23 2019-05-21 Dictionary learning device, dictionary learning method, and program storage medium
JP2020521248A JP7103412B2 (ja) 2018-05-23 2019-05-21 辞書学習装置、情報処理装置、辞書学習方法およびコンピュータプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2018-098700 2018-05-23
JP2018098700 2018-05-23
JP2018-179775 2018-09-26
JP2018179775 2018-09-26

Publications (1)

Publication Number Publication Date
WO2019225595A1 true WO2019225595A1 (ja) 2019-11-28

Family

ID=68616121

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/020088 WO2019225595A1 (ja) 2018-05-23 2019-05-21 辞書学習装置、情報処理装置、辞書学習方法およびプログラム記憶媒体

Country Status (3)

Country Link
US (1) US11600086B2 (ja)
JP (1) JP7103412B2 (ja)
WO (1) WO2019225595A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022018905A (ja) * 2020-07-16 2022-01-27 キヤノン株式会社 情報処理装置及び方法、撮像装置、及び撮像システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342758A (ja) * 2001-05-15 2002-11-29 Osamu Hasegawa 視覚認識システム
JP2003099777A (ja) * 2001-09-21 2003-04-04 Victor Co Of Japan Ltd 顔画像検索装置
JP2017004052A (ja) * 2015-06-04 2017-01-05 キヤノン株式会社 学習装置、方法及びプログラム
JP2018060296A (ja) * 2016-10-03 2018-04-12 グローリー株式会社 画像処理装置、画像処理システム及び画像処理方法
JP2018067149A (ja) * 2016-10-19 2018-04-26 三菱重工業株式会社 属性判定装置、属性判定方法、コンピュータプログラム、及び記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250863A (ja) 2004-03-04 2005-09-15 Univ Waseda 領域検出方法およびそのシステム
US10977509B2 (en) * 2017-03-27 2021-04-13 Samsung Electronics Co., Ltd. Image processing method and apparatus for object detection
JP6739847B2 (ja) * 2018-09-12 2020-08-12 株式会社アルファコード 画像表示制御装置および画像表示制御用プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342758A (ja) * 2001-05-15 2002-11-29 Osamu Hasegawa 視覚認識システム
JP2003099777A (ja) * 2001-09-21 2003-04-04 Victor Co Of Japan Ltd 顔画像検索装置
JP2017004052A (ja) * 2015-06-04 2017-01-05 キヤノン株式会社 学習装置、方法及びプログラム
JP2018060296A (ja) * 2016-10-03 2018-04-12 グローリー株式会社 画像処理装置、画像処理システム及び画像処理方法
JP2018067149A (ja) * 2016-10-19 2018-04-26 三菱重工業株式会社 属性判定装置、属性判定方法、コンピュータプログラム、及び記録媒体

Also Published As

Publication number Publication date
US11600086B2 (en) 2023-03-07
JP7103412B2 (ja) 2022-07-20
US20210150185A1 (en) 2021-05-20
JPWO2019225595A1 (ja) 2021-05-13

Similar Documents

Publication Publication Date Title
JP2020535509A (ja) イメージ内のターゲットオブジェクトに自動的にアノテーションするための方法、装置およびシステム
JP5631086B2 (ja) 情報処理装置及びその制御方法、プログラム
JP2019028843A (ja) 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
JP6491517B2 (ja) 画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置
JP7064257B2 (ja) 画像深度確定方法及び生き物認識方法、回路、装置、記憶媒体
JP2019117577A (ja) プログラム、学習処理方法、学習モデル、データ構造、学習装置、および物体認識装置
JP2019087945A (ja) 情報処理装置、プログラム及び情報処理方法
JP2016212784A (ja) 画像処理装置、画像処理方法
WO2019225595A1 (ja) 辞書学習装置、情報処理装置、辞書学習方法およびプログラム記憶媒体
JP2019012360A (ja) 情報処理装置、プログラム及び情報処理方法
JP5769411B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20210042576A1 (en) Image processing system
JP7183020B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2018125658A (ja) カメラ機能を有する携帯可能な情報処理装置、その表示制御方法、及びプログラム
JP2006113832A (ja) ステレオ画像処理装置およびプログラム
WO2019244536A1 (ja) 物体追跡装置、物体追跡システム、および物体追跡方法
JP2010003165A (ja) 画像処理装置及び画像処理方法、コンピュータプログラム及び記録媒体
WO2021157213A1 (ja) 画像処理装置および画像処理方法
JP2016149678A (ja) カメラ校正ユニット、カメラ校正方法、およびカメラ校正プログラム
JP2019062436A (ja) 画像処理装置、画像処理方法、及びプログラム
JP6371547B2 (ja) 画像処理装置、方法、および、プログラム
JP6237028B2 (ja) 投影装置、投影方法及び情報処理システム
JP2006238362A (ja) 画像天地判定装置および方法並びにプログラム
JP5896781B2 (ja) 画像処理装置および画像処理方法
KR102623605B1 (ko) 반려 동물의 생체 정보를 취득하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19807466

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020521248

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19807466

Country of ref document: EP

Kind code of ref document: A1