WO2019016870A1 - 画像認識装置、画像認識方法及びプログラム - Google Patents

画像認識装置、画像認識方法及びプログラム Download PDF

Info

Publication number
WO2019016870A1
WO2019016870A1 PCT/JP2017/025974 JP2017025974W WO2019016870A1 WO 2019016870 A1 WO2019016870 A1 WO 2019016870A1 JP 2017025974 W JP2017025974 W JP 2017025974W WO 2019016870 A1 WO2019016870 A1 WO 2019016870A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
partial
recognition
area
recognized
Prior art date
Application number
PCT/JP2017/025974
Other languages
English (en)
French (fr)
Inventor
勉 堀川
大地 小野
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to JP2019530271A priority Critical patent/JP6874136B2/ja
Priority to US16/621,729 priority patent/US11164318B2/en
Priority to PCT/JP2017/025974 priority patent/WO2019016870A1/ja
Priority to CN201780093077.XA priority patent/CN110914830B/zh
Publication of WO2019016870A1 publication Critical patent/WO2019016870A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/24765Rule-based classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the present invention relates to an image recognition apparatus, an image recognition method, and a program.
  • an image recognition technology for recognizing an object represented by the image or a position in an image in which the object is represented based on an output when an image to be recognized is input to a learned model.
  • semantic segmentation the meaning of a pixel, such as an object represented by the pixel, is specified in pixel units included in an input image.
  • the present invention has been made in view of the above problems, and one of the objects thereof is to provide an image recognition apparatus, an image recognition method, and a program that can recognize many types of objects with high accuracy.
  • an image recognition apparatus performs a process of recognizing the position of a given object in an image for at least one given object;
  • a partial image extraction unit that extracts from the image a partial image that is a part of the image that is associated with the position, and an object that the partial image represents and that is other than the given object whose position is recognized And
  • D a second recognition unit that executes a process of recognizing what at least one object is.
  • the second recognition unit further includes: a model selection unit that selects a learned model corresponding to the given object whose position is recognized from among a plurality of learned models; A process is executed to recognize what the object represented by the partial image is, using the selected learned model.
  • the partial image extraction unit moves or deforms an area in the image representing the given object whose position is recognized based on a rule according to the object The partial image occupying the area is extracted.
  • the partial image extraction unit extracts the partial image occupying the area in which the area in the image in which the given object whose position is recognized is represented is moved in the direction according to the object You may
  • the partial image extraction unit extracts the partial image occupying a region obtained by enlarging or reducing the region in the image representing the given object whose position is recognized to a size corresponding to the object.
  • the process of recognizing the position of a given object in an image is performed with respect to at least one given object, and the process is associated with the recognized position. Extracting from the image a partial image that is part of an image, and processing that the partial image represents at least one object including an object other than the given object whose position is to be recognized And performing the steps of
  • a program according to the present invention includes, for at least one given object, performing a process of recognizing the position of the given object in the image, one of the images associated with the recognized position.
  • a procedure for extracting a partial image that is a part from the image, and a procedure for performing processing of recognizing what at least one object including an object other than the given object represented by the partial image whose position is recognized make the computer execute.
  • FIG. 1 is a block diagram of an image recognition apparatus according to an embodiment of the present invention. It is a figure showing an example of a photography picture. It is a figure which shows an example of a depth image. It is a figure which shows an example of a whole recognition result image. It is a figure which shows an example of partial recognition management data. It is a figure showing an example of a partial photography picture. It is a figure which shows an example of a partial depth image. It is a figure which shows an example of a partial recognition result image. It is a functional block diagram showing an example of a function implemented by an image recognition device concerning one embodiment of the present invention. It is a flow figure showing an example of the flow of the processing performed with the image recognition device concerning one embodiment of the present invention.
  • FIG. 1 is a block diagram of an image recognition apparatus 10 according to an embodiment of the present invention.
  • the image recognition apparatus 10 according to the present embodiment is, for example, a computer such as a game console or a personal computer.
  • the image recognition apparatus 10 according to the present embodiment includes, for example, a processor 12, a storage unit 14, an operation unit 16, and a display unit 18.
  • the processor 12 is a program control device such as a CPU that operates according to a program installed in the image recognition apparatus 10, for example.
  • the storage unit 14 is a storage element such as a ROM or a RAM, a hard disk drive, or the like.
  • the storage unit 14 stores programs executed by the processor 12 and the like.
  • the operation unit 16 is a user interface such as a keyboard, a mouse, and a controller of a game console, and receives an operation input from the user and outputs a signal indicating the content to the processor 12.
  • the display unit 18 is a display device such as a liquid crystal display, and displays various images according to an instruction of the processor 12.
  • the image recognition apparatus 10 may include a communication interface such as a network board, an optical disk drive for reading an optical disk such as a DVD-ROM or a Blu-ray (registered trademark) disk, a Universal Serial Bus (USB) port, and the like.
  • a communication interface such as a network board
  • an optical disk drive for reading an optical disk such as a DVD-ROM or a Blu-ray (registered trademark) disk
  • a Universal Serial Bus (USB) port and the like.
  • FIG. 2 is a view showing an example of a photographed image 20 to be an object of image recognition in the image recognition device 10.
  • the photographed image 20 is, for example, an image obtained by photographing a subject in real space with a camera such as a digital camera.
  • FIG. 3 is a diagram showing an example of the depth image 22 associated with the captured image 20 illustrated in FIG.
  • the depth image 22 represents the distribution of the distance from the camera to the subject, which is associated with each of the pixels included in the captured image 20.
  • the captured image 20 shown in FIG. 2 is an image of a subject in real space, such as a stereo camera or a camera with an infrared distance measuring sensor, which can capture a captured image associated with depth information. I don't care.
  • the image corresponding to the depth information in this case may be the depth image 22 shown in FIG.
  • depth information associated with the position and orientation of the camera when capturing the captured image 20 and the angle of view is generated.
  • the depth image 22 shown in FIG. 3 may be generated based on the depth information.
  • the first image recognition and the second image recognition are performed on the photographed image 20 and the depth image 22.
  • the first image recognition is performed on the entire captured image 20 and the entire depth image 22.
  • the second image recognition is performed on a part of the captured image 20 and a part of the depth image 22.
  • the first image recognition in the present embodiment is referred to as the entire recognition
  • the second image recognition is referred to as the partial recognition.
  • the photographed image 20 and the depth image 22 are input to a learned model used for overall recognition.
  • the learned model is, for example, a model capable of recognizing an object such as a table, a sofa, a curtain, a chair, a bookshelf, and the like appearing in an image, which is disposed in a room.
  • the type of learned model to which the photographed image 20 and the depth image 22 are input in the overall recognition is not particularly limited.
  • the learned model may be, for example, a two-dimensional convolutional neural network (two-dimensional CNN) for which learning for performing semantic segmentation has been performed.
  • FIG. 4 shows an example of the entire recognition result image 24 which is an example of the execution result.
  • the photographed image 20, the depth image 22, and the entire recognition result image 24 are images having the same shape and the same size.
  • the entire recognition result image 24 is divided in pixel units into a plurality of areas each associated with a category corresponding to an object that is a recognition result.
  • a table area 26 associated with a table for example, a sofa area 28 associated with a sofa, a curtain area 30 associated with a curtain, and a chair area 32 associated with a chair are shown.
  • a plurality of areas separated from one another may be recognized as an area of the same category.
  • the position of the pixel in the overall recognition result image 24 is associated with the position of the pixel in the captured image 20 and the position of the pixel in the depth image 22.
  • the field matched with the object of the specific category defined beforehand is specified as standard field 34 in the whole recognition result picture 24 in which the specific object is expressed.
  • the object of the specific category is referred to as a partial recognition target.
  • the partial recognition target may be set in the partial recognition management data illustrated in FIG.
  • the partial recognition management data includes, for example, partial recognition target data, movement deformation rule data, and a partial recognition model ID.
  • the partial recognition target data is, for example, data indicating a name or the like of the partial recognition target.
  • the movement deformation rule data is, for example, data indicating a rule for determining a partial recognition area 36 described later based on the reference area 34.
  • the partial recognition model ID is, for example, identification information of a learned model used for partial recognition of a partial image occupying the partial recognition area 36.
  • FIG. 5 shows partial recognition management data in which the value of partial recognition target data is a table, and partial recognition management data in which the value of partial recognition target data is a bookshelf. Therefore, in this case, the partial recognition targets are a table and a bookshelf. In this case, as shown in FIG. 4, an area associated with the table area 26 in the entire recognition result image 24 may be specified as the reference area 34.
  • a rectangular area circumscribing the table area 26 may be identified as the reference area 34.
  • an area obtained by adding a margin area to a rectangular area circumscribing the table area 26 may be specified as the reference area 34.
  • an area having the same center as a rectangular area circumscribing the table area 26 and having a length longer by a predetermined length than that of the rectangular area may be specified as the reference area 34.
  • a region having the same center as the rectangular region circumscribing the table region 26 and having a size that is a predetermined multiple larger than that of the rectangular region may be specified as the reference region 34.
  • a partial recognition area 36 to be subjected to partial recognition is determined based on the reference area 34.
  • an area obtained by moving or deforming the reference area 34 in accordance with a given rule according to the partial recognition target, such as a rule indicated by the mobile deformation rule data shown in FIG. 5 may be determined as the partial recognition area 36 .
  • a region obtained by moving the reference region 34 in the direction according to the partial recognition target may be determined as the partial recognition region 36.
  • an area enlarged or reduced to a size according to the partial recognition target may be determined as the partial recognition area 36.
  • “40% upward movement height 60%” is set as the value of the mobile deformation rule data in the partial recognition management data in which the value of the partial recognition target data is a table.
  • the height is reduced to 60% without changing the position of the center.
  • the region to be recognized may be determined as the partial recognition region 36.
  • the position and size of the partial recognition area 38 in the photographed image 20 and partial recognition in the depth image 22 based on the position and size of the partial recognition area 36 in the entire recognition result image 24 The position and size of the area 40 is determined.
  • an area in the captured image 20 corresponding to the partial recognition area 36 in the entire recognition result image 24 may be specified as the partial recognition area 38.
  • a rectangular area in which the coordinate values of the vertex in the captured image 20 are (p1, q1), (p1, q2), (p2, q1), and (p2, q2) is specified as the partial recognition area 38 It may be done.
  • an area in the depth image 22 corresponding to the partial recognition area 36 in the entire recognition result image 24 may be specified as the partial recognition area 40.
  • rectangular regions in the depth image 22 whose coordinate values of the vertex are (p1, q1), (p1, q2), (p2, q1), and (p2, q2) are specified as the partial recognition region 40 It may be done.
  • a partially captured image 42 illustrated in FIG. 6 which is a part of the captured image 20 occupying the partial recognition area 38 is extracted from the captured image 20.
  • a partial depth image 44 illustrated in FIG. 7 which is a part of the depth image 22 occupying the partial recognition area 38 is extracted from the depth image 22.
  • partial recognition is performed on the partial captured image 42 and the partial depth image 44.
  • a plurality of learned models to be used for performing partial recognition are prepared in advance. Then, in the present embodiment, for example, based on the partial recognition target recognized in the overall recognition, a learning model in which partial recognition is performed on the partial captured image 42 and the partial depth image 44 is selected from the plurality of learned models. Be done.
  • a learned model on which partial recognition is performed on the partial captured image 42 and the partial depth image 44 may be selected.
  • 1 is set as a partial recognition model ID of partial recognition management data in which the value of the partial recognition target data is a table.
  • a learned model is selected in which partial recognition is performed on the partial captured image 42 and the partial depth image 44 in which the model whose identification information value is 1 is a partial image.
  • a model whose identification information value is 1 may be a model capable of recognizing an object associated with a partial recognition target corresponding to the model.
  • a model whose identification information value is 1 may be a model that can recognize an object placed on a table and a table, such as a plastic bottle, a cup, a plate, a table, or the like appearing in an image.
  • the learned model may be, for example, a two-dimensional convolutional neural network (two-dimensional CNN) for which learning for performing semantic segmentation has been performed. Then, in response to the input, an execution result of the image recognition on the partial captured image 42 and the partial depth image 44 is output from the learned model.
  • FIG. 8 shows an example of a partial recognition result image 46, which is an example of the execution result.
  • a table area 26 associated with the table and a plastic bottle area 48 associated with the plastic bottle placed on the table are shown.
  • a plastic bottle that could not be recognized in the general recognition can be recognized in the partial recognition.
  • partial images corresponding to those on the table are extracted as the partial captured image 42 and the partial depth image 44. Therefore, an object placed on the table can be accurately recognized in the partial recognition.
  • the table area 26 is shown in the overall recognition result image 24
  • a bookshelf area associated with a bookshelf is shown in the overall recognition result image 24.
  • the height and width are 85% without changing the central position of the reference area 34 corresponding to the bookshelf area.
  • An area reduced to may be determined as the partial recognition area 36.
  • a partial photographed image 42 occupying the partial recognition area 38 in the photographed image 20 corresponding to the partial recognition area 36 and a partial depth image 44 occupying the partial recognition area 40 in the depth image 22 corresponding to the partial recognition area 36 It may be extracted.
  • partial recognition may be performed on the partial captured image 42 and the partial depth image 44 using a model whose identification information value is 2.
  • the model whose identification information value is 2 may be, for example, a learned model that can recognize individual books and magazines, titles of books and magazines, and the like appearing in images.
  • partial images corresponding to the inside of the bookshelf are extracted as the partial captured image 42 and the partial depth image 44. Therefore, it is possible to accurately recognize an object placed in a bookshelf in partial recognition.
  • overall recognition for recognizing a limited number of objects is performed first.
  • general recognition for recognizing an object such as a table, a sofa, a curtain, a chair, and a bookshelf is performed on the captured image 20 and the depth image 22.
  • a suitable model according to the result of the overall recognition using a suitable model according to the result of the overall recognition, a limited type according to the result of the overall recognition including an object not recognized in the overall recognition Partial recognition is performed to recognize the number of objects.
  • a limited number of objects related to the table such as a plastic bottle, a cup, a plate, a table, etc., are recognized from the partial captured image 42 and the partial depth image 44.
  • the image recognition apparatus 10 As described above, according to the image recognition apparatus 10 according to the present embodiment, many types of objects can be recognized with high accuracy.
  • FIG. 9 is a functional block diagram showing an example of functions implemented by the image recognition device 10 according to the present embodiment.
  • the image recognition apparatus 10 In the image recognition apparatus 10 according to the present embodiment, not all of the functions shown in FIG. 9 need to be implemented, and functions other than the functions shown in FIG. 9 may be implemented.
  • the image recognition apparatus 10 functionally includes, for example, a partial recognition management data storage unit 50, an overall recognition model 52, and a plurality of partial recognition models 54 (first partial recognition models 54 (1), Two-part recognition model 54 (2), ..., n-th part recognition model 54 (n)), image acquisition unit 56, overall recognition unit 58, partial image extraction unit 60, model selection unit 62, partial recognition unit 64, Contains.
  • a partial recognition management data storage unit 50 an overall recognition model 52
  • a plurality of partial recognition models 54 first partial recognition models 54 (1), Two-part recognition model 54 (2), ..., n-th part recognition model 54 (n)
  • image acquisition unit 56 image acquisition unit 56
  • overall recognition unit 58 image extraction unit 60
  • model selection unit 62 partial recognition unit 64
  • Contains partial recognition unit 64
  • the above functions may be implemented by causing the processor 12 to execute a program including instructions corresponding to the above functions installed in the image recognition apparatus 10 which is a computer.
  • This program may be supplied to the image recognition apparatus 10 via a computer readable information storage medium such as an optical disk, a magnetic disk, a magnetic tape, a magneto-optical disk, a flash memory or the Internet, for example. .
  • the partial recognition management data storage unit 50 stores, for example, partial recognition management data illustrated in FIG. 5 in the present embodiment.
  • the overall recognition model 52 is, for example, a learned model used for overall recognition in the present embodiment.
  • the overall recognition model 52 includes, as input data, an image representing an object such as a table, a sofa, a curtain, a chair, a bookshelf, etc., which is disposed in a room, such as the overall recognition result image 24. It may be a two-dimensional CNN in which supervised learning based on learning data including an image in which an area is divided by a category is used as teacher data.
  • the partial recognition model 54 is, for example, a learned model used for partial recognition in the present embodiment.
  • the partial recognition model 54 according to the present embodiment is associated with partial recognition management data.
  • the first partial recognition model 54 (1) is associated with partial recognition management data whose partial recognition model ID is 1
  • the second partial recognition model 54 (2) is partial recognition whose partial recognition model ID is 2. It is associated with management data.
  • the partial recognition model 54 and the object are associated via the partial recognition management data.
  • a first partial recognition model 54 (1) is associated with the table
  • a second partial recognition model 54 (2) is associated with the bookshelf.
  • the partial recognition model 54 may be a learned model capable of recognizing an object associated with the partial recognition model 54 through partial recognition management data. Also, for example, each of the partial recognition models 54 may be a learned model in which different objects can be recognized.
  • the first part recognition model 54 (1) is a learned model capable of recognizing an object placed on a table and a table, such as a plastic bottle, a cup, a plate, a table, and the like.
  • the first partial recognition model 54 (1) includes, for example, an image representing a state in which an object such as a plastic bottle, a cup, a plate, or a table is arranged on a table as input data, such as the partial recognition result image 46. It may be a two-dimensional CNN in which supervised learning based on learning data including an image in which an area is divided by a category is used as teacher data.
  • the second partial recognition model 54 (2) is a learned model that can recognize, for example, individual books and magazines, and their titles.
  • the second partial recognition model 54 (2) includes, for example, an image in which a book shelf containing a book or a magazine is displayed as input data, and the image is divided into areas by a category such as a partial recognition result image 46 It may be a two-dimensional CNN in which supervised learning based on learning data included as teacher data has been performed.
  • the image acquisition unit 56 acquires, for example, an image to be a target of the overall recognition in the present embodiment.
  • the image acquisition unit 56 acquires the captured image 20 and the depth image 22.
  • the overall recognition unit 58 executes, for at least one given object, processing for recognizing the position of the given object in the image acquired by the image acquisition unit 56.
  • the above-mentioned given object refers to an object such as a table or a bookshelf set as a partial recognition target in the partial recognition management data illustrated in FIG. 5, for example.
  • the overall recognition unit 58 may execute the processing of overall recognition on the image acquired by the image acquisition unit 56 using the overall recognition model 52.
  • the entire recognition unit 58 generates a whole recognition result image 24 which is an output when the photographed image 20 and the depth image 22 are input to the whole recognition model 52 as a result of the whole recognition.
  • the partial image extraction unit 60 extracts, from the image, a partial image that is a part of the image, which is associated with the position of the given object in the image acquired by the image acquisition unit 56. Do.
  • the partial image extraction unit 60 sets the area corresponding to the object shown as the value of the partial recognition target data of the partial recognition management data illustrated in FIG. 5 as the reference area 34 in the entire recognition result image 24. It may be specified. Then, for example, an area obtained by moving or deforming the reference area 34 may be determined as the partial recognition area 36 in accordance with the rules indicated by the mobile deformation rule data associated with the partial recognition target data. Here, an area in which the reference area 34 is moved in the direction according to the partial recognition target may be determined as the partial recognition area 36. Also, a region enlarged or reduced to a size according to the partial recognition target may be determined as the partial recognition region 36.
  • the partial image extraction unit 60 may determine the partial recognition area 38 in the captured image 20 and the partial recognition area 40 in the depth image 22 corresponding to the partial recognition area 36 to be determined.
  • the partial image extraction unit 60 may extract a partial image occupied by the partial recognition area 38 in the captured image 20 from the captured image 20 as the partial captured image 42.
  • the partial image extraction unit 60 may extract a partial image occupied by the partial recognition area 40 in the depth image 22 from the depth image 22 as the partial depth image 44.
  • the model selection unit 62 selects one of the plurality of partial recognition models 54 that is associated with the object recognized by the general recognition.
  • the partial recognition model 54 associated with the partial recognition target may be selected.
  • a partial recognition model 54 capable of recognizing an object related to a partial recognition target, which has learned an image of an object related to the partial recognition target may be selected.
  • the partial image extraction unit 60 extracts the partial captured image 42 and the partial depth image 44 based on the table area 26. In this case, even if the model selection unit 62 selects the first partial recognition model 54 (1), the value of the partial recognition target data is associated with 1 which is a partial recognition model ID of partial recognition management data of which is a table. Good.
  • the partial recognition unit 64 recognizes, for example, at least one object including an object other than a given object whose position is recognized and represented by the partial image extracted by the partial image extraction unit 60. Execute the process The partial recognition unit 64 may execute, for example, a process of recognizing what the object represented by the partial image extracted by the partial image extraction unit 60 is by using the selected partial recognition model 54. For example, the partial recognition unit 64 generates a partial recognition result image 46, which is an output when the partial photographed image 42 and the partial depth image 44 are input to the first partial recognition model 54 (1), as a result of partial recognition.
  • the image acquisition unit 56 acquires the photographed image 20 and the depth image 22 (S101).
  • the overall recognition unit 58 executes processing of overall recognition on the captured image 20 and the depth image 22 using the overall recognition model 52 (S102).
  • the entire recognition result image 24 shown in FIG. 4 may be generated.
  • the partial image extraction unit 60 uses the area in the overall recognition result image 24 as the reference area 34 that is associated with the object set as the value of the partial recognition target data in any of the partial recognition management data shown in FIG. It specifies (S103).
  • the reference area 34 corresponding to the table area 26 may be identified.
  • the partial image extraction unit 60 determines the partial recognition area 36 in the entire recognition result image 24 (S104).
  • an area obtained by moving or deforming the reference area 34 is determined as the partial recognition area 36 in accordance with a rule indicated by the value of the mobile deformation rule data associated with the value of the partial recognition target data in the partial recognition management data shown in FIG. It may be done.
  • the partial image extraction unit 60 specifies the partial recognition area 38 in the captured image 20 and the partial recognition area 40 in the depth image 22 that are associated with the partial recognition area 36 determined in the process shown in S104 (S105) .
  • the partial image extraction unit 60 extracts a partial image (S106).
  • a partial image occupying the partial recognition area 38 in the photographed image 20 may be extracted as the partial photographed image 42
  • a partial image occupying the partial recognition area 40 in the depth image 22 may be extracted as the partial depth image 44 .
  • the model selection unit 62 selects a partial recognition model 54 used for partial recognition (S107).
  • the partial recognition model 54 for example, the first partial recognition model identified by the partial recognition model ID corresponding to the partial recognition target represented in the reference area 34 specified in the process shown in S103. 54 (1)
  • the partial recognition model 54 for example, the first partial recognition model identified by the partial recognition model ID corresponding to the partial recognition target represented in the reference area 34 specified in the process shown in S103. 54 (1)
  • the partial recognition unit 64 executes a process of partial recognition on the partial image extracted in the process shown in S106 (S108), and End the process shown.
  • a partial recognition result image 46 shown in FIG. 8 may be generated.
  • the entire recognition is performed on the captured image 20 and the depth image 22. However, the entire recognition may be performed on only the captured image 20.
  • partial recognition is performed on the partial captured image 42 and the partial depth image 44. However, partial recognition may be performed on only the partial captured image 42.
  • a plurality of partial images associated with different partial recognition targets may be extracted from the image to be subjected to the overall recognition.
  • partial images associated with the table and partial images associated with the bookshelf may be extracted.
  • partial recognition using different partial recognition models 54 may be performed on each partial image.
  • partial recognition using the first partial recognition model 54 (1) is performed on partial images associated with a table
  • a second partial recognition model 54 (2) is performed on partial images associated with a bookshelf. The used partial recognition may be performed.
  • the partial recognition model 54 may be a learned model capable of recognizing an object of a subcategory of an object recognized by the overall recognition model 52.
  • the overall recognition unit 58 recognizes a position at which a four-legged animal is represented in an image to be subjected to overall recognition.
  • the partial image extraction unit 60 extracts the partial image occupying the partial recognition area associated with the animal from the image to be subjected to the entire recognition.
  • the partial recognition unit 64 may input the partial image, for example, an image of an object of a four-legged animal subcategory such as a dog, a cat, a tiger, etc., to the partial recognition model 54 that has already been learned. .
  • the type of the four-legged animal represented in the partial image may be estimated.
  • the partial image extraction unit 60 extracts a partial image occupying a partial recognition area associated with a tree from an image to be subjected to the overall recognition.
  • the partial recognition unit 64 inputs the partial image to the partial recognition model 54 that can recognize the type of tree such as cherry blossoms, plums, pines, etc.
  • the type of tree being represented may be estimated.
  • the overall recognition unit 58 may execute processing of specifying an area to be watched from among the images to be subjected to the overall recognition, using the technique of visual attention. Then, the partial image extraction unit 60 may extract a partial image that occupies the area to be watched from the image to be subjected to the overall recognition. Alternatively, the partial image extraction unit 60 may extract a partial image occupying the partial recognition area 36 in the case where the area to be watched as the reference area 34 from the image to be subjected to the overall recognition.
  • the present invention is not limited to the above-described embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

高い精度で多くの種類の物体を認識できる画像認識装置、画像認識方法及びプログラムを提供する。全体認識部(58)は、少なくとも1の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行する。部分画像抽出部(60)は、認識される位置に対応付けられる画像の一部である部分画像を画像から抽出する。部分認識部(64)は、部分画像が表す、位置が認識される所与の物体以外の物体を含む少なくとも1の物体が何であるかを認識する処理を実行する。

Description

画像認識装置、画像認識方法及びプログラム
 本発明は、画像認識装置、画像認識方法及びプログラムに関する。
 学習済モデルに認識対象の画像を入力した際の出力に基づいて、当該画像が表す物体や、当該物体が表されている画像内の位置を認識する画像認識技術が知られている。例えばセマンティックセグメンテーションと呼ばれる技術では、入力された画像に含まれる画素単位で、その画素が表す物体などといった、その画素の意味が特定される。
 画像認識によって多くの種類の物体を認識し分けようとすると、物体に対応付けられる特徴量同士の差が小さくなるため誤認識の可能性が高くなる。
 本発明は上記課題に鑑みてなされたものであって、その目的の1つは、高い精度で多くの種類の物体を認識できる画像認識装置、画像認識方法及びプログラムを提供することにある。
 上記課題を解決するために、本発明に係る画像認識装置は、少なくとも1の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行する第1認識部と、認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出する部分画像抽出部と、前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも1の物体が何であるかを認識する処理を実行する第2認識部と、を含む。
 本発明の一態様では、複数の学習済モデルのうちから、位置が認識される前記所与の物体に対応する学習済モデルを選択するモデル選択部、をさらに含み、前記第2認識部は、選択される前記学習済モデルを用いて前記部分画像が表す物体が何であるかを認識する処理を実行する。
 また、本発明の一態様では、前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた規則に基づいて移動又は変形した領域を占める前記部分画像を抽出する。
 この態様では、前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた方向に移動させた領域を占める前記部分画像を抽出してもよい。
 あるいは、前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた大きさに拡大又は縮小した領域を占める前記部分画像を抽出してもよい。
 また、本発明に係る画像認識方法は、少なくとも1の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行するステップと、認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出するステップと、前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも1の物体が何であるかを認識する処理を実行するステップと、を含む。
 また、本発明に係るプログラムは、少なくとも1の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行する手順、認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出する手順、前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも1の物体が何であるかを認識する処理を実行する手順、をコンピュータに実行させる。
本発明の一実施形態に係る画像認識装置の構成図である。 撮影画像の一例を示す図である。 デプス画像の一例を示す図である。 全体認識結果画像の一例を示す図である。 部分認識管理データの一例を示す図である。 部分撮影画像の一例を示す図である。 部分デプス画像の一例を示す図である。 部分認識結果画像の一例を示す図である。 本発明の一実施形態に係る画像認識装置で実装される機能の一例を示す機能ブロック図である。 本発明の一実施形態に係る画像認識装置で行われる処理の流れの一例を示すフロー図である。
 以下、本発明の一実施形態について図面に基づき詳細に説明する。
 図1は、本発明の一実施形態に係る画像認識装置10の構成図である。本実施形態に係る画像認識装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図1に示すように、本実施形態に係る画像認識装置10は、例えば、プロセッサ12、記憶部14、操作部16、表示部18を含んでいる。
 プロセッサ12は、例えば画像認識装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
 記憶部14は、ROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部14には、プロセッサ12によって実行されるプログラムなどが記憶される。
 操作部16は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12に出力する。
 表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ12の指示に従って各種の画像を表示する。
 なお、画像認識装置10は、ネットワークボードなどの通信インタフェース、DVD-ROMやBlu-ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、USB(Universal Serial Bus)ポートなどを含んでいてもよい。
 図2は、画像認識装置10での画像認識の対象となる撮影画像20の一例を示す図である。撮影画像20は、例えばデジタルカメラなどのカメラで実空間内の被写体を撮影した画像である。
 図3は、図2に例示する撮影画像20に対応付けられるデプス画像22の一例を示す図である。デプス画像22は、撮影画像20に含まれる画素のそれぞれに対応付けられる、カメラから被写体までの距離の分布を表している。
 図2に示す撮影画像20は、ステレオカメラや赤外線測距センサ付きのカメラなどといった、深さ情報に関連付けられた撮影画像の撮影が可能なカメラが実空間内の被写体を撮影した画像であっても構わない。そしてこの場合における深さ情報に相当する画像が、図3に示すデプス画像22であっても構わない。
 また例えば、複数の方向から被写体を撮影した撮影画像に基づいて、撮影画像20を撮影した際のカメラの位置、向き、及び、画角に対応付けられる深さ情報が生成されるようにしてもよい。そしてこの深さ情報に基づいて、図3に示すデプス画像22が生成されてもよい。
 そして本実施形態では、撮影画像20及びデプス画像22に対して、第1の画像認識及び第2の画像認識が実行される。本実施形態では、第1の画像認識は、撮影画像20の全体及びデプス画像22の全体に対して実行される。そして第2の画像認識は、撮影画像20の一部及びデプス画像22の一部に対して実行される。以下、本実施形態における第1の画像認識を全体認識と呼び、第2の画像認識を部分認識と呼ぶこととする。
 本実施形態では、まず、撮影画像20及びデプス画像22が全体認識に用いられる学習済モデルに入力される。この学習済モデルは例えば、画像に表れている、テーブル、ソファー、カーテン、椅子、本棚、などといった、部屋の中に配置されているような物体を認識できるモデルである。ここで全体認識において撮影画像20及びデプス画像22が入力される学習済モデルの種類は特に限定されない。当該学習済モデルは、例えばセマンティックセグメンテーションを行うための学習が実行済である二次元畳み込みニューラルネットワーク(二次元CNN)であってもよい。そしてこの入力に応じて当該学習済モデルから、撮影画像20及びデプス画像22に対する画像認識の実行結果が出力される。図4には、当該実行結果の一例である、全体認識結果画像24の一例が示されている。
 以下の説明では、撮影画像20、デプス画像22、及び、全体認識結果画像24のそれぞれにおいて、右方向がX軸正方向で下方向がY軸正方向であることとする。また、撮影画像20、デプス画像22、及び、全体認識結果画像24は同じ形状で同じ大きさの画像であることとする。
 図4に示すように、全体認識結果画像24は、それぞれが認識結果である物体に応じたカテゴリに対応付けられる複数の領域に画素単位で分割されている。全体認識結果画像24には、例えば、テーブルに対応付けられるテーブル領域26、ソファーに対応付けられるソファー領域28、カーテンに対応付けられるカーテン領域30、及び、椅子に対応付けられる椅子領域32が示されている。ここで椅子領域32のように、互いに分離された複数の領域が同じカテゴリの領域として認識されてもよい。そして全体認識結果画像24内の画素の位置は、撮影画像20内の画素の位置、及び、デプス画像22内の画素の位置に対応付けられる。
 そして本実施形態では、特定の物体が表されている全体認識結果画像24内の、予め定められている特定のカテゴリの物体に対応付けられる領域が、基準領域34として特定される。以下、当該特定のカテゴリの物体を部分認識ターゲットと呼ぶこととする。
 ここで部分認識ターゲットが、図5に例示する部分認識管理データにおいて設定されていてもよい。図5に示すように、部分認識管理データには、例えば、部分認識ターゲットデータ、移動変形規則データ、及び、部分認識モデルIDが含まれる。
 部分認識ターゲットデータは、例えば、部分認識ターゲットの名称等を示すデータである。移動変形規則データは、例えば、基準領域34に基づいて後述する部分認識領域36を決定する規則を示すデータである。部分認識モデルIDは、例えば、部分認識領域36を占める部分画像に対する部分認識に用いられる学習済モデルの識別情報である。
 図5には、部分認識ターゲットデータの値がテーブルである部分認識管理データと、部分認識ターゲットデータの値が本棚である部分認識管理データと、が示されている。そのためこの場合は、部分認識ターゲットはテーブル及び本棚であることとなる。そしてこの場合に、図4に示すように、全体認識結果画像24内における、テーブル領域26に対応付けられる領域が基準領域34として特定されるようにしてもよい。
 ここで例えば図4に示すように、テーブル領域26に外接する矩形領域が基準領域34として特定されてもよい。またテーブル領域26に外接する矩形領域に余裕領域を加えた領域が基準領域34として特定されてもよい。例えばテーブル領域26に外接する矩形領域と中心が同じであり、当該矩形領域よりも縦横の長さが所定の長さだけ長い領域が基準領域34として特定されてもよい。また例えば、テーブル領域26に外接する矩形領域と中心が同じであり、当該矩形領域に対して1倍より大きな所定倍の大きさである領域が基準領域34として特定されてもよい。
 そして本実施形態では、基準領域34に基づいて、部分認識の対象となる部分認識領域36が決定される。ここで例えば、図5に示す移動変形規則データが示す規則のような、部分認識ターゲットに応じた所与の規則に従って基準領域34を移動又は変形した領域が部分認識領域36として決定されてもよい。また、部分認識ターゲットに応じた方向に基準領域34を移動させた領域が部分認識領域36として決定されてもよい。また、部分認識ターゲットに応じた大きさに拡大又は縮小した領域が部分認識領域36として決定されてもよい。
 例えば図5の例では、部分認識ターゲットデータの値がテーブルである部分認識管理データには、移動変形規則データの値として「上に40%移動 高さ60%」が設定されている。この場合に例えば図4に示すように、基準領域34をその高さの40%だけ上(Y軸負方向)に移動させた上で、中心の位置を変えずに高さを60%に縮小した領域が部分認識領域36として決定されてもよい。
 図4に示すように、基準領域34が、頂点の座標値が(x1,y1)、(x1,y2)、(x2,y1)、及び、(x2,y2)である矩形領域であるとする。そして基準領域34に基づいて、頂点の座標値が(p1,q1)、(p1,q2)、(p2,q1)、及び、(p2,q2)である矩形領域が部分認識領域36として決定されることとする。この場合、上述の例では、p1=x1,p2=x2,q1=1.2y1-0.2y2,q2=0.6y1+0.4y2との関係にある。
 そして本実施形態では、全体認識結果画像24内における部分認識領域36の位置及び大きさに基づいて、撮影画像20内における部分認識領域38の位置及び大きさ、及び、デプス画像22内における部分認識領域40の位置及び大きさが決定される。
 ここで全体認識結果画像24内における部分認識領域36に相当する撮影画像20内の領域が部分認識領域38として特定されてもよい。例えば、撮影画像20内における、頂点の座標値が(p1,q1)、(p1,q2)、(p2,q1)、及び、(p2,q2)である矩形領域が、部分認識領域38として特定されてもよい。また全体認識結果画像24内における部分認識領域36に相当するデプス画像22内の領域が部分認識領域40として特定されてもよい。例えば、デプス画像22内における、頂点の座標値が(p1,q1)、(p1,q2)、(p2,q1)、及び、(p2,q2)である矩形領域が、部分認識領域40として特定されてもよい。
 そして本実施形態では、部分認識領域38を占める撮影画像20の一部である図6に例示する部分撮影画像42が撮影画像20から抽出される。また部分認識領域38を占めるデプス画像22の一部である図7に例示する部分デプス画像44がデプス画像22から抽出される。
 そして本実施形態では、部分撮影画像42及び部分デプス画像44に対する部分認識が実行される。本実施形態では、部分認識の実行に用いられる学習済モデルが予め複数用意されている。そして本実施形態では例えば、全体認識において認識された部分認識ターゲットに基づいて、これら複数の学習済モデルのうちから部分撮影画像42及び部分デプス画像44に対する部分認識が実行される学習済モデルが選択される。
 ここで例えば図5に示す部分認識管理データに基づいて、部分撮影画像42及び部分デプス画像44に対する部分認識が実行される学習済モデルが選択されてもよい。図5の例では、部分認識ターゲットデータの値がテーブルである部分認識管理データの部分認識モデルIDとして1が設定されている。この場合は、識別情報の値が1であるモデルが部分撮影画像42及び部分デプス画像44に対する部分認識が実行される学習済モデルが選択される。ここで例えば識別情報の値が1であるモデルは、当該モデルに対応する部分認識ターゲットに関連する物体を認識可能なモデルであってもよい。例えば、識別情報の値が1であるモデルが、画像に表れている、ペットボトル、カップ、皿、テーブルなどといった、テーブル及びテーブルの上に配置される物体を認識できるモデルであってもよい。
 ここで部分認識において撮影画像20及びデプス画像22が入力される学習済モデルの種類は特に限定されない。当該学習済モデルは、例えばセマンティックセグメンテーションを行うための学習が実行済である二次元畳み込みニューラルネットワーク(二次元CNN)であってもよい。そしてこの入力に応じて当該学習済モデルから、部分撮影画像42及び部分デプス画像44に対する画像認識の実行結果が出力される。図8には、当該実行結果の一例である、部分認識結果画像46の一例が示されている。
 部分認識結果画像46には、テーブルに対応付けられるテーブル領域26、及び、テーブルに置かれたペットボトルに対応付けられるペットボトル領域48が示されている。この例では、全体認識では認識できなかったペットボトルが部分認識において認識できている。
 以上の例では、テーブルの上に相当する部分画像が部分撮影画像42及び部分デプス画像44として抽出される。そのため、部分認識においてテーブルの上に配置されている物体を的確に認識できることとなる。
 なお以上、全体認識結果画像24にテーブル領域26が示されている場合について説明したが、全体認識結果画像24に本棚に対応付けられる本棚領域が示されていることがある。この場合は例えば、図5に示す部分認識ターゲットデータの値が本棚である部分認識管理データに基づいて、本棚領域に相当する基準領域34を中心の位置を変えずに高さ及び幅を85%に縮小した領域が部分認識領域36として決定されてもよい。そしてこの部分認識領域36に相当する撮影画像20内の部分認識領域38を占める部分撮影画像42、及び、部分認識領域36に相当するデプス画像22内の部分認識領域40を占める部分デプス画像44が抽出されてもよい。そして識別情報の値が2であるモデルを用いた部分撮影画像42及び部分デプス画像44に対する部分認識が実行されてもよい。ここで識別情報の値が2であるモデルは例えば、画像に表れている、個々の書籍や雑誌、書籍や雑誌の題号などを認識できる学習済モデルであってもよい。
 この場合は、本棚の中に相当する部分画像が部分撮影画像42及び部分デプス画像44として抽出される。そのため、部分認識において本棚の中に配置されている物体を的確に認識できることとなる。
 例えばテーブル、ソファー、カーテン、椅子、本棚、ペットボトル、カップ、皿、などといった多くの種類の物体を認識できる学習済モデルを用いて撮影画像20やデプス画像22の画像認識を行うことが考えられる。しかしこのように画像認識によって多くの種類の物体を認識し分けようとすると、物体に対応付けられる特徴量同士の差が小さくなるため誤認識の可能性が高くなる。
 そこで本実施形態では、限られた種類の数の物体を認識する全体認識がまずは実行されるようにした。上述の例では、撮影画像20及びデプス画像22に対して、テーブル、ソファー、カーテン、椅子、本棚などの物体を認識する全体認識が実行されるようにした。そして全体認識の結果に基づき抽出される部分画像に対して、全体認識の結果に応じた好適なモデルを用いて、全体認識では認識されない物体を含む、全体認識の結果に応じた限られた種類の数の物体を認識する部分認識が実行されるようにした。上述の例では、部分撮影画像42及び部分デプス画像44に対して、ペットボトル、カップ、皿、テーブルなどといった、テーブルに関連する限られた種類の数の物体が認識されるようにした。
 以上のようにして本実施形態に係る画像認識装置10によれば、高い精度で多くの種類の物体を認識できることとなる。
 以下、本実施形態に係る画像認識装置10の機能、及び、画像認識装置10で実行される処理についてさらに説明する。
 図9は、本実施形態に係る画像認識装置10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像認識装置10で、図9に示す機能のすべてが実装される必要はなく、また、図9に示す機能以外の機能が実装されていても構わない。
 図9に示すように、画像認識装置10は、機能的には例えば、部分認識管理データ記憶部50、全体認識モデル52、複数の部分認識モデル54(第1部分認識モデル54(1)、第2部分認識モデル54(2)、・・・、第n部分認識モデル54(n))、画像取得部56、全体認識部58、部分画像抽出部60、モデル選択部62、部分認識部64、を含んでいる。以上の要素はプロセッサ12、及び、記憶部14を主として実装される。
 以上の機能は、コンピュータである画像認識装置10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像認識装置10に供給されてもよい。
 部分認識管理データ記憶部50は、本実施形態では、例えば、図5に例示する部分認識管理データを記憶する。
 全体認識モデル52は、本実施形態では例えば、全体認識に用いられる学習済モデルである。全体認識モデル52は、例えば、テーブル、ソファー、カーテン、椅子、本棚、などといった、部屋の中に配置されているような物体が表された画像を入力データとして含み全体認識結果画像24のようなカテゴリによって領域が分割された画像を教師データとして含む学習データによる教師あり学習が実行済の二次元CNNであってもよい。
 部分認識モデル54は、本実施形態では例えば、部分認識に用いられる学習済モデルである。本実施形態に係る部分認識モデル54は、部分認識管理データに対応付けられる。例えば第1部分認識モデル54(1)は、部分認識モデルIDが1である部分認識管理データに対応付けられ、第2部分認識モデル54(2)は、部分認識モデルIDが2である部分認識管理データに対応付けられる。そして本実施形態では部分認識管理データを介して、部分認識モデル54と物体とが関連付けられる。例えば第1部分認識モデル54(1)は、テーブルに関連付けられ、第2部分認識モデル54(2)は、本棚に関連付けられる。
 そして部分認識モデル54は、部分認識管理データを介して当該部分認識モデル54と関連付けられる物体が認識可能な学習済モデルであってもよい。また例えば、部分認識モデル54のそれぞれは、互いに異なる物体が認識可能な学習済モデルであってもよい。
 例えば第1部分認識モデル54(1)は、例えばペットボトル、カップ、皿、テーブルなどといった、テーブル及びテーブルの上に配置される物体を認識可能な学習済モデルである。ここで第1部分認識モデル54(1)は、例えば、テーブルにペットボトル、カップ、皿、テーブルなどの物体が配置されている様子を表す画像を入力データとして含み部分認識結果画像46のようなカテゴリによって領域が分割された画像を教師データとして含む学習データによる教師あり学習が実行済の二次元CNNであってもよい。
 また例えば第2部分認識モデル54(2)は、例えば個々の書籍や雑誌、及びこれらの題号を認識可能な学習済モデルである。ここで第2部分認識モデル54(2)は、例えば、書籍や雑誌が収納された本棚が表された画像を入力データとして含み部分認識結果画像46のようなカテゴリによって領域が分割された画像を教師データとして含む学習データによる教師あり学習が実行済の二次元CNNであってもよい。
 画像取得部56は、本実施形態では例えば、全体認識の対象となる画像を取得する。例えば画像取得部56は、撮影画像20及びデプス画像22を取得する。
 全体認識部58は、本実施形態では例えば、少なくとも1の所与の物体について、画像取得部56が取得する画像内における当該所与の物体の位置を認識する処理を実行する。上記の所与の物体とは、例えば、図5に例示する部分認識管理データにおいて部分認識ターゲットとして設定されている、テーブルや本棚などの物体を指す。ここで全体認識部58は、全体認識モデル52を用いて画像取得部56が取得する画像に対する全体認識の処理を実行してもよい。例えば全体認識部58は、撮影画像20及びデプス画像22を全体認識モデル52に入力した際の出力である全体認識結果画像24を、全体認識の結果として生成する。
 部分画像抽出部60は、本実施形態では例えば、画像取得部56が取得する画像内における上記の所与の物体の位置に対応付けられる、当該画像の一部である部分画像を当該画像から抽出する。
 ここで例えば、部分画像抽出部60は、図5に例示する部分認識管理データの部分認識ターゲットデータの値として示されている物体に対応する領域を、全体認識結果画像24内の基準領域34として特定してもよい。そして例えば、当該部分認識ターゲットデータに関連付けられている移動変形規則データが示す規則に従って基準領域34を移動又は変形した領域が部分認識領域36として決定されてもよい。ここで部分認識ターゲットに応じた方向に基準領域34を移動させた領域が部分認識領域36として決定されてもよい。また部分認識ターゲットに応じた大きさに拡大又は縮小した領域が部分認識領域36として決定されてもよい。
 そして部分画像抽出部60は、決定される部分認識領域36に対応する、撮影画像20内の部分認識領域38、及び、デプス画像22内の部分認識領域40を決定してもよい。
 そして部分画像抽出部60は、撮影画像20内の部分認識領域38が占める部分画像を部分撮影画像42として撮影画像20から抽出してもよい。また部分画像抽出部60は、デプス画像22内の部分認識領域40が占める部分画像を部分デプス画像44としてデプス画像22から抽出してもよい。
 モデル選択部62は、本実施形態では例えば、複数の部分認識モデル54のうちから全体認識により認識された物体に対応付けられるものを選択する。ここで例えば部分認識ターゲットに対応付けられる部分認識モデル54が選択されてもよい。例えば部分認識ターゲットに関連する物体の画像を学習済である、部分認識ターゲットに関連する物体を認識可能な部分認識モデル54が選択されてもよい。例えば部分画像抽出部60が、テーブル領域26に基づき部分撮影画像42及び部分デプス画像44を抽出したとする。この場合にモデル選択部62が、部分認識ターゲットデータの値がテーブルである部分認識管理データの部分認識モデルIDである1に対応付けられる、第1部分認識モデル54(1)を選択してもよい。
 部分認識部64は、本実施形態では例えば、部分画像抽出部60が抽出する部分画像が表す、位置が認識される所与の物体以外の物体を含む少なくとも1の物体が何であるかを認識する処理を実行する。部分認識部64は、例えば選択される部分認識モデル54を用いて部分画像抽出部60が抽出した部分画像が表す物体が何であるかを認識する処理を実行してもよい。例えば部分認識部64は、部分撮影画像42及び部分デプス画像44を第1部分認識モデル54(1)に入力した際の出力である部分認識結果画像46を、部分認識の結果として生成する。
 ここで、本実施形態に係る画像認識装置10で行われる処理の流れの一例を、図10に例示するフロー図を参照しながら説明する。
 まず、画像取得部56が撮影画像20及びデプス画像22を取得する(S101)。
 そして全体認識部58が、全体認識モデル52を用いて撮影画像20及びデプス画像22に対する全体認識の処理を実行する(S102)。ここで例えば図4に示す全体認識結果画像24が生成されてもよい。
 そして部分画像抽出部60が、図5に示すいずれかの部分認識管理データにおける部分認識ターゲットデータの値として設定されている物体に対応付けられる、全体認識結果画像24内の領域を基準領域34として特定する(S103)。ここで例えばテーブル領域26に対応する基準領域34が特定されてもよい。
 そして部分画像抽出部60が、全体認識結果画像24内の部分認識領域36を決定する(S104)。ここで例えば図5に示す部分認識管理データにおいて部分認識ターゲットデータの値に関連付けられている移動変形規則データの値が示す規則に従って、基準領域34を移動又は変形した領域が部分認識領域36として決定されてもよい。
 そして部分画像抽出部60が、S104に示す処理で決定された部分認識領域36に対応付けられる、撮影画像20内の部分認識領域38及びデプス画像22内の部分認識領域40を特定する(S105)。
 そして部分画像抽出部60が、部分画像を抽出する(S106)。ここで例えば、撮影画像20内の部分認識領域38を占める部分画像が部分撮影画像42として抽出され、デプス画像22内の部分認識領域40を占める部分画像が部分デプス画像44として抽出されてもよい。
 そしてモデル選択部62が、部分認識に用いられる部分認識モデル54を選択する(S107)。ここで例えば、部分認識管理データにおいて、S103に示す処理で特定された基準領域34に表される部分認識ターゲットに対応する部分認識モデルIDにより識別される部分認識モデル54(例えば第1部分認識モデル54(1))が選択されてもよい。
 そして部分認識部64が、S107に示す処理で選択された部分認識モデル54を用いて、S106に示す処理で抽出された部分画像に対する部分認識の処理を実行して(S108)、本処理例に示す処理を終了する。S108に示す処理では例えば図8に示す部分認識結果画像46が生成されてもよい。
 なお以上の例では、撮影画像20及びデプス画像22に対して全体認識が実行されたが、撮影画像20のみに対して全体認識が実行されてもよい。また以上の例では、部分撮影画像42及び部分デプス画像44に対して部分認識が実行されたが、部分撮影画像42のみに対して部分認識が実行されてもよい。
 また例えば、全体認識の対象となる画像から、それぞれ異なる部分認識ターゲットに対応付けられる複数の部分画像が抽出されてもよい。例えばテーブルに対応付けられる部分画像と本棚に対応付けられる部分画像とが抽出されてもよい。そしてこの場合に、それぞれの部分画像に対して、異なる部分認識モデル54を用いた部分認識が実行されてもよい。例えば、テーブルに対応付けられる部分画像に対して第1部分認識モデル54(1)を用いた部分認識が実行され、本棚に対応付けられる部分画像に対して第2部分認識モデル54(2)を用いた部分認識が実行されてもよい。
 また例えば、部分認識モデル54が、全体認識モデル52により認識される物体のサブカテゴリの物体を認識可能な学習済モデルであってもよい。
 例えば全体認識部58が、全体認識の対象となる画像内における、四本足の動物が表されている位置を認識したとする。そして部分画像抽出部60が、動物に対応付けられる部分認識領域を占める部分画像を全体認識の対象となる画像から抽出したとする。この場合に、部分認識部64が、当該部分画像を、例えば、犬、猫、虎などといった四本足の動物のサブカテゴリの物体の画像を学習済である部分認識モデル54に入力してもよい。そして部分認識部64が当該部分画像を当該部分認識モデル54に入力した際の出力に基づいて、当該部分画像に表されている四本足の動物の種類を推定してもよい。
 同様に例えば、部分画像抽出部60が、木に対応付けられる部分認識領域を占める部分画像を全体認識の対象となる画像から抽出したとする。この場合に例えば、部分認識部64が、当該部分画像を、例えば、桜、梅、松などといった木の種類を認識可能な部分認識モデル54に入力した際の出力に基づいて、当該部分画像に表されている木の種類を推定してもよい。
 また例えば全体認識部58が、ビジュアルアテンションの技術を用いて、全体認識の対象となる画像の中から注視すべき領域を特定する処理を実行してもよい。そして部分画像抽出部60が、注視すべき領域を占める部分画像を全体認識の対象となる画像から抽出してもよい。また部分画像抽出部60が、注視すべき領域を基準領域34とした場合における部分認識領域36を占める部分画像を全体認識の対象となる画像から抽出してもよい。
 なお、本発明は上述の実施形態に限定されるものではない。
 また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims (7)

  1.  少なくとも1の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行する第1認識部と、
     認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出する部分画像抽出部と、
     前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも1の物体が何であるかを認識する処理を実行する第2認識部と、
     を含むことを特徴とする画像認識装置。
  2.  複数の学習済モデルのうちから、位置が認識される前記所与の物体に対応する学習済モデルを選択するモデル選択部、をさらに含み、
     前記第2認識部は、選択される前記学習済モデルを用いて前記部分画像が表す物体が何であるかを認識する処理を実行する、
     ことを特徴とする請求項1に記載の画像認識装置。
  3.  前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた規則に基づいて移動又は変形した領域を占める前記部分画像を抽出する、
     ことを特徴とする請求項1又は2に記載の画像認識装置。
  4.  前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた方向に移動させた領域を占める前記部分画像を抽出する、
     ことを特徴とする請求項3に記載の画像認識装置。
  5.  前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた大きさに拡大又は縮小した領域を占める前記部分画像を抽出する、
     ことを特徴とする請求項3又は4に記載の画像認識装置。
  6.  少なくとも1の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行するステップと、
     認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出するステップと、
     前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも1の物体が何であるかを認識する処理を実行するステップと、
     を含むことを特徴とする画像認識方法。
  7.  少なくとも1の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行する手順、
     認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出する手順、
     前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも1の物体が何であるかを認識する処理を実行する手順、
     をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2017/025974 2017-07-18 2017-07-18 画像認識装置、画像認識方法及びプログラム WO2019016870A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019530271A JP6874136B2 (ja) 2017-07-18 2017-07-18 画像認識装置、画像認識方法及びプログラム
US16/621,729 US11164318B2 (en) 2017-07-18 2017-07-18 Image recognition apparatus, method, and program for enabling recognition of objects with high precision
PCT/JP2017/025974 WO2019016870A1 (ja) 2017-07-18 2017-07-18 画像認識装置、画像認識方法及びプログラム
CN201780093077.XA CN110914830B (zh) 2017-07-18 2017-07-18 图像识别装置、图像识别方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/025974 WO2019016870A1 (ja) 2017-07-18 2017-07-18 画像認識装置、画像認識方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2019016870A1 true WO2019016870A1 (ja) 2019-01-24

Family

ID=65015575

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/025974 WO2019016870A1 (ja) 2017-07-18 2017-07-18 画像認識装置、画像認識方法及びプログラム

Country Status (4)

Country Link
US (1) US11164318B2 (ja)
JP (1) JP6874136B2 (ja)
CN (1) CN110914830B (ja)
WO (1) WO2019016870A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020158611A1 (ja) * 2019-02-01 2020-08-06 株式会社小松製作所 画像処理システム、画像処理方法、学習済みモデルの生成方法、および学習用データセット
JP2020149673A (ja) * 2019-03-15 2020-09-17 株式会社日立製作所 輸送におけるaiベースの検査
WO2021029164A1 (ja) * 2019-08-09 2021-02-18 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022041274A1 (zh) * 2020-08-31 2022-03-03 苏州铭冠软件科技有限公司 物体位于立体仓库环境中的视觉识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118218A1 (ja) * 2012-02-09 2013-08-15 パナソニック株式会社 画像認識装置、画像認識方法、プログラムおよび集積回路

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4304337B2 (ja) * 2001-09-17 2009-07-29 独立行政法人産業技術総合研究所 インタフェース装置
JP2009123234A (ja) 2002-07-30 2009-06-04 Fujifilm Corp オブジェクト識別方法および装置ならびにプログラム
JP2013161126A (ja) * 2012-02-01 2013-08-19 Honda Elesys Co Ltd 画像認識装置、画像認識方法および画像認識プログラム
JP6395481B2 (ja) * 2014-07-11 2018-09-26 キヤノン株式会社 画像認識装置、方法及びプログラム
JP6551283B2 (ja) * 2016-04-01 2019-07-31 株式会社デンソー 車両制御装置、車両制御方法
CN108229509B (zh) * 2016-12-16 2021-02-26 北京市商汤科技开发有限公司 用于识别物体类别的方法及装置、电子设备
US10949962B2 (en) * 2019-01-22 2021-03-16 Xavis Co., Ltd X-ray detecting type of a component counter and a method for counting components using the same
CN110579473B (zh) * 2019-09-03 2022-03-25 钢研纳克检测技术股份有限公司 金属材料中枝晶组织的自动全视场定量统计分布表征方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118218A1 (ja) * 2012-02-09 2013-08-15 パナソニック株式会社 画像認識装置、画像認識方法、プログラムおよび集積回路

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020158611A1 (ja) * 2019-02-01 2020-08-06 株式会社小松製作所 画像処理システム、画像処理方法、学習済みモデルの生成方法、および学習用データセット
JP2020126363A (ja) * 2019-02-01 2020-08-20 株式会社小松製作所 画像処理システム、画像処理方法、学習済みモデルの生成方法、および学習用データセット
JP7365122B2 (ja) 2019-02-01 2023-10-19 株式会社小松製作所 画像処理システムおよび画像処理方法
JP2020149673A (ja) * 2019-03-15 2020-09-17 株式会社日立製作所 輸送におけるaiベースの検査
JP7080266B2 (ja) 2019-03-15 2022-06-03 株式会社日立製作所 輸送におけるaiベースの検査
WO2021029164A1 (ja) * 2019-08-09 2021-02-18 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム

Also Published As

Publication number Publication date
JPWO2019016870A1 (ja) 2019-12-26
US20200111215A1 (en) 2020-04-09
US11164318B2 (en) 2021-11-02
CN110914830A (zh) 2020-03-24
CN110914830B (zh) 2023-10-31
JP6874136B2 (ja) 2021-05-19

Similar Documents

Publication Publication Date Title
CN110310175B (zh) 用于移动增强现实的系统和方法
US20210326597A1 (en) Video processing method and apparatus, and electronic device and storage medium
US10832039B2 (en) Facial expression detection method, device and system, facial expression driving method, device and system, and storage medium
US20200184251A1 (en) System and method for creating navigable views
CN111028330B (zh) 三维表情基的生成方法、装置、设备及存储介质
WO2022021980A1 (zh) 虚拟对象的控制方法、装置、电子设备及存储介质
WO2021012837A1 (zh) 推荐信息植入位置的确定方法、装置、设备及存储介质
WO2019016870A1 (ja) 画像認識装置、画像認識方法及びプログラム
US9934423B2 (en) Computerized prominent character recognition in videos
Wan et al. 3D SMoSIFT: three-dimensional sparse motion scale invariant feature transform for activity recognition from RGB-D videos
Luo et al. Saliency density maximization for efficient visual objects discovery
JP2022519149A (ja) 展示エリア状態認識方法、装置、電子デバイス、及び記録媒体
US11170246B2 (en) Recognition processing device, recognition processing method, and program
CN111638784B (zh) 人脸表情互动方法、互动装置以及计算机存储介质
CN111862341A (zh) 虚拟对象的驱动方法、装置、显示设备及计算机存储介质
US11636779B2 (en) Method, apparatus and terminal device for constructing parts together
US11189053B2 (en) Information processing apparatus, method of controlling information processing apparatus, and non-transitory computer-readable storage medium
JP6623565B2 (ja) 棚割情報生成装置、棚割情報生成システム、棚割情報生成方法、撮像装置、およびプログラム
CN104660866B (zh) 运动检测系统和方法
Gupta et al. Image feature detection using an improved implementation of maximally stable extremal regions for augmented reality applications
US10372297B2 (en) Image control method and device
EP4052233A1 (en) Method, device and computer program for generating a virtual scene of objects
JP2017058657A (ja) 情報処理装置、制御方法、コンピュータプログラム及び記憶媒体
US20120051647A1 (en) Icon design and method of icon recognition for human computer interface
KR102218095B1 (ko) 인물 및 평면 인식을 이용한 증강 현실 구현 방법 및 위 방법을 위한 명령어들이 저장된 컴퓨터 판독 가능한 저장 매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17918021

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019530271

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17918021

Country of ref document: EP

Kind code of ref document: A1