WO2023120070A1 - 物体認識システム、物体認識プログラム及び、物体認識方法 - Google Patents

物体認識システム、物体認識プログラム及び、物体認識方法 Download PDF

Info

Publication number
WO2023120070A1
WO2023120070A1 PCT/JP2022/044134 JP2022044134W WO2023120070A1 WO 2023120070 A1 WO2023120070 A1 WO 2023120070A1 JP 2022044134 W JP2022044134 W JP 2022044134W WO 2023120070 A1 WO2023120070 A1 WO 2023120070A1
Authority
WO
WIPO (PCT)
Prior art keywords
registered
image
appearance
objects
database
Prior art date
Application number
PCT/JP2022/044134
Other languages
English (en)
French (fr)
Inventor
龍介 宮本
幹生 竹松
志帆 花城
正一 紀之定
雄二郎 北出
晃司 学多
悦志 山田
葵 刈谷
Original Assignee
学校法人明治大学
真生印刷株式会社
デジタル総合印刷株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 学校法人明治大学, 真生印刷株式会社, デジタル総合印刷株式会社 filed Critical 学校法人明治大学
Priority to CN202280043329.9A priority Critical patent/CN117529746A/zh
Priority to EP22910787.5A priority patent/EP4343692A4/en
Publication of WO2023120070A1 publication Critical patent/WO2023120070A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • G06Q10/0875Itemisation or classification of parts, supplies or services, e.g. bill of materials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Definitions

  • the present invention relates to an object recognition system, an object recognition program, and an object recognition method for recognizing which of registered objects registered in advance the object is from an image of the object.
  • Patent Literature 1 discloses a technique for recognizing product candidates by taking in information indicating the appearance of an article, extracting a plurality of feature amounts thereof, and comparing them with the feature amounts of each product.
  • Patent Document 1 when it is sufficient to select candidates from among the target products to be handled, product candidates can be identified relatively easily from the appearance of the product, and when there are multiple candidates, The product can be appropriately specified by allowing the user to select also.
  • the product when specifying products and parts that often have similar shapes, there is a problem that there are many similar objects that cannot be specified simply by registering the appearance viewed from one direction. .
  • an object of the present invention is to provide a novel object recognition system that can more appropriately identify objects even when similar objects are assumed.
  • the present invention provides an object recognition system for estimating which of registered objects registered in a database a target object included in an object image photographed by a user is, wherein the object Acquisition means for acquiring an image; and for a plurality of appearance images representing appearances of one object viewed from different characteristic angles, appearance images or feature amounts thereof are registered in the database as appearance information for each of the registered objects. and an estimation means for estimating which of the registered objects the target object is based on the object image and the appearance information.
  • the registration means generates a plurality of appearance images based on information indicating a three-dimensional shape of the registered object, and stores the appearance information based on the generated appearance images for each of the registered objects.
  • means for registering in the database means for registering in the database.
  • the registration means has means for acquiring an image of the registered object and registering the appearance information in the database by using the image as the appearance image for each registered object.
  • the registration means generates or acquires the appearance image of the registered object with attached matter on its appearance, and registers the appearance information based on the generated appearance image in the database.
  • the subject When the user actually shoots an object, the subject may be an object with stains, scratches, rust, or other deposits. In this way, by registering appearance images with adhering substances in the database, it is possible to expect an effect of assisting in appropriately recognizing objects even when there are adhering substances.
  • the registration means registers the appearance information in association with the information indicating the characteristic angle.
  • the registration means is configured to be able to register a characteristic image including information for distinguishing the registered object from other objects in association with the registered object
  • the estimation means is configured to register the object A registered object candidate that may be an object is specified, and photographing instruction information for instructing a user to photograph the target object is generated based on the characteristic image of the registered object.
  • the estimating means instructs the user to remove attachments on the target object when the candidate for the registered object that may be the target object cannot be identified. Generate information.
  • the estimating means receives the object image as an input and uses an estimation model trained using teacher data whose output is the same registered object as a target object included in the object image to obtain the It is estimated which of the registered objects the target object is.
  • the present invention provides an object recognition program for estimating which of registered objects registered in a database is a target object included in an object image photographed by a user, and acquiring means for acquiring the object image. and registering means for registering, with respect to a plurality of appearance images representing appearances of one object viewed from different characteristic angles, appearance images or feature amounts thereof in the database as appearance information for each of the registered objects;
  • a computer is caused to function as estimation means for estimating which of the registered objects the target object is based on the object image and the appearance information.
  • the present invention provides an object recognition method for estimating which of registered objects registered in a database is a target object included in an object image photographed by a user, comprising: an obtaining step of obtaining the object image; a registration step of registering, with respect to a plurality of appearance images representing appearances of one object viewed from different characteristic angles, appearance images or feature amounts thereof in the database as appearance information for each of the registered objects; and an estimation step of estimating which of the registered objects the target object is based on the appearance information.
  • FIG. 1 is a functional block diagram of an object recognition system according to an embodiment of the present invention
  • FIG. It is a figure explaining an example of the object concerning the embodiment of the present invention. It is a figure which shows the imaging
  • 4 is a processing flowchart relating to object recognition of the object recognition system according to the embodiment of the present invention; It is a display example of a photographing instruction of the object recognition system according to the embodiment of the present invention.
  • the configuration, operation, etc. of the object recognition system will be described in this embodiment, a method, apparatus, computer program, etc. having the same configuration can also achieve the same effect.
  • the program may be stored in a recording medium. Using this recording medium, a program can be installed in a computer, for example.
  • the recording medium storing the program may be a non-transitory recording medium such as a CD-ROM.
  • object refers to any object that exists as a real thing, and the target is not limited.
  • an industrial product, a part that constitutes the product, a sub-assembly in which a plurality of parts are combined, or the like is assumed as an object.
  • registered objects multiple objects are registered in advance along with their appearances, and these registered objects are called “registered objects". Then, it recognizes which of the registered objects the target object photographed by the user is based on its appearance.
  • an image showing the appearance of a registered object when viewed from a specific angle is called an appearance image.
  • This specific angle is hereinafter referred to as a "characteristic angle”
  • the appearance information indicating the feature amount obtained from the appearance image or the appearance image is stored in the database in association with the feature angle for each appearance image. Appearance information of a plurality of appearance images associated with different characteristic angles is stored for each registered object, making it possible to recognize the object based on its appearance.
  • the appearance image itself is assumed as the appearance information, and the registration of the appearance information is expressed as "registering the appearance image" to simplify the description.
  • the feature amount a vector value obtained by calculation based on the pixel values of the appearance image can be used.
  • the feature quantity it is preferable to use information obtained by combining local features and global features of an image.
  • the feature amount to be used may be determined by machine learning. For example, by having a neural network model learn the task of identifying the type of an object from a photographed image of the object, the model can extract the feature quantity and determine the feature quantity to be used so as to increase the recognition accuracy. is assumed.
  • a plurality of exterior images for the same feature angle for the same registered object.
  • appearance images associated with the same characteristic angle in association with the object information of the same registered object, a plurality of appearance images with attachments such as rust, dirt, and scratches, An appearance image without such deposits is registered.
  • the appearance information does not necessarily have to be registered in association with the characteristic angle, and the object information and the appearance image may be associated and registered.
  • the object recognition system of this embodiment is configured such that an object recognition device 1 and a terminal device 2 can communicate with each other via a network NW, and the object recognition device 1 is connected to a database DB by wire or wirelessly.
  • the object recognition device 1 receives an object image photographed by a user from the terminal device 2 and performs recognition processing to determine which of the registered objects registered in the database DB the target object included in the object image is. recognize.
  • the object recognition device 1 includes arithmetic units such as CPU (Central Processing Unit) and GPU (Graphics Processing Unit), main storage such as RAM (Random Access Memory), HDD (Hard Disk Drive) and SSD (Solid State Drive). , an auxiliary storage device such as a flash memory, various input/output devices including means for connecting to the network NW, etc., and a general computer device such as a server device can be used. Also, the object recognition device 1 may be configured using a plurality of computers.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • main storage such as RAM (Random Access Memory), HDD (Hard Disk Drive) and SSD (Solid State Drive).
  • an auxiliary storage device such as a flash memory
  • various input/output devices including means for connecting to the network NW, etc.
  • a general computer device such as a server device can be used.
  • the object recognition device 1 may be configured using a plurality of computers.
  • the terminal device 2 it is possible to use any computer device such as a smart phone or a tablet terminal equipped with various input/output devices including a camera, an arithmetic device, a storage device, and means for connecting to the network NW.
  • a dedicated application for transmitting an object image to the object recognition device 1, a browser application for accessing a dedicated web page, and the like are stored in a storage device, and an arithmetic device executes various processes to perform arbitrary processing. functions as the terminal device 2 of the present invention.
  • a computer equipped with a camera is used as the terminal device 2 and an object image is transmitted to the object recognition device 1 via the network NW.
  • NW may be configured to transmit.
  • the configuration may be such that the object recognition device 1 acquires an object image that is stored in advance in an arbitrary database or the like.
  • the object recognition apparatus 1 includes a registration unit 11 for registering an appearance image for each registered object, an acquisition unit 12 for acquiring an object image transmitted from the terminal device 2, and a registered object for which the target object included in the object image is registered.
  • estimating means 13 for estimating whether there is Note that these means may be distributed among a plurality of computers.
  • the registration means 11 registers object information for each registered object, and registers a plurality of appearance images in association with the object information.
  • Each appearance image indicates the appearance of the object when viewed from a specific characteristic angle, and is registered in association with the characteristic angle. An example of registration of appearance images will be described below with reference to FIGS.
  • FIG. 2 An example of an object is shown in FIG. 2 to explain an example of registering an appearance image.
  • a differential pressure transmitter as shown in FIG. 2 is assumed here as an example.
  • This differential pressure transmitter provides a throttle between the upstream and downstream pipes, measures the difference between the upstream and downstream pressures, and measures the flow rate of the fluid passing through the pipes. It is.
  • a differential pressure transmitter can be divided into a plurality of parts as shown in FIG. 2. In this example, it is assumed that a conduit, which is one of the parts constituting the differential pressure transmitter, is registered as a registered object.
  • the conduit has a low-pressure side and a high-pressure side, but their shapes are very similar and it is difficult to distinguish between them.
  • appearance images are registered in association with a plurality of characteristic angles so that each object can be distinguished.
  • it is preferable to register a plurality of appearance images at a plurality of characteristic angles it is not essential to associate them with the characteristic angles, and it is also possible to simply register a plurality of appearance images at different characteristic angles.
  • Appearance images can be obtained, for example, by photographing the object from above, at a horizontal position, and below, while shifting the observation angle (characteristic angle) around the vertical axis, as shown in FIG.
  • the actual object or camera may be moved for each characteristic angle to photograph the actual object, or CG (Computer Graphics) technology may be used to obtain information indicating the three-dimensional shape. may be obtained, and based on this, an appearance image when viewed from each characteristic angle may be generated.
  • CG Computer Graphics
  • Fig. 4 shows an example of the appearance image for each characteristic angle obtained in this way.
  • the characteristic angle an image showing the appearance of each is registered in association with the angles in the horizontal direction and the vertical direction from the reference position.
  • the angle in the vertical direction is set in three stages: upward, horizontal, and downward. You can change it.
  • the feature angles are not necessarily evenly spaced in this way.
  • the registration means 11 of the present embodiment registers a part of the appearance image separately from the appearance image as a feature image including information for distinguishing the registered object from other objects in association with the object information. do.
  • a feature image including information for distinguishing the registered object from other objects in association with the object information.
  • the registration unit 11 also registers the feature image in association with the observation angle, in the same manner as the feature angle of the appearance image.
  • the observation angle of the feature image is the angle at which it is easy to distinguish the registered object from other similar objects.
  • the acquisition means 12 acquires the object image captured by the terminal device 2 .
  • the method of acquiring the object image is not limited, and for example, an image taken in advance may be uploaded as the object image. It is assumed that an image is captured and transmitted to the object recognition device 1 each time or at predetermined intervals, and the acquisition means 12 acquires the image. Further, in the present embodiment, the acquisition means 12 acquires information about the shooting angle together with the object image.
  • the estimating means 13 estimates which registered object the target object included in the object image is based on the object image acquired by the acquiring means 12 and the appearance image of the registered object registered in the database DB.
  • an object image is used as an input, and an estimation model trained using teacher data whose output is the same registered object as the target object included in the object image is used to determine which registered object the target object is. to estimate That is, the estimating means 13 inputs the object image to an estimation model that has learned the task of estimating the registered object associated with the appearance image as input, thereby estimating which registered object the target object is. .
  • the database DB stores various information such as object information for each registered object and appearance images linked to the object information.
  • FIG. 5 is a diagram showing an example of object information for each registered object registered in the database DB.
  • the object information an object ID that uniquely identifies a registered object, a model number, an object name, a manufacturer name, a characteristic image ID, and a photographing instruction are stored.
  • the feature image ID is information that designates a feature image showing the appearance of a region that is particularly important for distinguishing a registered object from other similar registered objects.
  • a feature image is registered for each registered object in this manner.
  • a feature image is an image that shows the appearance from the shooting direction that is useful for distinguishing an object from other objects, such as the characteristic shape, engraving, and printing of the object.
  • an image obtained by enlarging and photographing a characteristic portion of an object may be used as the characteristic image.
  • Any one of the appearance images associated with the feature images can be used as the feature image, but apart from the appearance image, for example, an image obtained by enlarging a specific part instead of the entire object may be used. That is, the feature image may or may not be associated with information indicating the observation angle of the object.
  • the imaging instruction is text for prompting the user to take an image of the part indicated by the characteristic image, and is registered as a character string. Note that the shooting instruction may be in another form, such as an illustration (image) of an arrow indicating the shooting direction.
  • the appearance image and feature image for each feature angle are registered in the database DB for each registered object. Then, the present invention estimates which of the registered objects the target object included in the object image is based on the registered information and the object image taken by the user. The procedure of object recognition processing will be described below using a flowchart.
  • FIG. 6 is a flowchart of recognition processing in this embodiment.
  • the imaging means 21 in the terminal device 2 images the target object and generates an object image.
  • the acquisition means 12 acquires the object image transmitted from the terminal device 2 in step S1.
  • information about the shooting angle obtained by an acceleration sensor, a gyro sensor, or the like provided in the terminal device 2 is also acquired.
  • an instruction to photograph one image may be received and photographed. It is preferably sent to device 1 .
  • the acquisition unit 12 continuously acquires a plurality of object images, and based on this, an estimation process is performed as described later, so an effect of improving the recognition accuracy can be expected.
  • the shooting angle does not need to be obtained as an absolute value each time an object image is obtained.
  • step S2 the estimation means 13 identifies candidates for the target object based on the object image and the information registered in the database DB. Specifically, for example, by using a neural network model that has learned the task of identifying an object based on the appearance image and its characteristic angle registered in the database DB, by inputting information about the object image and the shooting angle. Methods of identifying candidate target objects are envisioned.
  • step S3 it is determined whether or not the estimation means 13 has succeeded in specifying the candidate. For example, in step S2, the probability that the target object is each registered object is calculated for each registered object, and the success or failure of specifying the candidate can be determined based on whether or not there is a registered object for which a probability equal to or greater than a predetermined value is calculated. Conceivable. In this case, if there is no registered object that satisfies a numerical value equal to or greater than the predetermined value, it is determined that the identification of the candidate has failed, and the process proceeds to step S4.
  • step S ⁇ b>4 the estimation unit 13 generates photographing instruction information for instructing the user to remove the adhering matter on the target object, and transmits the photographing instruction information to the terminal device 2 . Then, the user can be instructed to remove the adhering matter by outputting based on the photographing instruction information in the terminal device 2 .
  • the object image will be blurred due to blurring. For example, other shooting instruction information may be generated.
  • step S3 If the candidate is successfully specified in step S3, the process proceeds to step S5 and the estimation means 13 checks whether or not there are more candidates. If there are a plurality of candidates, the process proceeds to step S6, where the estimating means 13 provides photographing instruction information for instructing the user to photograph the target object based on the feature image of any registered object of the identified candidates. to generate The estimation means 13 transmits the generated photographing instruction information to the terminal device 2, and the output means 23 outputs based on the photographing instruction information.
  • FIG. 7 is a display example of an instruction screen displayed based on the shooting instruction information.
  • photographing instruction information is generated based on the characteristic image and the photographing instruction in any candidate object information specified by the estimating means 13 .
  • the feature image is displayed, and the words "Please take a picture of the inscription as shown in the image" are also displayed as a photographing instruction.
  • a feature image may be superimposed on the preview of the captured image, and an instruction such as "Please match the object with the guide" may be used. It may be determined arbitrarily which registered object's characteristic image and photographing instruction are to be used among the candidates. For example, a method of using the object information of the candidate with the higher probability calculated in step S3 may be used.
  • shooting instruction information that specifically instructs the shooting angle and the like may also be generated.
  • the observation angle is registered in the database DB in association with the feature image, and the photographing instruction information is generated based thereon.
  • the acquisition means 12 acquires the object image and its shooting angle. Then, the estimating means 13 compares the photographing angle with the observation angle associated with the characteristic image, and specifically determines the moving amount and the moving direction, that is, in which direction and how much should be moved from the current photographing angle. Generating shooting instruction information to instruct.
  • the photographing instruction output by the output means 23 for example, it is possible to display a message such as "Move to the right by 30 degrees and photograph" or an arrow indicating the direction in which the camera is moved.
  • the shooting instruction information is generated based on the specified candidate feature image, but without using the feature image or its observation angle, for example, "Please shoot from another direction”, “Please shoot from another direction”, “ Rotate the object,” or the like, may be generated to simply instruct to change the shooting angle.
  • step S3 object images are continuously acquired, so recognition is performed again by the user moving the camera according to instructions. Since the candidates have already been narrowed down in step S3, the estimating means 13 identifies a more appropriate registered object from among the candidates based on the object image and the feature image acquired according to the instruction in step S6, and step The registered object identified in S7 is output as a candidate to the terminal device 2, and approval of the recognition result is received from the user.
  • steps S2 to S5 may be performed for all registered objects without narrowing down the options.
  • step S8 when the user approves the displayed candidate (Yes in step S8), the process proceeds to step S9 to specify the object, and the process ends.
  • step S9 the object
  • the user selects not to approve (No in step S8), returns to step S1, and performs recognition processing again.
  • the user can take an image of the target object using the terminal device 2, so that even if there is a similar object, the object can be recognized favorably. .
  • the terminal device 2 As a result, for example, it is possible to display a sales page of the specified registered object or make an inquiry based on the registered object. order, repair, inquiry to the manufacturer, etc. can be easily performed.
  • a purchase button will be displayed for adding the specified registered object to the shopping cart. This allows the user to easily purchase the correct product even if the model number or the like of the object at hand is unknown. Also, for example, it is assumed that the present invention is applied to a website provided by a product manufacturer, and after specifying an object, a manual display button for displaying a link to a group of manuals for the specified registered object is displayed.
  • Manuals can include object repair procedures, instruction manuals, installation instructions, specifications, and the like.
  • the object information is associated with the product, and the linked A purchase button or a manual button for the product corresponding to the product selected may be displayed.
  • Object recognition device 2 Terminal device 11: Registration means 12: Acquisition means 13: Estimation means 21: Imaging means 22: Input means 23: Output means DB: Database NW: Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Accounting & Taxation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

似た物体が想定される場合であってもより適切に物体を特定できる、新規な物体認識システムを提供することを課題とする。 ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定する物体認識システムであって、前記物体画像を取得する取得手段と、1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像を、前記登録物体ごとに前記データベースに登録する登録手段と、前記物体画像及び前記外観画像に基づいて、前記対象物体がいずれの前記登録物体であるかを推定する推定手段と、を備える。

Description

物体認識システム、物体認識プログラム及び、物体認識方法
 本発明は、物体を撮影した画像から、その物体が事前に登録された登録物体のうち何れであるかを認識する、物体認識システム、物体認識プログラム及び、物体認識方法に関する。
 例えば工業製品やその部品について、破損や紛失等により再度注文したい場合がある。しかしながら、特に専門的な製品や部品であれば、現物は持っていてもその製品名や型番等はわからない場合も多く、また類似の製品や部品が多数存在することから、必要な製品を需要者が特定できないという問題が生じていた。特に最近ではインターネットを通じた商品の販売も多く行われるが、需要者自身が対象の商品を特定できない場合には、結局、現物をもって店舗に出向き個別に相談したり、画像を添付して複数回のやりとりを行ったりする必要が生じており、十分な利便性が確保できていなかった。
 このような課題に関し、物品の外観画像から、予め辞書に登録された商品を特定する技術が知られている。例えば特許文献1には、物品の外観を示す情報を取り込み、その特徴量を複数抽出して、各商品の特徴量と比較することで、商品候補を認識する技術が開示されている。
特開2018-142358号公報
 例えば特許文献1のように、対象の取扱商品の中から候補を選択すればよい場合には、物品の外観から比較的容易に商品候補を特定することができ、また複数の候補がある場合にもユーザに選択させることで適切に商品を特定できる。しかしながら、特に類似の形状を有することが多い製品や部品を特定する場合には、1方向から見た外観を登録しておくだけでは類似の物体が多く、特定できない場合があるという課題があった。
 そこで本発明は、似た物体が想定される場合であってもより適切に物体を特定できる、新規な物体認識システムを提供することを課題とする。
 上記課題を解決するために、本発明は、ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定する物体認識システムであって、前記物体画像を取得する取得手段と、1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録する登録手段と、前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定する推定手段と、を備える。
 このような構成とすることで、物体ごとの多角的な外観画像に基づいてより正確に物体を認識することができる。
 本発明の好ましい形態では、前記登録手段は、前記登録物体の3次元形状を示す情報に基づいて、複数の前記外観画像を生成して、生成した外観画像に基づく前記外観情報を前記登録物体ごとに前記データベースに登録する手段を有する。
 このような構成とすることで、3次元形状の情報に基づいて外観画像を登録することができるため、各登録物体についてそれぞれ多数の外観画像を撮影する手間を要することなく、登録物体のデータベースを容易に作成することが可能となる。
 本発明の好ましい形態では、前記登録手段は、前記登録物体を撮影した画像を取得して、前記登録物体ごとに当該画像を前記外観画像として前記外観情報を前記データベースに登録する手段を有する。
 このような構成とすることで、実際に物体を撮影することで得られる画像を外観画像として登録し、ユーザにより取得される物体画像と似た外観画像により照合を行うことが可能となる。
 本発明の好ましい形態では、前記登録手段は、外観に付着物を伴う前記登録物体の前記外観画像を生成又は取得して、生成した外観画像に基づく前記外観情報を前記データベースに登録する。
 実際にユーザが物体を撮影する際には、物体に汚れや傷、錆等の付着物が伴う物体が被写体となる場合がある。このように、外観に付着物を伴う外観画像をデータベースに登録することにより、付着物がある場合にも適切に物体の認識を行うことを支援する効果が期待できる。
 本発明の好ましい形態では、前記登録手段は、前記外観情報を、前記特徴角度を示す情報と対応付けて登録する。
 このような構成とすることで、例えばユーザから複数の物体画像とともにその撮影角度に関する情報を取得すれば、角度に応じた外観の変化に基づいて物体を特定することが可能となり、より精度を向上させることができる。
 本発明の好ましい形態では、前記登録手段は、前記登録物体を他の物体と区別するための情報を含む特徴画像を、登録物体に対応付けて登録可能に構成され、前記推定手段は、前記対象物体である可能性のある前記登録物体の候補を特定して、当該登録物体の前記特徴画像に基づき、前記対象物体を撮影するようユーザに指示するための撮影指示情報を生成する。
 このような構成とすることで、例えば他の登録物体にはない特徴的な形状や、独自の刻印等を有する部分を含む画像を特徴画像として登録することで、その部分が写るようにユーザに撮影指示を行うことが可能となる。これにより、似た物体が複数存在する場合であっても、より正確に対象物体を特定することができる。
 本発明の好ましい形態では、前記推定手段は、前記対象物体である可能性のある前記登録物体の候補を特定できない場合に、前記対象物体の付着物を除去するようユーザに指示するための撮影指示情報を生成する。
 このような構成とすることで、付着物により外観が登録された外観画像と離れている場合であっても、適切にユーザに指示を出すことで、正確に物体を認識できる物体画像を取得することが可能となる。
 本発明の好ましい形態では、前記推定手段は、前記物体画像を入力とし、前記物体画像に含まれる対象物体と同一の登録物体を出力とする教師データにより学習を行った推定モデルを用いて、前記対象物体がいずれの前記登録物体であるかを推定する。
 このような構成とすることで、データセットを適切に選択することで、推定精度を向上させることが可能となる。
 本発明は、ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定するための物体認識プログラムであって、前記物体画像を取得する取得手段と、1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録する登録手段と、前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定する推定手段と、としてコンピュータを機能させる。
 本発明は、ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定する物体認識方法であって、前記物体画像を取得する取得ステップと、1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録する登録ステップと、前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定する推定ステップと、をコンピュータに実行させる。
 本発明によれば、似た物体が想定される場合であってもより適切に物体を特定できる、新規な物体認識システムを提供することができる。
本発明の実施形態に係る物体認識システムの機能ブロック図である。 本発明の実施形態に係る物体の一例を説明する図である。 本発明の実施形態に係る物体認識システムの外観画像の撮影方向を示す図である。 本発明の実施形態に係る物体認識システムの外観画像の一例を示す図である。 本発明の実施形態に係る物体認識システムにおいてデータベースに格納される物体情報の一例を示す図である。 本発明の実施形態に係る物体認識システムの物体認識に係る処理フローチャートである。 本発明の実施形態に係る物体認識システムの撮影指示の表示例である。
 以下、図面を用いて、本発明の物体認識システムについて説明する。なお、以下に示す実施形態は本発明の一例であり、本発明を以下の実施形態に限定するものではなく、様々な構成を採用することもできる。
 例えば、本実施形態では物体認識システムの構成、動作等について説明するが、同様の構成の方法、装置、コンピュータプログラム等も、同様の作用効果を奏することができる。また、プログラムは、記録媒体に記憶させてもよい。この記録媒体を用いれば、例えばコンピュータにプログラムをインストールすることができる。ここで、プログラムを記憶した記録媒体は、例えばCD-ROM等の非一過性の記録媒体であっても良い。
 本発明において「物体」とは、実物として存在する任意の物を指し、対象は限定されない。本実施形態では、工業製品やその製品を構成する部品、複数の部品が組み合わさったサブアセンブリ等を物体として想定する。
 本発明では複数の物体をその外観とともに事前に登録し、この登録された物体のことを「登録物体」と呼ぶ。そしてユーザが撮影した対象物体が登録物体のうち何れであるかを、その外観に基づき認識する。
 また本発明において登録物体を特定の角度から見た場合の外観を示す画像を外観画像と呼ぶ。この特定の角度を以下では「特徴角度」と呼び、本実施形態では外観画像又は外観画像から得られる特徴量を示す外観情報が、外観画像ごとに特徴角度と対応付けてデータベースに格納される。それぞれ異なる特徴角度と対応付けられた複数の外観画像の外観情報が登録物体ごとに格納されることにより、外観に基づいて物体の認識を行うことが可能となる。
 以下、本実施形態では外観情報として外観画像そのものを想定し、外観情報の登録について「外観画像を登録する」と表現して説明を簡略化するが、外観画像に代えて外観画像の特徴量を用いることもできる。ここで特徴量としては、外観画像の画素値に基づき計算することにより得られるベクトル値を用いることができる。特徴量としては、画像の局所特徴と大域的特徴を組み合わせた情報を用いることが好ましい。また、用いる特徴量を機械学習により決定してもよい。例えば、物体の撮影画像から物体の種類を識別するタスクをニューラルネットワークモデルに学習させることで、モデルに特徴量の抽出を行わせ、識別精度が高くなるように、用いる特徴量を決定することが想定される。
 なお、同一の登録物体に関し、同じ特徴角度について複数の外観画像を登録可能であってもよい。例えば本実施形態では、同一の登録物体の物体情報に紐づけて、同一の特徴角度に対応付けられた外観画像として、錆や汚れ、傷等の付着物を伴う場合の複数の外観画像と、このような付着物を伴わない外観画像と、を登録する。また、本発明において外観情報は必ずしも特徴角度と対応付けて登録される必要はなく、物体情報と外観画像を紐づけて登録する形態としてもよい。
 次に、図1を参照して本実施形態の物体認識システムの機能構成を説明する。本実施形態の物体認識システムは、物体認識装置1と、端末装置2と、がネットワークNWを介して通信可能に構成され、物体認識装置1はデータベースDBと有線又は無線で接続される。物体認識装置1は、端末装置2からユーザが撮影した物体画像を受信し、認識処理を行うことで、物体画像に含まれる対象物体がデータベースDBに登録された登録物体のうち何れであるかを認識する。
 物体認識装置1としては、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置、RAM(Random Access Memory)等の主記憶装置、HDD(Hard Disk Drive)やSSD(Solid State Drive)、フラッシュメモリ等の補助記憶装置、ネットワークNWへの接続手段を含む種々の入出力装置等を備えた、サーバ装置等の一般的なコンピュータ装置を利用することができる。また、複数のコンピュータを用いて物体認識装置1を構成してもよい。
 端末装置2としては、カメラ、演算装置、記憶装置、ネットワークNWへの接続手段を含む種々の入出力装置等を備えた、スマートフォンやタブレット型端末等の任意のコンピュータ装置を利用することができる。物体認識装置1に物体画像の送信を行うための専用のアプリケーションや、専用のウェブページにアクセスするためのブラウザアプリケーション等が記憶装置に記憶され、演算装置が各種の処理を実行することで、任意のコンピュータ装置が本発明の端末装置2として機能する。
 なお本実施形態ではカメラを備えるコンピュータを端末装置2として用いてネットワークNWを介して物体認識装置1に物体画像を送信するが、例えばデジタルカメラ等から物体認識装置1に有線又は無線で直接物体画像を送信する構成としてもよい。あるいは、任意のデータベース等に事前に格納された物体画像を、物体認識装置1が取得する構成であってもよい。
 物体認識装置1は、登録物体ごとに外観画像を登録する登録手段11と、端末装置2から送信された物体画像を取得する取得手段12と、物体画像に含まれる対象物体がいずれの登録物体であるかを推定する推定手段13と、を備える。なおこれらの手段は複数のコンピュータに分散して備えられていてもよい。
 登録手段11は、登録物体ごとに物体情報を登録し、物体情報に紐づけて複数の外観画像を登録する。外観画像はそれぞれ特定の特徴角度から見た場合の物体の外観を示し、特徴角度と対応付けられて登録される。以下、図2~4を用いて、外観画像の登録例について説明する。
 ここで外観画像の登録例を説明するために、物体の一例を図2に示す。前述の通り物体の種類は限定されないが、ここでは例えば図2に示すような差圧発信機を例として想定する。この差圧発信機は、上流側の配管と下流側の配管との間に絞りを設け、上流側の圧力と下流側の圧力の差異を計測して配管内を通過する流体の流量を計測するものである。差圧発信機は図2に示すように複数の部品に分けることができ、この例では、差圧発信機を構成する部品の一つである、導管を登録物体として登録することを想定する。
 この例では導管には低圧側と高圧側があり区別されるが、その形状は非常に似通っており、これらを見分けることは難しい。このように、よく似た部品等の物体が想定される場合に、それぞれの物体を見分けることができるように、複数の特徴角度と対応付けて外観画像が登録される。なお複数の特徴角度における複数の外観画像を登録することが好ましいが、特徴角度との対応付けは必須ではなく、単に異なる特徴角度における複数の外観画像をそれぞれ登録する形態としてもよい。
 外観画像は、例えば図3のように、物体の上方、水平位置、下方のそれぞれから、鉛直方向の軸回りに観察角度(特徴角度)をずらしながら撮影することで取得することができる。ここで、外観画像の取得においては、特徴角度ごとに実際に物体やカメラを動かして実物を撮影してもよいし、あるいは、CG(Computer Graphics)技術を用いて、3次元形状を示す情報を取得し、それに基づき各特徴角度から見た場合の外観画像を生成してもよい。
 このようにして取得した特徴角度ごとの外観画像の例を、図4に示す。本実施形態では特徴角度として、基準とする位置からの水平方向及び鉛直方向の角度に対応付けて、それぞれの外観を示す画像が登録される。なおここでは鉛直方向の角度について、上方、水平、下方の3段階としているが、こちらについても例えば水平を0度として、所定の間隔(例えば30度)ごとに-90度から90度の範囲で変化させてもよい。また特徴角度は、このように必ずしも一定間隔でなくてもよい。
 また更に本実施形態の登録手段11は、外観画像とは別に、又は外観画像の一部を、登録物体を他の物体と区別するための情報を含む特徴画像として、物体情報に紐づけて登録する。例えば図3の導管の例では、低圧側と高圧側で異なる文字が刻印される部分の画像を特徴画像として登録することができる。本実施形態では、登録手段11が、特徴画像についても外観画像の特徴角度と同様に、その観察角度と対応付けて登録する。ここで特徴画像の観察角度は、登録物体を他の似た物体と区別することが容易な角度である。
 取得手段12は、端末装置2が撮影した物体画像を取得する。物体画像の取得方法は限定されず、例えば事前に撮影された画像を物体画像としてアップロードする形態であってもよいが、本実施形態では、端末装置2が備えるカメラを対象物体に向け、随時物体画像が撮影され、その都度、又は所定の間隔で物体認識装置1に送信され、取得手段12が取得する形態を想定する。また本実施形態では、取得手段12が物体画像とともにその撮影角度に関する情報についても併せて取得する。
 推定手段13は、取得手段12が取得した物体画像及びデータベースDBに登録された登録物体の外観画像に基づいて、物体画像に含まれる対象物体がいずれの登録物体であるかを推定する。本実施形態では、物体画像を入力とし、物体画像に含まれる対象物体と同一の登録物体を出力とする教師データにより学習を行った推定モデルを用いて、対象物体がいずれの登録物体であるかを推定する。即ち推定手段13は、外観画像を入力として、それに対応付けられる登録物体を推定するタスクを学習した推定モデルに、物体画像を入力することで、対象物体がいずれの登録物体であるかを推定する。
 データベースDBは、登録物体ごとの物体情報や、物体情報に紐づけられた外観画像等の様々な情報を記憶する。図5は、データベースDBにおいて登録される登録物体ごとの物体情報の一例を示す図である。物体情報としては、登録物体を一意に識別する物体IDと、型番と、物体名と、メーカー名と、特徴画像IDと、撮影指示と、が格納される。特徴画像IDは、特に登録物体を他の似た登録物体と見分けるために重要な部位の外観を示す特徴画像を指定する情報である。本実施形態ではこのように、登録物体ごとに特徴画像が登録される。
 特徴画像は、物体の特徴的な形状や刻印、印字等、他の物体と区別するのに有用な撮影方向からの外観を示す画像である。例えば物体の特徴的な部位を拡大して撮影した画像を特徴画像として用いてもよい。特徴画像と対応付けられた外観画像のうちの何れかを特徴画像として用いることもできるが、外観画像とは別に、例えば物体全体ではなく特定の部位を拡大した画像等を用いてもよい。即ち、特徴画像は、物体の観察角度を示す情報と対応付けられていても、対応付けられていなくてもよい。また撮影指示は、特徴画像が示す部位の撮影をユーザに促すための文言であり、文字列として登録される。なお撮影指示としては、撮影方向を示す矢印のイラスト(画像)等、他の形式であってもよい。
 このように、登録物体ごとに特徴角度ごとの外観画像や特徴画像がデータベースDBに登録される。そして本発明は、登録された情報と、ユーザにより撮影された物体画像と、に基づいて、物体画像に含まれる対象物体が、登録物体のうち何れであるかを推測する。以下、物体の認識処理の手順についてフローチャートを用いて説明する。
 図6は、本実施形態における認識処理のフローチャートである。本実施形態では、端末装置2において撮像手段21が対象物体を撮像し、物体画像を生成する。物体認識装置1においては、まずステップS1で、取得手段12が端末装置2から送信された物体画像を取得する。ここで本実施形態では、物体画像とともに、端末装置2が備える加速度センサやジャイロセンサ等により得られる撮影角度に関する情報も取得する。
 ここで物体画像の撮影においては、1枚1枚撮影指示を受け付けて撮影してもよいが、ユーザがカメラを物体に向け、その間撮像手段21が随時連続して物体画像を取得して物体認識装置1に送信することが好ましい。これにより、取得手段12は連続的に複数の物体画像を取得し、それに基づいて後述のように推定処理が行われるため、認識精度の向上効果が期待できる。また、撮影角度についても、物体画像を取得するごとに絶対的な値として取得する必要はなく、ある物体画像の撮影角度を基準に、どの方向にどれだけ動いたかという相対的な変化によって取得してもよい。
 次にステップS2で推定手段13が、物体画像及びデータベースDBに登録された情報に基づいて、対象物体の候補を特定する。具体的には、例えば、データベースDBに登録された外観画像及びその特徴角度をもとに物体を識別するタスクを学習したニューラルネットワークモデルを用いて、物体画像及び撮影角度に関する情報を入力することで対象物体の候補を特定する方法が想定される。
 ステップS3では、推定手段13が候補の特定に成功したか否かを判定する。例えば、ステップS2で対象物体が各登録物体である確率を登録物体ごとに算出し、所定値以上の確率が算出された登録物体が存在するか否かによって候補の特定の成否を判定することが考えられる。この場合、所定値以上の数値を満たす登録物体が存在しない場合、候補の特定に失敗したと判断してステップS4に進む。
 候補が特定できない場合、物体画像に問題がある可能性が想定される。例えば汚れや錆、その他の付着物により物体の形状や色等、外観が変わってしまっている場合等である。したがって本実施形態ではステップS4において、推定手段13が対象物体の付着物を除去するようユーザに指示するための撮影指示情報を生成し、端末装置2に送信する。そして端末装置2において撮影指示情報に基づく出力がされることで、ユーザに付着物の除去を指示することができる。またこの他、物体画像の撮影時に大きな動きを検出した場合にはブレによる物体画像の不具合が想定されるため、一定時間動かさないよう「動かさないでください」等と指示する撮影指示情報を生成する等、他の撮影指示情報を生成してもよい。
 ステップS3で候補の特定に成功した場合、ステップS5に進んで更に候補が複数存在するか否かを推定手段13が確認する。候補が複数存在する場合にはステップS6に進んで、推定手段13が、特定された候補の何れかの登録物体における特徴画像に基づき、対象物体を撮影するようユーザに指示するための撮影指示情報を生成する。推定手段13は、生成した撮影指示情報を端末装置2に送信し、出力手段23が撮影指示情報に基づく出力を行う。
 図7は、撮影指示情報に基づき表示される指示画面の表示例である。本実施形態では、推定手段13が特定した何れかの候補の物体情報における特徴画像及び撮影指示に基づいて、撮影指示情報が生成される。ここでは、特徴画像を表示し、撮影指示として「画像のように刻印を撮影してください。」という文言が併せて表示される。この他、例えば特徴画像を撮影画像のプレビューに重畳表示して、「物体をガイドに合わせてください」等と指示する形態であってもよい。候補のうちどの登録物体の特徴画像及び撮影指示を用いるかは、任意に決定してよい。例えば、ステップS3で算出した確率が高い方の候補の物体情報を用いる方法等が想定される。
 また、ここでは特徴画像及び撮影指示をそのまま表示する例を示したが、この他にも撮影角度等を具体的に指示する撮影指示情報を生成してもよい。例えば、特徴画像と対応付けてその観察角度をデータベースDBに登録しておき、それに基づく撮影指示情報を生成することが想定される。
 より具体的には、まず取得手段12が物体画像とともにその撮影角度を取得する。そして推定手段13が、その撮影角度と特徴画像に対応付けられた観察角度と比較して、移動量及び移動方向、即ち、現在の撮影角度からどの方向にどれだけ動かせばよいのかを具体的に指示する撮影指示情報を生成する。この場合、出力手段23が出力する撮影指示としては、例えば、「右に30度移動して撮影してください」等の文言や、カメラを動かす方向を示す矢印等を表示することができる。
 なお、このように本実施形態では特定された候補の特徴画像に基づいて撮影指示情報を生成するが、特徴画像やその観察角度を用いずに、例えば「他の方向から撮影してください」「物体を回転させてください」等、単に撮影角度を変更するように指示する撮影指示情報を生成してもよい。
 上述の通り、本実施形態では連続して物体画像を取得し続けるため、指示に従ってユーザがカメラを動かすことで、再度認識が行われる。ここではステップS3で既に候補が絞られているため、ステップS6の指示に従って取得された物体画像及び特徴画像に基づき、推定手段13がその候補の中からより適切な登録物体を特定して、ステップS7で特定した登録物体を候補として端末装置2に出力し、認識結果についての承認をユーザから受け付ける。なお、ここでも選択肢を絞り込まずに全ての登録物体を対象としてステップS2~ステップS5と同様の処理を行ってもよい。
 そしてユーザが表示された候補を承認すると(ステップS8でYes)、ステップS9に進んで物体を特定し、処理を終了する。一方、表示された候補と撮影した対象物体が異なると考えられる場合、ユーザは承認しないことを選択し(ステップS8でNo)、ステップS1に戻って再度認識処理がやり直される。
 以上のように、本実施形態の物体認識システムによれば、ユーザが端末装置2を用いて対象物体を撮影することで、似た物体がある場合にも好適に物体の認識を行うことができる。これにより、例えば、特定された登録物体の販売ページを表示させたり、登録物体に基づく問合せを行ったりすることが可能となり、ユーザ自身が対象物体の型番等を知らない場合であっても、物体の注文、修理、メーカーへの問合せ等の手続を容易に行うことができる。
 具体的には、商品の通信販売ページにおいて本発明を適用し、物体を特定した後に、特定された登録物体を買い物かごに追加するための購入ボタンを表示することが想定される。これにより、手元にある物体の型番等が不明な場合にも、ユーザが容易に正確な商品を購入することができる。また例えば、製品のメーカーが提供するウェブサイトにおいて本発明を適用し、物体を特定した後に、特定された登録物体のマニュアル群のリンクを表示するためのマニュアル表示ボタンを表示することが想定される。マニュアル群としては、物体の修理手順書、取扱説明書、据付説明書、仕様書等を含むことができる。
 なお上記の応用例において、物体が商品の一部の部品であり単体の購入ができない場合や部品自体のマニュアルが存在しない場合等には、物体情報を当該商品と紐づけておき、紐づけられた商品に対応する商品の購入ボタンやマニュアルボタンを表示してもよい。
1  :物体認識装置
2  :端末装置
11 :登録手段
12 :取得手段
13 :推定手段
21 :撮像手段
22 :入力手段
23 :出力手段
DB :データベース
NW :ネットワーク
 

Claims (9)

  1.  ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定する物体認識システムであって、
     前記物体画像を取得する取得手段と、
     1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録すると共に、前記登録物体を他の物体と区別するのに有用な部位を示す特徴画像及び、前記特徴画像に示された部位の撮影をユーザに促す為の撮影指示を登録物体ごとに前記データベースに登録する登録手段と、
     前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定し、前記対象物体である可能性のある前記登録物体の候補を特定して、当該登録物体の前記特徴画像及び撮影指示に基づき、前記対象物体の撮影に関する指示をユーザに与えるための撮影指示情報を生成する推定手段と、を備える、物体認識システム。
  2.  前記登録手段は、前記登録物体の3次元モデルを回転させ、各特徴角度から観察される複数の前記外観画像を生成して、生成した外観画像に基づく前記外観情報を前記登録物体ごとに前記データベースに登録する手段を有する、請求項1に記載の物体認識システム。  
  3.  前記登録手段は、前記登録物体を撮影した画像を取得して、前記登録物体ごとに当該画像を前記外観画像として前記外観情報を前記データベースに登録する手段を有する、請求項1又は請求項2に記載の物体認識システム。
  4.  前記登録手段は、外観に付着物を伴う前記登録物体の前記外観画像を生成又は取得して、生成した外観画像に基づく前記外観情報を前記データベースに登録する、請求項1から請求項3の何れかに記載の物体認識システム。
  5.  前記登録手段は、前記外観情報を、前記特徴角度を示す情報と対応付けて登録する、請求項1から請求項4の何れかに記載の物体認識システム。
  6.  前記推定手段は、前記対象物体である可能性のある前記登録物体の候補を特定できない場合に、前記対象物体の付着物を除去するようユーザに指示するための撮影指示情報を生成する、請求項1から請求項5の何れかに記載の物体認識システム。
  7.  前記推定手段は、前記物体画像を入力とし、前記物体画像に含まれる対象物体と同一の登録物体を出力とする教師データにより学習を行った推定モデルを用いて、前記対象物体がいずれの前記登録物体であるかを推定する、請求項1から請求項6の何れかに記載の物体認識システム。
  8.  ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定するための物体認識プログラムであって、
     前記物体画像を取得する取得手段と、
     1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録すると共に、前記登録物体を他の物体と区別するのに有用な部位を示す特徴画像及び、前記特徴画像に示された部位の撮影をユーザに促す為の撮影指示を登録物体ごとに前記データベースに登録する登録手段と、
     前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定し、前記対象物体である可能性のある前記登録物体の候補を特定して、当該登録物体の前記特徴画像及び撮影指示に基づき、前記対象物体の撮影に関する指示をユーザに与えるための撮影指示情報を生成する推定手段と、としてコンピュータを機能させる、物体認識プログラム。
  9.  ユーザが撮影した物体画像に含まれる対象物体が、データベースに登録された登録物体のうち何れであるかを推定する物体認識方法であって、
     前記物体画像を取得する取得ステップと、
     1つの物体についてそれぞれ異なる特徴角度から見た場合の外観を表す複数の外観画像について、外観画像又はその特徴量を、前記登録物体ごとの外観情報として前記データベースに登録すると共に、前記登録物体を他の物体と区別するのに有用な部位を示す特徴画像及び、前記特徴画像に示された部位の撮影をユーザに促す為の撮影指示を登録物体ごとに前記データベースに登録する登録ステップと、
     前記物体画像及び前記外観情報に基づいて、前記対象物体がいずれの前記登録物体であるかを推定し、前記対象物体である可能性のある前記登録物体の候補を特定して、当該登録物体の前記特徴画像及び撮影指示に基づき、前記対象物体の撮影に関する指示をユーザに与えるための撮影指示情報を生成する推定ステップと、をコンピュータに実行させる、物体認識方法。
PCT/JP2022/044134 2021-12-24 2022-11-30 物体認識システム、物体認識プログラム及び、物体認識方法 WO2023120070A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202280043329.9A CN117529746A (zh) 2021-12-24 2022-11-30 物体识别系统、物体识别程序以及物体识别方法
EP22910787.5A EP4343692A4 (en) 2021-12-24 2022-11-30 OBJECT RECOGNITION SYSTEM, OBJECT RECOGNITION PROGRAM AND OBJECT RECOGNITION METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021210042A JP7113469B1 (ja) 2021-12-24 2021-12-24 物体認識システム、物体認識プログラム及び、物体認識方法
JP2021-210042 2021-12-24

Publications (1)

Publication Number Publication Date
WO2023120070A1 true WO2023120070A1 (ja) 2023-06-29

Family

ID=82740504

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/044134 WO2023120070A1 (ja) 2021-12-24 2022-11-30 物体認識システム、物体認識プログラム及び、物体認識方法

Country Status (4)

Country Link
EP (1) EP4343692A4 (ja)
JP (2) JP7113469B1 (ja)
CN (1) CN117529746A (ja)
WO (1) WO2023120070A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115282A (ja) * 2014-12-17 2016-06-23 カシオ計算機株式会社 商品識別装置および商品認識ナビゲーション方法
JP2018142358A (ja) 2018-05-01 2018-09-13 東芝テック株式会社 情報処理装置及びプログラム
JP2018169752A (ja) * 2017-03-29 2018-11-01 パナソニックIpマネジメント株式会社 商品認識システム、学習済みモデル、及び商品認識方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8971610B2 (en) * 2010-04-28 2015-03-03 Osaka Prefecture University Public Corporation Method and apparatus of compiling image database for three-dimensional object recognition
US8332429B2 (en) * 2010-06-22 2012-12-11 Xerox Corporation Photography assistant and method for assisting a user in photographing landmarks and scenes
CN108292456B (zh) * 2015-11-30 2020-11-27 凸版印刷株式会社 识别方法以及识别介质
US10726630B1 (en) * 2019-06-28 2020-07-28 Capital One Services, Llc Methods and systems for providing a tutorial for graphic manipulation of objects including real-time scanning in an augmented reality
CN110378303B (zh) * 2019-07-25 2021-07-09 杭州睿琪软件有限公司 用于对象识别的方法及系统
CN113421100A (zh) * 2020-03-03 2021-09-21 图灵深视(南京)科技有限公司 物品信息记录、流转、鉴别发起及服务方法、终端和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115282A (ja) * 2014-12-17 2016-06-23 カシオ計算機株式会社 商品識別装置および商品認識ナビゲーション方法
JP2018169752A (ja) * 2017-03-29 2018-11-01 パナソニックIpマネジメント株式会社 商品認識システム、学習済みモデル、及び商品認識方法
JP2018142358A (ja) 2018-05-01 2018-09-13 東芝テック株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
EP4343692A4 (en) 2024-06-05
JP2023095748A (ja) 2023-07-06
JP2023094636A (ja) 2023-07-06
JP7113469B1 (ja) 2022-08-05
EP4343692A1 (en) 2024-03-27
CN117529746A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
JP6608890B2 (ja) 機械学習装置、ロボットシステム及び機械学習方法
US11380017B2 (en) Dual-view angle image calibration method and apparatus, storage medium and electronic device
JP6575079B2 (ja) 複数の画像からの商品の認識のための方法
KR20210047326A (ko) Ar/vr 디지털 콘텐츠를 생성하기 위한 디지털 이미지 적합성 결정
CN110716645A (zh) 一种增强现实数据呈现方法、装置、电子设备及存储介质
JP6330880B2 (ja) カメラ姿勢におけるヨーエラー推定のアルゴリズム
JP6442746B2 (ja) 情報処理装置、制御方法、プログラム
JP2017014014A (ja) 画像処理装置
JP6976733B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP2015138428A (ja) 付加情報表示装置および付加情報表示プログラム
EP2960859A1 (en) Constructing a 3d structure
US20190088027A1 (en) Method for developing augmented reality experiences in low computer power systems and devices
JP2023065371A (ja) 製造支援システム,方法,プログラム
JP2019174959A (ja) 商品棚位置登録プログラム、及び情報処理装置
TWI734054B (zh) 資訊處理裝置、顯示位置調整方法及儲存媒體
CN115008454A (zh) 一种基于多帧伪标签数据增强的机器人在线手眼标定方法
WO2023120070A1 (ja) 物体認識システム、物体認識プログラム及び、物体認識方法
US11205089B2 (en) Object identification device, object identification method, and recording medium
JP2019211981A (ja) 情報処理装置、情報処理装置の制御方法およびプログラム
US11836977B2 (en) System and method for hybrid visual searches and augmented reality
JP6981553B2 (ja) 識別システム、モデル提供方法およびモデル提供プログラム
JP6695454B1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5975484B2 (ja) 画像処理装置
JP2006119763A (ja) 鑑定支援システム、鑑定支援方法および鑑定支援プログラム
JP2013130930A (ja) 画像処理システム、画像処理方法および画像処理用プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22910787

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280043329.9

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022910787

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022910787

Country of ref document: EP

Effective date: 20231221

ENP Entry into the national phase

Ref document number: 2022910787

Country of ref document: EP

Effective date: 20231221