WO2022168400A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2022168400A1
WO2022168400A1 PCT/JP2021/042351 JP2021042351W WO2022168400A1 WO 2022168400 A1 WO2022168400 A1 WO 2022168400A1 JP 2021042351 W JP2021042351 W JP 2021042351W WO 2022168400 A1 WO2022168400 A1 WO 2022168400A1
Authority
WO
WIPO (PCT)
Prior art keywords
lens
information
lens group
character string
processor
Prior art date
Application number
PCT/JP2021/042351
Other languages
English (en)
French (fr)
Inventor
侑也 濱口
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2022579346A priority Critical patent/JPWO2022168400A1/ja
Publication of WO2022168400A1 publication Critical patent/WO2022168400A1/ja
Priority to US18/360,689 priority patent/US20230366779A1/en

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M11/00Testing of optical apparatus; Testing structures by optical methods not otherwise provided for
    • G01M11/02Testing optical properties
    • G01M11/0221Testing optical properties by determining the optical axis or position of lenses
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M11/00Testing of optical apparatus; Testing structures by optical methods not otherwise provided for
    • G01M11/02Testing optical properties
    • G01M11/0242Testing optical properties by measuring geometrical properties or aberrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the present invention relates to an information processing device, an information processing method and a program, and more particularly to an information processing device, an information processing method and a program for identifying a lens from an image showing a cross section of a lens provided in a device.
  • lens information is stored in a database. Further, in Japanese Patent Laid-Open No. 2002-100001, a camera captures an object-side portion of a lens unit, and based on the captured image, lens information in a database is searched. Then, the lens information found by the search is transmitted to the camera.
  • lens information As a prerequisite for using information about lenses, such as building a database of lens information in Patent Document 1.
  • a method of acquiring lens information an image showing a cross section of a lens provided in a device is found from documents such as documents and publications, the lens is identified from the image, and the identification result is used as lens information. can be obtained as
  • images showing cross sections of the same type of lens may differ in appearance and features due to differences in image quality such as resolution.
  • image quality such as resolution.
  • the image of the lens is a drawing (illustration)
  • the image may change depending on the thickness of the drawing line or the drawing method.
  • the information can be referred to later, and the accumulated information can be effectively used, for example, for collation of the lens.
  • an information processing apparatus of the present invention is an information processing apparatus comprising a processor, wherein the processor includes a lens in a target image showing a cross section of a portion including a lens in a target device provided with a lens. Detects the existence area of the target device, and identifies the lens of the target device that exists in the existence area based on the feature amount of the existence area by using an identification model constructed by machine learning using multiple learning images that show the cross section of the lens. characterized by
  • the identification model is configured by machine learning using a plurality of learning images including two or more similar lens cross-sectional images showing cross sections of the same kind of lens with different drawing styles, and each of the two or more similar lens cross-sectional images It may be a model that identifies the indicated lens as a similar lens.
  • the processor preferably builds an information database by accumulating information about the lens of the identified target device.
  • the processor acquires input information about the lens provided in the search device, and outputs the information about the lens of the target device accumulated in the database in association with the search device based on the input information.
  • the processor obtains input information about the lens from the search device, and calculates the similarity between the lens of the search device and the lens of the target device based on the input information and the information about the lens of the target device stored in the database. It is more preferable to calculate the degree of similarity and output the information about the lens of the target device accumulated in the database in association with the degree of similarity.
  • the processor may detect an existing region for each lens in a target image showing a cross section of a portion including a lens group in a target device having lens groups arranged in a row. In this case, the processor identifies the lenses in the lens group existing in the existence area for each existence area by the identification model, and collects the information about the lens in the lens group identified for each existence area to group the lens groups together. It is preferable to collect them as a unit and store them in the database.
  • the processor may specify, for each existence area, the type of lens in the lens group identified for each existence area. Then, the processor displays the type of each lens in the order in which the lenses are arranged in the lens group based on the type of lens in the lens group identified for each existing area and the position of the existing area in the target image. It is preferable to generate the character string information obtained from the database, and store the generated character string information in the database.
  • the processor when a plurality of lens groups are shown in the target image, the processor generates character string information for each lens group, and stores the character string information generated for each lens group in the database for each lens group. may be accumulated.
  • the processor when the search device acquires the input information about the lens and the search device includes the lens group, the processor generates character string information representing the type of each lens in the order in which the lenses are arranged in the lens group of the search device. , may be obtained as input information.
  • the processor selects the lens group of the search device and the lens group of the target device based on the acquired character string information about the lens group of the search device and the character string information about the lens group of the target device accumulated in the database. It is preferable to calculate the first degree of similarity between. After that, the processor may output the character string information about the lens group of the target device accumulated in the database in association with the first degree of similarity.
  • the processor when the search device acquires the input information about the lens and the search device includes the lens group, the processor generates character string information representing the type of each lens in the order in which the lenses are arranged in the lens group of the search device. , may be obtained as input information.
  • the processor may change any character in the acquired character string information about the lens group of the search device to blank.
  • the processor selects the lens group of the search device and the lens group of the target device. It is preferable to calculate a second degree of similarity between. Then, the processor preferably outputs the character string information about the lens group of the target device accumulated in the database in association with the second degree of similarity.
  • the processor may accumulate information about the identified lens of the target device in association with information about the document containing the target image in the database.
  • the processor may detect the presence area of the lens from the target image using an object detection algorithm.
  • the above-mentioned object is provided by a step of detecting, by a processor, an existing region of a lens in a target image showing a cross section of a portion including a lens in a target device provided with a lens, and and a step of identifying the lens of the target device existing in the existence area based on the feature amount of the existence area by an identification model constructed by machine learning using the target image.
  • the above information processing method may further include a step of building an information database by accumulating information on the lens of the identified target device by the processor.
  • the lens appearing in the image can be appropriately identified from the image showing the cross section of the lens, regardless of the drawing style of the image.
  • FIG. 4 is a diagram showing an example of the structure of a database of lens information
  • FIG. 1 is a conceptual diagram of a discriminative model
  • FIG. 10 is a diagram showing an example of a result of detection of a lens presence area in a target image
  • 1 is a diagram showing the configuration of an information processing apparatus according to one embodiment of the present invention
  • FIG. 10 It is a figure which shows the flow of an information processing flow using the information processing apparatus which concerns on one Embodiment of this invention.
  • FIG. 10 is a diagram showing character string information about lens groups
  • FIG. 10 is a diagram showing an example in which two lens groups are shown in the image
  • It is a figure of the example of a screen which shows the execution result of information output processing.
  • this embodiment An information processing apparatus, an information processing method, and a program according to one embodiment of the present invention (hereinafter referred to as "this embodiment") will be described below with reference to the accompanying drawings.
  • image is image data that has been digitized (data) and can be processed by a computer.
  • images include images taken with a camera, etc., drawings (illustrations) drawn with drawing creation software, etc., and drawing data acquired by reading hand-drawn or printed drawings with a scanner, etc. .
  • An information processing apparatus (hereinafter simply referred to as an information processing apparatus) of this embodiment includes a processor and analyzes a target image of a target device.
  • Target devices are optical devices equipped with one or more lenses, such as photography devices such as cameras, observation devices such as camera viewfinders, and terminals equipped with photography functions such as mobile phones and smartphones. Applicable.
  • the target image is, as shown in FIG. 1, an image showing a cross-section of a portion of the target device that includes at least the lens (hereinafter referred to as a lens cross-section image).
  • a lens cross-section image For example, if the target device is a digital camera having an imaging lens, the cross-sectional image of the imaging lens corresponds to the target image.
  • the lens cross-sectional image in which the lens appears is treated as the target image.
  • the target device has a lens group consisting of a plurality of lenses
  • the lens cross-sectional image in which the entire lens group appears is handled as the target image.
  • the lens group refers to a plurality of lenses arranged in a row in a straight line.
  • target images include images published or inserted in documents such as papers, patent publications, magazines and websites.
  • documents such as papers, patent publications, magazines and websites.
  • a lens cross-sectional image published in a patent publication is treated as a target image will be described as an example.
  • the following content can also be applied to documents other than patent publications.
  • the information processing device analyzes the target image in the patent publication and identifies the lens of the target device that appears in the target image from the analysis results. Specifically, the information processing apparatus identifies the lens of the target device appearing in the target image using an identification model described later, and more specifically, identifies the type and position of the identified lens in the target image.
  • the position in the target image means coordinates (strictly speaking, two-dimensional coordinates) when a reference point set in the target image is set as the origin.
  • the lens of the target device is a spherical lens, of which there are four types, specifically a convex lens, a concave lens, a convex meniscus lens, and a concave meniscus lens.
  • the types of lenses are not limited to the above four types, and may include types other than the above (for example, aspherical lenses, etc.).
  • character information (specifically, a code) is given to the lens of the target device whose type has been specified. Specifically, for example, "T” is assigned to a convex lens, “O” is assigned to a concave lens, “P” is assigned to a convex meniscus lens, and “N” is assigned to a concave meniscus lens. .
  • the character given to each type of lens is not particularly limited.
  • character string information in which the above codes are arranged according to the order of each lens in the lens group is given to the lens group.
  • the character string information represents the type of each lens in the order in which each lens is arranged in the lens group.
  • the character string information "TON" is assigned to a lens group consisting of three lenses arranged in the order of a convex lens, a concave lens, and a concave meniscus lens.
  • the character string information about the lens group is generated based on the type and position (coordinates) of each lens in the lens group. For example, character string information is generated by arranging character information (codes) indicating the type of each lens in order from the lens closest to the reference position.
  • the information processing device accumulates information on the lens or lens group of the target device identified for each target image, specifically, character information indicating the type of lens or character string information on the lens group, and stores the information in a database. to build.
  • lens information information about the lens or lens group of the target device (hereinafter also referred to as lens information) is associated with the target image in which the lens or lens group appears, as shown in FIG. More specifically, the lens information is information related to the document containing the target image, specifically, the identification number of the patent publication in which the target image is published, and the drawing number assigned to the target image in the patent publication. stored in the database.
  • the information processing device reads and outputs lens information that satisfies a predetermined condition from the database.
  • searching means extracting information corresponding to the search device from among the lens information accumulated in the database, or specifying information based on the relationship or relevance with the search device.
  • a search device is a device selected as a search target by a user of an information processing apparatus, and includes a lens or lens group similar to the target device.
  • the output format of the lens information is not particularly limited, and the lens information may be displayed on the screen, or a sound indicating the contents of the lens information may be generated (reproduced).
  • the method of selecting the target device for which the lens information is to be output is also not particularly limited. good. Alternatively, it is also possible to output only the information about the lenses of the target device with the highest degree of similarity to the top N (N is a natural number equal to or greater than 1). Alternatively, lens information may be output for all target devices in descending order of similarity.
  • the patent publication associated with the searched lens information the patent publication in which the lens cross-sectional image showing the lens or lens group of the same or similar type as the lens or lens group provided in the search device is posted can be found.
  • the present embodiment it is possible to identify a lens that appears in a lens cross-sectional image included in a document such as a patent publication, and create a database of information about the lens. Then, by using the database, it is possible to specify a lens that satisfies a predetermined condition, and find a document in which a lens cross-sectional image showing the lens is posted.
  • a discriminant model (hereinafter referred to as a discriminative model M1) used in this embodiment will be described with reference to FIG.
  • the identification model M1 is a model for identifying a lens or lens group appearing in the image from the target image.
  • the discriminative model M1 of this embodiment is composed of a derived model Ma and a specific model Mb.
  • the derived model Ma is a model that derives the feature amount of the existing region in the target image by inputting the target image.
  • the existing area is a rectangular area in which the lens exists in the target image. do.
  • the target image showing the lens group as shown in FIG. 4, there exist the same number of existence areas as the number of lenses constituting the lens group.
  • the derived model Ma is composed of, for example, a convolutional neural network (CNN) having a convolutional layer and a pooling layer in the intermediate layer.
  • CNN models include Oxford visual geometry group's 16-layer CNN (VGG16), Google's Inception model (GoogLeNet), Kaiming He's 152-layer CNN (Resnet), and Chollet's improved Iception model (Xception ) and the like.
  • the existence area is specified in the target image. Specifically, an image of one lens section is detected for each lens in the target image, and a rectangular area surrounding the detected image is set for each lens in the target image. It should be noted that the function of specifying the existing region in the target image is installed in the derived model Ma by machine learning, which will be described later.
  • the feature quantity output from the derived model Ma is a learning feature quantity in the convolutional neural network CNN, and is a feature quantity specified in the process of general image recognition (pattern recognition). Then, the feature amount derived by the derivation model Ma is input to the specific model Mb for each region.
  • the specific model Mb is a model that specifies the lens type corresponding to the feature quantity and the geometric information of the existence region by inputting the feature quantity of the existence region derived by the derivation model Ma.
  • the geometric information of the existing area is the position of the existing area in the target image, such as the coordinates of one vertex in the existing area (xy coordinates), the width of the existing area (length in the x direction), and the height of the existing area. length (length in the y direction), etc.
  • the specific model Mb is configured by, for example, a neural network (NN), and identifies a plurality of candidates (lens type candidates) when identifying the lens type corresponding to the feature amount of the existing region.
  • a softmax function is applied to the identified candidates and a confidence is calculated for each candidate.
  • Confidence is a numerical value indicating the probability (likelihood, prediction accuracy) that each of a plurality of candidates corresponds to the type of lens existing in the existence area.
  • the sum of n confidence factors (n is a natural number) to which the softmax function is applied is 1.0.
  • the specific model Mb identifies a candidate determined according to the degree of certainty, for example, the candidate with the highest degree of certainty, among the candidates identified for one existence area, as the type of lens existing in the existence area.
  • the type of lens appearing in the target image is selected from among a plurality of candidates specified based on the feature amount of the existing region of the lens according to the certainty of each candidate. be When outputting the candidate selected as the lens type, the certainty factor of the candidate may be output together.
  • the identification model M1 it is possible to identify the lens existing in the existing area based on the feature amount of the existing area in the target image.
  • the discriminative model M1 (more specifically, each of the two models Ma and Mb that constitute the discriminative model M1) uses a plurality of learning images representing cross sections of lenses and correct labels representing the types of the lenses as a learning data set. built using machine learning.
  • the lens cross section indicated by the learning image is the cross section of one of four types of spherical lenses.
  • machine learning is performed by adding a learning image showing the cross section of the aspherical lens to build an identification model that can identify the aspherical lens. good too.
  • an identification model may be constructed that does not detect the aspherical lens.
  • an identification model may be constructed in which the aspherical lens is replaced with the one with the closest shape among the four types of spherical lenses for detection.
  • the number of learning data sets used for machine learning should be as large as possible from the viewpoint of improving the accuracy of learning, preferably 50,000 or more.
  • images in the normal position and images rotated by 90 degrees, 180 degrees and 270 degrees from the normal position are prepared, and these four types of images are included in the training images. good too.
  • the learning images may be randomly extracted lens cross-sectional images.
  • lens cross-sectional images selected under certain conditions may be used as learning images.
  • the machine learning that is performed to construct the discriminative model M1 is, for example, supervised learning, and its method is deep learning (that is, multi-layer neural network). However, it is not limited to this, and the type (algorithm) of machine learning may be unsupervised learning, semi-supervised learning, reinforcement learning, or transduction.
  • Machine learning techniques include genetic programming, inductive logic programming, Boltzmann machines, matrix factorization (MF), factorization machines (FM), support vector machines, clustering, Bayesian networks, extreme learning machines ( ELM), or decision tree learning. Gradient descent, error backpropagation, or the like may be used as a method of minimizing an objective function (loss function) in neural network machine learning.
  • the drawing style includes the thickness, color, line type, degree of inclination of the line, how to draw the curved portion (curvature, etc.), orientation of the lens, dimensions of each part of the lens, and scale ratio. , presence/absence of auxiliary lines such as center lines, presence/absence of lines indicating optical paths of light passing through the lens, background color, hatching style, and presence/absence of subscripts such as symbols.
  • the drawing format also includes the resolution (the density of the grid representing the image) when the lens cross-sectional image is represented by image data such as a bitmap format.
  • machine learning is performed so as to construct a discriminative model M1 (strictly speaking, a derived model Ma) that derives a common feature amount from two or more lens cross-sectional images of the same type.
  • a discriminative model M1 (strictly speaking, a derived model Ma) that derives a common feature amount from two or more lens cross-sectional images of the same type.
  • supervised learning is performed by assigning a correct label indicating the type of lens to each of a plurality of learning images with different rendering modes for the same type of lens.
  • a common feature amount is derived from two or more lens cross-sectional images of the same type, and an identification model M1 is constructed that can identify the lens indicated by each of the lens cross-sectional images of the same type as the lens of the same type.
  • the information processing device 10 is a computer in which a processor 11, a memory 12, an external interface 13, an input device 14, an output device 15, and a storage 16 are electrically connected to each other, as shown in FIG.
  • the information processing device 10 is configured by one computer, but the information processing device 10 may be configured by a plurality of computers.
  • the processor 11 is configured to execute a program 21, which will be described later, and to carry out processing for exhibiting the functions of the information processing device 10.
  • the processor 11 is composed of, for example, one or more CPUs (Central Processing Units) and a program 21, which will be described later.
  • the hardware processor constituting the processor 11 is not limited to the CPU, but may be FPGA (Field Programmable Gate Array), DSP (Digital Signal Processor), ASIC (Application Specific Integrated Circuit), GPU (Graphics Processing Unit) or other IC ( Integrated Circuit), or a combination thereof. Further, the processor 11 may be a single IC (Integrated Circuit) chip that exhibits the functions of the entire information processing apparatus 10, as typified by a SoC (System on Chip) or the like. Further, one processing unit included in the information processing apparatus of the present invention may be configured by one of the various processors described above, or may be a combination of two or more processors of the same or different types, for example, a plurality of processors.
  • a combination of FPGAs, or a combination of FPGA and CPU, or the like may be used.
  • the plurality of functions possessed by the information processing apparatus of the present invention may be configured by one of various processors, or two or more of the plurality of functions may be configured by one processor. good.
  • one processor may be configured by combining one or more CPUs and software, and a plurality of functions may be realized by this processor.
  • the hardware processor described above may be an electric circuit (Circuitry) in which circuit elements such as semiconductor elements are combined.
  • the memory 12 is composed of semiconductor memories such as ROM (Read Only Memory) and RAM (Random Access Memory).
  • the memory 12 provides a work area for the processor 11 and temporarily stores various data generated by processing executed by the processor 11 .
  • the memory 12 stores a program 21 for causing a computer to function as the information processing apparatus 10 of this embodiment.
  • the program 21 includes the following programs p1 to p5.
  • p1 program for constructing the discrimination model M1 by machine learning
  • p2 program for detecting the existence area of the lens in the target image
  • p3 program for identifying the lens present in the detected existence area
  • p4 identified
  • p5 Program for outputting lens information accumulated in the database
  • the program 21 may be obtained by reading it from a computer-readable recording medium, or may be obtained by receiving (downloading) it through a network such as the Internet or an intranet.
  • the external interface 13 is an interface for connecting with an external device.
  • the information processing device 10 communicates with an external device such as a scanner or other computer on the Internet via an external interface 13 . Through such communication, the information processing apparatus 10 can acquire data for machine learning and data of patent publications in which the target image is published.
  • the input device 14 is composed of, for example, a mouse and a keyboard, and receives user input operations.
  • the information processing apparatus 10 can acquire learning images for machine learning, for example, when the user draws a lens cross-sectional image through the input device 14 . Further, for example, when retrieving information about a lens of a target device of the same or similar type as that of the device to be searched, the user operates the input device 14 to input information about the lens included in the device to be searched. Thereby, the information processing apparatus 10 can acquire the input information regarding the lens included in the search device.
  • the output device 15 is composed of, for example, a display and a speaker, and is a device for displaying search results based on input information, for example, information regarding lenses of target devices of the same or similar type as the search device, or for reproducing audio. . Also, the output device 15 can output the lens information accumulated in the database 22 .
  • the storage 16 is, for example, flash memory, HDD (Hard Disc Drive), SSD (Solid State Drive), FD (Flexible Disc), MO disc (Magneto-Optical disc), CD (Compact Disc), DVD (Digital Versatile Disc) , SD card (Secure Digital card), and USB memory (Universal Serial Bus memory).
  • Various data including data for machine learning are stored in the storage 16 .
  • the storage 16 also stores various models constructed by machine learning, including the identification model M1.
  • information (lens information) on the lens of the target device identified from the target image is associated with information on the document containing the target image, more specifically, the identification number of the patent publication in which the target image is published. stored.
  • a lens information database 22 is constructed in the storage 16 .
  • the information associated with the lens information includes, in addition to the identification information of the patent publication, the drawing number etc. assigned to the target image in the patent publication. If the document containing the target image is a thesis, the title of the thesis and the page on which the target image is published may be associated with the lens information. Also, when the document containing the target image is a book, the title of the book, the page on which the target image is printed, and the like may be associated with the lens information.
  • the lens information stored in the database 22 includes character information indicating the type of lens appearing in the target image, as shown in FIG.
  • the lens information when a lens group appears in the target image includes character string information representing the type of each lens in the lens group in the order in which the lenses are arranged.
  • the character string information about the lens group the lens type is indicated in the order from one end to the other end of the lens group, and the lens type is indicated in the order from the other end to the other end.
  • the representation (hereinafter also referred to as mirror image character string information) is stored in the database 22 .
  • character string information in which the types of lenses in the lens group are arranged in the forward direction and character string information in which the lens types are arranged in the reverse direction are used.
  • the present invention is not limited to this, and instead of accumulating mirror image character string information, only character string information in which the types of lenses in the lens group are arranged in one direction may be accumulated. In that case, at the time of retrieval, the stored character string information may be converted into character string information in which the order is reversed for retrieval.
  • the storage 16 is a device built into the information processing device 10, but is not limited to this, and the storage 16 is an external device connected to the information processing device 10. may contain.
  • the storage 16 may also include an external computer (for example, a server computer for cloud services) communicably connected via a network.
  • part or all of the database 22 described above may be stored in an external computer that constitutes the storage 16 .
  • the hardware configuration of the information processing device 10 is not limited to the configuration described above, and it is possible to add, omit, or replace components as appropriate according to specific embodiments.
  • each step in the information processing flow described below constitutes the information processing method of the present invention, and is executed by the processor 11 of the computer that constitutes the information processing apparatus 10 . Specifically, each step in the information processing flow is performed by the processor 11 executing the program 21 .
  • the information processing flow of this embodiment proceeds in order of learning phase S001, database construction phase S002, and information output phase S003. Each phase will be described below.
  • the learning phase S001 is a phase in which machine learning is performed in order to construct a model required in subsequent phases.
  • first machine learning S011 and second machine learning S012 are performed.
  • the first machine learning S011 is machine learning for constructing the discriminant model M1, and is carried out using a plurality of learning images showing lens cross sections, as described above.
  • supervised learning is performed as the first machine learning S011.
  • a learning image representing one lens section and a correct label indicating the type of lens appearing in the learning image are used as a learning data set.
  • a plurality of learning images including two or more same-kind lens cross-sectional images showing cross-sections of the same kind of lens with different rendering styles may be used.
  • an identification model M1 (strictly speaking, a derived model Ma) is constructed so as to derive a common feature amount from two or more lens cross-sectional images of the same kind.
  • the second machine learning S012 is machine learning for constructing a detection model that detects the existence area of the lens in the target image.
  • a detection model is a model for detecting an existing region from a target image using an object detection algorithm.
  • R-CNN (Region-based CNN), Fast R-CNN, YOLO (You only Look Once), and SDD (Single Shot Multibox Detector) are available.
  • YOLO You only Look Once
  • SDD Single Shot Multibox Detector
  • an image detection model using YOLO is constructed from the viewpoint of detection speed.
  • Yolo-v version 3 and Yolo-v4 are available.
  • the learning data (teacher data) used for the second machine learning S012 is created by applying an annotation tool to the learning image.
  • the annotation tool is a tool for annotating target data with a correct label (tag) and related information such as the coordinates of the target object.
  • labelImg by tzutalin and VoTT by Microsoft are available.
  • an image showing the cross section of one lens or lens group is prepared as a learning image.
  • the lens cross-sectional image is extracted from the patent publication in which the lens cross-sectional image is published.
  • the annotation tool is activated to display the learning image, the area where the lens exists is surrounded by a bounding box, and the area is annotated (labeled) to create learning data.
  • the method of creating learning data may be a method other than the above method, and for example, a learning image may be prepared by a lens image generation program.
  • the lens image generation program is a program that automatically draws a lens cross-sectional image by specifying the type of spherical lens and setting the parameters of each part of the lens (for example, the curvature radius of the curved portion and the thickness of the central portion, etc.). .
  • a large number of lens cross-sectional images of each type can be obtained by randomly setting each parameter for each type of spherical lens using a lens image generation program.
  • the acquired lens cross-sectional image is used as learning data together with the type of lens specified at the time of image creation.
  • a detection model which is an object detection model in the YOLO format, is constructed.
  • the database construction phase S002 is a phase in which a lens or lens group appearing in a target image published in a patent publication is identified, information (lens information) related to the identified lens or lens group is accumulated, and the database 22 is constructed.
  • the processor 11 of the information processing device 10 extracts the target image from the patent publication, applies the above-described detection model to the extracted target image, and detects the presence area in the target image. (S021). In other words, in this step S021, the processor 11 uses an object detection algorithm (specifically, YOLO) to detect the presence area of the lens in the target image.
  • YOLO object detection algorithm
  • the processor 11 determines the presence area of each lens in the target image. (See FIG. 4).
  • the processor 11 identifies lenses existing in the existing area based on the feature amount of the existing area using the identification model M1 (S022). Specifically, the processor 11 inputs the image piece of the existence area detected in step S021 to the identification model M1. In the identification model M1, the feature amount of the existing region is derived in the preceding derived model Ma.
  • the types of lenses existing in the existing area and the geometric information of the existing area are specified based on the feature amount of the existing area input from the derived model Ma.
  • a plurality of lens type candidates are specified based on the feature amount of the existing region, and the certainty factor is calculated for each candidate.
  • the candidate with the highest degree of certainty is specified as the type of lens existing in the existence area.
  • the present invention is not limited to this, and for example, all candidates whose degrees of certainty satisfy a predetermined condition may be specified as the types of lenses present in the existence area.
  • step S021 the lens identification processing using the identification model M1 (that is, step S022) is repeatedly executed for each existence area.
  • each lens in the lens group can be identified for each existing region in the target image showing the cross section of the portion including the lens group.
  • the candidate for the type of lens existing in the existence area, the certainty of the candidate, and the geometric information of the existence area (position in the target image) are obtained for each area. identified.
  • the processor 11 collects information about each lens in the lens group identified for each existence area, with the lens group as one unit. Specifically, the processor 11 generates information about the lens group, such as character string information, based on the type of each lens in the lens group specified for each existing area and the existing area position (coordinates). .
  • the processor 11 calculates the central position of the x-coordinate or y-coordinate for each of the plurality of existing regions in the target image.
  • the lenses existing in each of the two or more existing regions are considered to belong to the same lens group.
  • character information codes indicating the types of lenses are arranged in order from the lens closest to the reference position. Character string information as shown in FIG. 7 is obtained by such a procedure. At this time, mirror image character string information in the reverse order may also be generated.
  • character string information can be generated for each lens group.
  • character string information for each of the upper lens group and the lower lens group can be generated.
  • the processor 11 causes the storage 16 to store information about the lens of the identified target device, specifically character information indicating the type of lens (S023).
  • character string information is generated by aggregating character information indicating the type of each lens in the lens group identified for each existence area with the lens group as a unit, and generating character string information.
  • the character string information obtained is stored (accumulated) in the storage 16 .
  • the processor 11 stores (accumulates) the lens information made up of character information or character string information in association with information (for example, identification information of patent publications, etc.) related to the document containing the target image.
  • the information output phase S003 is a phase for outputting the lens information accumulated in the database 22 according to predetermined conditions. Specifically, at the start of the information output phase S003, the user performs an input operation regarding lenses provided in the search device.
  • the lens included in the search device is a lens group consisting of a plurality of lenses.
  • the processor 11 of the information processing device 10 acquires input information indicating the content of the above input operation (S031). In this step S031, the processor 11 acquires, as input information, character information indicating the type of lens provided in the retrieval device, more specifically, character string information obtained by sequentially inputting the types of lenses in the lens group.
  • the processor 11 After obtaining the input information, the processor 11 compares the lens group of the target device whose lens information is stored in the database 22 with the lens group of the search device (S032). Specifically, the processor 11 determines the similarity between the character string information about the lens group of the search device indicated by the input information acquired in S031 and the character string information accumulated for each target image in the database 22. Calculate degrees. The calculated degree of similarity corresponds to the degree of similarity between the lens (lens group) of the search device and the lens (lens group) of the target device.
  • the Levenshtein distance method is used to evaluate the degree of similarity between character string information.
  • the algorithm for calculating the degree of similarity between character string information is not particularly limited, and may be, for example, the Gestalt pattern matching method, the Jaro-Winkler distance method, or other similarity degree calculation methods.
  • two types of similarity can be calculated.
  • the character string information about the lens group of the search device acquired as the input information and the character string about the lens group of the target device accumulated in the database 22 are used. Use information. Based on these character string information, a first degree of similarity between the lens group of the search device and the lens group of the target device is calculated.
  • Character string information A NNNOTNTTOTNTOT
  • Character string information B NNNOTNOOOTNTOT
  • the second similarity that corresponds to the other of the two types of similarity
  • one of the characters in the character string information indicated by the input information for example, one character is changed to blank (blank).
  • the second degree of similarity is calculated based on the changed character string information and the character string information indicated by the lens information accumulated in the database 22 . In other words, based on the character string information obtained as input information in which part of the characters are blanked for the lens group of the device to be searched and the character string information about the lens group of the target device accumulated in the database 22, the search device and the lens group of the target device.
  • the second degree of similarity is calculated by the Levenshtein distance method. Specifically, the number of times characters are deleted and added (score ) is evaluated, and the number of evaluations is taken as the degree of similarity. Also, when comparing character string information, it is not determined whether or not the characters match with respect to the portions changed to blanks. In other words, the second degree of similarity is calculated by comparing the characters of the character string information excluding the blanks. For example, taking the above-mentioned two character string information A and B as an example, if the seventh character of the character string information A is blanked, the score becomes 2, and this score is used as the second similarity. degree. Character string information A: NNNOTN_TOTNTOT Character string information B: NNNOTNOOOTNTOT
  • the portions to be changed to blanks in the character string information indicated by the input information are sequentially changed, and the score is calculated for each changed character string information.
  • An average value may be calculated as the second degree of similarity.
  • the character string Even if an error or detection omission occurs when each lens in the lens group appearing in the target image is identified by the identification model M1, the character string The degree of similarity between information can be calculated appropriately.
  • the character string information is compared between the lens group of the search device and the lens group of the target device, and the degree of similarity is evaluated as the comparison result.
  • the degree of similarity may be evaluated by clustering the character string information accumulated in the database 22 and specifying the cluster to which the character string information about the input lens group of the search device belongs.
  • the processor 11 associates the information about the lens of the target device accumulated in the database 22, more specifically, the character string information about the lens group of the target device with the search device based on the above input information. and output (S033).
  • “Outputting information (eg, character string information) about the lens of the target device in association with the searched device” means that information (eg, character string information) about the lens group of the target device accumulated in the database 22 is retrieved. This means that the relationship between the lens of the device and the lens of the target device (specifically, the degree of similarity between the lens groups) is output in a recognizable manner.
  • step S033 the processor 11 outputs the information about the lens of the target device accumulated in the database 22 in association with the calculated similarity. Specifically, one or both of the first similarity and the second similarity output in association with More specifically, for example, only character string information with the highest first similarity or second similarity is extracted and output from the character string information about the lens group of the target device accumulated in the database 22. good too.
  • character string information whose first similarity or second similarity exceeds a preset reference value is extracted, and the extracted character string information is output.
  • M pieces M is a natural number of 2 or more
  • the extracted M pieces of character string information are output.
  • all the character string information about the lens group of the target device accumulated in the database 22 may be arranged in descending order of first similarity or second similarity (or lowest) and output.
  • the character string information extracted based on both the first degree of similarity and the second degree of similarity may be output.
  • the average value of the first similarity and the second similarity is obtained, and the character string information with the highest average value or the M character string information extracted in order from the highest average value are output.
  • all character string information may be output in order of average value.
  • the average value may be a simple average value of the first similarity and the second similarity.
  • each of the first similarity and the second similarity may be multiplied by a weight (coefficient) to calculate an average value. In that case, the weight by which the first degree of similarity is multiplied may be made larger than the weight by which the second degree of similarity is multiplied, or conversely, it may be made smaller.
  • the mode of outputting the lens information (specifically, the character string information about the lens group) in association with the degree of similarity is not particularly limited as long as the lens group more similar to the lens group included in the search device can be recognized. .
  • the character string information is output, for example, a document in which the lens cross-sectional image (i.e., target image) of the lens group indicated by the character string information is published, specifically, the identification number of the patent publication, etc., is also output. (See Figure 9). As a result, it is possible to find patent publications in which lens cross-sectional images of lens groups similar to the lens group of the search device whose character string information is input by the user are published.
  • the information processing apparatus 10 of the present embodiment uses the identification model M1 constructed by machine learning to identify the lens based on the feature amount of the lens existence area in the target image showing the cross section of the part including the lens in the target device. can be identified. Further, the information processing apparatus 10 of the present embodiment builds the database 22 by storing information (lens information) related to the lens of the identified target device in association with information of the document in which the target image is posted. Information such as lens information and documents stored in the database 22 is used in a searchable state.
  • the correspondence relationship between the feature amount of the lens appearing in the image and the lens type was ruled, and the lens in the image was identified according to the rule.
  • the drawing style of the lens is different from the normal style, there is a possibility that the lens drawn in the unusual style cannot be identified unless an identification rule corresponding to the drawing style is prepared. was there. In that case, the identification result of the lens cannot be obtained, and it becomes difficult to use the lens information obtained from the identification result.
  • the identification model M1 which is the result of machine learning, can be used to satisfactorily identify the lens existing in the existing area based on the feature amount of the existing area in the target image. . That is, in the present embodiment, even if the drawing style is changed, it is possible to identify the feature amount of the existing area of the lens drawn in the drawing style, and if the feature amount can be identified, the lens can be identified from the feature amount. can.
  • the lens information related to the identified lens is accumulated for each target image and made into a database, so that the lens information can be used in a searchable manner thereafter.
  • the lens information is associated with the information of the document in which the target image is posted.
  • the target document can be found using the lens information as key information. For example, it is possible to find documents in which lens cross-sectional images of lens groups that are the same as or similar to the lens group provided in the search device are posted.
  • a computer that constitutes an information processing device may be a server used for ASP (Application Service Provider), SaaS (Software as a Service), PaaS (Platform as a Service), or IaaS (Infrastructure as a Service).
  • ASP Application Service Provider
  • SaaS Software as a Service
  • PaaS PaaS
  • IaaS Ifrastructure as a Service
  • a user who uses a service such as the ASP or the like operates a terminal (not shown) to transmit input information regarding a search device to the server.
  • the server Upon receiving the input information, the server outputs the lens information accumulated in the database 22 to the user's terminal based on the input information.
  • the information sent from the server is displayed or played back.
  • machine learning for constructing various models is performed by the information processing device 10, but it is not limited to this.
  • a part or all of the machine learning may be performed by another device (computer) different from the information processing device 10 .
  • the information processing device 10 acquires a model constructed by machine learning performed by another device.
  • the information processing device 10 acquires the identification model M1 from the other device, and uses the obtained identification model M1 to identify lenses appearing in the target image. become.
  • the input information acquired in the information output phase S003 is character string information indicating the type of each lens in the lens group included in the search device. Further, in the above-described embodiment, by comparing the input character string information with the character string information on the lens group of the target device accumulated in the database 22, the degree of similarity between the search device and the target device is calculated. was calculated.
  • the input information is not limited to this, and for example, the input information may be a cross-sectional image of a lens group included in the search device. In this case, each lens in the lens group provided in the search device is identified from the lens cross-sectional image, which is the input information, and character string information about the lens group is generated based on the identification result.
  • the identification model M1 constructed by the first machine learning may be diverted, and in that case, transfer learning may be further performed.
  • the similarity calculation model may be a model that highly evaluates the similarity between two lens cross-sectional images (same type lens cross-sectional images) obtained by drawing the same type of lens in different drawing styles. Specifically, the same label (correct label) is assigned to a plurality of lens cross-sectional images of the same type, and machine learning is performed using the labeled image data to construct a similarity calculation model.
  • the detection model constructed by machine learning is used to automatically detect the existence area of the lens in the target image, but it is not limited to this.
  • the target image is displayed on the screen, and the user designates the existence area of the lens through the screen (for example, surrounds it with a bounding box, inputs the coordinates of each vertex of the existence area, etc.), and based on the operation, may be used to detect the presence area.
  • one lens exists in one existence area in the target image, and one lens existing in one existence area is identified by the identification model M1.
  • the identification model M1 is used to determine whether or not a plurality of lenses exist in the existence region based on the feature amount of one existence region, and if a plurality of lenses exist, the combination of the lenses is determined. should be identified.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

レンズの断面を示す画像からレンズを適切に識別することが可能な情報処理装置、情報処理方法及びプログラムを提供することを目的とする。 本発明において、プロセッサが、レンズを備えた対象機器におけるレンズを含む部分の断面を示す対象画像中、レンズの存在領域を検出し、プロセッサが、レンズの断面を示す複数の学習用画像を用いた機械学習によって構築された識別モデルにより、存在領域の特徴量に基づいて、存在領域に存在する前記対象機器のレンズを識別する。

Description

情報処理装置、情報処理方法及びプログラム
 本発明は、情報処理装置、情報処理方法及びプログラムに係り、特に、機器内に備えられたレンズの断面を示す画像からレンズを識別する情報処理装置、情報処理方法、及びプログラムに関する。
 カメラ等の機器内に備えられたレンズに関する情報は、多岐の目的で利用され、例えば、蓄積されてデータベースを構築するために利用される場合がある(例えば、特許文献1参照)。
 特許文献1では、レンズ情報がデータベースに蓄積されている。また、特許文献1では、カメラによってレンズユニットの対物側の部分が撮影され、その撮影画像に基づいて、データベース中のレンズ情報が検索される。そして、検索によって見つけられたレンズ情報がカメラに送信される。
特開2016-178704号公報
 特許文献1においてレンズ情報のデータベースを構築する等、レンズに関する情報を利用する前提として、レンズ情報を取得することが必要である。レンズ情報を取得する方法の一例としては、書類及び公報等の文書の中から、機器内に備えられたレンズの断面を示す画像を見つけ、その画像からレンズを識別し、その識別結果をレンズ情報として取得することが挙げられる。
 しかしながら、同じ種類のレンズの断面を示す画像であっても、解像度等の画質の違いによって画像の見え方及び特徴等が相違する場合がある。また、レンズの画像が図面(イラスト)である場合には、描画線の太さ又は描き方等に応じて画像が変わり得る。
 ここで、画質を含む描画様式について様々なケースを想定し、レンズ断面画像からレンズを識別するためのルールを様式毎に用意しておけば、描画様式の違いにも対応することができる。ただし、その場合には、数多くの識別ルールを用意する等の手間を要する。また、識別ルールが用意されていない描画様式にて描画された画像については、その画像に現れるレンズを識別することが困難である。
 一方、画像から識別されたレンズに関する情報を蓄積しておけば、その後に当該情報を参照することができ、例えばレンズの照合に用いる等、蓄積された情報を有効利用することができる。
 本発明は、上記の事情に鑑みてなされたものであり、レンズの断面を示す画像からレンズを適切に識別することが可能な情報処理装置、情報処理方法及びプログラムを提供することを目的とする。
 また、本発明の他の目的は、画像から識別されたレンズに関する情報を有効利用することである。
 上記の目的を達成するために、本発明の情報処理装置は、プロセッサを備える情報処理装置であって、プロセッサは、レンズを備えた対象機器におけるレンズを含む部分の断面を示す対象画像中、レンズの存在領域を検出し、レンズの断面を示す複数の学習用画像を用いた機械学習によって構築された識別モデルにより、存在領域の特徴量に基づいて、存在領域に存在する対象機器のレンズを識別することを特徴とする。
 また、識別モデルは、描画様式が異なる同種のレンズの断面を示す2以上の同種レンズ断面画像を含む複数の学習用画像を用いた機械学習によって構成され、2以上の同種レンズ断面画像の各々が示すレンズを同種のレンズとして識別するモデルであってもよい。
 また、本発明の情報処理装置において、プロセッサは、識別された対象機器のレンズに関する情報を蓄積して情報のデータベースを構築するとよい。
 さらに、プロセッサは、検索機器が備えるレンズに関する入力情報を取得し、データベースに蓄積された対象機器のレンズに関する情報を、入力情報に基づき、検索機器と対応付けて出力すると、好適である。
 さらにまた、プロセッサは、検索機器がレンズに関する入力情報を取得し、入力情報と、データベースに蓄積された対象機器のレンズに関する情報とに基づき、検索機器のレンズと対象機器のレンズとの間の類似度を算出し、データベースに蓄積された対象機器のレンズに関する情報を、類似度と関連付けて出力すると、より好適である。
 また、プロセッサは、列をなして並ぶレンズ群を備えた対象機器においてレンズ群を含む部分の断面を示す対象画像中、存在領域をレンズ毎に検出してもよい。この場合において、プロセッサは、識別モデルにより、存在領域に存在するレンズ群中のレンズを、存在領域毎に識別し、存在領域毎に識別されたレンズ群中のレンズに関する情報を、レンズ群を一単位として集約してデータベースに蓄積するとよい。
 また、上記の構成において、プロセッサは、存在領域毎に識別されたレンズ群中のレンズの種類を存在領域毎に特定してもよい。その上で、プロセッサは、存在領域毎に特定されたレンズ群中のレンズの種類と、対象画像における存在領域の位置とに基づき、レンズ群において各レンズが並ぶ順序にて各レンズの種類を表した文字列情報を生成し、生成された文字列情報をデータベースに蓄積するとよい。
 また、対象画像中に複数のレンズ群が示されている場合に、プロセッサは、文字列情報をレンズ群毎に生成し、レンズ群毎に生成された文字列情報を、レンズ群毎にデータベースに蓄積してもよい。
 また、プロセッサは、検索機器がレンズに関する入力情報を取得し、検索機器がレンズ群を備える場合において、検索機器のレンズ群において各レンズが並ぶ順序にて各レンズの種類を表した文字列情報を、入力情報として取得してもよい。この場合、プロセッサは、取得した検索機器のレンズ群についての文字列情報と、データベースに蓄積された対象機器のレンズ群についての文字列情報とに基づき、検索機器のレンズ群と対象機器のレンズ群との間の第1類似度を算出するとよい。その上で、プロセッサは、データベースに蓄積された対象機器のレンズ群についての文字列情報を、第1類似度と関連付けて出力するとよい。
 また、プロセッサは、検索機器がレンズに関する入力情報を取得し、検索機器がレンズ群を備える場合において、検索機器のレンズ群において各レンズが並ぶ順序にて各レンズの種類を表した文字列情報を、入力情報として取得してもよい。この場合、プロセッサは、取得した検索機器のレンズ群についての文字列情報中、いずれかの文字をブランクに変更してもよい。そして、プロセッサは、検索機器のレンズ群についての変更後の文字列情報と、データベースに蓄積された対象機器のレンズ群についての文字列情報とに基づき、検索機器のレンズ群と対象機器のレンズ群との間の第2類似度を算出するとよい。その上で、プロセッサは、データベースに蓄積された対象機器のレンズ群についての文字列情報を、第2類似度と関連付けて出力するとよい。
 また、プロセッサは、データベースにおいて、識別された対象機器のレンズに関する情報を、対象画像を含む文書に関する情報と関連付けて蓄積してもよい。
 また、プロセッサは、オブジェクト検出アルゴリズムを利用して対象画像からレンズの存在領域を検出してもよい。
 また、前述した目的は、プロセッサにより、レンズを備えた対象機器におけるレンズを含む部分の断面を示す対象画像中、レンズの存在領域を検出するステップと、プロセッサにより、レンズの断面を示す複数の学習用画像を用いた機械学習によって構築された識別モデルにより、存在領域の特徴量に基づいて、存在領域に存在する対象機器のレンズを識別するステップと、を含む情報処理方法によって達成し得る。
 また、上記の情報処理方法は、プロセッサにより、識別された対象機器のレンズに関する情報を蓄積して情報のデータベースを構築するステップを更に含んでもよい。
 また、本発明によれば、上記の情報処理方法の各ステップをプロセッサに実施させるプログラムが実現可能である。
 本発明によれば、画像の描画様式にかかわらず、レンズの断面を示す画像から、その画像に現れるレンズを適切に識別することができる。また、画像から識別されたレンズに関する情報を有効に利用することができる。
対象画像の一例を示す図である。 レンズ情報のデータベースの構造例を示す図である。 識別モデルの概念図である。 対象画像におけるレンズの存在領域が検出された結果の一例を示す図である。 本発明の一つの実施形態に係る情報処理装置の構成を示す図である。 本発明の一つの実施形態に係る情報処理装置を用いた情報処理フローの流れを示す図である。 レンズ群についての文字列情報を示す図である。 画像中に二つのレンズ群が示されている例を示す図である。 情報出力処理の実行結果を示す画面例の図である。
 本発明の一実施形態(以下、「本実施形態」と言う。)に係る情報処理装置、情報処理方法及びプログラムについて、以下、添付の図面を参照しながら説明する。
 なお、以下の実施形態は、本発明を分かり易く説明する目的で挙げた一例にすぎず、本発明を限定するものではない。すなわち、本発明は、下記の実施形態に限られず、本発明の主旨を逸脱しない範囲において種々の改良又は変更され得る。また、本発明には、その等価物が含まれる。
 また、以降の説明において、特に断る場合を除き、「画像」は、電子化(データ化)されてコンピュータによって処理可能な画像データであることとする。また、画像には、カメラ等で撮影された画像、図面作成ソフト等によって描画された図面(イラスト)、及び、手描き又は印刷された図面をスキャナ等によって読み取って取得される図面データ等が含まれる。
 <本実施形態の情報処理装置の概要>
 本実施形態の情報処理装置(以下、単に情報処理装置という)は、プロセッサを備え、対象機器の対象画像を解析する。対象機器は、一つ又は複数のレンズを搭載した光学機器であり、例えばカメラ等の撮影機器、カメラ用ファインダ等の観察機器、並びに、携帯電話及びスマートフォンのような撮影機能を搭載した端末等が該当する。
 対象画像は、図1に示すように、対象機器のうち、少なくともレンズを含む部分の断面を示す画像(以下、レンズ断面画像)である。例えば、対象機器が撮像レンズを有するデジタルカメラである場合、撮像レンズの断面画像が対象画像に該当する。対象機器が単一のレンズを備える場合には、当該レンズが現れるレンズ断面画像を対象画像として取り扱う。他方、対象機器が複数のレンズからなるレンズ群を備える場合には、当該レンズ群全体が現れるレンズ断面画像を対象画像として取り扱う。レンズ群は、図1に示すように、列をなして一直線上に並ぶ複数のレンズのことである。
 また、対象画像は、例えば論文、特許公報、雑誌及びホームページ等の文書中に掲載又は挿入された画像を含む。以下では、特許公報に掲載されたレンズ断面画像を対象画像として取り扱うケースを例に挙げて説明することとする。なお、当然ながら、以下の内容は、特許公報以外の文書にも適用し得る。
 情報処理装置は、特許公報中の対象画像を解析し、その解析結果から、対象画像に現れる対象機器のレンズを識別する。具体的には、情報処理装置は、後述する識別モデルにより、対象画像に現れる対象機器のレンズを識別し、詳しくは、識別されたレンズについて種類及び対象画像における位置を特定する。対象画像における位置とは、対象画像中に設定された基準点を原点としたときの座標(厳密には、二次元座標)のことである。
 ここで、対象画像に単一のレンズが現れる場合には、そのレンズの種類及び対象画像における位置を特定する。他方、対象画像にレンズ群が現れる場合には、レンズ群中の各レンズの種類及び対象画像における位置を特定するとともに、各レンズの順序、つまりレンズ群の各箇所にどの種類のレンズが配置されているのかを特定する。
 なお、以下では、対象機器のレンズが球面レンズであり、その種類が4種類であり、具体的には、凸レンズ、凹レンズ、凸メニスカスレンズ、凹メニスカスレンズであることとする。ただし、レンズの種類については、上記の4種類に限定されるものではなく、上記以外の種類(例えば、非球面レンズ等)が含まれてもよい。
 本実施形態では、種類が特定された対象機器のレンズに対して文字情報(具体的には符号)が付与される。具体的には、例えば、凸レンズには「T」を付与し、凹レンズには「O」を付与し、凸メニスカスレンズには「P」を付与し、凹メニスカスレンズには「N」を付与する。なお、各種類のレンズに対して付与する文字については、特に限定されるものではない。
 他方、レンズ群に対しては、レンズ群における各レンズの順序に従って上記符号を並べた文字列情報が付与される。文字列情報は、レンズ群において各レンズが並ぶ順序にて各レンズの種類を表したものである。例えば、3つのレンズからなり、先頭から凸レンズ、凹レンズ及び凹メニスカスレンズの順に並べられたレンズ群には、文字列情報「TON」が付与される。
 レンズ群についての文字列情報は、レンズ群中の各レンズの種類及び位置(座標)に基づいて生成される。例えば、基準位置に最も近い位置にあるレンズから順に、各レンズの種類を示す文字情報(符号)を配置することによって文字列情報が生成される。
 また、情報処理装置は、対象画像毎に識別された対象機器のレンズ又はレンズ群に関する情報、具体的には、レンズの種類を示す文字情報又はレンズ群についての文字列情報等を蓄積してデータベースを構築する。
 データベースにおいて、対象機器のレンズ又はレンズ群に関する情報(以下、レンズ情報ともいう)は、図2に示すように、そのレンズ又はレンズ群が現れた対象画像に関連付けられる。詳しく説明すると、レンズ情報は、対象画像を含む文書に関する情報、具体的には、対象画像が掲載された特許公報の識別番号、及び、特許公報において対象画像に割り当てられた図番等と紐付けられてデータベースに蓄積される。
 さらに、情報処理装置は、データベースの中から、所定の条件を満たすレンズ情報を読み出して出力する。これにより、例えば、検索機器が備えるレンズに関する情報をキー情報として、データベースの中から、検索機器と同一又は類似する対象機器のレンズに関する情報を入手することができる。
 本実施形態において、「検索」とは、データベースに蓄積されたレンズ情報の中から、検索機器と対応する情報を抽出し、あるいは検索機器との関係又は関連性に基づいて情報を特定することである。検索機器とは、情報処理装置の利用者(ユーザ)が検索対象として選んだ機器であり、対象機器と同様にレンズ又はレンズ群を備える。
 なお、レンズ情報の出力様式は、特に限定されず、レンズ情報を画面に表示させてもよく、あるいは、レンズ情報の内容を示す音声を発生(再生)させてもよい。レンズ情報が出力される対象機器の選び方も、特に限定されず、例えば、検索機器との類似度(類似度については後述する)が基準値以上である対象機器のレンズに関する情報を出力してもよい。あるいは、類似度が高い方から上位N番目(Nは1以上の自然数)までの対象機器のレンズに関する情報のみを出力してもよい。あるいは、類似度が高い方から順に、すべての対象機器についてレンズ情報を出力してもよい。
 さらにまた、検索されたレンズ情報と関連付けられた特許公報を特定することにより、検索機器が備えるレンズ又はレンズ群と同一又は類似する種類のレンズ又はレンズ群を示すレンズ断面画像が掲載された特許公報を見つけることができる。
 以上のように、本実施形態では、特許公報等の文書中に含まれるレンズ断面画像から、その画像に現れるレンズを識別し、そのレンズに関する情報をデータベース化することができる。そして、データベースを利用することで、所定の条件を満たすレンズを特定し、そのレンズを示すレンズ断面画像が掲載された文書を見つけることができる。
 <識別モデルについて>
 本実施形態で用いられる識別モデル(以下、識別モデルM1という)について、図3を参照しながら説明する。識別モデルM1は、対象画像から、その画像に現れるレンズ又はレンズ群を識別するためのモデルである。本実施形態の識別モデルM1は、図3に示すように、導出モデルMaと、特定モデルMbとによって構成される。
 導出モデルMaは、対象画像が入力されることで、対象画像中の存在領域の特徴量を導出するモデルである。存在領域は、図4に示すように、対象画像においてレンズが存在している矩形状領域であり、本実施形態では、一つの存在領域に一つのレンズ(詳しくは、レンズ断面のイメージ)が存在する。レンズ群を示す対象画像では、図4に示すように、レンズ群を構成するレンズの数と同数の存在領域が存在することになる。
 導出モデルMaは、例えば、中間層に畳み込み層及びプーリング層を有する畳み込みニューラルネットワーク(CNN)によって構成される。CNNのモデルとしては、例えば、Oxford visual geometry groupの16層CNN(VGG16)、Google社のInceptionモデル(GoogLeNet)、Kaiming He氏の152層CNN(Resnet)、及び、Chollet氏の改良Iceptionモデル(Xception)等が挙げられる。
 導出モデルMaにより、存在領域の特徴量を導出するにあたり、対象画像の中で存在領域が特定される。具体的には、一つのレンズ断面のイメージを、対象画像においてレンズ毎に検出し、検出されたイメージを取り囲む矩形領域を、対象画像においてレンズ毎に設定する。なお、対象画像において存在領域を特定する機能は、後述する機械学習によって導出モデルMaに搭載される。
 導出モデルMaから出力される特徴量は、畳み込みニューラルネットCNNにおける学習的特徴量であり、一般的な画像認識(パターン認識)の過程で特定される特徴量である。そして、導出モデルMaにて導出された特徴量は、領域毎に特定モデルMbに入力される。
 特定モデルMbは、導出モデルMaにて導出された存在領域の特徴量が入力されることで、その特徴量と対応するレンズ種類、及び、存在領域の幾何学的情報を特定するモデルである。存在領域の幾何学的情報は、対象画像における存在領域の位置、例えば、存在領域中の一つの頂点の座標(xy座標)、存在領域の幅(x方向の長さ)、及び存在領域の高さ(y方向の長さ)等を含む。
 本実施形態において、特定モデルMbは、例えば、ニューラルネットワーク(NN)によって構成され、存在領域の特徴量と対応するレンズ種類を特定するにあたり、複数の候補(レンズ種類の候補)を特定する。特定される複数の候補にはソフトマックス関数(softmax)が適用され、各候補に対して確信度が算出される。確信度とは、複数の候補の各々について、存在領域に存在するレンズの種類に該当する確率(確からしさ、予測精度)を示す数値である。ソフトマックス関数を適用したn個(nは自然数)の確信度の総和は、1.0になる。
 特定モデルMbは、一つの存在領域にあたりに複数特定される候補のうち、確信度に応じて決められる候補、例えば、確信度が最も高い候補を、存在領域に存在するレンズの種類として特定する。以上のように、特定モデルMbによると、対象画像に現れるレンズの種類が、そのレンズの存在領域の特徴量に基づいて特定される複数の候補の中から、各候補の確信度に応じて選ばれる。なお、レンズの種類として選ばれた候補を出力する際には、その候補の確信度を併せて出力してもよい。
 以上までに説明してきた識別モデルM1によれば、対象画像中の存在領域の特徴量に基づいて、存在領域に存在するレンズを識別することができる。
 識別モデルM1(詳しくは、識別モデルM1を構成する2つのモデルMa、Mbの各々)は、レンズの断面を示す複数の学習用画像と、そのレンズの種類を示す正解ラベルとを学習データセットとして用いた機械学習によって構築される。本実施形態において、学習用画像が示すレンズ断面は、4種類の球面レンズのいずれかの断面である。一方で、対象機器のレンズに非球面レンズが含まれる場合には、非球面レンズの断面を示す学習用画像を加えて機械学習を実施し、非球面レンズを識別可能な識別モデルを構築してもよい。ただし、対象機器のレンズに非球面レンズが含まれる場合であっても、非球面レンズを検出しないような識別モデルを構築してもよい。あるいは、非球面レンズを4種類の球面レンズのうち、形状が最も近いものに置き換えて検出するような識別モデルを構築してもよい。
 なお、機械学習に用いられる学習データセットの数については、学習の精度を向上させる観点では多い方がよく、好ましくは5万個以上とするのがよい。
 学習用画像として利用されるレンズ断面画像については、正位置の画像、正位置から90度、180度及び270度回転させた画像をそれぞれ用意し、これら4種類の画像を学習用画像に含めてもよい。
 学習用画像は、無作為に抽出されたレンズ断面画像であってもよい。あるいは、一定の条件の下で選定されたレンズ断面画像を学習用画像として用いてもよい。
 識別モデルM1の構築のために実施される機械学習は、例えば、教師あり学習であり、その手法は深層学習(つまり、多層のニューラルネットワーク)である。ただし、これに限定されるものではなく、機械学習の種類(アルゴリズム)は、教師無し学習、半教師あり学習、強化学習、又はトランスダクションであってもよい。機械学習の技法は、遺伝的プログラミング、帰納論理プログラミング、ボルツマンマシン、マトリクス・ファクトーリゼーション(MF)、ファクトーリゼーション・マシン(FM)、サポートベクタマシン、クラスタリング、ベイジアンネットワーク、エクストリーム・ラーニング・マシン(ELM)、又は決定木学習であってもよい。ニューラルネットワークの機械学習において目的関数(損失関数)を最小化する方法については、勾配降下法又は誤差逆伝播法等を用いてもよい。
 また、本実施形態の機械学習では、描画様式が異なる同種のレンズの断面を示す2以上のレンズ断面画像(以下、同種レンズ断面画像)を含む複数の学習用画像を用いられる場合がある。描画様式とは、レンズ断面が線画である場合には線の太さ、色、線種及び線の傾き度合い、湾曲部分の描き方(曲率等)、レンズの向き、レンズ各部の寸法、縮尺比率、中心線等の補助線の有無、レンズを通過する光の光路を示す線の有無、背景色、ハッチング様式、並びに符号等の添え字の有無等が挙げられる。また、例えばビットマップ形式等の画像データでレンズ断面画像が表される場合の解像度(画像を表現する格子の密度)も、描画様式に含まれる。
 上記のケースでは、2以上の同種レンズ断面画像から共通の特徴量を導出する識別モデルM1(厳密には、導出モデルMa)が構築されるように、機械学習を実施する。例えば、同じ種類のレンズについて描画様式が異なる複数の学習用画像の各々に対して、そのレンズの種類を示す正解ラベルを付けて教師あり学習を実施する。これにより、2以上の同種レンズ断面画像から共通の特徴量を導出し、同種レンズ断面画像の各々が示すレンズを同種のレンズとして識別することができる識別モデルM1が構築される。
 <本実施形態の情報処理装置の構成>
 次に、図5に示す情報処理装置10の構成例について説明する。なお、図5では、外部インタフェースを「外部I/F」と記載している。
 情報処理装置10は、図5に示されるように、プロセッサ11、メモリ12、外部インタフェース13、入力装置14、出力装置15、及びストレージ16が互いに電気的に接続されたコンピュータである。本実施形態では、情報処理装置10が一台のコンピュータによって構成されているが、複数台のコンピュータによって情報処理装置10が構成されてもよい。
 プロセッサ11は、後述のプログラム21を実行し、情報処理装置10の機能を発揮させるための処理を実施するように構成されている。なお、プロセッサ11は、例えば一つ又は複数のCPU(Central Processing Unit)、及び後述のプログラム21から構成される。
 プロセッサ11を構成するハードウェアプロセッサは、CPUに限定されず、FPGA(Field Programmable Gate Array)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、GPU(Graphics Processing Unit)又はその他のIC(Integrated Circuit)でもよく、あるいは、これらを組み合わせたものでもよい。また、プロセッサ11は、SoC(System on Chip)等に代表されるように、情報処理装置10全体の機能を発揮する一つのIC(Integrated Circuit)チップでもよい。
 また、本発明の情報処理装置が有する1つの処理部を、上述した各種のプロセッサのうちの1つによって構成してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ、例えば、複数のFPGAの組み合わせ、若しくは、FPGA及びCPUの組み合わせ等によって構成してもよい。
 また、本発明の情報処理装置が有する複数の機能を、各種のプロセッサのうちの1つによって構成してもよいし、複数の機能のうちの2以上をまとめて1つのプロセッサによって構成してもよい。
 また、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサによって複数の機能を実現させる形態でもよい。
 なお、上述したハードウェアプロセッサは、半導体素子などの回路素子を組み合わせた電気回路(Circuitry)であってもよい。
 メモリ12は、ROM(Read Only Memory)及びRAM(Random Access Memory)等の半導体メモリによって構成される。メモリ12は、プロセッサ11に作業領域を提供するとともに、プロセッサ11が実行する処理によって生成される各種データを一時的に記憶する。
 メモリ12には、コンピュータを本実施形態の情報処理装置10として機能させるためのプログラム21が記憶されている。プログラム21には、下記のプログラムp1~p5が含まれる。
 p1:機械学習によって識別モデルM1を構築するためのプログラム
 p2:対象画像におけるレンズの存在領域を検出するためのプログラム
 p3:検出された存在領域に存在するレンズを識別するためのプログラム
 p4:識別されたレンズに関する情報を蓄積してデータベースを構築するためのプログラム
 p5:データベースに蓄積されたレンズ情報を出力するためのプログラム
 なお、プログラム21は、コンピュータが読み取り可能な記録媒体から読み込むことで取得してもよく、あるいは、インターネット又はイントラネット等のネットワークを通じて受信(ダウンロード)することで取得してもよい。
 外部インタフェース13は、外部装置と接続するためのインタフェースである。情報処理装置10は、外部インタフェース13を介して外部装置、例えば、スキャナ又はインターネット上の他のコンピュータと通信する。このような通信を通じて、情報処理装置10は、機械学習用のデータを取得したり、対象画像が掲載された特許公報のデータを取得したりすることができる。
 入力装置14は、例えばマウス及びキーボード等からなり、ユーザの入力操作を受け付ける。情報処理装置10は、例えば、ユーザが入力装置14を通じてレンズ断面画像を描画等することで、機械学習に供ずる学習用画像を取得することができる。また、ユーザは、例えば、検索機器と同一又は類似する種類の対象機器のレンズに関する情報を検索する場合に、入力装置14を操作して検索機器が備えるレンズに関する情報を入力する。これにより、情報処理装置10は、検索機器が備えるレンズに関する入力情報を取得することができる。
 出力装置15は、例えばディスプレイ及びスピーカ等からなり、入力情報に基づく検索結果、例えば、検索機器と同一又は類似する種類の対象機器のレンズに関する情報を表示し、または音声再生するための装置である。また、出力装置15は、データベース22に蓄積されたレンズ情報を出力することができる。
 ストレージ16は、例えば、フラッシュメモリ、HDD(Hard Disc Drive)、SSD(Solid State Drive)、FD(Flexible Disc)、MOディスク(Magneto-Optical disc)、CD(Compact Disc)、DVD(Digital Versatile Disc)、SDカード(Secure Digital card)、及びUSBメモリ(Universal Serial Bus memory)等によって構成されている。ストレージ16には、機械学習用のデータを含む各種データが記憶される。さらに、ストレージ16には、識別モデルM1をはじめ、機械学習により構築される各種モデルも記憶される。
 さらにまた、ストレージ16には、対象画像から識別された対象機器のレンズに関する情報(レンズ情報)が、対象画像を含む文書に関する情報、詳しくは対象画像が掲載された特許公報の識別番号等と関連付けられて蓄積される。つまり、ストレージ16にはレンズ情報のデータベース22が構築される。
 図2に示すケースでは、レンズ情報に関連付けられる情報には、特許公報の識別情報に加え、その特許公報において対象画像に割り当てられた図番等が含まれる。なお、対象画像を含む文書が論文である場合には論文タイトル及び対象画像の掲載ページ等をレンズ情報と関連付ければよい。また、対象画像を含む文書が書籍である場合には、書籍の題号及び対象画像の掲載ページ等をレンズ情報と関連付ければよい。
 データベース22に蓄積されるレンズ情報は、図2に示すように、対象画像に現れるレンズの種類を示す文字情報を含む。特に、対象画像にレンズ群が現れる場合のレンズ情報は、レンズ群中の各レンズの種類をレンズの並び順に表した文字列情報を含む。また、図2に示すケースでは、レンズ群についての文字列情報として、レンズ群における一端から他端に向かう順序でレンズの種類を表したものと、他端から一端に向かう順序でレンズの種類を表したもの(以下、鏡像の文字列情報ともいう)とがデータベース22に蓄積される。これは、文字列情報を検索する際に、レンズ群中の各レンズの種類を順方向に並べた文字列情報と、その逆方向に並べた文字列情報(例えば、文字列NTOPとPOTN)とを両方検索できるようにするためである。ただし、これに限定されるものではなく、鏡像の文字列情報を蓄積せず、レンズ群中の各レンズの種類を一方向に並べた文字列情報のみを蓄積してもよい。その場合、検索時には、蓄積された文字列情報を、その順序を逆さに並べた文字列情報へと変換して検索できるようにしてもよい。
 なお、本実施形態では、ストレージ16が情報処理装置10に内蔵された機器であるが、これに限定されるものではなく、ストレージ16は、情報処理装置10に接続された外付け型の機器を含んでもよい。また、ストレージ16は、ネットワークを介して通信可能に接続された外部のコンピュータ(例えば、クラウドサービス用のサーバコンピュータ)を含んでもよい。この場合、上述のデータベース22の一部又は全部が、ストレージ16を構成する外部のコンピュータに記憶されてもよい。
 情報処理装置10のハードウェア構成については、上述の構成に限定されるものではなく、具体的な実施形態に応じて適宜、構成機器を追加、省略及び置換することが可能である。
 <情報処理フローについて>
 次に、情報処理装置10を用いた情報処理フローについて説明する。
 なお、以下に説明する情報処理フローでは、本発明の情報処理方法が採用されている。すなわち、下記の情報処理フロー中の各ステップは、本発明の情報処理方法を構成するものであり、情報処理装置10を構成するコンピュータのプロセッサ11により実施される。具体的には、プロセッサ11がプログラム21を実行することで情報処理フロー中の各ステップが実施される。
 本実施形態の情報処理フローは、図6に示すように、学習フェーズS001、データベース構築フェーズS002、及び情報出力フェーズS003の順に進む。以下、各フェーズについて説明する。
 [学習フェーズ]
 学習フェーズS001は、以降のフェーズで必要となるモデルを構築するために機械学習を実施するフェーズである。学習フェーズS001では、図6に示すように、第1の機械学習S011、及び第2の機械学習S012が実施される。
 第1の機械学習S011は、識別モデルM1を構築するための機械学習であり、前述のように、レンズ断面を示す複数の学習用画像を用いて実施される。本実施形態では、第1の機械学習S011として教師あり学習が実施される。教師あり学習では、1つのレンズ断面を表す学習用画像と、その学習用画像に現れるレンズの種類を示す正解ラベルとを学習データセットとして用いる。
 また、第1の機械学習S011では、前述したように、描画様式が異なる同種のレンズの断面を示す2以上の同種レンズ断面画像を含む複数の学習用画像が用いられる場合がある。この場合には、2以上の同種レンズ断面画像からは共通の特徴量を導出するように識別モデルM1(厳密には、導出モデルMa)が構築される。
 第2の機械学習S012は、対象画像におけるレンズの存在領域を検出する検出モデルを構築するための機械学習である。検出モデルは、オブジェクト検出アルゴリズムを利用して対象画像から存在領域を検出するためのモデルである。
 オブジェクト検出アルゴリズムとしては、R-CNN(Region-based CNN)、Fast R-CNN、YOLO(You only Look Once)、及びSDD(Single Shot Multibox Detector)が利用可能である。本実施形態では、検出速度の観点からYOLOを利用した画像検出モデルを構築する。なお、YOLOとしては、Yolo‐v(version)3、及びYolo‐v4が利用可能である。
 第2の機械学習S012に用いる学習用データ(教師データ)は、学習用画像に対してアノテーションツールを適用することによって作成される。アノテーションツールは、対象となるデータに対して正解ラベル(タグ)、及び対象物の座標等の関連情報を注釈として付与するツールである。アノテーションツールとしては、例えば、tzutalin社のlabeImg、及び、microsoft社のVoTT等が利用可能である。
 第2の機械学習S012に用いる学習用データを作成するには、例えば、学習用画像として、一つのレンズ又はレンズ群の断面を示す画像を用意する。具体的には、レンズ断面画像が掲載された特許公報からレンズ断面画像を抽出する。そして、アノテーションツールを起動して上記の学習用画像を表示し、レンズが存在する領域をバウンディングボックスによって囲み、その領域に対してアノテーション(ラベリング)を行うことで学習用データが作成される。
 また、学習用データの作成方法は、上記の方法以外の方法でもよく、例えば、レンズ画像生成プログラムによって学習用画像を用意してもよい。レンズ画像生成プログラムは、球面レンズの種類を指定し、レンズ各部のパラメータ(例えば、湾曲部分の曲率半径及び中央部分の厚み等)を設定することで自動的にレンズ断面画像を描画するプログラムである。レンズ画像生成プログラムにより、各種類の球面レンズについて各パラメータをランダムに設定することで、各種類のレンズ断面画像を多量に取得することができる。取得されたレンズ断面画像は、画像作成時に指定されたレンズの種類と共に学習用データとして利用される。
 上記の学習用データを用いて第2の機械学習S012を行うことにより、YOLO形式の物体検出モデルである検出モデルが構築される。
 [データベース構築フェーズ]
 データベース構築フェーズS002は、特許公報に掲載された対象画像に現れるレンズ又はレンズ群を識別し、識別されたレンズ又はレンズ群に関する情報(レンズ情報)を蓄積してデータベース22を構築するフェーズである。
 データベース構築フェーズS002では、先ず、情報処理装置10のプロセッサ11が、特許公報から対象画像を抽出し、抽出された対象画像に対して前述の検出モデルを適用して、対象画像における存在領域を検出する(S021)。つまり、本ステップS021において、プロセッサ11は、オブジェクト検出アルゴリズム(具体的には、YOLO)を利用して、対象画像におけるレンズの存在領域を検出する。
 この際、レンズ群を含む部分の断面を示す対象画像等のように、対象画像中に複数のレンズ断面のイメージが含まれている場合には、プロセッサ11が対象画像中、存在領域をレンズ毎に検出する(図4参照)。
 次に、プロセッサ11は、識別モデルM1により、存在領域の特徴量に基づき、存在領域に存在するレンズを識別する(S022)。具体的に説明すると、プロセッサ11は、ステップS021で検出された存在領域の画像片を識別モデルM1に入力する。識別モデルM1中、前段の導出モデルMaでは、存在領域の特徴量が導出される。
 後段の特定モデルMbでは、導出モデルMaから入力された存在領域の特徴量に基づき、存在領域に存在するレンズの種類、及び存在領域の幾何学的情報が特定される。このとき、存在領域の特徴量に基づいて、レンズ種類の候補が複数特定され、それぞれの候補について確信度が算出される。特定モデルMbでは、例えば、確信度が最も高い候補を、存在領域に存在するレンズの種類として特定する。ただし、これに限定されるものではなく、例えば、確信度が所定の条件を満たす候補すべてを、存在領域に存在するレンズの種類として特定してもよい。
 ステップS021にて複数の存在領域を検出した場合、識別モデルM1を用いたレンズ識別処理(すなわち、ステップS022)が存在領域毎に繰り返し実行される。これにより、レンズ群を含む部分の断面を示す対象画像については、レンズ群中の各レンズを存在領域毎に識別することができる。つまり、対象画像に含まれる複数の存在領域の各々について、存在領域に存在するレンズの種類の候補、候補の確信度、及び、存在領域の幾何学的情報(対象画像における位置)が領域毎に特定される。
 また、レンズ群中の各レンズを存在領域毎に識別した場合、プロセッサ11は、存在領域毎に識別されたレンズ群中の各レンズに関する情報を、レンズ群を一単位として集約する。具体的に説明すると、プロセッサ11は、存在領域毎に特定されたレンズ群中の各レンズの種類、及び存在領域位置(座標)に基づいて、レンズ群についての情報、例えば文字列情報を生成する。
 文字列情報の生成手順について一例を挙げて説明すると、プロセッサ11は、対象画像における複数の存在領域の各々について、x座標又はy座標の中央位置を算出する。ここで、算出した中央位置が近い存在領域が2以上存在する場合には、当該2以上の存在領域の各々に存在するレンズは、同一のレンズ群に属するものと考えられる。そして、同一のレンズ群に属する2以上のレンズについて、レンズの種類を示す文字情報(符号)を、基準位置に最も近い位置にあるレンズから順に配置する。このような手順により、図7に示すような文字列情報が得られる。このとき、逆の順序となった鏡像の文字列情報を併せて生成してもよい。
 なお、図8に示すように、レンズ群の各レンズの動作又は状態遷移を図示する等の理由から、対象画像中に複数のレンズ群が示されている場合がある。この場合、上記の生成手順によれば、レンズ群毎に文字列情報を生成することができ、図8に示すケースでは、上側のレンズ群、及び、下側のレンズ群の各々について文字列情報を生成することができる。
 次に、プロセッサ11は、識別された対象機器のレンズに関する情報、具体的にはレンズの種類を示す文字情報をストレージ16に記憶させる(S023)。また、レンズ群を備える対象機器については、存在領域毎に識別されたレンズ群中の各レンズの種類を示す文字情報を、レンズ群を一単位として集約して文字列情報を生成し、生成された文字列情報をストレージ16に記憶させる(蓄積する)。
 なお、図8に示すケースのように、対象画像の中に複数のレンズ群が示される場合には、前述したようにレンズ群毎に文字列情報が生成される。その場合には、レンズ群毎に生成された文字列情報をレンズ群毎にストレージ16に記憶させる(蓄積する)。
 また、プロセッサ11は、文字情報又は文字列情報からなるレンズ情報を、対象画像を含む文書に関する情報(例えば、特許公報の識別情報等)と関連づけて記憶させる(蓄積する)。
 上述した一連のステップS021~S023は、対象画像を変えて、対象画像毎に繰り返し実施される。これにより、対象機器のレンズに関する情報(レンズ情報)が対象画像毎にストレージ16に記憶されて蓄積され、結果として、対象機器のレンズに関するレンズ情報のデータベース22が構築される。そして、データベース22によれば、レンズ情報が記憶された対象機器、対象機器のレンズを示す対象画像、及び、対象画像が掲載された特許公報が、レンズ情報をキーとして検索可能となる。
 [情報出力フェーズ]
 情報出力フェーズS003は、データベース22に蓄積されたレンズ情報を、所定の条件に従って出力するフェーズである。具体的には、情報出力フェーズS003の開始に際して、ユーザが、検索機器が備えるレンズに関する入力操作を行う。ここで、検索機器が備えるレンズは、複数のレンズからなるレンズ群であることとする。
 情報処理装置10のプロセッサ11は、上記の入力操作の内容を示す入力情報を取得する(S031)。本ステップS031において、プロセッサ11は、入力情報として、検索機器が備えるレンズの種類を示す文字情報、より詳しくは、レンズ群における各レンズの種類を順番に入力した文字列情報を取得する。
 入力情報の取得後、プロセッサ11は、データベース22にレンズ情報が記憶された対象機器のレンズ群と、検索機器が備えるレンズ群とを比較する(S032)。具体的に説明すると、プロセッサ11は、S031にて取得された入力情報が示す検索機器のレンズ群についての文字列情報と、データベース22に対象画像毎に蓄積された文字列情報との間の類似度を算出する。算出される類似度は、検索機器のレンズ(レンズ群)と対象機器のレンズ(レンズ群)との間の類似度に相当する。
 本実施形態では、レーベンシュタイン距離法を採用して文字列情報間の類似度を評価する。ただし、文字列情報間の類似度を算出するアルゴリズムは、特に限定されるものではなく、例えばゲシュタルトパターンマッチング法、ジャロ・ウィンクラー距離法、又はその他の類似度算出手法であってもよい。
 本実施形態では、二種類の類似度を算出することができる。そのうちの一つである第1類似度を算出する場合には、入力情報として取得された検索機器のレンズ群についての文字列情報と、データベース22に蓄積された対象機器のレンズ群についての文字列情報とを用いる。これらの文字列情報に基づき、検索機器のレンズ群と対象機器のレンズ群との間の第1類似度を算出する。
 第1類似度の算出例について、下記2つの文字列情報A,Bを例に挙げて説明する。
 文字列情報A:NNNOTNTTOTNTOT
 文字列情報B:NNNOTNOOOTNTOT
 第1類似度は、レーベンシュタイン距離法により算出され、同手法では、比較される2つの文字列情報を一致するまで、文字の削除及び追加を行った回数を評価し、その回数(スコア)を類似度とする。上記の文字列情報A,Bは、7番目の文字と8番目の文字が相違しているため、両文字列情報を一致させるには、文字の削除及び追加をそれぞれ2回ずつ行うことになる。したがって、上記2つの文字列情報A,Bの間の類似度、すなわち第1類似度は、4(=2+2)となる。なお、第1類似度が小さいほど、2つの文字列情報は類似していることになる。
 上記の第1類似度によれば、文字列情報同士をそのままの状態で比較するため、両文字列情報間の類似度を端的に(シンプルに)評価することができる。
 二種類の類似度のうち、もう一つに該当する第2類似度を算出する場合には、入力情報が示す文字列情報のいずれかの文字、例えば一文字をブランク(空欄)に変更する。第2類似度は、変更後の文字列情報と、データベース22に蓄積されたレンズ情報が示す文字列情報とに基づいて算出される。つまり、入力情報として取得された検索機器のレンズ群について一部の文字をブランクに変更した文字列情報と、データベース22に蓄積された対象機器のレンズ群についての文字列情報とに基づき、検索機器のレンズ群と対象機器のレンズ群との間の第2類似度を算出する。
 第2類似度は、第1類似度と同様、レーベンシュタイン距離法により算出され、具体的には、比較される2つの文字列情報を一致するまで、文字の削除及び追加を行った回数(スコア)を評価し、その回数を類似度とする。また、文字列情報同士を比較する際、ブランクに変更された箇所については、文字が一致するか否かの判断を行わない。換言すると、文字列情報のうち、ブランクを除いた部分の文字同士を比較することで第2類似度が算出される。例えば、上述した2つの文字列情報A,Bを例に挙げ、文字列情報Aの7番目の文字をブランクにした場合を例に挙げて説明すると、スコアが2となり、このスコアを第2類似度としてもよい。
 文字列情報A:NNNOTN_TOTNTOT
 文字列情報B:NNNOTNOOOTNTOT
 なお、第2類似度を算出する方法としては、入力情報が示す文字列情報の中でブランクに変更する箇所を順番に変えていき、それぞれの変更後の文字列情報についてスコアを算出し、その平均値を第2類似度として算出してもよい。
 上記の第2類似度によれば、対象画像に現れるレンズ群中の各レンズを識別モデルM1によって識別する際にエラー又は検出漏れ等が発生した場合であっても、そのことを踏まえて文字列情報間の類似度を適切に算出することができる。
 本実施形態では、上記のように、検索機器のレンズ群と対象機器のレンズ群との間で文字列情報を比較し、その比較結果として類似度を評価する。この際、データベース22に蓄積された文字列情報をクラスタリングし、入力された検索機器のレンズ群についての文字列情報が属するクラスタを特定することで類似度を評価してもよい。
 類似度の算出後、プロセッサ11は、データベース22に蓄積された対象機器のレンズに関する情報、詳しくは、対象機器が備えるレンズ群についての文字列情報を、上述の入力情報に基づき、検索機器と対応付けて出力する(S033)。「対象機器のレンズに関する情報(例えば、文字列情報)を検索機器と対応付けて出力する」とは、データベース22に蓄積された対象機器のレンズ群に関する情報(例えば、文字列情報)を、検索機器のレンズと対象機器のレンズとの関係(具体的には、レンズ群の類似度合い)が認識できる態様にて出力することを意味する。
 ステップS033において、プロセッサ11は、データベース22に蓄積された対象機器のレンズに関する情報を、算出された類似度と関連付けて出力し、具体的には第1類似度及び第2類似度の一方又は双方と関連付けて出力する。より詳しく説明すると、例えば、データベース22に蓄積された対象機器のレンズ群についての文字列情報の中で、第1類似度又は第2類似度が最も高い文字列情報のみを抽出して出力してもよい。
 ただし、上記のケースには限定されず、例えば、第1類似度又は第2類似度が、予め設定された基準値を超えている文字列情報を抽出し、抽出された文字列情報を出力してもよい。
 あるいは、図9に示すように、第1類似度又は第2類似度が最も高いものから順にM個(Mは2以上の自然数)抽出し、抽出されたM個の文字列情報を出力してもよい。
 あるいは、データベース22に蓄積された対象機器のレンズ群についての文字列情報のすべてを、第1類似度又は第2類似度の高いもの(あるいは低いもの)から順に並べて出力してもよい。
 また、第1類似度及び第2類似度の双方に基づいて抽出される文字列情報を出力してもよい。例えば、第1類似度と第2類似度との平均値を求め、平均値が最も高い文字列情報、又は、平均値から最も高い方から順に抽出されたM個の文字列情報を出力してもよく、あるいは、すべての文字列情報を平均値順に出力してもよい。この場合、上記の平均値は、第1類似度と第2類似度との単純平均値であってもよい。あるいは、第1類似度及び第2類似度の各々に重み(係数)を乗じて平均値を算出してもよい。その場合には、第1類似度に乗じる重みを、第2類似度に乗じる重みよりも大きくしてもよく、反対に、小さくしてもよい。
 なお、類似度に関連付けてレンズ情報(具体的には、レンズ群についての文字列情報)を出力する態様は、検索機器が備えるレンズ群とより類似するレンズ群を認識し得る限り、特に限定されない。
 また、文字列情報の出力時には、例えば、その文字列情報が示すレンズ群のレンズ断面画像(すなわち対象画像)が掲載された文書、具体的には特許公報の識別番号等が併せて出力される(図9参照)。これにより、ユーザによって文字列情報が入力された検索機器のレンズ群について、それと類似するレンズ群のレンズ断面画像が掲載された特許公報を見つけ出すことができる。
 <本実施形態の有効性について>
 本実施形態の情報処理装置10は、機械学習によって構築された識別モデルM1により、対象機器中のレンズを含む部分の断面を示す対象画像中、レンズの存在領域の特徴量に基づき、当該レンズを識別することができる。また、本実施形態の情報処理装置10は、識別された対象機器のレンズに関する情報(レンズ情報)を、対象画像が掲載された文書の情報と関連付けて記憶してデータベース22を構築する。データベース22に蓄積されたレンズ情報及び文書等の情報は、検索可能な状態で利用される。
 上記の効果について詳述すると、従来の技術では、画像に現れるレンズの特徴量とレンズ種類との対応関係をルール化し、そのルールに従って画像中のレンズを識別していた。ただし、レンズの描画様式が通常の様式とは異なる場合に、その描画様式に対応可能な識別ルールが用意されていないと、通常とは異なる様式にて描画されたレンズを識別することができない虞があった。その場合には、レンズの識別結果が得られず、また、識別結果から得られるレンズ情報の利用が困難となる。
 これに対して、本実施形態では、機械学習の成果である識別モデルM1を利用し、対象画像中の存在領域の特徴量に基づいて、存在領域に存在するレンズを良好に識別することができる。つまり、本実施形態では、描画様式が変わったとしても、その描画様式にて描画されたレンズの存在領域の特徴量を特定し、特徴量が特定できれば、その特徴量からレンズを識別することができる。
 そして、識別されたレンズに関するレンズ情報を、対象画像毎に蓄積してデータベース化するので、それ以降は、レンズ情報を検索可能に利用することができる。また、データベースにおいて、レンズ情報は、対象画像が掲載された文書の情報と関連付けられている。これにより、レンズ情報をキー情報として、目的とする文書を見つけることができる。例えば、検索機器が備えるレンズ群と同一又は類似するレンズ群のレンズ断面画像が掲載された文書を見つけることができる。
 <その他の実施形態>
 以上までに、本発明の情報処理装置、情報処理方法及びプログラムについて具体例を挙げて説明してきたが、上述した実施形態は、あくまでも一例に過ぎず、他の実施形態も考えられる。
 例えば、情報処理装置を構成するコンピュータとしては、ASP(Application Service Provider)、SaaS(Software as a Service)、PaaS(Platform as a Service)又はIaaS(Infrastructure as a Service)等に利用されるサーバであってもよい。この場合、上記ASP等のサービスを利用するユーザが不図示の端末を操作して、検索機器に関する入力情報をサーバに送信する。サーバは、入力情報を受信すると、入力情報に基づき、データベース22に蓄積されたレンズ情報を、ユーザの端末に対して出力する。ユーザの端末側では、サーバから送られてくる情報が表示され、あるいは音声再生される。
 また、上記の実施形態では、各種のモデルを構築するための機械学習(第1及び第2の機械学習)が情報処理装置10によって行われることとしたが、これに限定されるものではない。一部又は全ての機械学習が、情報処理装置10とは異なる他の装置(コンピュータ)によって行われてもよい。この場合、情報処理装置10は、他の装置が行う機械学習によって構築されるモデルを取得することになる。例えば、第1の機械学習が他の装置によって行われる場合、情報処理装置10は、識別モデルM1を他の装置から取得し、取得された識別モデルM1により、対象画像に現れるレンズを識別することになる。
 また、上記の実施形態では、情報出力フェーズS003にて取得する入力情報が、検索機器が備えるレンズ群における各レンズの種類を示す文字列情報であることとした。また、上記の実施形態では、入力された文字列情報と、データベース22に蓄積された対象機器のレンズ群についての文字列情報とを比較することにより、検索機器と対象機器との間の類似度を算出することとした。ただし、これに限定されず、例えば、入力情報が、検索機器が備えるレンズ群の断面画像であってもよい。この場合、入力情報であるレンズ断面画像から、検索機器が備えるレンズ群における各レンズを識別し、識別結果に基づいて、レンズ群についての文字列情報を生成する。レンズ群における各レンズを識別する際には、第1の機械学習により構築される識別モデルM1を転用してもよく、その場合には転移学習をさらに実施してもよい。
 また、入力情報がレンズ断面画像である場合には、画像間の類似度を算出するモデルを利用してもよい。つまり、検索機器のレンズ群を示すレンズ断面画像と、対象機器のレンズ群を示すレンズ断面画像(すなわち、対象画像)との間の類似度を算出してもよい。この場合、上記の類似度算出モデルは、同一種類のレンズを異なる描画様式にて描画した2つのレンズ断面画像(同種レンズ断面画像)の間では類似度を高く評価するモデルであるとよい。具体的には、複数の同種レンズ断面画像について同じラベル(正解ラベル)を付し、ラベル付きの画像データを用いて機械学習を実施して類似度算出モデルを構築するとよい。
 また、上述の実施形態では、機械学習によって構築される検出モデルにより、対象画像におけるレンズの存在領域を自動的に検出することとしたが、これに限定されるものではない。例えば、対象画像を画面に表示させ、ユーザが画面を通じてレンズの存在領域を指定し(例えば、バウンディングボックスにて囲んだり、存在領域の各頂点の座標を入力したりする等)、その操作に基づいて存在領域を検出してもよい。
 また、上述の実施形態では、対象画像における一つの存在領域には一つのレンズが存在しており、識別モデルM1により、一つの存在領域に存在する一つのレンズを識別することとした。ただし、これに限定されるものではなく、一つの存在領域には複数のレンズが存在してもよい。その場合には、識別モデルM1により、一つの存在領域の特徴量に基づき、当該存在領域に複数のレンズが存在するか否かを判定し、複数のレンズが存在する場合にはレンズの組み合わせを識別するとよい。
 10 情報処理装置
 11 プロセッサ
 12 メモリ
 13 通信用インタフェース
 14 入力機器
 15 出力機器
 16 ストレージ
 21 プログラム
 22 データベース
 M1 識別モデル
 Ma 導出モデル
 Mb 出力モデル

Claims (15)

  1.  プロセッサを備える情報処理装置であって、
     前記プロセッサは、
     レンズを備えた対象機器における前記レンズを含む部分の断面を示す対象画像中、前記レンズの存在領域を検出し、
     レンズの断面を示す複数の学習用画像を用いた機械学習によって構築された識別モデルにより、前記存在領域の特徴量に基づいて、前記存在領域に存在する前記対象機器のレンズを識別する、情報処理装置。
  2.  前記識別モデルは、描画様式が異なる同種のレンズの断面を示す2以上の同種レンズ断面画像を含む前記複数の学習用画像を用いた機械学習によって構成され、前記2以上の同種レンズ断面画像の各々が示すレンズを同種のレンズとして識別するモデルである、請求項1に記載の情報処理装置。
  3.  前記プロセッサは、識別された前記対象機器のレンズに関する情報を蓄積して前記情報のデータベースを構築する、請求項1又は2に記載の情報処理装置。
  4.  前記プロセッサは、
     検索機器が備えるレンズに関する入力情報を取得し、
     前記データベースに蓄積された前記対象機器のレンズに関する情報を、前記入力情報に基づき、前記検索機器と対応付けて出力する、請求項3に記載の情報処理装置。
  5.  前記プロセッサは、
     検索機器が備えるレンズに関する入力情報を取得し、
     前記入力情報と、前記データベースに蓄積された前記対象機器のレンズに関する情報とに基づき、前記検索機器のレンズと前記対象機器のレンズとの間の類似度を算出し、
     前記データベースに蓄積された前記対象機器のレンズに関する情報を、前記類似度と関連付けて出力する、請求項3に記載の情報処理装置。
  6.  前記プロセッサは、
     列をなして並ぶレンズ群を備えた前記対象機器において前記レンズ群を含む部分の断面を示す前記対象画像中、前記存在領域をレンズ毎に検出し、
     前記識別モデルにより、前記存在領域に存在する前記レンズ群中のレンズを、前記存在領域毎に識別し、
     前記存在領域毎に識別された前記レンズ群中のレンズに関する情報を、前記レンズ群を一単位として集約して前記データベースに蓄積する、請求項3に記載の情報処理装置。
  7.  前記プロセッサは、
     前記存在領域毎に識別された前記レンズ群中のレンズの種類を前記存在領域毎に特定し、
     前記存在領域毎に特定された前記レンズ群中のレンズの種類と、前記対象画像における前記存在領域の位置とに基づき、前記レンズ群において各レンズが並ぶ順序にて各レンズの種類を表した文字列情報を生成し、
     生成された前記文字列情報を前記データベースに蓄積する、請求項6に記載の情報処理装置。
  8.  前記対象画像中に複数のレンズ群が示されている場合に、前記プロセッサは、前記文字列情報をレンズ群毎に生成し、
     レンズ群毎に生成された前記文字列情報を、レンズ群毎に前記データベースに蓄積する、請求項7に記載の情報処理装置。
  9.  前記プロセッサは、
     検索機器がレンズに関する入力情報を取得し、
     前記検索機器がレンズ群を備える場合において、
     前記検索機器のレンズ群において各レンズが並ぶ順序にて各レンズの種類を表した文字列情報を、前記入力情報として取得し、
     取得した前記検索機器のレンズ群についての前記文字列情報と、前記データベースに蓄積された前記対象機器のレンズ群についての前記文字列情報とに基づき、前記検索機器のレンズ群と前記対象機器のレンズ群との間の第1類似度を算出し、
     前記データベースに蓄積された前記対象機器のレンズ群についての前記文字列情報を、前記第1類似度と関連付けて出力する、請求項7又は8に記載の情報処理装置。
  10.  前記プロセッサは、
     検索機器がレンズに関する入力情報を取得し、
     前記検索機器がレンズ群を備える場合において、
     前記検索機器のレンズ群において各レンズが並ぶ順序にて各レンズの種類を表した文字列情報を、前記入力情報として取得し、
     取得した前記検索機器のレンズ群についての前記文字列情報中、いずれかの文字をブランクに変更し、
     前記検索機器のレンズ群についての変更後の前記文字列情報と、前記データベースに蓄積された前記対象機器のレンズ群についての前記文字列情報とに基づき、前記検索機器のレンズ群と前記対象機器のレンズ群との間の第2類似度を算出し、
     前記データベースに蓄積された前記対象機器のレンズ群についての前記文字列情報を、前記第2類似度と関連付けて出力する、請求項7乃至9のいずれか一項に記載の情報処理装置。
  11.  前記プロセッサは、前記データベースにおいて、識別された前記対象機器のレンズに関する情報を、前記対象画像を含む文書に関する情報と関連付けて蓄積する、請求項3乃至10のいずれか一項に記載の情報処理装置。
  12.  前記プロセッサは、オブジェクト検出アルゴリズムを利用して前記対象画像から前記レンズの存在領域を検出する、請求項1乃至11のいずれか一項に記載の情報処理装置。
  13.  プロセッサにより、レンズを備えた対象機器における前記レンズを含む部分の断面を示す対象画像中、前記レンズの存在領域を検出するステップと、
     プロセッサにより、レンズの断面を示す複数の学習用画像を用いた機械学習によって構築された識別モデルにより、前記存在領域の特徴量に基づいて、前記存在領域に存在する前記対象機器のレンズを識別するステップと、
     を含む情報処理方法。
  14.  プロセッサにより、識別された前記対象機器のレンズに関する情報を蓄積して前記情報のデータベースを構築するステップを更に含む、請求項13に記載の情報処理方法。
  15.  請求項13又は請求項14に記載された情報処理方法の各ステップをプロセッサに実施させるプログラム。
PCT/JP2021/042351 2021-02-05 2021-11-18 情報処理装置、情報処理方法及びプログラム WO2022168400A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022579346A JPWO2022168400A1 (ja) 2021-02-05 2021-11-18
US18/360,689 US20230366779A1 (en) 2021-02-05 2023-07-27 Information processing apparatus, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021017584 2021-02-05
JP2021-017584 2021-02-05

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/360,689 Continuation US20230366779A1 (en) 2021-02-05 2023-07-27 Information processing apparatus, information processing method, and program

Publications (1)

Publication Number Publication Date
WO2022168400A1 true WO2022168400A1 (ja) 2022-08-11

Family

ID=82741084

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/042351 WO2022168400A1 (ja) 2021-02-05 2021-11-18 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20230366779A1 (ja)
JP (1) JPWO2022168400A1 (ja)
WO (1) WO2022168400A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11337707A (ja) * 1998-05-21 1999-12-10 Olympus Optical Co Ltd レンズ
JP2014183565A (ja) * 2013-03-21 2014-09-29 Fujifilm Corp レンズ情報登録システム,レンズ情報登録システムに用いられるレンズ情報サーバおよびカメラ本体
JP2018175217A (ja) * 2017-04-10 2018-11-15 富士フイルム株式会社 画像処理装置および方法並びにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11337707A (ja) * 1998-05-21 1999-12-10 Olympus Optical Co Ltd レンズ
JP2014183565A (ja) * 2013-03-21 2014-09-29 Fujifilm Corp レンズ情報登録システム,レンズ情報登録システムに用いられるレンズ情報サーバおよびカメラ本体
JP2018175217A (ja) * 2017-04-10 2018-11-15 富士フイルム株式会社 画像処理装置および方法並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKAHIDE OOMORI, KEIICHI ITOH: "Basic Study on Introduction of Machine Learning to Shape Design of Dielectric Lens for Antenna", PROCEEDINGS OF THE 2019 ANNUAL CONFERENCE OF THE INSTITUTE OF ELECTRICAL ENGINEERS OF JAPAN; MARCH 12-14, 2019, INSTITUTE OF ELECTRICAL ENGINEERS OF JAPAN, JP, 1 March 2019 (2019-03-01) - 14 March 2019 (2019-03-14), JP, pages 1, XP009538896 *

Also Published As

Publication number Publication date
US20230366779A1 (en) 2023-11-16
JPWO2022168400A1 (ja) 2022-08-11

Similar Documents

Publication Publication Date Title
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
JP2019008778A (ja) 画像の領域のキャプション付加
JP2012185722A (ja) 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
JP7268198B2 (ja) 画像解析装置、画像解析方法、及びプログラム
JP6055297B2 (ja) 文字認識装置及び方法、文字認識プログラム
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN114003758B (zh) 图像检索模型的训练方法和装置以及检索方法和装置
US20220327158A1 (en) Information processing apparatus, information processing method, and program
CN113869352A (zh) 模型训练方法、服装检索方法及相关装置
Inkeaw et al. Recognition-based character segmentation for multi-level writing style
CN110020638B (zh) 人脸表情识别方法、装置、设备和介质
CN115203408A (zh) 一种多模态试验数据智能标注方法
JP3634574B2 (ja) 情報処理方法及び装置
CN112241470B (zh) 一种视频分类方法及系统
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
WO2022168400A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR102058393B1 (ko) 스케치 기반의 영상표절 검사 방법 및 장치
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
JP2023021946A (ja) データ検索方法及びシステム
CN114299295A (zh) 一种数据处理方法及相关装置
KR20210137808A (ko) 단어 추출 장치 및 방법
Le et al. An Attention-Based Encoder–Decoder for Recognizing Japanese Historical Documents
Nayef et al. Efficient symbol retrieval by building a symbol index from a collection of line drawings
US20230343123A1 (en) Using model uncertainty for contextual decision making in optical character recognition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21924786

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2022579346

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21924786

Country of ref document: EP

Kind code of ref document: A1