WO2023062668A1 - 情報処理装置、情報処理方法、情報処理システム、およびプログラム - Google Patents

情報処理装置、情報処理方法、情報処理システム、およびプログラム Download PDF

Info

Publication number
WO2023062668A1
WO2023062668A1 PCT/JP2021/037519 JP2021037519W WO2023062668A1 WO 2023062668 A1 WO2023062668 A1 WO 2023062668A1 JP 2021037519 W JP2021037519 W JP 2021037519W WO 2023062668 A1 WO2023062668 A1 WO 2023062668A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature vector
image
information processing
feature
object image
Prior art date
Application number
PCT/JP2021/037519
Other languages
English (en)
French (fr)
Inventor
ラジャセイカル サナガヴァラプ
啓太 渡辺
フアレス ホスエ クエバス
Original Assignee
楽天グループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 楽天グループ株式会社 filed Critical 楽天グループ株式会社
Priority to US17/911,261 priority Critical patent/US20240220535A1/en
Priority to PCT/JP2021/037519 priority patent/WO2023062668A1/ja
Priority to JP2022540714A priority patent/JP7569382B2/ja
Priority to EP21929422.0A priority patent/EP4195135A1/en
Publication of WO2023062668A1 publication Critical patent/WO2023062668A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20052Discrete cosine transform [DCT]

Definitions

  • the present invention relates to an information processing device, an information processing method, an information processing system, and a program, and more particularly to technology for predicting an image similar to an image containing a product specified by a user.
  • E-commerce/e-commerce which sells products using the Internet
  • EC Electronic Commerce
  • Patent Literature 1 discloses a technique for removing a background image from a product image, extracting a product area, and retrieving an image containing an area similar to the product area.
  • a function is also used when searching for similar products in response to a user's request, using a terminal (store terminal) provided at a store that sells products handled on an EC site. sell.
  • Patent Document 1 an image feature amount is calculated from a product area extracted from a product image, and a similar image is searched from the image feature amount.
  • this technology cannot analyze complicated data and provide more accurate results more quickly, similar image retrieval accuracy is low.
  • the present invention has been made in view of the above problems, and an object of the present invention is to provide a technique for accurately retrieving an image similar to an input image.
  • one aspect of an information processing apparatus is an acquisition unit that acquires an object image including a target object; a generation means for generating a plurality of feature vectors for, a connection means for connecting the plurality of feature vectors and embedding them in a common feature space to generate a composite feature vector on the feature space; and using the composite feature vector and a search means for searching for similar images to the object image.
  • the plurality of learning models include a first feature estimation model that receives the object image as input and outputs a first feature vector indicating a high-level classification of the object, and the object image as input, a second feature estimation model that outputs a second feature vector indicative of a lower-level classification of the object, wherein the generating means applies the object image to the plurality of learning models to generate the first feature A vector and said second feature vector may be generated, and said concatenating means may concatenate said first feature vector and said second feature vector to generate said composite feature vector.
  • the plurality of learning models include a first feature estimation model that receives the object image as input and outputs a first feature vector indicating a high-level classification of the object, and the first feature vector as input. a second feature estimation model that outputs a second feature vector indicative of a lower-level classification of the object, wherein the generating means applies the object image to the plurality of learning models to generate the first A first feature vector and said second feature vector may be generated, and said concatenating means may concatenate said first feature vector and said second feature vector to generate said composite feature vector.
  • the plurality of learning models further include an attribute estimation model that receives the object image as an input and outputs an attribute vector that indicates an attribute of the object, and an attribute estimation model that receives the object image as an input and indicates the color of the object.
  • a color estimation model that outputs a color feature vector
  • the generating means applies the object image to the plurality of learning models to generate the first feature vector, the second feature vector, the attribute vector, and Generating the color feature vector
  • the concatenating means may concatenate the first feature vector, the second feature vector, the attribute vector and the color feature vector to generate the composite feature vector.
  • the attribute estimation model may be a gender estimation model that receives the object image as an input and outputs a gender feature vector indicating the gender targeted by the object.
  • the gender feature vector may be configured to be able to identify male, female, kids, and unisex as the genders targeted by the object.
  • the searching means may search, as the similar image, for an image corresponding to a composite feature vector having a high degree of similarity with the composite feature vector generated by the connecting means. Further, the searching means can determine that a composite feature vector having a short Euclidean distance to the composite feature vector generated by the connecting means has a high degree of similarity in the feature space.
  • the acquisition means may acquire the object image transmitted from the user device.
  • the object image may be an image including an object selected on a predetermined e-commerce site accessed by the user device.
  • the object image may be an image including an object captured by the user device.
  • the object image may be an image stored in the user device.
  • the acquisition means acquires a text image including the object image and text information selected by the user device from the object image, transmitted from the user device;
  • the search means may extract the text information from the text image, and use the extracted text information and the composite feature vector to search for the similar image.
  • the object image may be a DCT (Discrete Cosine Transform) image.
  • DCT Discrete Cosine Transform
  • one aspect of an information processing method is an acquisition step of acquiring an object image including a target object; a generating step of generating a plurality of feature vectors for an image; a connecting step of connecting the plurality of feature vectors and embedding them in a common feature space to generate a composite feature vector in the feature space; and a searching step of searching for an image similar to the object image.
  • an information processing program for causing a computer to execute information processing, wherein the program causes the computer to store an object including an object to be processed.
  • an acquisition process for acquiring an image; generating a plurality of feature vectors for the object by applying the object image to a plurality of learning models; connecting the plurality of feature vectors, embedding them in a common feature space, and combining them in the feature space;
  • This is for executing a process including a connection process for generating a feature vector and a search process for searching for an image similar to the object image using the composite feature vector.
  • an information processing system having a user device and an information processing device, wherein the user device converts an object image including a target object into the information
  • the information processing device has transmission means for transmitting to a processing device, and the information processing device generates a plurality of feature vectors for the object by applying the acquisition means for acquiring the object image and the object image to a plurality of learning models.
  • connecting means for connecting the plurality of feature vectors and embedding them in a common feature space to generate a composite feature vector in the feature space; and using the composite feature vector, an image similar to the object image and search means for searching for.
  • FIG. 1 shows a configuration example of an information processing system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing an example of the functional configuration of the information processing device according to the embodiment of the present invention.
  • FIG. 3A shows a conceptual diagram of each feature vector and composite feature vectors.
  • FIG. 3B shows a conceptual diagram of similarity search processing.
  • FIG. 4 shows the schematic architecture of the image recognition model.
  • FIG. 5 is a block diagram showing an example of the hardware configuration of the information processing device according to the embodiment of the present invention.
  • FIG. 6 is a flow chart showing processing executed by the information processing device according to the embodiment of the present invention.
  • FIG. 7A shows a screen display example of the user device according to the first embodiment.
  • FIG. 7B shows a screen display example of the user device according to the first embodiment.
  • FIG. 8A shows a screen display example of the user device according to the second embodiment.
  • FIG. 8B shows a screen display example of the user device according to the second embodiment.
  • FIG. 8C shows a screen display example of the user device according to the second embodiment.
  • FIG. 9A shows a screen display example of the user device according to the third embodiment.
  • FIG. 9B shows a screen display example of the user device according to the third embodiment.
  • FIG. 1 shows the configuration of an information processing system according to this embodiment.
  • This information processing system includes a user device 10 such as a terminal device or a shop terminal provided in a shop, and an information processing device 100 .
  • the user device 10 is, for example, a device such as a smartphone or a tablet, and can communicate with the information processing device 100 via a public network such as LTE (Long Term Evolution) or a wireless communication network such as a wireless LAN (Local Area Network). is configured to The user device 10 has a display unit (display surface) such as a liquid crystal display, and the user can perform various operations using a GUI (Graphic User Interface) provided on the liquid crystal display.
  • the operation includes various operations for content such as an image displayed on the screen, such as a tap operation, a slide operation, and a scroll operation using a finger, stylus, or the like.
  • the user device 10 may be a device such as a desktop PC (Personal Computer) or a notebook PC. In that case, a user's operation can be performed using an input device such as a mouse or a keyboard.
  • the user device 10 may have a separate display surface.
  • the user device 10 transmits a search query to the information processing device 100 according to the user's operation.
  • the search query corresponds to a request for retrieving similar images (images containing products similar to the product) associated with an image containing a product (object) (product image (object image)) to the product image.
  • the product image for which similar images are to be searched may also be referred to as a query image.
  • the user selects, for example, one product image from among one or more product images displayed on the display unit of the user device 10 as a query image, and then selects a predetermined search button to perform a search query. can be sent.
  • the search query can include (associate with) query image information in a format that can be decoded by the information processing apparatus 100 or in a URL format.
  • the information processing device 100 is a server device capable of building an EC site and distributing web content, and in this embodiment, is configured to be able to provide a search service. As the search service, the information processing apparatus 100 can generate content (search results) corresponding to a search query received from the user device 10 and distribute (output) the content to the user device 10 .
  • the information processing device 100 acquires a product image associated with the search query received from the user device 10, generates a plurality of feature vectors in light of a plurality of attributes of the product included in the product image, A composite feature vector is generated by connecting the plurality of feature vectors, and a similar image similar to the product image is searched using the composite feature vector.
  • FIG. 2 shows an example of the functional configuration of the information processing device 1 according to this embodiment.
  • the information processing apparatus 1 shown in FIG. an output unit 109 , a learning model storage unit 110 , and a search database 115 .
  • Learning model storage unit 110 stores various learning models (first feature estimation model 111, second feature estimation model 111, second feature estimation model 112, gender estimation model 113, and color estimation model 114). The various learning models will be described later.
  • the search database 115 is a database that stores information related to similar image search, and may be provided outside the information processing apparatus 100 .
  • the acquisition unit 101 acquires a product image (query image).
  • the acquisition unit 101 receives a search query transmitted by the user device 10 and acquires product images associated with (included in) the search query.
  • the product image may be an image expressing colors with three colors, red (R), green (G), and blue (B).
  • the product image is an image (an image YCbCr converted from an RGB image (YCbCr image)) expressed by luminance (Y (Luma)) representing brightness and color components (Cb, Cr (Chroma)). good too.
  • the product image may be data (coefficients) obtained by DCT (Discrete Cosine Transform) conversion (compression) from a YCbCr image by an encoding unit (not shown) provided in the information processing apparatus 100 .
  • the acquisition unit 101 may be configured to acquire data as a product image that has undergone (YCbCr conversion and) DCT conversion by a device other than the information processing device 100 .
  • Acquisition section 101 outputs the acquired product image to first feature estimation section 102 , second feature estimation section 103 , gender estimation section 104 , and color estimation section 105 .
  • FIG. 3A shows a conceptual diagram of each feature vector and a compound feature vector (Compounded Feature Vector).
  • the first feature estimation unit 102 applies the product image (corresponding to the input image 30 in FIG. 3A) acquired by the acquisition unit 101 to the first feature estimation model 111, and performs supervised learning to obtain the first feature for the product.
  • One feature is estimated (predicted) to generate a first feature vector 301 representing the first feature.
  • the first feature indicates a high-level (aggregated) classification of the product, also called category.
  • a feature vector represents a value/information representing a feature.
  • the second feature estimation unit 103 applies the product image acquired by the acquisition unit 101 to the second feature estimation model 112 and performs supervised learning to estimate (predict) the second feature of the product, A second feature vector 302 representing the second feature is generated.
  • the second feature indicates a lower-level (subdivided) classification of the product and is associated with the first feature.
  • the second feature is also called genre.
  • the second feature estimation unit 103 may be configured to estimate the first feature by applying it to the first feature estimation model 111, and to estimate the second feature from the estimated first feature.
  • the second feature estimation model 112 is configured to receive the first feature vector 301 generated by the first feature estimation unit 102 as input and generate the second feature vector 302 .
  • Second feature estimation section 103 then applies the first feature vector to second feature estimation model 112 to generate second feature vector 302 .
  • the first feature indicates a higher level (aggregated) product classification type
  • the second feature indicates a lower level (subdivided) product classification type.
  • the first feature (category) includes product classification types such as men's fashion, ladies' fashion, fashion goods, innerwear, shoes, accessories, and watches.
  • the second feature (genre) includes product classification types such as pants, shirts, blouses, skirts, and dresses when the first feature is women's fashion.
  • First feature estimating section 103 and second feature estimating section 104 output generated first feature vector 301 and second feature vector 302 to connecting section 106, respectively.
  • the gender estimation unit 104 applies the product image acquired by the acquisition unit 101 to the gender estimation model 113 and performs supervised learning to estimate (predict) the gender targeted by the product, A gender feature vector 303 indicating the gender is generated.
  • the gender estimation unit 104 can identify not only genders such as male and female, but also categories such as kids and unisex.
  • Gender estimating section 104 outputs generated gender feature vector 303 to connecting section 106 .
  • the color estimation unit 105 applies the product image acquired by the acquisition unit 101 to the color estimation model 114, performs supervised learning, estimates (predicts) the color of the product, and calculates a color feature vector representing the color. 304 is generated. Color estimating section 105 outputs generated color feature vector 304 to connecting section 106 .
  • Concatenating section 106 concatenates the feature vectors output from first feature estimating section 102, second feature estimating section 103, gender estimating section 104, and color estimating section 105 to form a multi-dimensional feature space (hereinafter referred to as , called the feature space) to generate a composite feature vector 311 (corresponding to concatenation 31 in FIG. 3A). That is, the connecting unit 106 connects the composite feature vector 311 connecting the first feature vector 301, the second feature vector 302, the gender feature vector 303, and the color feature vector 304 in one (common) feature space. are embedded onto one common feature space to generate a composite feature vector 311 .
  • the first feature vector 301 has 200 dimensions (200D (dimension))
  • the second feature vector 302 has 153 dimensions (153D)
  • the gender feature vector 303 has 4 dimensions (4D)
  • the color feature vector 304 has 12 dimensions. (12D). Therefore, the composite feature vector 311 is represented by 369 dimensions (369D). Also, the composite feature vector 311 may be concatenated in the order of the gender feature vector 303, the second feature vector 302, the color feature vector 304, and the first feature vector 301, as shown in FIG. 3A.
  • the order of connection is an example, and is not limited to this order.
  • the linking unit 106 outputs the generated composite feature vector 311 to the similarity searching unit 107 .
  • the similarity search unit 107 receives as input the composite feature vector 311 generated by the connection unit 106 and searches for images similar to the product image acquired by the acquisition unit 101 .
  • the similarity search unit 107 performs similar image search on the feature space.
  • the similarity search unit 107 is configured to search for similar images using, for example, a known Nearest Neighbor Search engine.
  • a neighborhood search engine for example, one using the FAISS (Facebook AI Similarity Search) algorithm is known. All or part of the configuration of the similarity search unit 107 may be installed outside so as to be associated with the information processing apparatus 100 .
  • the output unit 109 outputs information including images (similar images) corresponding to one or more image IDs that are the search results of the similarity search unit 107 .
  • the output unit 109 can provide the information via the communication I/F 507 (FIG. 5).
  • the learning unit 108 learns (trains) each of the first feature estimation model 111, the second feature estimation model 112, the gender estimation model 113, and the color estimation model 114, and stores these learned learning models in the learning model storage unit 110. store in In this embodiment, the first feature estimation model 111, the second feature estimation model 112, the gender estimation model 113, and the color estimation model 114 are all learning models for machine learning to which image recognition models are applied. An example of schematic architecture of the image recognition model is shown in FIG.
  • the image recognition model according to this embodiment is composed of an intermediate layer that includes a plurality of convolution layers and an output layer that classifies/predicts classes. output the feature vector.
  • an intermediate layer for example, EfficientNet by Google Research is used. When EfficientNet is used, each convolutional layer uses MBConv (Mobile Inverted Bottleneck Convolution). The intermediate layer extracts the feature map, and the output layer is configured to reduce the dimensionality from the map to generate the final feature vector. Note that the number of convolution layers is not limited to a specific number.
  • Each of the first feature estimation model 111, the second feature estimation model 112, the gender estimation model 113, and the color estimation model 114 can be configured with an architecture like the image recognition model shown in FIG. , a second feature vector 302, a gender feature vector 303, and a color feature vector 304 are output.
  • the first feature estimation model 111, the second feature estimation model 112, the gender estimation model 113, and the color estimation model 114 are each subjected to learning processing using individual learning (teacher) data. Here, learning processing for each learning model will be described.
  • First feature estimation model 111 A model that predicts a first feature (category (higher-level classification of products)) from a product image and outputs a first feature vector 301 .
  • categories for products are set in advance, and in this embodiment, it is assumed that there are 200 types of categories. Examples of categories are men's fashion, women's fashion, fashion goods, innerwear, shoes, accessories, and watches, as mentioned above, with respect to wearables. Categories may also include food, gardening, computers/peripherals, and the like.
  • the first feature estimation model 111 is configured to be able to classify 200 types of categories
  • the first feature vector 301 is a vector capable of representing 200 dimensions.
  • Second feature estimation model 112 A model that predicts a second feature (genre (lower-level classification of products)) from a product image and outputs a second feature vector 302 .
  • learning data a combination of a product image (input image) and a genre of the product as correct data is used.
  • genres for products are set in advance, and are set in advance in a form that is associated with each category, which is a higher level classification.
  • the second feature estimation model 112 is configured to be able to estimate 153 types of genres for each first feature vector 301 (category) generated by the first feature estimation unit 102. is a vector capable of expressing 153 dimensions.
  • the second feature estimation model 112 is configured to estimate a first feature to generate a first feature vector 301, and estimate a second feature from the first feature to generate a second feature vector 302. may be
  • Gender estimation model 113 A model that predicts gender from product images and outputs a gender feature vector 303 .
  • learning data a combination of a product image (input image) and gender information targeted by the product as correct data is used.
  • gender includes not only male and female, but also kids and unisex.
  • the gender estimation model 113 is configured to be able to estimate four types of gender (male, female, kids, and unisex), and the gender feature vector 303 is a vector capable of expressing four dimensions.
  • the gender estimation model 113 predicts gender based on the first feature vector 301 and/or the second feature vector 302, not from the image recognition model shown in FIG. may be configured to
  • Color estimation model 114 A model that predicts colors from product images and outputs color feature vectors 304. As learning data, a combination of a product image (input image) and color information of the product as correct data is used. In this embodiment, the color estimation model 114 is configured to be able to classify 12 types (patterns) of color information, and the color feature vector 304 is a vector capable of expressing 12 dimensions.
  • FIG. 5 is a block diagram showing an example of the hardware configuration of the information processing apparatus 100 according to this embodiment.
  • the information processing apparatus 100 according to this embodiment can be implemented on any single or multiple computers, mobile devices, or any other processing platform. Referring to FIG. 5, an example in which information processing apparatus 100 is implemented in a single computer is shown, but information processing apparatus 100 according to the present embodiment is implemented in a computer system including a plurality of computers. good. A plurality of computers may be interconnectably connected by a wired or wireless network.
  • the information processing apparatus 100 may include a CPU 501 , a ROM 502 , a RAM 503 , an HDD 504 , an input section 505 , a display section 506 , a communication I/F 507 and a system bus 508 .
  • Information processing apparatus 100 may also include an external memory.
  • a CPU (Central Processing Unit) 501 comprehensively controls operations in the information processing apparatus 100, and controls each component (502 to 507) via a system bus 508, which is a data transmission path.
  • a ROM (Read Only Memory) 502 is a non-volatile memory that stores control programs and the like necessary for the CPU 501 to execute processing.
  • the program may be stored in a non-volatile memory such as HDD (Hard Disk Drive) 504 or SSD (Solid State Drive), or external memory such as a removable storage medium (not shown).
  • a RAM (Random Access Memory) 503 is a volatile memory and functions as a main memory, a work area, and the like for the CPU 501 . That is, the CPU 501 loads necessary programs and the like from the ROM 502 to the RAM 503 when executing processing, and executes the programs and the like to realize various functional operations.
  • the HDD 504 stores, for example, various data and information necessary for the CPU 501 to perform processing using programs.
  • the HDD 504 also stores various data, information, and the like obtained by the CPU 501 performing processing using programs and the like, for example.
  • An input unit 505 is configured by a pointing device such as a keyboard and a mouse.
  • a display unit 506 is configured by a monitor such as a liquid crystal display (LCD).
  • the display unit 506 may function as a GUI (Graphical User Interface) by being configured in combination with the input unit 505 .
  • GUI Graphic User Interface
  • a communication I/F 507 is an interface that controls communication between the information processing apparatus 100 and an external device.
  • a communication I/F 507 provides an interface with a network and executes communication with an external device via the network.
  • Various data, various parameters, and the like are transmitted/received to/from an external device via the communication I/F 507 .
  • the communication I/F 507 may perform communication via a wired LAN (Local Area Network) conforming to a communication standard such as Ethernet (registered trademark) or a dedicated line.
  • the network that can be used in this embodiment is not limited to this, and may be configured as a wireless network.
  • This wireless network includes a wireless PAN (Personal Area Network) such as Bluetooth (registered trademark), ZigBee (registered trademark), and UWB (Ultra Wide Band). It also includes a wireless LAN (Local Area Network) such as Wi-Fi (Wireless Fidelity) (registered trademark) and a wireless MAN (Metropolitan Area Network) such as WiMAX (registered trademark). Furthermore, wireless WANs (Wide Area Networks) such as LTE/3G, 4G, and 5G are included. It should be noted that the network connects each device so as to be able to communicate with each other, and the communication standard, scale, and configuration are not limited to those described above.
  • At least some of the functions of the elements of the information processing apparatus 100 shown in FIG. 5 can be realized by the CPU 501 executing a program. However, at least some of the functions of the elements of the information processing apparatus 100 shown in FIG. 5 may operate as dedicated hardware. In this case, the dedicated hardware operates under the control of the CPU 501 .
  • the hardware configuration of the user device 10 shown in FIG. 1 can be the same as in FIG. That is, the user device 10 can include a CPU 501 , a ROM 502 , a RAM 503 , an HDD 504 , an input section 505 , a display section 506 , a communication I/F 507 and a system bus 508 .
  • the user device 10 displays various information provided by the information processing device 100 on the display unit 506, and performs processing corresponding to input operations received from the user via the GUI (composed of the input unit 505 and the display unit 506). be able to.
  • the user device 10 can be equipped with a camera (not shown), and is configured to perform photographing processing under the control of the CPU 501 according to user's operation.
  • FIG. 6 shows a flowchart of processing executed by the information processing apparatus 100 according to this embodiment.
  • the processing shown in FIG. 6 can be implemented by the CPU 501 of the information processing apparatus 100 loading a program stored in the ROM 502 or the like into the RAM 503 and executing the program.
  • the acquisition unit 101 acquires a product image as a query image.
  • the acquisition unit 101 can acquire a product image by acquiring an image included in a search query transmitted from the user device 10 or a URL indicating the image.
  • S62 to S65 are processes for generating (estimating) feature vectors (first feature vector 301, second feature vector 302, gender feature vector 303, color feature vector 304) for the product image acquired in S61. Each process of S62 to S65 may be performed in an order different from the order shown in FIG. 6, or may be performed in parallel.
  • the first feature estimation unit 102 applies the product image acquired by the acquisition unit 101 to the first feature estimation model 111 to generate the first feature vector 301 .
  • the first feature estimation model 111 is configured to be able to estimate 200 kinds of first features (categories), and the first feature vector 301 expresses 200 dimensions. is a possible vector.
  • the second feature estimation unit 103 applies the product image acquired by the acquisition unit 101 to the second feature estimation model 112 to generate the second feature vector 302 .
  • the second feature estimation model 112 is configured to be able to estimate 153 types of second features (genres) for each first feature (category). is a vector that can express 153 dimensions.
  • the second feature vector 302 may be configured to have multiple levels. For example, if the product category estimated by the first feature estimation unit 102 is women's fashion, the product genre estimated by the second feature estimation unit 103 is women's fashion_bottoms/pants, from the upper level to the lower level. It may be configured to have two levels.
  • the gender estimation unit 104 applies the product image acquired by the acquisition unit 101 to the gender estimation model 113 to generate the gender feature vector 303.
  • the gender estimation model 113 is configured to be able to estimate four types of gender (male, female, kids, and unisex), and the gender feature vector 303 can express four dimensions. is a vector.
  • the color estimation unit 105 applies the product image acquired by the acquisition unit 101 to the color estimation model 114 to generate the color feature vector 304 .
  • the color estimation model 114 is configured to be able to estimate 12 kinds of colors
  • the color feature vector 304 is a vector capable of expressing 12 dimensions.
  • the connecting unit 106 connects the first feature vector 301, the second feature vector 302, the gender feature vector 303, and the color feature vector 304 output in S62 to S65, embeds them in the feature space, and embeds the composite feature vector 311 to generate
  • the similarity search unit 107 receives the composite feature vector 311 generated by the connection unit 106 and searches for an image (similar image) similar to the product image acquired by the acquisition unit 101.
  • the search process can be performed using the FAISS (Facebook AI Similarity Search) algorithm.
  • FAISS is a neighborhood search algorithm using LSH (Locality Sensitive Hashing).
  • the similarity search unit 107 Prior to the search process, the similarity search unit 107 generates a composite feature vector 311 for each of multiple product images as learning data.
  • each product image is assigned an image ID (index/identifier) for identifying the image.
  • the similarity search unit 107 associates (maps) the composite feature vector 311 with the image ID of the product image indicated by the vector and stores it in the search database 115 .
  • the format of the image ID is not limited to a specific one, and may be information corresponding to a URL or the like.
  • the similarity search unit 107 calculates the degree of similarity (Euclidean distance ) to obtain one or more composite feature vectors similar to composite feature vector 311 . Such processing corresponds to the neighborhood search processing.
  • the similarity search unit 107 acquires one or more image IDs corresponding to one or more similar composite feature vectors, and outputs similar images corresponding to the image IDs.
  • the processing for generating the four feature vectors is not performed.
  • similar image search can be performed. For example, when there is a composite feature vector corresponding to the image ID of the product image associated with the search query received from the user device 10, the similarity search unit 107 retrieves the corresponding composite feature vector from the image ID in the search database 115. Similar images can be retrieved from the corresponding composite feature vectors.
  • FIG. 3B shows a conceptual diagram of the similar image search processing in S67 described above.
  • the neighborhood search process is performed from the composite feature vector 311 generated from the product image or the composite feature vector 311 retrieved from the image ID of the product image.
  • a composite feature vector having a high degree of similarity with the composite feature vector 311 is searched.
  • vectors with close Euclidean distances are determined to have high similarity in the feature space.
  • an image having an image ID corresponding to the searched composite feature vector is searched from the image ID database (included in the search database 115), and the searched image is output as a similar image.
  • the similarity search unit 107 may read feature vectors from the beginning of the composite feature vector 311 and perform similarity search. For example, as shown in FIG. 3A, when the composite feature vector 311 is connected in the order of the gender feature vector 303, the second feature vector 302, the color feature vector 304, and the first feature vector 301, the similarity search unit 107 The gender feature vector 303 can be read first to perform search processing, and then the second feature vector 302 can be read to perform search processing.
  • the output unit 109 outputs (distributes) information including images (similar images) corresponding to one or more image IDs retrieved by the similarity search unit 107 to the user device 10 . That is, as a response (search result) to the search query received from the user device 10 by the acquisition unit 101 , information including the similar image is provided to the user device 10 .
  • FIGS. 7A and 7B show screen display examples of the user device 10 according to the present embodiment.
  • a screen 70 is an example of a screen displayed on the display unit 506 of the user device 10 .
  • the user operates the user device 10 to access an arbitrary e-commerce site (a website such as an EC site), enters an arbitrary search word, and transmits the search word to the information processing device 100 to display the screen 70.
  • data is provided and displayed on the display unit 506 of the user 10 .
  • selection actions include actions such as pressing and touching; the same applies hereinafter
  • a product image 72 in the area 71 and a search button 73 for the product image 72 are displayed.
  • Search button 73 is displayed to be selectable.
  • the search query associated with the product image 72 as the query image is transmitted to the information processing device 100 .
  • the image ID attached to the product image 72 can be included in the search query and transmitted.
  • the information processing device 100 that has received the search query generates a first feature vector 301, a second feature vector 302, a gender feature vector 303, and a color feature vector 304 from the product image 72 associated with the search query. Subsequently, the information processing apparatus 100 generates a composite feature vector 311 from the four feature vectors, searches for one or more similar images from the composite feature vector 311, and obtains a search result (one or more similar images and the image related information) to the user device 10 .
  • FIG. 7B shows a screen example in which the search results received by the user device 10 from the information processing device 100 are displayed on the display unit 506.
  • FIG. 7B shows a screen example in which the search results received by the user device 10 from the information processing device 100 are displayed on the display unit 506.
  • the screen 74 displays the four similar images 75A to 75D.
  • various information such as price and attribute information related to each image can also be displayed.
  • the EC site is a mall-type EC site (an EC site like a shopping mall on the Web)
  • the product included in the product image 72 is configured to be handled by different sellers, the price and the seller may be different.
  • Product images 72 with different values may be retrieved as similar images.
  • similar images in which the products included in the product image 72 are displayed in different layouts may be retrieved.
  • the information processing apparatus 100 predicts a plurality of attributes (features) of a product from a product image, generates a plurality of feature vectors, and converts the plurality of feature vectors into one feature space. Similar images are retrieved from the composite feature vector generated by embedding in . As a result, it becomes possible to search for similar images from the point of view of each and every feature of the product, and it is possible to provide similar images with higher precision than in the past, thereby improving usability.
  • the composite feature vector 311 is generated from four feature vectors, but the number of combined feature vectors is not limited to four.
  • a composite feature vector 311 may be generated from the second feature vector 302 and the color feature vector 304, and a similar image may be retrieved from the composite feature vector 311.
  • a similar image may be retrieved from a composite feature vector 311 that combines other feature vectors generated by machine learning.
  • the gender feature vector 303 was used as an example, but since the gender targeted by the product is one type of product attribute, it is configured to estimate (extract) product attributes other than gender.
  • the information processing apparatus 100 may have an attribute estimation model that receives a product image as an input and outputs an attribute vector indicating the attributes of the product, and may generate the attribute vector using the attribute estimation model.
  • the attribute vector can be incorporated into composite feature vector 311 instead of or in addition to gender feature vector 303 .
  • the user device 10 selects one product image on a website such as an EC site, the information processing device 100 searches for similar images similar to the selected product image, and sends the user device 10 provided.
  • the user device 10 is equipped with a camera (imaging means)
  • the user can view not only products handled by the EC site that the user has accessed, but also products that are similar to products contained in product images captured by the camera. It is assumed that the user searches for a product and considers purchasing it.
  • an image is arbitrarily selected from images already captured by a camera and images acquired from an external device, which are stored in the storage unit of the user device 10, and products similar to products included in the selected image are displayed. A case of searching and considering purchase is also assumed.
  • an embodiment will be described in which the user searches for similar images from images captured by a camera or images selected from the storage section of the user device 10 .
  • the description of matters common to the first embodiment will be omitted.
  • the configuration of the information processing apparatus 100 according to this embodiment is the same as that of the first embodiment.
  • the flow of processing executed by the information processing apparatus 100 according to this embodiment is also the same as the processing shown in FIG. 6 described in the first embodiment.
  • a product image as a query image in the first embodiment corresponds to an image captured by the user device 10 or an image selected from the storage unit.
  • FIGS. 8A to 8C show screen display examples of the user device 10 according to this embodiment.
  • a screen 80 in FIG. 8A is an example of a screen displayed on the display unit 506 of the user device 10 .
  • the user operates the user device 10 to access an arbitrary electronic commerce site (EC site), enters an arbitrary search word, and transmits the search word to the information processing device 100, so that the information on the screen 80 is It is provided and displayed on the display unit 506 of the user device 10 .
  • EC site electronic commerce site
  • the CPU 501 of the user device 10 controls the display unit 506 of the user device 10 to display the camera button 81 and the photo library button 82 together according to the user's operation.
  • the screen 80 provided by the information processing apparatus 100 is controlled so that the camera button 81 and the photo library button 82 are displayed.
  • a camera button 81 and a photo library button 82 may be displayed on the associated screen.
  • the camera button 81 and the photo library button 82 may be configured in other forms, such as physical buttons.
  • the camera button 81 is a button for activating a camera function (camera application) provided in the user device 10 .
  • the user device 10 enters a state (shooting mode) in which an arbitrary subject can be shot.
  • the photo library button 82 is a button for browsing one or more images stored in a storage unit such as the RAM 503 of the user device. When the photo library button 82 is selected, one or more images stored in the storage section are displayed on the display section 506 of the user device 10 .
  • FIG. 8B shows an example of the screen when the user selects the camera button 81 on the screen 80 of FIG. 8A and captures an image as a query image for searching for similar images.
  • image 84 shows the captured image.
  • a search button 85 for the image 84 is also displayed on the screen 83 .
  • Search button 85 is displayed to be selectable. In this state, when the user selects the search button 85 , a search query associated with the image 84 as the query image is transmitted to the information processing apparatus 100 .
  • the information processing device 100 that has received the search query generates a first feature vector 301, a second feature vector 302, a gender feature vector 303, and a color feature vector 304 from the image 84 associated with the search query. Subsequently, the information processing apparatus 100 generates a composite feature vector 311 from the four feature vectors, searches for one or more similar images from the composite feature vector 311, and obtains a search result (one or more similar images and the image related information) to the user device 10 .
  • FIG. 8C shows an example of the screen when the user selects the photo library button 82 on the screen 80 of FIG. 8A.
  • a captured image stored in the storage unit of the user device 10 or an image acquired from the outside is displayed on the screen 86 of FIG. 8C.
  • a user can change one or more images displayed on screen 86 by, for example, swiping screen 86 right or left.
  • the image 87 displayed in the center of the screen 86 is the query image.
  • a search button 88 for the image 87 is displayed. Search button 88 is displayed to be selectable.
  • the search query associated with the image 87 as the query image is transmitted to the information processing apparatus 100 .
  • the image displayed in the center of the screen 86 is the query image. Just do it.
  • the information processing device 100 that has received the search query generates a first feature vector 301, a second feature vector 302, a gender feature vector 303, and a color feature vector 304 from the image 87 associated with the search query. Subsequently, the information processing apparatus 100 generates a composite feature vector 311 from the four feature vectors, searches for one or more similar images from the composite feature vector 311, and obtains a search result (one or more similar images and the image related information) to the user device 10 .
  • a query image is selected not from a website such as an EC site, but from an image taken by the user, an image already taken, or an image acquired from the outside. This allows the user to more freely select a query image and search for similar images similar to the query image, which contributes to improving usability.
  • the user device 10 selects one product image on a website such as an EC site, the information processing device 100 searches for similar images similar to the selected product image, and the user device 10 provided to Further, in the second embodiment, the user device 10 selects one image from the images captured by the device or the images already acquired, and the information processing device 100 searches for similar images similar to the selected image. and provided to the user device 10.
  • a website such as an EC site
  • the user device 10 selects one image from the images captured by the device or the images already acquired, and the information processing device 100 searches for similar images similar to the selected image. and provided to the user device 10.
  • an embodiment combining the first embodiment and the second embodiment will be described.
  • the description of matters common to the first embodiment and the second embodiment will be omitted.
  • the configuration of the information processing apparatus 100 according to this embodiment is the same as that of the first embodiment.
  • the flow of processing executed by the information processing apparatus 100 according to this embodiment is also the same as the processing shown in FIG. 6 described in the first embodiment.
  • the processing of the similarity search unit 107 is different from the above embodiment.
  • the user device 10 transmits a search query that associates a product image as a query image with an image (text image) containing text information selected in the product image, and the similarity search unit 107 of the information processing device 100 Similar images are searched using the product image and the text image.
  • FIGS. 9A and 9B show screen display examples of the user device 10 according to the present embodiment.
  • a screen 90 in FIG. 9A is an example of a screen displayed on the display unit 506 of the user device 10 .
  • the user operates the user device 10 to access an arbitrary electronic commerce site (EC site), inputs an arbitrary search word, and transmits the search word to the information processing device 100, so that the information on the screen 90 is It is provided and displayed on the display unit 506 of the user device 10 .
  • the CPU 501 of the user device 10 controls the display unit 506 of the user device 10 to also display the camera button 91 in accordance with the user's operation.
  • the function of the camera button 91 is similar to the camera button 81 of FIG. 8A.
  • a product image 92 is displayed on the screen 90 of FIG. 9A in accordance with a user's search operation.
  • the user selects the camera button 91 to enter the shooting mode and shoots the area 93 .
  • An image 94 displayed on the display unit 506 after the photographing is an image corresponding to the area 93 and is an image including text information (text image).
  • the image 94 is not limited to an image obtained by a photographing operation, and may be an image obtained by an arbitrary selection operation by a user operation.
  • the image 94 displays a search button 95 for the product image 92 (or area 93). Search button 95 is displayed to be selectable. In this state, when the user selects the search button 95 , a search query associated with the product image 92 and the image (text image) 94 is transmitted to the information processing apparatus 100 .
  • the information processing apparatus 100 that has received the search query generates a first feature vector 301, a second feature vector 302, a gender feature vector 303, and a color feature vector 304 from the image 92 associated with the search query. Subsequently, the information processing apparatus 100 generates a composite feature vector 311 from the four feature vectors. If the composite feature vector 311 has already been generated from the image 92, the similarity search unit 107 searches and acquires the composite feature vector 311 from the image ID.
  • the similarity search unit 107 analyzes the image 94 associated with the search query and extracts text information.
  • Various known image processing techniques and machine learning can be used to extract the text information.
  • the similarity search unit 107 is configured to extract text information (for example, at least one of product name and brand name) from the image 94 using machine learning.
  • the product name extracted is "Mineral Sunscreen” and the brand name extracted is "ABC WHITE".
  • the similarity search unit 107 searches for one or more similar images to the image 94 based on the composite feature vector 311 and the extracted text information, and retrieves search results (one or more similar images and various information related to the image). ) to the user device 10 .
  • FIG. 9B shows a screen example in which the search results received by the user device 10 from the information processing device 100 are displayed on the display unit 506.
  • FIG. 9B it is assumed that two similar images 98A and 98B are retrieved from the image 94, and the screen 97 displays the two similar images 98A and 98B.
  • various information such as price and attribute information related to each image can also be displayed.
  • the information processing apparatus 100 predicts a plurality of attributes (features) of the product from the product image, generates a plurality of feature vectors, and combines the plurality of feature vectors to form a composite feature vector. to generate Furthermore, the information processing apparatus 100 extracts text information from the text image in the product image. Then, the information processing apparatus 100 searches for similar images from the composite feature vector and the text information. As a result, it is possible to provide similar images with higher accuracy than in the past, and improve usability.
  • the acquisition unit 101 acquires one product image.
  • the information processing apparatus 100 may search for similar images for each image.
  • 10 User device, 100: Information processing device, 101: Acquisition unit, 102: First feature estimation unit, 103: Second feature estimation unit, 104: Gender estimation unit, 105: Color estimation unit, 106: Connection unit, 107 : similarity search unit, 108: learning unit, 109: output unit, 110: learning model storage unit, 111: first feature estimation model, 112: second feature estimation model, 113: gender estimation model, 114: color estimation model, 115: Search database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(1)は、対象となるオブジェクトを含むオブジェクト画像を取得する取得手段(101)と、前記オブジェクト画像を複数の学習モデルに適用することにより、前記オブジェクトに対する複数の特徴ベクトルを生成する生成手段(102;103;104;105)と、前記複数の特徴ベクトルを連結して共通の特徴空間に埋めこみ、当該特徴空間上で複合特徴ベクトルを生成する連結手段(106)と、前記複合特徴ベクトルを用いて、前記オブジェクト画像に対する類似画像を検索する検索手段と(107)、を有する。

Description

情報処理装置、情報処理方法、情報処理システム、およびプログラム
 本発明は、情報処理装置、情報処理方法、情報処理システム、およびプログラムに関し、特に、ユーザにより指定された商品を含む画像に類似する画像を予測するための技術に関する。
 近年、インターネットを使って商品の販売を行う電子商取引(E-commerce/eコマース)が盛んに実施されており、そのような電子商取引の実施のためのEC(Electronic Commerce)サイトがウェブ上に多く構築されている。ECサイトは、世界中の各国の言語を用いて構築されることも多く、多くの国に在住するユーザ(消費者)が商品を購入することを可能にしている。ユーザは、PC(Personal Computer)や、スマートフォンといった携帯端末からECサイトにアクセスすることで、実際の店舗に赴くことなく、また時間に関係なく、所望の商品の選択や購入を行うことが可能となっている。
 ECサイトにおいて、ユーザによる購買意欲を増進させることを目的に、ユーザにより指定された商品の画像(商品画像)から、当該商品に類似する商品を含む1以上の類似画像を検索して提示する機能が知られている。
 例えば、特許文献1では、商品画像から背景画像を削除して商品領域を抽出し、当該商品領域に類似する領域を含む画像を検索するための技術が開示されている。
 また、このような機能は、ECサイトで扱う商品を販売する店舗において、当該店舗に備えられた端末(店舗端末)を用いて、ユーザのリクエストに応じて類似商品を検索する際にも用いられうる。
特開2009-251850号公報
 特許文献1に開示される技術では、商品画像から抽出された商品領域から画像特徴量を算出し、当該画像特徴量から類似画像を検索する。しかしながら、当該技術は複雑なデータを分析し、より正確な結果をより速やかに提供できるものでないため、類似画像の検索精度が低いものとなっていた。
 本発明は上記課題に鑑みてなされたものであり、入力画像に類似する画像を精度高く検索するための技術を提供することを目的とする。
 上記課題を解決するために、本発明による情報処理装置の一態様は、対象となるオブジェクトを含むオブジェクト画像を取得する取得手段と、前記オブジェクト画像を複数の学習モデルに適用することにより、前記オブジェクトに対する複数の特徴ベクトルを生成する生成手段と、前記複数の特徴ベクトルを連結して共通の特徴空間に埋めこみ、当該特徴空間上で複合特徴ベクトルを生成する連結手段と、前記複合特徴ベクトルを用いて、前記オブジェクト画像に対する類似画像を検索する検索手段と、を有する。
 前記情報処理装置において、前記複数の学習モデルは、前記オブジェクト画像を入力として、前記オブジェクトの上位レベルの分類を示す第1特徴ベクトルを出力する第1特徴推定モデルと、前記オブジェクト画像を入力として、前記オブジェクトの下位レベルの分類を示す第2特徴ベクトルを出力する第2特徴推定モデルと、を含み、前記生成手段は、前記オブジェクト画像を前記複数の学習モデルに適用することにより、前記第1特徴ベクトルと前記第2特徴ベクトルを生成し、前記連結手段は、前記第1特徴ベクトルと前記第2特徴ベクトルを連結して、前記複合特徴ベクトルを生成しうる。
 前記情報処理装置において、前記複数の学習モデルは、前記オブジェクト画像を入力として、前記オブジェクトの上位レベルの分類を示す第1特徴ベクトルを出力する第1特徴推定モデルと、前記第1特徴ベクトルを入力として、前記オブジェクトの下位レベルの分類を示す第2特徴ベクトルを出力する第2特徴推定モデルと、を含み、前記生成手段は、前記オブジェクト画像を前記複数の学習モデルに適用することにより、前記第1特徴ベクトルと前記第2特徴ベクトルを生成し、前記連結手段は、前記第1特徴ベクトルと前記第2特徴ベクトルを連結して、前記複合特徴ベクトルを生成しうる。
 前記情報処理装置において、前記複数の学習モデルはさらに、前記オブジェクト画像を入力として、前記オブジェクトの属性を示す属性ベクトルを出力する属性推定モデルと、前記オブジェクト画像を入力として、前記オブジェクトの色を示す色特徴ベクトルを出力する色推定モデルと、を含み、前記生成手段は、前記オブジェクト画像を前記複数の学習モデルに適用することにより、前記第1特徴ベクトル、第2特徴ベクトル、前記属性ベクトル、および前記色特徴ベクトルを生成し、前記連結手段は、前記第1特徴ベクトル、前記第2特徴ベクトル、前記属性ベクトル、および前記色特徴ベクトルを連結して、前記複合特徴ベクトルを生成しうる。
 前記情報処理装置において、前記属性推定モデルは、前記オブジェクト画像を入力として、前記オブジェクトが対象とする性別を示す性別特徴ベクトルを出力する性別推定モデルでありうる。
 前記情報処理装置において、前記性別特徴ベクトルは、前記オブジェクトが対象とする性別として、男性、女性、キッズ、ユニセックスを識別可能に構成されうる。
 前記情報処理装置において、前記検索手段は、前記類似画像として、前記連結手段により生成された前記複合特徴ベクトルと類似度が高い複合特徴ベクトルに対応する画像を検索しうる。
 また、前記検索手段は、前記特徴空間上において、前記連結手段により生成された前記複合特徴ベクトルとのユークリッド距離が短い複合特徴ベクトルを、類似度が高いと判定しうる。
 前記情報処理装置において、前記取得手段は、ユーザ装置から送信された前記オブジェクト画像を取得しうる。
 前記情報処理装置において、前記オブジェクト画像は、前記ユーザ装置がアクセスした所定の電子商取引のサイトにおいて選択したオブジェクトを含む画像でありうる。
 前記情報処理装置において、前記オブジェクト画像は、前記ユーザ装置により撮影されたオブジェクトを含む画像でありうる。
 前記情報処理装置において、前記オブジェクト画像は、前記ユーザ装置に記憶されている画像でありうる。
 前記情報処理装置において、前記取得手段は、ユーザ装置から送信された、前記オブジェクト画像と、前記オブジェクト画像において前記ユーザ装置により選択されたテキスト情報を含むテキスト画像を取得し、
 前記検索手段は、前記テキスト画像から前記テキスト情報を抽出し、当該抽出したテキスト情報と前記複合特徴ベクトルとを用いて、前記類似画像を検索しうる。
 前記情報処理装置において、前記オブジェクト画像はDCT(Discrete Cosine Transform)変換された画像でありうる。
 上記課題を解決するために、本発明による情報処理方法の一態様は、対象となるオブジェクトを含むオブジェクト画像を取得する取得工程と、前記オブジェクト画像を複数の学習モデルに適用することにより、前記オブジェクト画像に対する複数の特徴ベクトルを生成する生成工程と、前記複数の特徴ベクトルを連結して共通の特徴空間に埋めこみ、当該特徴空間上で複合特徴ベクトルを生成する連結工程と、前記複合特徴ベクトルを用いて、前記オブジェクト画像に対する類似画像を検索する検索工程と、を有する。
 上記課題を解決するために、本発明による情報処理プログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、対象となるオブジェクトを含むオブジェクト画像を取得する取得処理と、
 前記オブジェクト画像を複数の学習モデルに適用することにより、前記オブジェクトに対する複数の特徴ベクトルを生成する生成処理と、前記複数の特徴ベクトルを連結して共通の特徴空間に埋めこみ、当該特徴空間上で複合特徴ベクトルを生成する連結処理と、前記複合特徴ベクトルを用いて、前記オブジェクト画像に対する類似画像を検索する検索処理と、を含む処理を実行させるためのものである。
 上記課題を解決するために、本発明による情報処理システムの一態様は、ユーザ装置と情報処理装置と有する情報処理システムであって、前記ユーザ装置は、対象となるオブジェクトを含むオブジェクト画像を前記情報処理装置に送信する送信手段を有し、前記情報処理装置は、前記オブジェクト画像を取得する取得手段と、前記オブジェクト画像を複数の学習モデルに適用することにより、前記オブジェクトに対する複数の特徴ベクトルを生成する生成手段と、前記複数の特徴ベクトルを連結して共通の特徴空間に埋めこみ、当該特徴空間上で複合特徴ベクトルを生成する連結手段と、前記複合特徴ベクトルを用いて、前記オブジェクト画像に対する類似画像を検索する検索手段と、を有する。
 本発明によれば、入力画像に類似する画像を精度高く検索することが可能となる。
 上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
図1は、本発明の実施形態による情報処理システムの構成例を示す。 図2は、本発明の実施形態による情報処理装置の機能構成の一例を示すブロックである。 図3Aは、各特徴ベクトルおよび複合特徴ベクトルの概念図を示す。 図3Bは、類似検索処理の概念図を示す。 図4は、画像認識モデルの概略アーキテクチャを示す。 図5は、本発明の実施形態による情報処理装置のハードウェア構成の一例を示すブロックである。 図6は、本発明の実施形態による情報処理装置により実行される処理を示すフローチャートである。 図7Aは、第1実施形態によるユーザ装置の画面表示例を示す。 図7Bは、第1実施形態によるユーザ装置の画面表示例を示す。 図8Aは、第2実施形態によるユーザ装置の画面表示例を示す。 図8Bは、第2実施形態によるユーザ装置の画面表示例を示す。 図8Cは、第2実施形態によるユーザ装置の画面表示例を示す。 図9Aは、第3実施形態によるユーザ装置の画面表示例を示す。 図9Bは、第3実施形態によるユーザ装置の画面表示例を示す。
 以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
 <第1実施形態>
 [情報処理システムの構成]
 図1に、本実施形態による情報処理システムの構成を示す。本情報処理システムは、端末装置や店舗に設けられた店舗端末といったユーザ装置10と、情報処理装置100を含んで構成される。
 ユーザ装置10は、例えば、スマートフォンやタブレットといったデバイスであり、LTE(Long Term Evolution)等の公衆網や、無線LAN(Local Area Network)等の無線通信網を介して、情報処理装置100と通信可能に構成されている。ユーザ装置10は、液晶ディスプレイ等の表示部(表示面)を有し、ユーザは、当該液晶ディスプレイに装備されたGUI(Graphic User Interface)により各種操作を行うことができる。当該操作は、指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、画面に表示された画像等のコンテンツに対する各種の操作を含む。
 また、ユーザ装置10は、デスクトップ型のPC(Personal Computer)やノート型のPCといったデバイスであってもよい。その場合、ユーザによる操作は、マウスやキーボードといった入力装置を用いて行われうる。また、ユーザ装置10は、表示面を別に備えてもよい。
 ユーザ装置10は、ユーザの操作に従って、情報処理装置100に対して検索クエリを送信する。検索クエリは、商品(オブジェクト)を含む画像(商品画像(オブジェクト画像))と関連付けられた、当該商品画像に対する類似画像(商品に類似する商品を含む画像)を検索するためのリクエストに対応する。なお、以下の説明において、類似画像を検索する対象の商品画像を、クエリ画像とも称しうる。ユーザは、例えば、ユーザ装置10の表示部に表示された、1つ以上の商品画像の中から1つの商品画像をクエリ画像として選択した上で、所定の検索ボタンを選択することにより、検索クエリを送信することができる。検索クエリは、クエリ画像の情報を、情報処理装置100で復号できる形式やURLの形式で含む(関連付ける)ことができる。
 情報処理装置100は、ECサイトを構築し、ウェブコンテンツを配信することが可能なサーバ装置であり、本実施形態では、検索サービスを提供することが可能に構成される。情報処理装置100は、当該検索サービスとして、ユーザ装置10から受信した検索クエリに対応するコンテンツ(検索結果)を生成し、当該コンテンツをユーザ装置10に配信(出力)することができる。
 [情報処理装置100の機能構成]
 本実施形態による情報処理装置100は、ユーザ装置10から受信した検索クエリに関連付けられた商品画像を取得し、当該商品画像に含まれる商品の複数の属性に照らして複数の特徴ベクトルを生成し、当該複数の特徴ベクトルを連結した複合特徴ベクトルを生成し、当該複合特徴ベクトルを用いて、当該商品画像に類似する類似画像を検索する。
 図2は、本実施形態による情報処理装置1の機能構成の一例を示す。
 図2に示す情報処理装置1は、取得部101、第1特徴推定部102、第2特徴推定部103、性別推定部104、色推定部105、連結部106、類似検索部107、学習部108、出力部109、学習モデル記憶部110、および検索データベース115を備える。学習モデル記憶部110は、第1特徴推定部102、第2特徴推定部103、性別推定部104、色推定部105に適用される各種学習モデル(第1特徴推定モデル111、第2特徴推定モデル112、性別推定モデル113、色推定モデル114)を記憶している。当該各種学習モデルについては後述する。検索データベース115は、類似画像検索に関する情報を記憶するデータベースであり、情報処理装置100の外部に設けられてもよい。
 取得部101は、商品画像(クエリ画像)を取得する。本実施形態では、取得部101はユーザ装置10により送信された検索クエリを受信し、当該検索クエリに関連付けられた(含まれた)商品画像を取得する。
 商品画像は、赤(R)、緑(G)、青(B)の3色で色を表現した画像でありうる。また、商品画像は、明るさを表す輝度(Y(Luma))と色の成分(Cb、Cr(Chroma))で表現した画像(RGB画像からYCbCr変換された画像(YCbCr画像))であってもよい。また、商品画像は、情報処理装置100に備えられた符号化部(不図示)により、YCbCr画像からDCT(Discrete Cosine Transform)変換(圧縮)されたデータ(係数)であってもよい。また、情報処理装置100以外の装置により(YCbCr変換および)DCT変換された商品画像としてのデータを取得部101が取得するように構成されてもよい。
 取得部101は、取得した商品画像を、第1特徴推定部102、第2特徴推定部103、性別推定部104、および色推定部105に出力する。
 第1特徴推定部102、第2特徴推定部103、性別推定部104、および色推定部105、並びに、連結部106について、図3Aも参照して説明する。図3Aは、各特徴ベクトルおよび複合特徴ベクトル(Compounded Feature Vector)の概念図を示す。
 第1特徴推定部102は、取得部101により取得された商品画像(図3Aの入力画像30に対応)を、第1特徴推定モデル111に適用し、教師あり学習を行うことにより、商品に対する第1特徴を推定(予測)して、当該第1特徴を示す第1特徴ベクトル301を生成する。第1特徴は、商品の上位レベルの(集約された)分類を示し、カテゴリーとも称する。なお、本明細書において、特徴ベクトルとは、特徴を表す値/情報を表す。
 第2特徴推定部103は、取得部101により取得された商品画像を、第2特徴推定モデル112に適用し、教師あり学習を行うことにより、商品に対する第2特徴を推定(予測)して、当該第2特徴を示す第2特徴ベクトル302を生成する。第2特徴は、商品の下位レベルの(細分化された)分類を示し、第1特徴に紐づけられるものである。また、第2特徴はジャンルとも称する。なお、第2特徴推定部103は、第1特徴推定モデル111に適用して第1特徴を推定し、かつ、推定した第1特徴から、第2特徴を推定するように構成されてもよい。この場合、第2特徴推定モデル112は、第1特徴推定部102により生成された第1特徴ベクトル301を入力として、第2特徴ベクトル302を生成するように構成される。そして、第2特徴推定部103は、第1特徴ベクトルを第2特徴推定モデル112に適用し、第2特徴ベクトル302を生成する。
 前述のように、第1特徴はより上位レベルの(集約された)商品分類タイプを示し、第2特徴は、より下位レベルの(細分化された)商品分類タイプを示す。
 具体例を示すと、第1特徴(カテゴリー)は、例えば、メンズファッション、レディスファッション、ファッショングッズ、インナー、シューズ、アクセサリー、時計といった商品分類タイプを含む。
 第2特徴(ジャンル)は、第1特徴がレディスファッションの場合は、パンツ、シャツ、ブラウス、スカート、ワンピースといった商品分類タイプを含む。
 第1特徴推定部103と第2特徴推定部104はそれぞれ、生成した第1特徴ベクトル301と第2特徴ベクトル302を、連結部106へ出力する。
 性別推定部104は、取得部101により取得された商品画像を、性別推定モデル113に適用し、教師あり学習を行うことにより、商品が対象とする性別(ジェンダー)を推定(予測)して、当該性別を示す性別特徴ベクトル303を生成する。本実施形態では、性別推定部104は、男性、女性といった性別だけでなく、キッズ、ユニセックスといった区分を識別可能である。
 性別推定部104は、生成した性別特徴ベクトル303を、連結部106へ出力する。
 色推定部105は、取得部101により取得された商品画像を、色推定モデル114に適用し、教師あり学習を行うことにより、商品の色を推定(予測)し、当該色を示す色特徴ベクトル304を生成する。
 色推定部105は、生成した色特徴ベクトル304を、連結部106へ出力する。
 連結部106は、第1特徴推定部102、第2特徴推定部103、性別推定部104、および色推定部105により出力された特徴ベクトルを連結し、複数次元(multi-dimensional)特徴空間(以下、特徴空間と称する)にこれらの特徴ベクトルを埋め込み、複合特徴ベクトル311を生成する(図3Aの連結31に対応)。すなわち、連結部106は、1つの(共通の)特徴空間上に、第1特徴ベクトル301、第2特徴ベクトル302、性別特徴ベクトル303、および色特徴ベクトル304を連結した複合特徴ベクトル311を連結して1つの共通の特徴空間上に埋め込み、複合特徴ベクトル311を生成する。
 後述するように、第1特徴ベクトル301は200次元(200D(dimension))、第2特徴ベクトル302は153次元(153D)、性別特徴ベクトル303は4次元(4D)、色特徴ベクトル304は12次元(12D)で表される。よって、複合特徴ベクトル311は369次元(369D)で表される。
 また、複合特徴ベクトル311は、図3Aに示すように、性別特徴ベクトル303、第2特徴ベクトル302、色特徴ベクトル304、第1特徴ベクトル301の順に連結されうる。当該連結の順は一例であり、この順に限定されない。
 連結部106は、生成した複合特徴ベクトル311を、類似検索部107へ出力する。
 類似検索部107は、連結部106により生成された複合特徴ベクトル311を入力として、取得部101で取得された商品画像に対する類似画像を検索する。本実施形態では、類似検索部107は、特徴空間上での類似画像検索を行う。類似検索部107は、例えば、公知の近傍探索(Nearest Neighbor Search)エンジンを用いて類似画像を検索するように構成される。近傍探索エンジンには、例えば、FAISS(Facebook AI Similarity Search)アルゴリズムを用いたものが知られている。なお、類似検索部107の構成の全体または一部は、情報処理装置100に関連付けられるように外部に設置されてもよい。
 出力部109、類似検索部107による検索結果である1つ以上の画像IDに対応する画像(類似画像)を含む情報を出力する。例えば出力部109は、通信I/F507(図5)を介して、当該情報を提供しうる。
 学習部108は、第1特徴推定モデル111、第2特徴推定モデル112、性別推定モデル113、色推定モデル114それぞれを学習(トレーニング)させ、学習済みのこれらの学習モデルを、学習モデル記憶部110に格納する。
 本実施形態において、第1特徴推定モデル111、第2特徴推定モデル112、性別推定モデル113、色推定モデル114は、いずれも画像認識モデルを適用した機械学習のための学習モデルである。当該画像認識モデルの概略アーキテクチャの例を図4に示す。
 図4に示すように、本実施形態による画像認識モデルは、複数の畳み込み層を含んで構成される中間層と、クラスを分類/予測する出力層から構成され、入力された商品画像から予測された特徴ベクトルを出力する。中間層として、例えば、Google ResearchによるEfficientNetが使用される。EfficientNetが使用される場合、各畳み込み層は、MBConv(Mobile Inverted Bottleneck Convolution)が使用される。中間層では特徴マップが抽出され、出力層では、当該当該マップから次元を減らしつつ、最終的な特徴ベクトルを生成するように構成される。なお、畳み込み層の数は、特定の数に限定されない。
 第1特徴推定モデル111、第2特徴推定モデル112、性別推定モデル113、色推定モデル114はそれぞれ、図4に示す画像認識モデルのようなアーキテクチャで構成することができ、それぞれ第1特徴ベクトル301、第2特徴ベクトル302、性別特徴ベクトル303、色特徴ベクトル304を出力する。
 第1特徴推定モデル111、第2特徴推定モデル112、性別推定モデル113、色推定モデル114は、それぞれ個別の学習用(教師用)データを用いて学習処理が行われる。ここで、各学習モデルについての学習処理について説明する。
 第1特徴推定モデル111:商品画像から第1特徴(カテゴリー(商品の上位レベルの分類))を予測し、第1特徴ベクトル301を出力するモデルである。学習用データとしては、商品画像(入力画像)と、正解データとしての当該商品のカテゴリーの組み合わせが用いられる。学習用データにおいて、商品に対するカテゴリーは予め設定されており、本実施形態ではカテゴリーの種類は200種類であるとする。カテゴリーの例は、装着品に関すると、上記のように、メンズファッション、レディスファッション、ファッショングッズ、インナー、シューズ、アクセサリー、時計である。また、カテゴリーは、食品、ガーデニング、コンピュータ/周辺機器等も含みうる。
 本実施形態では、第1特徴推定モデル111は、200種類のカテゴリーを分類可能に構成され、第1特徴ベクトル301は、200次元(dimension)を表現可能なベクトルとする。
 第2特徴推定モデル112:商品画像から第2特徴(ジャンル(商品の下位レベルの分類))を予測し、第2特徴ベクトル302を出力するモデルである。学習用データとしては、商品画像(入力画像)と、正解データとしての当該商品のジャンルの組み合わせが用いられる。学習用データにおいて、商品に対するジャンルは予め設定されており、上位分類である各カテゴリーに紐づけされる形式で予め設定される。
 本実施形態では、第2特徴推定モデル112は、第1特徴推定部102により生成された第1特徴ベクトル301(カテゴリー)ごとに、153種類のジャンルを推定可能に構成され、第2特徴ベクトル302は、153次元を表現可能なベクトルとする。
 また、第2特徴推定モデル112は、第1特徴を推定して第1特徴ベクトル301を生成し、当該第1特徴から、第2特徴を推定して第2特徴ベクトル302を生成するように構成されてもよい。
 性別推定モデル113:商品画像から性別を予測し、性別特徴ベクトル303を出力するモデルである。学習用データとしては、商品画像(入力画像)と、正解データとしての当該商品が対象とする性別情報の組み合わせが用いられる。上記のように、本実施形態では、性別は、男性と女性だけでなく、キッズ、ユニセックスの区分も含む。学習用データにおいて、商品に対する性別特徴は予め設定されているものとする。
 性別推定モデル113は、4種類の性別(男性、女性、キッズ、ユニセックス)を推定可能に構成され、性別特徴ベクトル303は、4次元を表現可能なベクトルとする。
 なお、性別推定モデル113は、図4に示す画像認識モデルからではなく、第1特徴ベクトル301および/または第2特徴ベクトル302に基づいて、性別を予測し、性別特徴ベクトル303を生成して出力するように構成されてもよい。
 色推定モデル114:商品画像から色を予測し、色特徴ベクトル304を出力するモデルである。学習用データとしては、商品画像(入力画像)と、正解データとしての当該商品の色情報の組み合わせが用いられる。本実施形態では、色推定モデル114は、12種類(パターン)の色情報を分類可能に構成され、色特徴ベクトル304は、12次元を表現可能なベクトルとする。
[情報処理装置100のハードウェア構成]
 図5は、本実施形態による情報処理装置100のハードウェア構成の一例を示すブロック図である。
 本実施形態による情報処理装置100は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
 図5を参照して、情報処理装置100は、単一のコンピュータに実装される例が示されているが、本実施形態による情報処理装置100は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。
 図5に示すように、情報処理装置100は、CPU501と、ROM502と、RAM503と、HDD504と、入力部505と、表示部506と、通信I/F507と、システムバス508とを備えてよい。情報処理装置100はまた、外部メモリを備えてよい。
 CPU(Central Processing Unit)501は、情報処理装置100における動作を統括的に制御するものであり、データ伝送路であるシステムバス508を介して、各構成部(502~507)を制御する。
 ROM(Read Only Memory)502は、CPU501が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、HDD(Hard Disk Drive)504、SSD(Solid State Drive)等の不揮発性メモリや着脱可能な記憶媒体(不図示)等の外部メモリに記憶されていてもよい。
 RAM(Random Access Memory)503は、揮発性メモリであり、CPU501の主メモリ、ワークエリア等として機能する。すなわち、CPU501は、処理の実行に際してROM502から必要なプログラム等をRAM503にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
 HDD504は、例えば、CPU501がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、HDD504には、例えば、CPU501がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
 入力部505は、キーボードやマウス等のポインティングデバイスにより構成される。
 表示部506は、液晶ディスプレイ(LCD)等のモニターにより構成される。表示部506は、入力部505と組み合わせて構成されることにより、GUI(Graphical User Interface)として機能してもよい。
 通信I/F507は、情報処理装置100と外部装置との通信を制御するインタフェースである。
 通信I/F507は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信I/F507を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信I/F507は、イーサネット(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi-Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、LTE/3G、4G、5G等の無線WAN(Wide Area Network)を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。
 図5に示す情報処理装置100の各要素のうち少なくとも一部の機能は、CPU501がプログラムを実行することで実現することができる。ただし、図5に示す情報処理装置100の各要素のうち少なくとも一部の機能が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、CPU501の制御に基づいて動作する。
[ユーザ装置10のハードウェア構成]
 図1に示すユーザ装置10のハードウェア構成は、図5と同様でありうる。すなわち、ユーザ装置10は、CPU501と、ROM502と、RAM503と、HDD504と、入力部505と、表示部506と、通信I/F507と、システムバス508とを備えうる。ユーザ装置10は、情報処理装置100により提供された各種情報を、表示部506に表示し、GUI(入力部505と表示部506による構成)を介してユーザから受け付ける入力操作に対応する処理を行うことができる。
 また、ユーザ装置10は、不図示のカメラを備えることができ、ユーザの操作に応じたCPU501の制御により、撮影処理を実施するように構成される。
 [処理の流れ]
 図6に、本実施形態による情報処理装置100により実行される処理のフローチャートを示す。図6に示す処理は、情報処理装置100のCPU501がROM502等に格納されたプログラムをRAM503にロードして実行することによって実現されうる。
 S61では、取得部101は、クエリ画像としての商品画像を取得する。例えば、取得部101は、ユーザ装置10から送信された検索クエリに含まれる画像または画像を示すURLを取得することで、商品画像を取得することができる。
 S62~S65は、S61で取得された商品画像に対する特徴ベクトル(第1特徴ベクトル301、第2特徴ベクトル302、性別特徴ベクトル303、色特徴ベクトル304)の生成(推定)処理である。S62~S65の各処理は、図6に示す順序とは別の順序で行われてもよいし、並列に行われてもよい。
 S62では、第1特徴推定部102は、取得部101により取得された商品画像を第1特徴推定モデル111に適用することにより、第1特徴ベクトル301を生成する。上記のように、本実施形態では、第1特徴推定モデル111は、200種類の第1特徴(カテゴリー)を推定可能に構成されており、第1特徴ベクトル301は、200次元(dimension)を表現可能なベクトルである。
 S63では、第2特徴推定部103は、取得部101により取得された商品画像を第2特徴推定モデル112に適用することにより、第2特徴ベクトル302を生成する。上記のように、本実施形態では、第2特徴推定モデル112は、第1特徴(カテゴリー)ごとに、153種類の第2特徴(ジャンル)を推定可能に構成されており、第2特徴ベクトル302は、153次元を表現可能なベクトルである。第2特徴ベクトル302は、複数のレベルを有するように構成されてもよい。例えば、第1特徴推定部102で推定される商品のカテゴリーがレディスファッションの場合、第2特徴推定部103で推定される商品のジャンルは、レディスファッション_ボトムス/パンツの、上位レベルから下位レベルの2レベルを有するように構成されてもよい。
 S64では、性別推定部104は、取得部101により取得された商品画像を性別推定モデル113に適用することにより、性別特徴ベクトル303を生成する。上記のように、本実施形態では、性別推定モデル113は、4種類の性別(男性、女性、キッズ、ユニセックス)を推定可能に構成されており、性別特徴ベクトル303は、4次元を表現可能なベクトルである。
 S65では、色推定部105は、取得部101により取得された商品画像を色推定モデル114に適用することにより、色特徴ベクトル304を生成する。上記のように、本実施形態では、色推定モデル114は、12種類の色を推定可能に構成されており、色特徴ベクトル304は、12次元を表現可能なベクトルである。
 S62~S65において、各特徴ベクトルの推定が完了すると、処理はS66へ進む。S66では、連結部106は、S62~S65で出力された第1特徴ベクトル301、第2特徴ベクトル302、性別特徴ベクトル303、色特徴ベクトル304を連結して、特徴空間に埋め込み、複合特徴ベクトル311を生成する。
 S67では、類似検索部107が、連結部106により生成された複合特徴ベクトル311を入力とし、取得部101により取得された商品画像に類似する画像(類似画像)を検索する。当該検索処理(近傍探索処理)は、FAISS(Facebook AI Similarity Search)アルゴリズムを用いて行われうる。FAISSは、LSH(Locality Sensitive Hashing)を用いた近傍探索アルゴリズムである。
 当該検索処理に先立ち、類似検索部107は、学習データとしての複数の商品画像のそれぞれに対して、複合特徴ベクトル311を生成する。ここで、各商品画像には、画像を識別するための画像ID(インデックス/識別子)が付されている。そして、類似検索部107は、当該複合特徴ベクトル311を、当該ベクトルが示す商品画像の画像IDと対応付けて(マッピングして)検索データベース115に記憶しているものとする。画像IDの形式は特定のものに限定されず、URLに対応する情報等であってもよい。
 類似検索部107は、検索データベース115に記憶されている複数の複合特徴ベクトルと、連結部106により生成された複合特徴ベクトル311との、1つの(共通の)特徴空間上の類似度(ユークリッド距離)を計算し、複合特徴ベクトル311に類似する1つ以上の複合特徴ベクトルを取得する。このような処理が、近傍探索処理に対応する。続いて、類似検索部107は、取得した、1つ以上の類似する複合特徴ベクトルに対応する1つ以上の画像IDを取得し、当該画像IDに対応する類似画像を出力する。
 また、連結部106により、一度、複合特徴ベクトル311が生成され、類似検索部107により当該複合特徴ベクトル311が画像IDに対応付けられている場合は、4つの特徴ベクトルの生成処理を行わずに、類似画像の検索を行うことができる。
 例えば、ユーザ装置10から受信した検索クエリに関連付けられた商品画像の画像IDに対応する複合特徴ベクトルが存在する場合、類似検索部107は、検索データベース115において、画像IDから対応する複合特徴ベクトルを検索(retrieve)し、該対応する複合特徴ベクトルから、類似画像の検索を行うことができる。
 上述した、S67の類似画像の検索処理の概念図を図3Bに示す。図3Bに示すように、商品画像から生成された複合特徴ベクトル311、または、商品画像の画像IDから検索された複合特徴ベクトル311から、近傍探索処理が行われる。近傍探索処理では、複合特徴ベクトル311との類似度が高い複合特徴ベクトルを探索する。本実施形態では、特徴空間上で、ユークリッド距離が近いベクトルを類似度が高いと判定する。そして、当該探索した複合特徴ベクトルに対応する画像IDの画像を、画像IDのデータベース(検索データベース115に含まれる)から検索し、検索した画像を類似画像として出力する。
 類似検索部107は、複合特徴ベクトル311の先頭から特徴ベクトルを読み出し、類似検索を行ってもよい。例えば、複合特徴ベクトル311が、図3Aに示すように、性別特徴ベクトル303、第2特徴ベクトル302、色特徴ベクトル304、第1特徴ベクトル301の順に連結されている場合、類似検索部107は、性別特徴ベクトル303を先に読み出して検索処理を行い、次に第2特徴ベクトル302を読み出して、検索処理を行うことができる。
 S68では、出力部109は、類似検索部107による検索結果である1つ以上の画像IDに対応する画像(類似画像)を含む情報を、ユーザ装置10へ出力(配信)する。すなわち、取得部101がユーザ装置10から受信した検索クエリに対する応答(検索結果)として、類似画像を含む情報をユーザ装置10へ提供する。
 [ユーザ装置10における画面例]
 次に、図7Aと図7Bを参照して、本実施形態によるユーザ装置10における画面表示例について説明する。図7Aと図7Bは、本実施形態によるユーザ装置10の画面表示例を示す。画面70は、ユーザ装置10の表示部506に表示されている画面例である。例えばユーザはユーザ装置10を操作して、任意の電子商取引のサイト(ECサイトといったウェブサイト)にアクセスした上で、任意の検索ワードを入力して情報処理装置100に送信することにより、画面70のデータが提供され、ユーザ10の表示部506に表示される。
 ユーザが、画面70における領域71を選択(選択動作は押下やタッチ等の動作を含む。以下同様。)すると、領域71における商品画像72と、商品画像72に対する検索ボタン73が表示される。検索ボタン73は、選択可能に表示される。ここでさらにユーザが検索ボタン73を選択すると、クエリ画像としての商品画像72と関連付けられた検索クエリが情報処理装置100に送信される。また、商品画像72に付される画像IDも検索クエリに含めて送信されうる。
 検索クエリを受信した情報処理装置100は、当該検索クエリに関連付けられた商品画像72から、第1特徴ベクトル301、第2特徴ベクトル302、性別特徴ベクトル303、および色特徴ベクトル304を生成する。続いて情報処理装置100は、当該4つの特徴ベクトルから複合特徴ベクトル311を生成し、当該複合特徴ベクトル311から1つ以上の類似画像を検索し、検索結果(1つ以上の類似画像および当該画像に関連する各種情報)をユーザ装置10に出力する。
 図7Bは、ユーザ装置10が情報処理装置100から受信した検索結果を表示部506に表示した画面例を示す。本例では、商品画像72から4つの類似画像75A~75Dが検索された場合を想定し、画面74には4つの類似画像75A~75Dが表示される。なお、画面74では画像のみを示しているが、各画像に関連する価格や属性情報といった各種情報も併せて表示されうる。また、ECサイトがモール型ECサイト(Web上のショッピングモールのようなECサイト)であり、商品画像72に含まれる商品を異なる販売元が扱うように構成されている場合は、価格や販売元が異なる商品画像72が類似画像として検索される場合もある。また、商品画像72に含まれる商品が異なるレイアウトで表示された類似画像が検索される場合もある。
 このように、本実施形態による情報処置装置100は、商品画像から、商品のもつ複数の属性(特徴)を予測して複数の特徴ベクトルを生成し、当該複数の特徴ベクトルを1つの特徴空間上に埋め込んで生成した複合特徴ベクトルから類似画像を検索する。これにより、商品のもつ、あらゆる特徴それぞれの観点からの類似画像検索が可能となり、従来よりも精度高い類似画像が提供され、ユーザビリティを向上させることが可能となる。
 なお、上記実施形態では、複合特徴ベクトル311は4つの特徴ベクトルから生成される例を説明したが、結合される特徴ベクトルは4つに限定されない。例えば、第2特徴ベクトル302と色特徴ベクトル304から複合特徴ベクトル311が生成され、当該複合特徴ベクトル311から類似画像が検索されてもよい。また、機械学習により生成された他の特徴ベクトルを結合した複合特徴ベクトル311から類似画像が検索されるように構成されてもよい。
 また、上記実施形態では、性別特徴ベクトル303を例に説明したが、商品が対象とする性別は、商品の属性の一種であるから、性別以外の商品の属性を推定(抽出)するように構成されてもよい。例えば、情報処理装置100は、商品画像を入力として商品の属性を示す属性ベクトルを出力する属性推定モデルを有し、当該属性推定モデルを用いて属性ベクトルを生成してもよい。この場合、当該属性ベクトルは、性別特徴ベクトル303に替えて、またはそれに加えて、複合特徴ベクトル311に組み入れられうる。
 <第2実施形態>
 第1実施形態では、ユーザ装置10は、ECサイトといったウェブサイト上で1つの商品画像を選択し、情報処理装置100は当該選択された商品画像に類似する類似画像を検索し、ユーザ装置10に提供した。
 一方で、ユーザは、アクセスしたECサイトで扱われる商品からだけでなく、ユーザ装置10にカメラ(撮像手段)が備えられている場合、当該カメラで撮影された商品画像に含まれる商品に類似する商品を検索して購入を検討する場合が想定される。また、ユーザ装置10の記憶部に記憶されている、すでにカメラで撮影した画像や、外部装置から取得した画像から、任意に画像を選択し、当該選択した画像に含まれる商品に類似する商品を検索して購入を検討する場合も想定される。
 そこで、本実施形態では、ユーザが、カメラで撮影した画像または、ユーザ装置10における記憶部から選択した画像から、類似画像を検索する実施形態について説明する。なお、本実施形態において、第1実施形態と共通の事項については説明を省略する。
 本実施形態による情報処理装置100の構成は第1実施形態と同様である。また、本実施形態による情報処理装置100により実行される処理の流れも、第1実施形態で説明した図6に示す処理と同様である。第1実施形態におけるクエリ画像としての商品画像は、ユーザ装置10により撮影された画像または記憶部から選択された画像に対応する。
 [ユーザ装置10における画面例]
 図8A~図8Cを参照して、本実施形態によるユーザ装置10における画面表示例について説明する。図8A~図8Cは、本実施形態によるユーザ装置10の画面表示例を示す。図8Aの画面80は、ユーザ装置10の表示部506に表示されている画面例である。例えばユーザはユーザ装置10を操作して、任意の電子商取引のサイト(ECサイト)にアクセスした上で、任意の検索ワードを入力して情報処理装置100に送信することにより、画面80の情報が提供され、ユーザ装置10の表示部506に表示される。
 また、ユーザ装置10のCPU501は、ユーザによる操作に応じて、ユーザ装置10の表示部506に、カメラボタン81とフォトライブラリボタン82も併せて表示するように制御する。なお、図8Aの例では、情報処理装置100から提供された画面80上において、カメラボタン81とフォトライブラリボタン82が表示されるように制御されているが、ユーザがアクセスしているECサイトに関連付けられた画面において、カメラボタン81とフォトライブラリボタン82が表示されればよい。また、カメラボタン81とフォトライブラリボタン82が物理ボタンによって構成されるなど、他の形態で構成されてもよい。
 カメラボタン81は、ユーザ装置10に備えられたカメラ機能(カメラアプリケーション)を起動させるためのボタンである。カメラボタン81が選択されると、ユーザ装置10は任意の被写体の撮影が可能な状態(撮影モード)になる。
 フォトライブラリボタン82は、ユーザ装置のRAM503等の記憶部に格納された1つ以上の画像を閲覧するためのボタンである。フォトライブラリボタン82が選択されると、ユーザ装置10の表示部506に、記憶部に格納されている1つ以上の画像が表示される。
 図8Aの画面80において、ユーザがカメラボタン81を選択し、類似画像を検索するためのクエリ画像としての画像を撮影した場合の画面例を図8Bに示す。図8Bの画面83において、画像84は撮影された画像を示す。また、画面83では、画像84に対する検索ボタン85が表示される。検索ボタン85は、選択可能に表示される。この状態で、ユーザが検索ボタン85を選択すると、クエリ画像としての画像84と関連付けられた検索クエリが情報処理装置100に送信される。
 検索クエリを受信した情報処理装置100は、当該検索クエリに関連付けられた画像84から、第1特徴ベクトル301、第2特徴ベクトル302、性別特徴ベクトル303、および色特徴ベクトル304を生成する。続いて情報処理装置100は、当該4つの特徴ベクトルから複合特徴ベクトル311を生成し、当該複合特徴ベクトル311から1つ以上の類似画像を検索し、検索結果(1つ以上の類似画像および当該画像に関連する各種情報)をユーザ装置10に出力する。
 また、図8Aの画面80において、ユーザがフォトライブラリボタン82を選択した場合の画面例を図8Cに示す。図8Cの画面86には、ユーザ装置10の記憶部に格納されている撮影画像や、外部から取得した画像が表示される。ユーザは例えば画面86を右または左にスワイプすることにより、画面86に表示される1つ以上の画像を変更することができる。画面86では、中央に表示される画像87を、クエリ画像とする。また、画像86では、画像87に対する検索ボタン88が表示される。検索ボタン88は、選択可能に表示される。
 ユーザは、画面86の状態で、ユーザが検索ボタン88を選択すると、クエリ画像としての画像87と関連付けられた検索クエリが情報処理装置100に送信される。なお、図8Cの例では、画面86の中央に表示される画像をクエリ画像としたが、ユーザ装置10の記憶部に記憶されている1つ以上の画像からクエリ画像が選択される構成であればよい。
 検索クエリを受信した情報処理装置100は、当該検索クエリに関連付けられた画像87から、第1特徴ベクトル301、第2特徴ベクトル302、性別特徴ベクトル303、および色特徴ベクトル304を生成する。続いて情報処理装置100は、当該4つの特徴ベクトルから複合特徴ベクトル311を生成し、当該複合特徴ベクトル311から1つ以上の類似画像を検索し、検索結果(1つ以上の類似画像および当該画像に関連する各種情報)をユーザ装置10に出力する。
 このように、本実施形態によれば、ECサイトといったウェブサイト上でなく、ユーザが撮影した画像、または既に撮影した画像や外部から取得した画像から、クエリ画像を選択する。これにより、ユーザはより自由にクエリ画像を選択し、当該クエリ画像に類似する類似画像の検索が可能となり、ユーザビリティの向上に資する。
 <第3実施形態>
 第1実施形態では、ユーザ装置10は、ECサイトといったウェブサイト上で1つの商品画像を選択し、情報処理装置100は、当該選択された商品画像に類似する類似画像を検索し、ユーザ装置10に提供した。また、第2実施形態では、ユーザ装置10は、該装置で撮影した画像や既に取得した画像から1つの画像を選択し、情報処理装置100は、当該選択された画像に類似する類似画像を検索し、ユーザ装置10に提供した。本実施形態では、第1実施形態と第2実施形態を組み合わせた実施形態について説明する。
 なお、本実施形態において、第1実施形態や第2実施形態と共通の事項については説明を省略する。
 本実施形態による情報処理装置100の構成は第1実施形態と同様である。また、本実施形態による情報処理装置100により実行される処理の流れも、第1実施形態で説明した図6に示す処理と同様である。
 ただし、類似検索部107の処理が、上記の実施形態と異なる。ユーザ装置10は、クエリ画像としての商品画像と、当該商品画像において選択されたテキスト情報を含む画像(テキスト画像)とを関連付けた検索クエリを送信し、情報処理装置100の類似検索部107は、当該商品画像と当該テキスト画像を用いて、類似画像の検索を行う。
 [ユーザ装置10における画面例]
 図9Aと図9Bを参照して、本実施形態によるユーザ装置10における画面表示例について説明する。図9Aと図9Bは、本実施形態によるユーザ装置10の画面表示例を示す。図9Aの画面90は、ユーザ装置10の表示部506に表示されている画面例である。例えばユーザはユーザ装置10を操作して、任意の電子商取引のサイト(ECサイト)にアクセスした上で、任意の検索ワードを入力して情報処理装置100に送信することにより、画面90の情報が提供され、ユーザ装置10の表示部506に表示される。
 また、ユーザ装置10のCPU501は、ユーザによる操作に応じて、ユーザ装置10の表示部506に、カメラボタン91も併せて表示するように制御する。カメラボタン91の機能は、図8Aのカメラボタン81と同様である。
 図9Aの画面90において、ユーザの検索操作に応じて、商品画像92が表示されているとする。ここで、ユーザがカメラボタン91を選択して撮影モードになり、領域93を撮影したとする。当該撮影後に表示部506に表示される画像94は、領域93に対応する画像であり、テキスト情報を含む画像(テキスト画像)である。なお、画像94は、撮影動作によって得られる画像に限らず、任意のユーザ操作による選択操作によって得られる画像でありうる。画像94には、商品画像92(または領域93)に対する検索ボタン95が表示される。検索ボタン95は、選択可能に表示される。
 この状態で、ユーザが検索ボタン95を選択すると、商品画像92と画像(テキスト画像)94と関連付けられた検索クエリが情報処理装置100に送信される。
 検索クエリを受信した情報処理装置100は、該検索クエリに関連付けられた画像92から、第1特徴ベクトル301、第2特徴ベクトル302、性別特徴ベクトル303、および色特徴ベクトル304を生成する。続いて情報処理装置100は、当該4つの特徴ベクトルから複合特徴ベクトル311を生成する。
 もし、画像92からすでに複合特徴ベクトル311が生成されていた場合は、類似検索部107は、画像IDから複合特徴ベクトル311を検索して取得する。
 次に、類似検索部107は、検索クエリに関連付けられた画像94を解析し、テキスト情報を抽出する。当該テキスト情報の抽出には、種々の公知の画像処理技術や機械学習が使用されうる。本実施形態では、類似検索部107は、機械学習を用いて、画像94から、テキスト情報(例えば、商品名とブランド名のうちの少なくとも1つ)を抽出するように構成される。画像94の場合、抽出される商品名は「Mineral Sunscreen(ミネラル日焼け止め)」であり、抽出されるブランド名は「ABC WHITE」である。
 類似検索部107は、複合特徴ベクトル311および、抽出したテキスト情報に基づいて、画像94に対する1つ以上の類似画像を検索し、検索結果(1つ以上の類似画像および当該画像に関連する各種情報)をユーザ装置10に出力する。
 図9Bは、ユーザ装置10が情報処理装置100から受信した検索結果を表示部506に表示した画面例を示す。本例では、画像94から2つの類似画像98A、98Bが検索された場合を想定し、画面97には2つの類似画像98A、98Bが表示される。なお、画面97では画像のみを示しているが、各画像に関連する価格や属性情報といった各種情報も併せて表示されうる。
 このように、本実施形態による情報処置装置100は、商品画像から、商品のもつ複数の属性(特徴)を予測して複数の特徴ベクトルを生成し、当該複数の特徴ベクトルを結合した複合特徴ベクトルを生成する。さらに、情報処置装置100は、商品画像におけるテキスト画像からテキスト情報を抽出する。そして、情報処理装置100は、当該複合特徴ベクトルとテキスト情報とから、類似画像を検索する。これにより、従来よりも精度高い類似画像が提供され、ユーザビリティを向上させることが可能となる。
 なお、本実施形態では、取得部101は1つの商品画像を取得するものとして説明したが、検索クエリに複数の画像が関連付けられていた場合や、1度に複数の検索クエリを受信した場合は、情報処理装置100は、それぞれの画像毎に、類似画像の検索を行えばよい。
 なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。
10:ユーザ装置、100:情報処理装置、101:取得部、102:第1特徴推定部、103:第2特徴推定部、104:性別推定部、105:色推定部、106:連結部、107:類似検索部、108:学習部、109:出力部、110:学習モデル記憶部、111:第1特徴推定モデル、112:第2特徴推定モデル、113:性別推定モデル、114:色推定モデル、115:検索データベース

 

Claims (17)

  1.  対象となるオブジェクトを含むオブジェクト画像を取得する取得手段と、
     前記オブジェクト画像を複数の学習モデルに適用することにより、前記オブジェクトに対する複数の特徴ベクトルを生成する生成手段と、
     前記複数の特徴ベクトルを連結して共通の特徴空間に埋めこみ、当該特徴空間上で複合特徴ベクトルを生成する連結手段と、
     前記複合特徴ベクトルを用いて、前記オブジェクト画像に対する類似画像を検索する検索手段と、
     を有することを特徴とする情報処理装置。
  2.  前記複数の学習モデルは、
      前記オブジェクト画像を入力として、前記オブジェクトの上位レベルの分類を示す第1特徴ベクトルを出力する第1特徴推定モデルと、
      前記オブジェクト画像を入力として、前記オブジェクトの下位レベルの分類を示す第2特徴ベクトルを出力する第2特徴推定モデルと、を含み、
     前記生成手段は、前記オブジェクト画像を前記複数の学習モデルに適用することにより、前記第1特徴ベクトルと前記第2特徴ベクトルを生成し、
     前記連結手段は、前記第1特徴ベクトルと前記第2特徴ベクトルを連結して、前記複合特徴ベクトルを生成することを特徴とする請求項1に記載の情報処理装置。
  3.  前記複数の学習モデルは、
      前記オブジェクト画像を入力として、前記オブジェクトの上位レベルの分類を示す第1特徴ベクトルを出力する第1特徴推定モデルと、
      前記第1特徴ベクトルを入力として、前記オブジェクトの下位レベルの分類を示す第2特徴ベクトルを出力する第2特徴推定モデルと、を含み、
     前記生成手段は、前記オブジェクト画像を前記複数の学習モデルに適用することにより、前記第1特徴ベクトルと前記第2特徴ベクトルを生成し、
     前記連結手段は、前記第1特徴ベクトルと前記第2特徴ベクトルを連結して、前記複合特徴ベクトルを生成することを特徴とする請求項1に記載の情報処理装置。
  4.  前記複数の学習モデルはさらに、
      前記オブジェクト画像を入力として、前記オブジェクトの属性を示す属性ベクトルを出力する属性推定モデルと、
      前記オブジェクト画像を入力として、前記オブジェクトの色を示す色特徴ベクトルを出力する色推定モデルと、
    を含み、
     前記生成手段は、前記オブジェクト画像を前記複数の学習モデルに適用することにより、前記第1特徴ベクトル、第2特徴ベクトル、前記属性ベクトル、および前記色特徴ベクトルを生成し、
     前記連結手段は、前記第1特徴ベクトル、前記第2特徴ベクトル、前記属性ベクトル、および前記色特徴ベクトルを連結して、前記複合特徴ベクトルを生成することを特徴とする請求項2または3に記載の情報処理装置。
  5.  前記属性推定モデルは、
      前記オブジェクト画像を入力として、前記オブジェクトが対象とする性別を示す性別特徴ベクトルを出力する性別推定モデルであることを特徴とする請求項4に記載の情報処理装置。
  6.  前記性別特徴ベクトルは、前記オブジェクトが対象とする性別として、男性、女性、キッズ、ユニセックスを識別可能に構成されることを特徴とする請求項5に記載の情報処理装置。
  7.  前記検索手段は、前記類似画像として、前記連結手段により生成された前記複合特徴ベクトルと類似度が高い複合特徴ベクトルに対応する画像を検索することを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
  8.  前記検索手段は、前記特徴空間上において、前記連結手段により生成された前記複合特徴ベクトルとのユークリッド距離が短い複合特徴ベクトルを、類似度が高いと判定することを特徴とする請求項7に記載の情報処理装置。
  9.  前記取得手段は、ユーザ装置から送信された前記オブジェクト画像を取得することを特徴とする請求項1から8のいずれか1項に記載の情報処理装置。
  10.  前記オブジェクト画像は、前記ユーザ装置がアクセスした所定の電子商取引のサイトにおいて選択したオブジェクトを含む画像であることを特徴とする請求項9に記載の情報処理装置。
  11.  前記オブジェクト画像は、前記ユーザ装置により撮影されたオブジェクトを含む画像であることを特徴とする請求項9に記載の情報処理装置。
  12.  前記オブジェクト画像は、前記ユーザ装置に記憶されている画像であることを特徴とする請求項9に記載の情報処理装置。
  13.  前記取得手段は、ユーザ装置から送信された、前記オブジェクト画像と、前記オブジェクト画像において前記ユーザ装置により選択されたテキスト情報を含むテキスト画像を取得し、
     前記検索手段は、前記テキスト画像から前記テキスト情報を抽出し、当該抽出したテキスト情報と前記複合特徴ベクトルとを用いて、前記類似画像を検索することを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
  14.  前記オブジェクト画像はDCT(Discrete Cosine Transform)変換されたデータであることを特徴とする請求項1から13のいずれか1項に記載の情報処理装置。
  15.  対象となるオブジェクトを含むオブジェクト画像を取得する取得工程と、
     前記オブジェクト画像を複数の学習モデルに適用することにより、前記オブジェクトに対する複数の特徴ベクトルを生成する生成工程と、
     前記複数の特徴ベクトルを連結して共通の特徴空間に埋めこみ、当該特徴空間上で複合特徴ベクトルを生成する連結工程と、
     前記複合特徴ベクトルを用いて、前記オブジェクト画像に対する類似画像を検索する検索工程と、
     を有することを特徴とする情報処理方法。
  16.  情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、
     対象となるオブジェクトを含むオブジェクト画像を取得する取得処理と、
     前記オブジェクト画像を複数の学習モデルに適用することにより、前記オブジェクトに対する複数の特徴ベクトルを生成する生成処理と、
     前記複数の特徴ベクトルを連結して共通の特徴空間に埋めこみ、当該特徴空間上で複合特徴ベクトルを生成する連結処理と、
     前記複合特徴ベクトルを用いて、前記オブジェクト画像に対する類似画像を検索する検索処理と、を含む処理を実行させるためのものである、
     情報処理プログラム。
  17.  ユーザ装置と情報処理装置と有する情報処理システムであって、
     前記ユーザ装置は、
      対象となるオブジェクトを含むオブジェクト画像を前記情報処理装置に送信する送信手段を有し、
     前記情報処理装置は、
      前記オブジェクト画像を取得する取得手段と、
      前記オブジェクト画像を複数の学習モデルに適用することにより、前記オブジェクトに対する複数の特徴ベクトルを生成する生成手段と、
      前記複数の特徴ベクトルを連結して共通の特徴空間に埋めこみ、当該特徴空間上で複合特徴ベクトルを生成する連結手段と、
      前記複合特徴ベクトルを用いて、前記オブジェクト画像に対する類似画像を検索する検索手段と、
     を有することを特徴とする情報処理システム。
PCT/JP2021/037519 2021-10-11 2021-10-11 情報処理装置、情報処理方法、情報処理システム、およびプログラム WO2023062668A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/911,261 US20240220535A1 (en) 2021-10-11 2021-10-11 Information processing apparatus, information processing method, and non-transitory computer readable medium
PCT/JP2021/037519 WO2023062668A1 (ja) 2021-10-11 2021-10-11 情報処理装置、情報処理方法、情報処理システム、およびプログラム
JP2022540714A JP7569382B2 (ja) 2021-10-11 2021-10-11 情報処理装置、情報処理方法、情報処理システム、およびプログラム
EP21929422.0A EP4195135A1 (en) 2021-10-11 2021-10-11 Information processing device, information processing method, information processing system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/037519 WO2023062668A1 (ja) 2021-10-11 2021-10-11 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Publications (1)

Publication Number Publication Date
WO2023062668A1 true WO2023062668A1 (ja) 2023-04-20

Family

ID=85987580

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/037519 WO2023062668A1 (ja) 2021-10-11 2021-10-11 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Country Status (4)

Country Link
US (1) US20240220535A1 (ja)
EP (1) EP4195135A1 (ja)
JP (1) JP7569382B2 (ja)
WO (1) WO2023062668A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003303188A (ja) * 2002-04-08 2003-10-24 Yafoo Japan Corp 類似画像提示システム及び方法
JP2004030122A (ja) * 2002-06-25 2004-01-29 Fujitsu Ltd 図面検索支援装置および図面検索方法
JP2009251850A (ja) 2008-04-04 2009-10-29 Albert:Kk 類似画像検索を用いた商品推薦システム
US20180004397A1 (en) * 2016-06-29 2018-01-04 Google Inc. Systems and Methods of Providing Content Selection
JP2019164402A (ja) * 2018-03-19 2019-09-26 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
KR20200046184A (ko) * 2018-10-18 2020-05-07 카페24 주식회사 온라인 쇼핑몰 기반의 상품을 검색하는 방법, 상기 방법을 사용하는 장치 및 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685121B (zh) * 2018-12-11 2023-07-18 中国科学院苏州纳米技术与纳米仿生研究所 图像检索模型的训练方法、图像检索方法、计算机设备
CN110210567A (zh) * 2019-06-06 2019-09-06 广州瑞智华创信息科技有限公司 一种基于卷积神经网络的服装图像分类与检索方法及系统
CN110825904B (zh) * 2019-10-24 2022-05-06 腾讯科技(深圳)有限公司 一种图像匹配方法、装置、电子设备和存储介质
KR102130448B1 (ko) * 2020-02-11 2020-07-07 네이버 주식회사 이미지 검색 방법, 장치 및 컴퓨터 프로그램

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003303188A (ja) * 2002-04-08 2003-10-24 Yafoo Japan Corp 類似画像提示システム及び方法
JP2004030122A (ja) * 2002-06-25 2004-01-29 Fujitsu Ltd 図面検索支援装置および図面検索方法
JP2009251850A (ja) 2008-04-04 2009-10-29 Albert:Kk 類似画像検索を用いた商品推薦システム
US20180004397A1 (en) * 2016-06-29 2018-01-04 Google Inc. Systems and Methods of Providing Content Selection
JP2019164402A (ja) * 2018-03-19 2019-09-26 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
KR20200046184A (ko) * 2018-10-18 2020-05-07 카페24 주식회사 온라인 쇼핑몰 기반의 상품을 검색하는 방법, 상기 방법을 사용하는 장치 및 시스템

Also Published As

Publication number Publication date
JP7569382B2 (ja) 2024-10-17
EP4195135A4 (en) 2023-06-14
JPWO2023062668A1 (ja) 2023-04-20
US20240220535A1 (en) 2024-07-04
EP4195135A1 (en) 2023-06-14

Similar Documents

Publication Publication Date Title
US11682141B2 (en) Item recommendations based on image feature data
US10402917B2 (en) Color-related social networking recommendations using affiliated colors
US9607010B1 (en) Techniques for shape-based search of content
US11397764B2 (en) Machine learning for digital image selection across object variations
JP7138264B1 (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US20170364992A1 (en) Recommendation device, recommendation system, recommendation method, and program
WO2020255307A1 (ja) 情報処理装置、情報処理方法、および記録媒体
JP2018132821A (ja) 情報処理装置、情報処理システム、端末装置、プログラム及び情報処理方法
WO2023062668A1 (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
WO2024201980A1 (ja) 検索システム、検索方法、および情報処理装置
WO2013184804A1 (en) System and method for normalization and codificaton of colors for dyanamic analysis
JP7265688B1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7218847B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR20220160802A (ko) 선호도 기반 데이터 처리 장치 및 방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2022540714

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 17911261

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2021929422

Country of ref document: EP

Effective date: 20220913

NENP Non-entry into the national phase

Ref country code: DE