WO2021162055A1 - 心的イメージ可視化方法、心的イメージ可視化装置及びプログラム - Google Patents

心的イメージ可視化方法、心的イメージ可視化装置及びプログラム Download PDF

Info

Publication number
WO2021162055A1
WO2021162055A1 PCT/JP2021/005052 JP2021005052W WO2021162055A1 WO 2021162055 A1 WO2021162055 A1 WO 2021162055A1 JP 2021005052 W JP2021005052 W JP 2021005052W WO 2021162055 A1 WO2021162055 A1 WO 2021162055A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
mental
dnn
images
mental image
Prior art date
Application number
PCT/JP2021/005052
Other languages
English (en)
French (fr)
Inventor
智之 内藤
亮太 今井
Original Assignee
国立大学法人大阪大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人大阪大学 filed Critical 国立大学法人大阪大学
Priority to JP2022500453A priority Critical patent/JP7482551B2/ja
Priority to US17/798,750 priority patent/US20230086573A1/en
Publication of WO2021162055A1 publication Critical patent/WO2021162055A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Definitions

  • This disclosure relates to a mental image visualization method, a mental image visualization device, and a program.
  • sensibility is a sensory ability to receive a stimulus from the outside world, and is a sensation accompanied by a specific value judgment that a person feels when observing a visual object.
  • a mental image is an image (mental representation) that comes to mind in the mind and exists in the mind.
  • Non-Patent Document 1 discloses a technique for visualizing a mental image.
  • various face images are obtained by adding random noise to the prepared base image which is a face image.
  • the psychological inverse correlation method to select a face image close to the face image of the subject's race from various face images, the mental image of the subject's face regarding racial judgment is visualized.
  • the technology to be used is disclosed.
  • the psychological inverse correlation method has an image feature that contributes to the generation of a certain sensibility by paying attention to the relationship of what the stimulus was presented when a certain sensibility was generated, for example, beautiful. It is a technology that visualizes what it is.
  • various face images obtained by adding random noise to the base image are images derived from the base image. That is, various facial images are strongly defined in the prepared base image. Therefore, the facial images selected from the various facial images may be close to but different from the mental image of the selected person.
  • the prepared base image is a face image obtained by averaging the face images obtained from the database, but there is also a problem that the quality is low.
  • the present disclosure has been made in view of the above circumstances, and provides a mental image visualization method, a mental image visualization device, and a program capable of visualizing a human mental image with a higher quality image.
  • the purpose is to provide a mental image visualization method, a mental image visualization device, and a program capable of visualizing a human mental image with a higher quality image.
  • the mental image visualization method is described in DNN (Deep Neural Networks) learned using a data set of image for feature learning for learning features.
  • the feature vector includes a step of acquiring from the DNN a feature vector in which the corresponding sample image is converted into an n-dimensional (n is an integer of 100 or more) vector by the DNN. It is used to generate an image that shows a mental image.
  • the mental image visualization device includes DNN (Deep Neural Networks) learned using a data set of image for feature learning for learning features.
  • the acquisition unit for acquiring a plurality of sample images of a plurality of sample images generated in the DNN and different objects in the same category as the object to be reflected in the feature learning image, and the plurality of sample images.
  • the acquisition unit includes an input unit for inputting to the DNN, and the acquisition unit is a feature vector of each of the plurality of sample images, and the corresponding sample image is n-dimensional (n is an integer of 100 or more) according to the DNN.
  • the feature vector converted into the vector of is obtained from the DNN, and the feature vector is used to generate an image showing a mental image.
  • the mental image visualization method of the present disclosure it is possible to visualize a human mental image with a higher quality image.
  • FIG. 1 is a block diagram showing an example of the configuration of the mental image visualization device according to the first embodiment.
  • FIG. 2 is a diagram showing the structure of the Generator portion of styleGAN.
  • FIG. 3A is a diagram showing an example of a sample image according to the first embodiment.
  • FIG. 3B is a diagram showing an example of a feature vector of the sample image shown in FIG. 3A.
  • FIG. 4 is a diagram showing an example of a hardware configuration of a computer that realizes the function of the mental image visualization device according to the first embodiment by software.
  • FIG. 5 is a flowchart showing the operation of the mental image visualization device according to the first embodiment.
  • FIG. 6 is a diagram showing an image obtained by adding and averaging the feature vectors of the two sample images according to the first embodiment.
  • FIG. 7 is a block diagram showing an example of the configuration of the mental image visualization system according to the second embodiment.
  • FIG. 8 is a diagram showing an example of the network structure of DCNN shown in FIG.
  • FIG. 9 is a diagram for explaining the learning method of DCNN shown in FIG.
  • FIG. 10 is a diagram showing an example of the results of sensitivity evaluation for a plurality of sample images according to the second embodiment.
  • FIG. 11A is a diagram showing an example of a first feature vector calculated by the averaging unit according to the second embodiment.
  • FIG. 11B is a diagram showing an image showing a mental image generated from the first feature vector shown in FIG. 11A.
  • FIG. 12 is a diagram showing an overall picture of the mental image visualization method in the beauty ugliness evaluation according to the first and second embodiments.
  • FIG. 12 is a diagram showing an overall picture of the mental image visualization method in the beauty ugliness evaluation according to the first and second embodiments.
  • FIG. 13 is a block diagram showing an example of the configuration of the mental image visualization system according to the first modification of the second embodiment.
  • FIG. 14 is a block diagram showing an example of a detailed configuration of the dimensional compression processing unit according to the first modification of the second embodiment.
  • FIG. 15 is a diagram schematically showing an operation example of the mental image visualization system according to the first modification of the second embodiment.
  • FIG. 16A is a diagram showing an example of a graph in which a plurality of eigenvalues obtained by executing the singular value decomposition according to the operation example shown in FIG. 15 are arranged in rank order.
  • FIG. 16B is a diagram for explaining the relationship between an image showing a sub-mental image and an image showing a mental image using the table shown in FIG. 16A.
  • FIG. 17 is a block diagram showing an example of a detailed configuration of the dimensional compression processing unit according to the second modification of the second embodiment.
  • FIG. 18 is a block diagram showing an example of the configuration of the recommendation system according to the third embodiment.
  • FIG. 19 is a diagram showing an example of a mental image or a sub-mental image according to the third embodiment.
  • FIG. 20 is a diagram showing an example of the latent space according to the third embodiment and the position of the mental image or the sub-mental image.
  • FIG. 21 is a diagram showing an example of the distance between the position of the mental image or sub-mental image and the position of one recommendation candidate image in the latent space according to the third embodiment.
  • FIG. 22A is a diagram showing an example of a recommendation candidate image presented by the recommendation image generation UI according to the third embodiment.
  • FIG. 22B is a diagram showing an example of a recommendation candidate image presented by the recommendation image generation UI according to the third embodiment.
  • FIG. 22C is a diagram showing an example of a recommendation candidate image presented by the recommendation image generation UI according to the third embodiment.
  • FIG. 23A is a diagram showing an example of a method of acquiring a mental image or a sub-mental image of the recommendation system according to the third embodiment.
  • FIG. 23B is a diagram showing an example of a sample image presentation and evaluation method evaluated by the subject according to the third embodiment.
  • FIG. 1 is a block diagram showing an example of the configuration of the mental image visualization device 1 according to the first embodiment.
  • the mental image visualization device 1 is realized by a computer or the like using DNN (Deep Neural Networks). More specifically, the mental image visualization device 1 uses the DNN 10 to generate a plurality of sample images. Further, the mental image visualization device 1 uses the DNN 10 to acquire the feature vectors of each of the generated plurality of sample images.
  • the sample image will be described as, for example, a face image, and the mental image will be described as relating to the beauty and ugliness of the face, but the present invention is not limited to this.
  • the sample image may be an image showing the appearance of an automobile, an image showing the appearance of a house, or an image showing a product.
  • the mental image does not have to be about the beauty and ugliness of the face, as long as it is about Kansei adjectives.
  • the mental image may be related to the quality of the appearance of the automobile, the quality of the appearance of the house, or the quality of the product.
  • any adjectives such as modern and Japanese can be used as Kansei adjectives.
  • the mental image visualization device 1 includes a DNN 10, an acquisition unit 11, and an input unit 12, as shown in FIG. The details of each component will be described below.
  • the DNN 10 is composed of a multi-layer neural network trained using a data set of image for feature learning for learning features.
  • the DNN 10 generates a plurality of sample images in which different objects are shown in the same category as the objects shown in the feature learning image.
  • the data set of the feature learning image may be a data set including various face images acquired from an existing database or the like, or may be a data set including various face images created by oneself.
  • the DNN 10 is a feature vector of each of the plurality of sample images, and the corresponding sample image is converted into an n-dimensional (n is an integer of 100 or more) vector. Generate a feature vector. The n-dimensional feature vector is used to generate an image showing a mental image.
  • the DNN 10 may be composed of, for example, styleGAN (A Style-Based Generator Architecture for Generative Adversarial Networks). If the DNN 10 can generate a plurality of sample images and further generate an n-dimensional feature vector of the input sample image, the DNN 10 is not limited to the case of being composed of a style GAN, but is another GAN or another multi-layer neural network. It may be configured by a network.
  • styleGAN A Style-Based Generator Architecture for Generative Adversarial Networks
  • styleGAN is a kind of GAN (Generative Adversarial Networks), and can generate a high-resolution image of, for example, 1024 pixels ⁇ 1024 pixels.
  • styleGAN is generated after controlling the global attributes of the person image (face contour, presence / absence of glasses, etc.) to local attributes (wrinkles, skin quality, etc.). can do.
  • GAN is a kind of model (generative model) that learns data for learning and generates new data similar to the learned data.
  • GAN is an architecture that has two networks, Generator and Discriminator, and learns while competing with the two networks, and learns features without giving correct answer data (unsupervised learning). By learning the features from the data, GAN can generate non-existent data or convert it according to the existing data.
  • FIG. 2 is a diagram showing the structure of the Generator portion of styleGAN.
  • the styleGAN Generator is composed of a mapping network (Mapping network f) and a synthesis network (Synthesis Network g).
  • the mapping network is a network composed of multiple layers (8 layers in the figure) of fully connected layers (layers in which all neurons in the presheaf and posterior layers are connected).
  • the output of the mapping network has the same size (512 ⁇ 1) as the input layer.
  • the mapping network acquires an intermediate vector, also called an intermediate latent variable w (w ⁇ W), by mapping the input vector (latent variable z) to another space (intermediate latent space W). ..
  • the synthetic network is a network composed of multiple layers (18 layers in the figure). The output of the final layer of the composite network is converted to RGB.
  • the synthetic network has AdaIN (Adaptive Instance Normalization) and a convolution layer.
  • AdaIN synthesizes a vector controlled by adding noise to the output of each convolution layer and a vector for an image obtained by performing an affine transformation on an intermediate vector obtained by a mapping network.
  • the processing of AdaIN is performed on the output of the convolution layer of each resolution scale (4 ⁇ 4, 8 ⁇ 8, ).
  • the processing of AdaIN is the normalization processing in the feature map unit (channel unit).
  • FIG. 3A is a diagram showing an example of a sample image according to the first embodiment.
  • FIG. 3B is a diagram showing an example of a feature vector of the sample image shown in FIG. 3A.
  • the sample image shown in FIG. 3A is represented in gray scale, but the same applies to the sample image which may be represented in color.
  • the DNN 10 is trained using a data set in which a plurality of face images for learning the features of the face image are configured as feature learning images. Thereby, the DNN 10 can generate a plurality of sample images, for example, a face image, by using the generator of styleGAN. For example, DNN10 can generate a non-existent female face image as a sample image, as shown in FIG. 3A.
  • styleGAN is trained using a data set in which a plurality of face images for learning the features of the face image are configured as feature learning images.
  • a feature vector converted into a 512-dimensional vector can be obtained as an intermediate vector.
  • the styleGAN mapping network functions as a neural network that transforms an image composed of, for example, 512 pixels ⁇ 512 pixels or 1024 pixels ⁇ 1024 pixels into a 512-dimensional feature vector.
  • the DNN 10 converts the sample image into a 512-dimensional vector by using a part of the generator of styleGAN, that is, the mapping network. Generate a feature vector.
  • DNN10 can generate the 512-dimensional feature vector shown in FIG. 3B from the sample image shown in FIG. 3A.
  • the acquisition unit 11 acquires the feature vector of the sample image input to the DNN 10 by the input unit 12 from the DNN.
  • the acquisition unit 11 acquires the feature vector by acquiring the output of the styleGAN mapping network.
  • the input unit 12 inputs a plurality of sample images to the DNN 10. In the present embodiment, the input unit 12 inputs the sample image output from the acquisition unit 11 to the DNN 10.
  • FIG. 4 is a diagram showing an example of a hardware configuration of a computer 1000 that realizes a mental image visualization function according to the present embodiment by software.
  • the computer 1000 is a computer including an input device 1001, an output device 1002, a CPU and a GPU 1003, an internal storage 1004, a RAM 1005, a reading device 1007, a transmitting / receiving device 1008, and a bus 1009.
  • the input device 1001, the output device 1002, the CPU and GPU 1003, the built-in storage 1004, the RAM 1005, the reading device 1007, and the transmitting / receiving device 1008 are connected by a bus 1009.
  • the input device 1001 is a device that serves as a user interface such as an input button, a touch pad, and a touch panel display, and accepts user operations.
  • the input device 1001 may be configured to accept a user's contact operation, a voice operation, a remote control, or the like.
  • the built-in storage 1004 is a flash memory or the like. Further, in the built-in storage 1004, at least one of a program for realizing the function of the mental image visualization device 1 and an application using the functional configuration of the mental image visualization device 1 may be stored in advance.
  • RAM1005 is a random access memory (RandomAccessMemory), which is used to store data or the like when executing a program or application.
  • RandomAccessMemory Random AccessMemory
  • the reading device 1007 reads information from a recording medium such as a USB (Universal Serial Bus) memory.
  • the reading device 1007 reads the program or application from the recording medium on which the above program or application is recorded and stores the program or application in the built-in storage 1004.
  • the transmitter / receiver 1008 is a communication circuit for wirelessly or wired communication.
  • the transmission / reception device 1008 communicates with, for example, a server device connected to a network, downloads a program or application as described above from the server device, and stores the program or application in the built-in storage 1004.
  • the CPU and GPU 1003 are a central processing unit (Central Processing Unit) and a graphics processing unit (Graphics Processing Unit), and the programs and applications stored in the internal storage 1004 are copied to the RAM 1005 and included in the programs and applications. Instructions are sequentially read from RAM 1005 and executed.
  • Central Processing Unit Central Processing Unit
  • Graphics Processing Unit Graphics Processing Unit
  • FIG. 5 is a flowchart showing the operation of the mental image visualization device 1 according to the first embodiment.
  • the mental image visualization device 1 causes the trained DNN10 to generate a plurality of sample images (S10). More specifically, the mental image visualization device 1 learns the DNN 10 shown in FIG. 1 using a data set of image for feature learning for learning features. Then, the mental image visualization device 1 causes the DNN 10 trained in this way to generate a plurality of sample images in which different objects are captured in the same category as the objects captured in the feature learning image.
  • the mental image visualization device 1 inputs a plurality of sample images generated in step S10 into the DNN 10 (S11).
  • the mental image visualization device 1 acquires the feature vectors of the plurality of sample images generated in step S10 from the DNN 10 (S12). More specifically, the mental image visualization device 1 is a feature vector of each of the plurality of sample images generated in step S10, and the corresponding sample image is n-dimensional (n is an integer of 100 or more) according to DNN10. The feature vector converted into a vector is acquired from DNN10.
  • the DNN 10 learned by using the data set of the feature learning image for learning the feature has a different object in the same category as the object reflected in the feature learning image. It is possible to generate a plurality of sample images showing an object. Further, since the DNN 10 can be converted into a feature vector that is a feature vector of each of the plurality of sample images and the corresponding sample image is an n-dimensional (n is an integer of 100 or more) vector, the feature can be converted from the DNN 10 to the feature vector. You can get a vector.
  • FIG. 6 is a diagram showing an image obtained by adding and averaging the feature vectors of the two sample images according to the first embodiment.
  • the female face images and feature vectors shown in FIGS. 6A and 6B are examples of two different sample images and their respective feature vectors.
  • the feature vector generated by the mental image visualization device 1 of the present embodiment is, for example, a 512-dimensional feature vector and has a certain linearity. Therefore, the image generated from the feature vector obtained by averaging the feature vectors of the two different sample images, for example, as shown in FIGS. 6 (a) and 6 (b), is the female face image shown in FIG. 6 (c). As shown in the above, the features of the sample images shown in FIGS. 6A and 6B are included on average. Further, as shown in FIG. 6 (c), the images including the features of the sample images shown in FIGS. 6 (a) and 6 (b) on average are the images shown in FIGS. 6 (a) and 6 (b). It can be seen that the image is similarly high quality.
  • the feature vector of the sample image having the highest sensibility evaluation score can be obtained.
  • the image generated from the feature vector of the sample image having a high sensitivity evaluation score may be an image showing a mental image.
  • the feature vectors of each of a plurality of sample images having a relatively high sensibility evaluation score may be obtained.
  • the image generated from the nonlinear transformation F for the feature vector obtained by weighting, adding, and averaging the feature vectors of each of the plurality of sample images having a relatively high sensitivity evaluation score may be used as an image showing a mental image.
  • the feature vector generated by the mental image visualization device 1 of the present embodiment can be used to generate an image showing the mental image.
  • DNN10 may be used as a method for generating an image from the feature vector.
  • DNN10 when DNN10 is composed of styleGAN, an image can be generated from a feature vector by using a composite network of styleGAN.
  • a neural network that can generate an image from a multidimensional feature vector is not limited to a styleGAN composite network.
  • the sample image for which the sensitivity is evaluated by the psychological inverse correlation method does not depend on the above-mentioned base image, for example, 1024 pixels ⁇ 1024 pixels. High resolution and high image quality can be generated. Further, according to the mental image visualization device 1 of the present embodiment, the feature vector of the generated sample image can be generated. As a result, the feature vectors of the sample images whose sensibilities are evaluated by the psychological inverse correlation method are weighted, added and averaged according to the evaluation results, and the image generated from the feature vectors calculated in this way is an image showing a mental image. Can be obtained as. That is, according to the mental image visualization device 1 of the present embodiment, it is possible to visualize a human mental image with a higher quality image.
  • a mental image visualization system 100 including a DCNN that evaluates the sensitivity of a sample image generated by the mental image visualization device and generates an image showing the mental image will be described.
  • FIG. 7 is a block diagram showing an example of the configuration of the mental image visualization system 100 according to the second embodiment.
  • the same elements as those in FIG. 1 are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the function of the mental image visualization system 100 is realized by software using the computer 1000 shown in FIG. 4, as in the first embodiment.
  • the mental image visualization system 100 includes a mental image visualization device 1A, a DCNN 13, and an addition averaging unit 14. The details of each component will be described below.
  • the mental image visualization device 1A shown in FIG. 7 has the same configuration as the mental image visualization device 1 shown in FIG. In the mental image visualization device 1A, it is further clarified that the DNN 10 generates an image showing the mental image from the first feature vector obtained by the addition averaging unit 14.
  • DNN10 generates an image showing a mental image from the first feature vector.
  • the first feature vector is input to the DNN 10 by the input unit 12.
  • the DNN 10 generates an image showing a mental image from the input first feature vector.
  • the DNN 10 is composed of a style GAN
  • the DNN 10 inputs a first feature vector into the composite network of the style GAN to cause the composite network to generate an image showing a mental image. Since the details are as described in the first embodiment, the description thereof will be omitted here.
  • the acquisition unit 11 acquires an image showing the mental image generated by the DNN 10.
  • the input unit 12 inputs the first feature vector obtained from the addition averaging unit 14 to the DNN 10 to the DNN 10.
  • the DCNN13 uses a learning data set composed of a plurality of images prepared by using the psychological inverse correlation method and the results of sensitivity evaluations on the plurality of images performed by a subject having a mental image. It consists of a learned convolutional neural network.
  • the learning data set may be a data set including various face images acquired from an existing database or the like, or may be a data set including various face images created by oneself. In this way, the DCNN 13 can learn in advance the preference of the subject who has the mental image of the visualization target.
  • the plurality of images prepared by using the psychological inverse correlation method are, for example, facial images as in the first embodiment.
  • the sensitivity evaluation for a plurality of images is, for example, the sensitivity evaluation for the beauty and ugliness of the face.
  • the DCNN 13 predicts the result of the sensitivity evaluation for the plurality of sample images, and the sensitivity by the psychological inverse correlation method for the plurality of sample images. Output as the result of evaluation.
  • the DCNN 13 is, for example, a pre-learned CNN (Convolution Neural Networks), one or more convolutional layers provided after the CNN, and a GAP (Global) provided after the one or more convolutional layers. It may be composed of an Average Pooling) layer. Further, the CNN is composed of a convolutional neural network having a plurality of convolutional layers and a plurality of pooling layers.
  • CNN Convolution Neural Networks
  • GAP Global
  • the CNN is composed of a convolutional neural network having a plurality of convolutional layers and a plurality of pooling layers.
  • FIG. 8 is a diagram showing an example of the network structure of DCNN13 shown in FIG.
  • DCNN13 is, for example, as shown in FIG. 8, a convolutional neural network composed of a pre-learned VGG19, a three-layer convolutional layer, and a one-layer GAP layer.
  • the pre-learned VGG19 is an example of a CNN possessed by DCNN13.
  • the VGG19 can be obtained from a public database such as the Internet.
  • the CNN of DCNN13 is not limited to the pre-learned VGG19.
  • the DCNN 13 may have one or more convolution layers formed after the CNN, and is not limited to the case where the three convolution layers shown in FIG. 8 are formed.
  • FIG. 9 is a diagram for explaining the learning method of DCNN13 shown in FIG.
  • learning data composed of a plurality of facial images prepared by using the psychological inverse correlation method and the results of sensitivity evaluations on the plurality of images performed by a subject having a mental image to be visualized.
  • a learning data set is obtained by assigning a sensitivity evaluation score indicating how beautiful the subject feels to each of a plurality of facial images in which a female face is captured.
  • the face images of the learning data set are input to DCNN13 one by one as input images, the score of the sensitivity evaluation given by the subject is predicted, and if there is a difference, feedback is given to DCNN13 so as to eliminate the difference.
  • all the facial images of the training data set are trained so as to minimize the difference between the score predicted by DCNN13 and the score given by the subject. That is, the DCNN 13 is subjected to learning (supervised learning) in which correct answer data is given using the learning data set.
  • the DCNN 13 can learn the sensitivity evaluation of the target person (individual), so that the DCNN 13 can perform the sensitivity evaluation for any facial image on behalf of the target person.
  • sensitivity judgment such as beauty and ugliness is performed based on the template (that is, mental image) that the individual has in his / her mind.
  • the DCNN13 can perform the sensitivity evaluation for an arbitrary facial image on behalf of the subject by appropriately learning the parameters, the inventors have given the DCNN13 the mind that the individual has in mind. I found that it is possible to learn the target image.
  • DCNN13 prepares and trains the above-mentioned learning data set, and saves the sensibility (mental image) of an individual with special skills such as a famous artist or designer in the parameter. Is possible.
  • FIG. 10 is a diagram showing an example of the results of sensitivity evaluation for a plurality of sample images according to the second embodiment.
  • the facial images of the plurality of women shown in FIG. 10 are examples of a plurality of sample images whose sensibilities were evaluated on behalf of the subject by DCNN13.
  • 3.7, 2.2, 4.2, 3.1, ..., Shown in FIG. 10 are the sensibility evaluation scores predicted by DCNN13 on behalf of the subject for each of the facial images of the plurality of women. This is an example.
  • FIG. 10 also shows the feature vectors of the facial images of a plurality of women.
  • the addition averaging unit 14 performs a nonlinear transformation F on the weighted addition averaging of the feature vectors corresponding to the plurality of sample images according to the result of the sensitivity evaluation by the psychological inverse correlation method for the plurality of sample images, thereby performing the first feature vector. To get.
  • the addition averaging unit 14 outputs the first feature vector to the input unit 12 to input the first feature vector to the DNN 10.
  • FIG. 11A is a diagram showing an example of a first feature vector calculated by the addition averaging unit 14 according to the second embodiment.
  • FIG. 11B is a diagram showing an image showing a mental image generated from the first feature vector shown in FIG. 11A.
  • the feature vectors of the plurality of female face images shown in FIG. 10 are added and averaged based on the predicted sensitivity evaluation scores for the plurality of female face images shown in FIG. It is a non-linear conversion after being done.
  • the first feature vector shown in FIG. 11A is input to the DNN 10 by the input unit 12.
  • the synthetic network of DNN10 can generate the image shown in FIG. 11B as the image showing the mental image from the input first feature vector shown in FIG. 11A.
  • the image shown in FIG. 11B corresponds to the mental image of the subject (individual) regarding the beautiful face.
  • FIG. 12 is a diagram showing an overall picture of the mental image visualization method in the beauty ugliness evaluation according to the first and second embodiments.
  • FIG. 12 shows a method of visualizing a mental image in the beauty ugliness evaluation by performing the beauty ugliness evaluation by an individual.
  • the subject having the mental image may evaluate the sensibility of the plurality of sample images generated by the mental image visualization device 1A, or the DCNN13 may predict the sensibility evaluation as described above. good.
  • the mental image visualization system 100 adds and averages the feature vectors of the plurality of sample images according to the results of the sensitivity evaluation of the generated plurality of sample images, and then is non-linear.
  • An image showing a mental image can be generated from the converted first feature vector.
  • the plurality of sample images generated by the mental image visualization device 1A are not images derived from the base image, which is an actual image selected or prepared by a person who attempts visualization, but are along a non-existent image or an existing image. It is a converted image. Further, since the image generated from the first feature vector obtained by performing nonlinear conversion after adding and averaging the feature vectors of the plurality of sample images can be used as an image showing a mental image, the image showing the mental image can be used. , It is not specified only in the prepared sample image. That is, according to the present embodiment, it is possible to generate an image that is closer to or shows the mental image of the subject.
  • the plurality of sample images generated by the mental image visualization device 1A are, for example, high-resolution and high-quality images of 1024 pixels ⁇ 1024 pixels. Therefore, an image showing a mental image generated from the first feature vector calculated from the feature vectors of a plurality of sample images can also be generated as a high-quality image.
  • the mental image visualization system 100 of the present embodiment it is possible to visualize a human mental image with a higher quality image.
  • the DCNN 13 can be made to learn the sensitivity evaluation (mental image) for each individual. This makes it possible to store the sensibilities (mental images) of individuals with special skills, such as renowned artists or designers, in their parameters.
  • the artist or designer can save his or her sensibility at a certain point in time as a parameter in a multi-layer neural network called DCNN13. For this reason, an artist or designer can create a work or design at any time by referring to an image showing his or her sensibility in the past.
  • a learning data set consisting of a plurality of images prepared by using the psychological inverse correlation method and evaluation results of the plurality of images by a specific group such as a man in his 40s and a resident of Kansai. If the above can be prepared, DCNN13 can be made to learn the mental image of a specific group.
  • DCNN13 that has learned the sensitivity evaluation (mental image) of a specific target person or a specific group, it is possible to predict the sensitivity evaluation of the pros and cons of a certain design, for example. This has the effect of eliminating the need to actually conduct a large-scale market research on the pros and cons of the design. Furthermore, there is an effect that it is possible to grasp in advance what kind of sensibility evaluation will be performed by the sales target person without conducting a large-scale market research on the design.
  • an image showing the mental image of the designer can be generated, so that the mental image of the designer can be obtained by other than the designer such as a developer or a sales person. Can be shared as an image. For example, at the product image development stage, the mental image of the designer or developer's design can be visualized and shared within the group.
  • the mental image visualization system 100 of the present embodiment it is possible to generate an image that visualizes an image (mental image) of a customer who performs custom-built construction or the like in a short time. This also has the effect of being able to develop the product design required by the customer with high accuracy.
  • the ideal appearance of a house imaged by a high-income earner can be visualized as a concrete image, which can be used in the design of a building maker. It also has the effect of being easily reflected.
  • the mental image visualization system 100 of the present embodiment it is possible to visualize a specific ideal face for each individual as a high-quality image. As a result, it is possible to share with others an image after completion of makeup or cosmetic surgery, which shows an image of an ideal face for each individual.
  • the feature vectors corresponding to the plurality of sample images output by the mental image visualization device 1A are weighted, added and averaged according to the result of the sensitivity evaluation by the psychological inverse correlation method for the plurality of sample images by DCNN13. The case of doing so was explained.
  • the first feature vector dimensionally compressed to one dimension is obtained from the 512-dimensional feature vector corresponding to a plurality of sample images, but the dimensional compression is not limited to one dimension. .. Dimensional compression may be performed in two or three dimensions.
  • a modification 1 of the second embodiment a case where the dimension is compressed to about two or three dimensions will be described.
  • FIG. 13 is a block diagram showing an example of the configuration of the mental image visualization system 100B according to the first modification of the second embodiment.
  • the same elements as those in FIG. 7 are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the function of the mental image visualization system 100B is realized by software using the computer 1000 shown in FIG. 4, as in the first embodiment.
  • the mental image visualization system 100B shown in FIG. 13 is different from the mental image visualization system 100 shown in FIG. 7 in that it includes a dimensional compression processing unit 14B instead of the addition averaging unit 14.
  • a dimensional compression processing unit 14B instead of the addition averaging unit 14.
  • the dimensional compression processing unit 14B is a feature in which the feature vectors corresponding to the plurality of sample images output by the mental image visualization device 1B are weighted according to the result of the sensitivity evaluation by the psychological inverse correlation method for the plurality of sample images by DCNN13. Calculate the vector. Then, the dimensional compression processing unit 14B outputs a plurality of eigenvectors obtained by performing dimensional compression of the weighted feature vector by STC (Spike-triggered covariance) analysis.
  • STC Spike-triggered covariance
  • FIG. 14 is a block diagram showing an example of a detailed configuration of the dimensional compression processing unit 14B according to the first modification of the second embodiment.
  • the dimensional compression processing unit 14B includes a variance-covariance matrix calculation unit 141, a singular value decomposition execution unit 142, an eigenvalue selection unit 143, and an eigenvector derivation unit 144.
  • the variance-covariance matrix calculation unit 141 weights the feature vectors corresponding to the plurality of sample images according to the results of the sensitivity evaluation by the psychological inverse correlation method for the plurality of sample images.
  • the variance-covariance matrix calculation unit 141 calculates the variance-covariance matrix of the weighted feature vector by STC (Spike-triggered covariance) analysis.
  • the singular value decomposition execution unit 142 executes singular value decomposition on the calculated variance-covariance matrix to obtain a plurality of eigenvalues.
  • the STC matrix of the weighted feature vector may be calculated and decomposed into singular values to obtain a plurality of eigenvalues.
  • STC analysis is an analysis method similar to principal component analysis.
  • the STC analysis can be said to be a method of retaking the axis of the space that maximizes the variance of the distribution of notable features in the distribution obtained by giving a random value to the multidimensional vector so as to be orthogonal to each other. Retaking the axes of space so that they are orthogonal in multiple dimensions can be realized by taking the eigenvectors of the STC matrix. Then, by re-expressing the distribution of desired features with the re-taken axis, it is possible to express the multidimensional vector in a narrowed (compressed) form.
  • the eigenvalue selection unit 143 selects at least two eigenvalues from the plurality of eigenvalues obtained by the singular value decomposition execution unit 142. For example, the eigenvalue selection unit 143 may select an eigenvalue having a higher variance value and a lower eigenvalue than the average when arranged in rank order from a plurality of eigenvalues obtained by the singular value decomposition execution unit 142. In this modification, the eigenvalue selection unit 143 selects three eigenvalues, such as the first and second largest eigenvalues and the smallest eigenvalues when arranged in rank order.
  • the eigenvector derivation unit 144 derives at least two eigenvectors having any of the at least two eigenvalues selected by the eigenvalue selection unit 143.
  • the eigenvector derivation unit 144 outputs at least two derived eigenvectors to the mental image visualization device 1B.
  • the eigenvector derivation unit 144 derives three eigenvectors having the first and second largest eigenvalues and the smallest eigenvalue. In this case, the eigenvector derivation unit 144 outputs the three eigenvectors derived to the input unit 12 of the mental image visualization device 1B.
  • the mental image visualization device 1B shown in FIG. 13 has the same configuration as the mental image visualization devices 1 and 1A shown in FIGS. 1 and 7.
  • the DNN 10 generates an image showing at least two sub-mental images from at least two eigenvectors obtained by the dimensional compression processing unit 14B.
  • Each of at least two sub-mental images corresponds to one image obtained by decomposing the above-mentioned mental image.
  • the input unit 12 inputs at least two eigenvectors obtained from the dimensional compression processing unit 14B to the DNN 10.
  • At least two eigenvectors are input to the DNN 10 by the input unit 12.
  • the DNN 10 then generates an image showing at least two subpsychic images from the input at least two eigenvectors.
  • the input unit 12 inputs each of at least two eigenvectors to the styleGAN generator.
  • the styleGAN generator generates an image showing at least two sub-mental images constituting the mental image, which are assumed to be orthogonal to each other.
  • the acquisition unit 11 acquires an image showing a sub-mental image generated by the DNN 10.
  • FIG. 15 is a diagram schematically showing an operation example of the mental image visualization system 100B according to the first modification of the second embodiment.
  • FIG. 15 a case is shown in which an image showing a sub-mental image regarding the quality of the appearance of the automobile is generated.
  • a plurality of sample images showing the appearance of the automobile generated by the mental image visualization device 1B are shown as sample images S 1 , S 2 , ..., S N-1 , S N.
  • the sample images S 1 , S 2 , ..., S N-1 , and S N are each represented by a feature vector of a 512-dimensional vector as described above by using the mental image visualization system 100B.
  • the DCNN 13 is made to output the result of the sensitivity evaluation by the psychological inverse correlation method for the sample images S 1 , S 2 , ..., S N-1 , and S N.
  • the dimension compression processing unit 14B calculates the variance-covariance matrix 141a. Specifically, the dimensional compression processing unit 14B weights the sample images S 1 , S 2 , ..., S N-1 , and S N according to the result of the sensitivity evaluation by the psychological inverse correlation method, and the feature vectors W 1 , W.
  • the variance-covariance matrix 141a of 2 , ..., W N-1 , W N is calculated by STC analysis.
  • the dimensional compression processing unit 14B performs the eigenvector analysis 142a. Specifically, the dimensional compression processing unit 14B executes singular value decomposition on the calculated variance-covariance matrix 141a to obtain 512 eigenvalues. Then, the dimensional compression processing unit 14B creates a graph in which 512 eigenvalues obtained by executing the singular value decomposition are arranged in rank order, for example, a graph as shown in FIG. 16A.
  • FIG. 16A is a diagram showing an example of a graph in which a plurality of eigenvalues obtained by executing the singular value decomposition according to the operation example shown in FIG. 15 are arranged in rank order.
  • the vertical axis shown in FIG. 16A shows the variance (variation).
  • FIG. 16A it can be seen that there are eigenvalues represented by dots that overlap and look like a line, and eigenvalues that are far from what looks like a line. These distant points are the eigenvalues with the first and second largest variance (variation) values when arranged in rank order, and the eigenvalues with the smallest variance (variation) value, respectively, Sub1, Sub2, and Sub. It is shown as Sub512.
  • the dimensional compression processing unit 14B is made to select the first and second largest eigenvalues when arranged in rank order and the three smallest eigenvalues, that is, three eigenvalues shown as Sub1, Sub2, and Sub512.
  • the selection of these three eigenvalues may be made by an operation on the mental image visualization system 100B or a predetermined algorithm.
  • the dimensional compression processing unit 14B derives three eigenvectors having three eigenvalues shown as Sub1, Sub2, and Sub512.
  • the mental image visualization device 1B is made to generate an image showing three sub-mental images. It should be noted that this generation may be performed by an operation on the mental image visualization system 100B or a predetermined algorithm. Further, FIG. 15 shows images Sub1, Sub2, and Sub512 showing three sub-mental images generated by the mental image visualization device 1B.
  • the images Sub1, Sub2, and Sub512 are originally color images similar to the sample images shown in grayscale shown in FIG. 3A, but are shown as schematic diagrams for convenience.
  • FIG. 16B is a diagram for explaining the relationship between an image showing a sub-mental image and an image showing a mental image using the table shown in FIG. 16A.
  • the image T 1 showing the mental image is originally a color image similar to the sample image shown in grayscale shown in FIG. 3A, but is shown as a diagram for convenience so that it can be easily compared on the drawing. There is.
  • the appearance of an automobile shown in image Sub1 showing a sub-mental images eigenvalues are generated from the highest eigenvectors, close to the exterior of an automobile shown in the image T 1 showing the mental imagery I understand that. That is, it can be said that the sub-mental image generated from the eigenvector having the highest eigenvalue has a high contribution rate constituting the mental image and is close to the subject's preference (mental image).
  • the image Sub512 showing a sub-mental images eigenvalues are generated from the highest eigenvector far the be seen from the image T 1 showing the mental imagery.
  • the sub-mental image generated from the eigenvector with the lowest eigenvalue has a low contribution rate that constitutes the mental image and is not the ideal (mental image) of the subject.
  • the subject's mental image including those relating to the appearance of the vehicle, is composed of not only the subject's ideals but also those that are not.
  • the mental image which is different from the subject's ideal (preference), is suppressive but has as a component.
  • the mental image is componentized from two or more eigenvectors obtained from the multidimensional feature vectors corresponding to the plurality of sample images output by the mental image visualization device 1B. It is possible to generate and visualize an image of a sub-mental image that looks like it has been decomposed.
  • DCNN13 is not essential in the mental image visualization system 100B according to the above-mentioned modification 1.
  • the subject may evaluate the sensitivity of the sample image generated by the mental image visualization system 100B by the psychological inverse correlation method, and input the result to the dimension compression processing unit 14B.
  • Modification 2 In the above-described modification 1, an example in which dimension compression is performed by STC analysis has been described, but the present invention is not limited to this. Dimension compression may be performed by applying DMD (Dynamic Mode Decomposition). Hereinafter, the points different from the first modification will be mainly described.
  • DMD Dynamic Mode Decomposition
  • FIG. 17 is a block diagram showing an example of a detailed configuration of the dimensional compression processing unit 14C according to the second modification of the second embodiment.
  • the same elements as those in FIG. 14 are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the dimensional compression processing unit 14C is a feature in which the feature vectors corresponding to the plurality of sample images output by the mental image visualization device 1B are weighted according to the result of the sensitivity evaluation by the psychological inverse correlation method for the plurality of sample images by DCNN13. Calculate the vector. Then, the dimensional compression processing unit 14B outputs a plurality of eigenvectors obtained by applying DMD to the weighted feature vector and performing dimensional compression.
  • the dimensional compression processing unit 14C includes a DMD application unit 141C, an eigenvalue selection unit 143, and an eigenvector derivation unit 144, as shown in FIG.
  • the DMD application unit 141C applies the DMD to the feature vectors weighted to the feature vectors corresponding to the plurality of sample images according to the result of the sensitivity evaluation by the psychological inverse correlation method for the plurality of sample images, thereby applying a plurality of eigenvalues. obtain.
  • At least two eigenvectors are input to the DNN 10 by the input unit 12.
  • the DNN 10 then generates an image showing at least two subpsychic images from the input at least two eigenvectors.
  • the input unit 12 inputs each of at least two eigenvectors to the styleGAN generator.
  • the styleGAN generator generates an image showing at least two sub-mental images constituting the mental image but not assuming orthogonality to each other.
  • DCNN13 is not essential in the mental image visualization system 100B according to this modified example.
  • the subject may evaluate the sensitivity of the sample image generated by the mental image visualization system 100B by the psychological inverse correlation method, and input the result to the dimension compression processing unit 14C.
  • FIG. 18 is a block diagram showing an example of the configuration of the recommendation system 200 according to the third embodiment.
  • the function of the recommendation system 200 is realized by software using the computer 1000 shown in FIG.
  • FIG. 19 is a diagram showing an example of a mental image or a sub-mental image according to the third embodiment.
  • An example of the mental image or sub-mental image shown in FIG. 19 is originally a color image, but is shown as a line diagram for convenience.
  • FIG. 20 is a diagram showing an example of the latent space according to the third embodiment and the position of the mental image or the sub-mental image.
  • the recommendation system 200 includes a storage unit 20 and a recommendation image generation UI (User Interface) 21. The details of each component will be described below.
  • the storage unit 20 is composed of an HDD (Hard Disk Drive), a memory, or the like, and stores a plurality of recommendation candidate images 201 and the like.
  • the plurality of recommendation candidate images 201 are composed of image groups of existing products of, for example, tens to hundreds of scales, such as a plurality of product images, and are image groups of product candidates that the target person (user) wants to recommend (recommend).
  • the scale of the image group is an example, and the scale may exceed several hundreds.
  • the plurality of recommendation candidate images 201 will be described as being composed of an image group of an existing product (interior product) constituting the interior.
  • the recommendation image generation UI 21 presents to the subject a recommendation candidate image 201 showing an existing product close to the mental image of the subject among the plurality of recommendation candidate images 201 stored in the storage unit 20.
  • the recommendation image generation UI 21 is a recommendation candidate image 201 showing an interior product that is close to the mental image (preference) of the subject among a plurality of recommendation candidate images 201 that are stored in the storage unit 20 and each indicates an interior product.
  • the recommendation image generation UI 21 includes a memory 210, an acquisition unit 211, an embedding execution unit 212, a distance calculation unit 213, a selection image unit 214, and a display control unit 215.
  • the memory 210 stores the DNN 2101 and the mental image image (sub-mental image image) 2102.
  • the DNN2101 may be a copy of the DNN10 obtained from the mental image visualization system 100 (100B) shown in FIG. 7 (FIG. 13), or may be the trained styleGAN described in embodiments 1 and 2. good.
  • the DNN 2101 may be in any form as long as it is stored in the memory 210 in a form in which the latent space of the trained styleGAN in the DNN 10 can be used.
  • the styleGAN is pre-learned using, for example, a dataset containing a plurality of existing interior images.
  • the mental image image (sub-mental image image) 2102 is generated by, for example, the mental image visualization system 100 (100B) shown in FIG. 7 (FIG. 13), is acquired in advance, and is stored in the memory 210. ing.
  • the mental image image (sub-mental image image) 2102 that has been acquired in advance and stored in the memory 210 is, for example, the image Tx of the interior product shown in FIG.
  • the acquisition unit 211 acquires a plurality of recommendation candidate images 201 from the storage unit 20 and outputs them to the embedding execution unit 212. Further, the acquisition unit 211 acquires the mental image image (sub-mental image image) 2102 from the memory 210 and outputs it to the embedding execution unit 212.
  • the acquisition unit 211 acquires the latent space of the DNN 10 in advance and stores it in the memory 210.
  • the acquisition unit 211 acquires the latent space of the DNN 10 by acquiring a copy of the DNN 10 in advance from the mental image visualization system 100B (100).
  • the acquisition unit 211 acquires the latent space of the styleGAN in which the points (vector positions) as shown in FIG. 20 are distributed.
  • the embedding execution unit 212 embedding the mental image image (sub-mental image image) 2102 acquired from the acquisition unit 211 in advance in the latent space of the DNN 2101, and embedding the mental image image (sub-mental image image) 2102.
  • the position (vector position) is obtained.
  • the embedding execution unit 212 embeddings the image Tx of the interior product shown in FIG. 19, for example, in the latent space of the DNN 2101, and the position (vector position) of the image Tx as shown in FIG. To get.
  • the image Tx of the interior product shown in FIG. 19 is an example of the mental image image (sub-mental image image) 2102.
  • the embedding execution unit 212 embedding each of the plurality of recommendation candidate images 201 acquired by the acquisition unit 211 into the latent space of the DNN 2101, and the positions (vector positions) of the plurality of recommendation candidate images 201 in the latent space. ).
  • the distance calculation unit 213 calculates the distance between the position of the mental image (vector position) in the latent space of the DNN 2101 and the position (vector position) of each of the plurality of embedding recommended candidate images 201.
  • FIG. 21 is a diagram showing an example of the distance between the position of the mental image or sub-mental image and the position of one recommendation candidate image 201a in the latent space according to the third embodiment.
  • FIG. 21 shows the position of the image Tx of the interior product shown in FIG. 19 in the latent space shown in FIG. 20 and the position of one recommendation candidate image 201a in the latent space shown in FIG.
  • One recommendation candidate image 201a is shown as an image of a curtain which is an example of an interior product.
  • the distance calculation unit 213 calculates the distance d between the position of the image Tx of the interior product shown in FIG. 19 and the position of one recommendation candidate image 201a in the latent space shown in FIG. Similarly, the distance calculation unit 213 calculates the distance between the position of the image Tx of the interior product shown in FIG. 19 and the position of each of the plurality of recommendation candidate images 201 in the latent space shown in FIG.
  • the selection image unit 214 selects one or more recommendation candidate images 201 corresponding to the distances equal to or less than the threshold value among the plurality of distances calculated by the distance calculation unit 213 among the plurality of recommendation candidate images 201 acquired by the acquisition unit 211. select.
  • the selected image unit 214 uses a plurality of distances calculated by the distance calculation unit 213 to display an interior product shown in FIG. 19, which is a mental image image (sub-mental image image) 2102 of the subject.
  • Image Select one or more interior products that are close to Tx.
  • the display control unit 215 presents one or more recommendation candidate images 201 selected by the selection image unit 214 to the subject having the mental image image (sub-mental image image) 2102. That is, the display control unit 215 controls the display device 300 and presents the recommended product to the target person by displaying an image showing the recommended product on the display device 300.
  • the display control unit 215 presents the recommendation candidate image 201 selected by the selection image unit 214, for example, shown in FIGS. 22A to 22C, to the target person by displaying the recommendation candidate image 201 on the display device 300.
  • FIGS. 22A to 22C are diagrams showing an example of a recommendation candidate image presented by the recommendation image generation UI 21 according to the third embodiment, respectively.
  • 22A to 22C each show an example of the recommendation candidate image 201 presented by the recommendation image generation UI 21 according to the third embodiment and its explanatory text.
  • the recommendation candidate images 201a, 201b, and 201c shown in FIGS. 22A to 22C are originally color images, but are shown as line diagrams for convenience of explanation.
  • 22A, 22B, and 22C show recommendation candidate images 201a, 201b, and 201c, which are images of a curtain as an example of an interior product, and their explanatory text.
  • the display device 300 has a display for displaying an image, characters, or the like.
  • the display is, for example, a liquid crystal display, a plasma display, an organic EL (Electro-Luminescence) display, or the like.
  • the display device 300 has a function as a UI for receiving an input operation by the target person, and includes, for example, a keyboard, a mouse, a touch sensor, a touch pad, and the like.
  • the recommendation system 200 acquires, for example, a mental image image (sub-mental image image) 2102 in advance from the mental image visualization system 100 (100B) shown in FIG. 7 (FIG. 13) and stores the memory. It was explained that it is stored in 210.
  • the recommendation system 200 may passively acquire a mental image image (sub-mental image image) 2102 from the mental image visualization system 100 (100B) shown in FIG. 7 (FIG. 13). Not exclusively.
  • the recommendation system 200 may actively acquire the mental image image (sub-mental image image) 2102 by cooperating with the mental image visualization system 100 (100B) shown in FIG. 7 (FIG. 13). .. That is, the recommendation system 200 connects the mental image visualization system 100 (100B) shown in FIG. 7 (FIG. 13) to the mental image image (sub-mental image image) through the interaction with the target person via the display device 300. 2102 may be generated.
  • FIG. 23A is a diagram showing an example of a method of acquiring a mental image or a sub-mental image of the recommendation system 200 according to the third embodiment.
  • FIG. 23B is a diagram showing an example of a sample image presentation and evaluation method evaluated by the subject according to the third embodiment.
  • the same elements as those in FIG. 18 and the like are designated by the same reference numerals, and detailed description thereof will be omitted.
  • the recommendation system 200 first acquires a plurality of sample images related to the interior product generated by the mental image visualization system 100 (100B). For example, the recommendation system 200 acquires about 10 sample images.
  • the recommendation system 200 displays each of the acquired sample images in order on the display device 300, and causes the subject to input how much he / she likes the interior product shown in the displayed sample images.
  • FIG. 23B shows an image Sx of an interior with chairs, desks, curtains, etc. as an example of a sample image for evaluation on the display device 300, and a score input for asking the target person to input a desired degree. The button is shown.
  • the recommendation system 200 obtains scores for a plurality of sample images including the image Sx input by the subject, and uses these scores as the evaluation result of the sensitivity evaluation by the psychological inverse correlation method, which is a mental image visualization system. Enter in 100 (100B).
  • the mental image visualization system 100 (100B) the score which is the evaluation result of the sensitivity evaluation by the psychological inverse correlation method and the feature vector corresponding to the plurality of sample images output by the mental image visualization device 1A From, a mental image (sub-mental image) is generated. Since the details of the generation method have been described in the first and second embodiments, the description thereof will be omitted here.
  • the recommendation system 200 acquires a mental image image (sub-mental image image) generated by the mental image visualization system 100 (100B), and stores the mental image image (sub-mental image image) 2102 as a memory. Store in 210.
  • the recommendation system 200 acquires an image of the mental image (sub-mental image) of each unspecified subject from the mental image visualization system 100 (100B) using about 10 sample images. can do.
  • the recommendation system 200 is an existing image close to a mental image (sub-mental image) by using an image of the mental image (sub-mental image) possessed by the subject. You can recommend the product. In other words, by using the image of the target person's mental image (sub-mental image), the target person's preference even without the target person's behavior history information such as the purchase history required by the conventional recommendation engine. You can select an existing product that suits you and make a recommendation.
  • the recommendation system 200 can acquire an image of a mental image (sub-mental image) possessed by each unspecified target person by linking with the mental image visualization system 100 (100B). Then, by using the mental image (sub-mental image) image of each unspecified target person, the target person's behavior history information such as the purchase history required by the conventional recommendation engine is not available. You can select an existing product that suits your taste and make a recommendation. As a result, even for an unspecified target person who visits the EC site, even if there is no behavior history information of the target person such as purchase history, it is possible to select and recommend an existing product that suits the target person's preference. can.
  • the recommendation system 200 has been described as a system different from the mental image visualization system 100 (100B), it is not limited to this.
  • the recommendation system 200 may include a mental image visualization system 100 (100B) inside.
  • Part or all of the components constituting the above-mentioned mental image visualization device, mental image visualization system or recommendation system are specifically a microprocessor, ROM, RAM, hard disk unit, display unit, keyboard. , A computer system composed of a mouse and the like may be used.
  • a computer program is stored in the RAM or the hard disk unit.
  • the microprocessor operates according to the computer program, each device achieves its function.
  • a computer program is configured by combining a plurality of instruction codes indicating instructions to a computer in order to achieve a predetermined function.
  • the system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on one chip, and specifically, is a computer system including a microprocessor, a ROM, a RAM, and the like. .. A computer program is stored in the RAM. When the microprocessor operates according to the computer program, the system LSI achieves its function.
  • the IC card or the module is a computer system composed of a microprocessor, a ROM, a RAM, and the like.
  • the IC card or the module may include the above-mentioned super multifunctional LSI.
  • the microprocessor operates according to a computer program, the IC card or the module achieves its function. This IC card or this module may have tamper resistance.
  • Some or all of the components constituting the above-mentioned mental image visualization device, mental image visualization system, or recommendation system may be distributed and configured as a network structure including a server and cloud storage.
  • the data input device and the arithmetic unit can exist separately in a remote place, and a plurality of input devices and arithmetic units may be distributed and exist.
  • the present disclosure can be used for mental image visualization methods, mental image visualization devices and programs, and in particular, mental image visualization methods for visualizing the mental image of a subject such as an individual or a group. It can be used for devices and programs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

特徴を学習するための特徴学習用画像のデータセットを用いて学習されたDNNに、特徴学習用画像に写る対象物と同一のカテゴリで異なる対象物が写る複数のサンプル画像を生成させるステップ(S10)と、DNNに、複数のサンプル画像を入力するステップ(S11)と、複数のサンプル画像それぞれの特徴ベクトルであって、DNNにより、対応するサンプル画像が、n次元(nは100以上の整数)のベクトルに変換された特徴ベクトルを、DNNから取得するステップ(S12)とを含む。取得した特徴ベクトルは、心的イメージを示す画像を生成するために用いられる。

Description

心的イメージ可視化方法、心的イメージ可視化装置及びプログラム
 本開示は、心的イメージ可視化方法、心的イメージ可視化装置及びプログラムに関する。
 人は、心の中に存在する心的イメージと眼前のイメージ(視覚対象)との比較から感性判断を行うことが知られている。ここで、感性は、外界からの刺激を受け止める感覚的能力であり、視覚対象を観察した際に人が感じる特定の価値判断を伴う感覚である。心的イメージは、心の中に思い浮かべるイメージ(心的表象)であり、心の中に存在する。
 例えば、非特許文献1には、心的イメージを可視化する技術が開示されている。非特許文献1によれば、用意した顔画像であるベース画像にランダムなノイズを付加して種々の顔画像を得る。そして、心理学的逆相関法を利用して、種々の顔画像から、被験者が持つ人種の顔イメージに近い顔画像を選択することで、被験者の顔による人種判断に関する心的イメージを可視化する技術が開示されている。なお、心理学的逆相関法は、例えば美しいなど、ある感性が生じた際に提示されていた刺激が何であったかという関係性に注目することで、当該感性を生じさせることに寄与する画像特徴が何であるかを可視化する技術である。
Visualising mental representations: A primer on noise-based reverse correlation in social psychology、L Brinkman, A Todorov, R Dotsch European Review of Social Psychology 28 (1), 333-361
 しかしながら、非特許文献1に開示される技術では、ベース画像にランダムなノイズを付加して得た種々の顔画像は、ベース画像から派生した画像である。つまり、種々の顔画像は、用意されたベース画像に強く規定される。このため、種々の顔画像から選択された顔画像は、選択した人の心的イメージに近いものの異なる可能性がある。また、非特許文献1に開示される技術では、用意されるベース画像は、データベースから取得した顔画像を平均化して得た顔画像であるものの、低品質であるという課題もある。
 本開示は、上述の事情を鑑みてなされたもので、ヒトの心的イメージをより高品質な画像で可視化することができる心的イメージ可視化方法、心的イメージ可視化装置及びプログラムを提供することを目的とする。
 上記課題を解決するために、本開示の一態様に係る心的イメージ可視化方法は、特徴を学習するための特徴学習用画像のデータセットを用いて学習されたDNN(Deep Neural Networks)に、前記特徴学習用画像に写る対象物と同一のカテゴリで異なる対象物が写る複数のサンプル画像を生成させるステップと、前記DNNに、前記複数のサンプル画像を入力するステップと、前記複数のサンプル画像それぞれの特徴ベクトルであって、前記DNNにより、対応するサンプル画像がn次元(nは100以上の整数)のベクトルに変換された特徴ベクトルを、前記DNNから取得するステップとを含み、前記特徴ベクトルは、心的イメージを示す画像を生成するために用いられる。
 また、上記課題を解決するために、本開示の一形態に係る心的イメージ可視化装置は、特徴を学習するための特徴学習用画像のデータセットを用いて学習されたDNN(Deep Neural Networks)と、前記DNNに生成させた複数のサンプル画像であって前記特徴学習用画像に写る対象物と同一のカテゴリで異なる対象物が写る複数のサンプル画像を取得する取得部と、前記複数のサンプル画像を前記DNNに入力する入力部と、を備え、前記取得部は、前記複数のサンプル画像それぞれの特徴ベクトルであって、前記DNNにより、対応するサンプル画像が、n次元(nは100以上の整数)のベクトルに変換された特徴ベクトルを、前記DNNから取得し、前記特徴ベクトルは、心的イメージを示す画像を生成するために用いられる。
 なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 本開示の心的イメージ可視化方法等によれば、ヒトの心的イメージをより高品質な画像で可視化することができる。
図1は、実施の形態1に係る心的イメージ可視化装置の構成の一例を示すブロック図である。 図2は、styleGANのGenerator部分の構造を示す図である。 図3Aは、実施の形態1に係るサンプル画像の一例を示す図である。 図3Bは、図3Aに示すサンプル画像の特徴ベクトルの一例を示す図である。 図4は、実施の形態1に係る心的イメージ可視化装置の機能をソフトウェアにより実現するコンピュータのハードウェア構成の一例を示す図である。 図5は、実施の形態1に係る心的イメージ可視化装置の動作を示すフローチャートである。 図6は、実施の形態1に係る2つのサンプル画像の特徴ベクトルの加算平均により得られる画像を示す図である。 図7は、実施の形態2に係る心的イメージ可視化システムの構成の一例を示すブロック図である。 図8は、図7に示すDCNNのネットワーク構造の一例を示す図である。 図9は、図8に示すDCNNの学習方法を説明するための図である。 図10は、実施の形態2に係る複数のサンプル画像に対する感性評価の結果の一例を示す図である。 図11Aは、実施の形態2に係る加算平均部により算出された第1特徴ベクトルの一例を示す図である。 図11Bは、図11Aに示す第1特徴ベクトルから生成された心的イメージを示す画像を示す図である。 図12は、実施の形態1及び2に係る美醜評価での心的イメージ可視化方法の全体像を示す図である。 図13は、実施の形態2の変形例1に係る心的イメージ可視化システムの構成の一例を示すブロック図である。 図14は、実施の形態2の変形例1に係る次元圧縮処理部の詳細構成の一例を示すブロック図である。 図15は、実施の形態2の変形例1に係る心的イメージ可視化システムの動作例を概観的に示す図である。 図16Aは、図15に示す動作例に係る特異値分解を実行して得た複数の固有値をランク順に並べたグラフの一例を示す図である。 図16Bは、図16Aに示す表を用いてサブ心的イメージを示す画像と心的イメージを示す画像との関係を説明するための図である。 図17は、実施の形態2の変形例2に係る次元圧縮処理部の詳細構成の一例を示すブロック図である。 図18は、実施の形態3に係るレコメンドシステムの構成の一例を示すブロック図である。 図19は、実施の形態3に係る心的イメージ或いはサブ心的イメージの一例を示す図である。 図20は、実施の形態3に係る潜在空間の一例と、心的イメージ或いはサブ心的イメージの位置を示す図である。 図21は、実施の形態3に係る潜在空間内における心的イメージ或いはサブ心的イメージの位置と1つのレコメンド候補画像の位置との距離の一例を示す図である。 図22Aは、実施の形態3に係るレコメンド画像生成UIにより提示されるレコメンド候補画像の一例を示す図である。 図22Bは、実施の形態3に係るレコメンド画像生成UIにより提示されるレコメンド候補画像の一例を示す図である。 図22Cは、実施の形態3に係るレコメンド画像生成UIにより提示されるレコメンド候補画像の一例を示す図である。 図23Aは、実施の形態3に係るレコメンドシステムの心的イメージ或いはサブ心的イメージの取得方法の一例を示す図である。 図23Bは、実施の形態3に係る対象者が評価するサンプル画像の提示と評価方法の一例を示す図である。
 以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。従って、以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置及び接続形態等は、一例であって本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、本開示の一形態に係る実現形態を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。本開示の実現形態は、現行の独立請求項に限定されるものではなく、他の独立請求項によっても表現され得る。
 (実施の形態1)
 以下では、図面を参照しながら、実施の形態1について説明する。
 [1.心的イメージ可視化装置1]
 図1は、実施の形態1に係る心的イメージ可視化装置1の構成の一例を示すブロック図である。心的イメージ可視化装置1は、DNN(Deep Neural Networks)を用いたコンピュータ等で実現される。より具体的には、心的イメージ可視化装置1は、DNN10を用いて複数のサンプル画像を生成する。また、心的イメージ可視化装置1は、DNN10を用いて、生成した複数のサンプル画像それぞれの特徴ベクトルを取得する。なお、以下では、サンプル画像は、例えば顔画像であり、心的イメージは、顔の美醜に関するものとして説明するがこれに限らない。例えば、サンプル画像は、自動車の外観を示す画像であってもよいし、家屋の外観を示す画像であってもよいし、商品を示す画像であってもよい。同様に、心的イメージは、感性形容詞に関するものであれば、顔の美醜に関するものでなくてよい。例えば心的イメージは、自動車の外観の良し悪しに関するものであってもよいし、家屋の外観の良し悪しに関するものであってもよいし、商品の良し悪しに関するものであってもよい。また現代的である、日本的である、など任意の形容詞を感性形容詞として使用可能である。
 本実施の形態では、心的イメージ可視化装置1は、図1に示すように、DNN10と、取得部11と、入力部12とを備える。以下、それぞれの構成要素の詳細について説明する。
 [1-1.DNN10]
 DNN10は、特徴を学習するための特徴学習用画像のデータセットを用いて学習された多層ニューラルネットワークで構成される。DNN10は、特徴学習用画像に写る対象物と同一のカテゴリで異なる対象物が写る複数のサンプル画像を生成する。特徴学習用画像のデータセットは、既存のデータベース等から取得される種々の顔画像を含むデータセットでもよいし、自ら作成した種々の顔画像を含むデータセットでもよい。
 DNN10は、入力部12により複数のサンプル画像が入力されると、複数のサンプル画像それぞれの特徴ベクトルであって、対応するサンプル画像がn次元(nは100以上の整数)のベクトルに変換された特徴ベクトルを生成する。n次元の特徴ベクトルは、心的イメージを示す画像を生成するために用いられる。
 ここで、DNN10は、例えばstyleGAN(A Style-Based Generator Architecture for Generative Adversarial Networks)で構成されてもよい。なお、DNN10は、複数のサンプル画像を生成でき、さらに、入力したサンプル画像のn次元の特徴ベクトルを生成できるのであれば、styleGANで構成される場合に限らず、他のGANまたは他の多層ニューラルネットワークで構成されていてもよい。
 <styleGAN>
 styleGANは、GAN(Generative Adversarial Networks)の1種であり、例えば1024画素×1024画素の高解像度の画像を生成することができる。また、styleGANは、人物画像を生成する場合、人物画像の大局的な属性(顔の輪郭、眼鏡の有無など)から局所的な属性(しわ、肌質など)までを切り分けて制御した上で生成することができる。ここで、GANは、学習用のデータを学習し、学習したデータと似たような新しいデータを生成するモデル(生成モデル)の一種である。換言すると、GANは、GeneratorとDiscriminatorという2つのネットワークを有し、2つのネットワークを競わせながら学習させるアーキテクチャであり、正解データを与えることなく特徴を学習する(教師なし学習を行う)。GANは、データから特徴を学習することで、実在しないデータを生成したり、存在するデータに沿って変換したりすることができる。
 図2は、styleGANのGenerator部分の構造を示す図である。
 styleGANのGeneratorは、図2に示すようにマッピングネットワーク(Mapping network f)と、合成ネットワーク(Synthesis Network g)とで構成される。
 マッピングネットワークは、複数層(図では8層)の全結合層(前層と後層のニューロンが全て接続されている層)から構成されるネットワークである。マッピングネットワークの出力は、入力レイヤと同じサイズ(512×1)となっている。マッピングネットワークは、入力されたベクトル(潜在変数z)を別の空間(中間的な潜在空間W)へと写像することで、中間潜在変数w(w∈W)とも称される中間ベクトルを獲得する。
 合成ネットワークは、複数層(図では18層)から構成されるネットワークである。合成ネットワークの最終レイヤの出力は、RGBに変換される。合成ネットワークは、AdaIN(Adaptive Instance Normalization)と、畳み込み層とを有する。
 ここで、人物画像の髪、シワなどの局所的な属性は、確率的とみなせる細部の局所的な特徴として扱うことができることが知られている。合成ネットワークでは、各畳み込み層の直後に、ピクセル単位のノイズを直接加えることで、上記の局所的な特徴を制御する。AdaINは、各畳み込み層の出力にノイズが加えられて制御されたベクトルと、マッピングネットワークによって得られた中間ベクトルに対してアフィン変換が施されて得た画像用のベクトルとを合成させる。AdaINの処理は、各解像度スケール(4×4、8×8、・・・)の畳み込み層の出力に対して行われる。AdaINの処理は、特徴マップ単位(チャンネル単位)での正規化処理になっている。このように、AdaINの処理を行うことで、解像度スケール(4×4、8×8、・・・)毎に、画像全体にわたって大局的な属性(画像のスタイル)を変化させることができる。
 図3Aは、実施の形態1に係るサンプル画像の一例を示す図である。図3Bは、図3Aに示すサンプル画像の特徴ベクトルの一例を示す図である。なお、図3Aに示されるサンプル画像は、グレースケールで表現されているが、これに限らずカラーで表現されていてもよく、同様のことが言える。
 本実施の形態では、顔画像の特徴を学習するための複数の顔画像を特徴学習用画像として構成されるデータセットを用いて、DNN10を学習させる。これにより、DNN10は、styleGANのGeneratorを用いて、例えば顔画像である複数のサンプル画像を生成することができる。例えばDNN10は、図3Aに示すように、実在しない女性の顔画像を、サンプル画像として生成することができる。
 ここで、顔画像の特徴を学習するための複数の顔画像を特徴学習用画像として構成されるデータセットを用いてstyleGANを学習させる。この場合において、学習済のstyleGANのマッピングネットワークに、特徴学習用画像と異なる顔画像を入力したとき、中間ベクトルとして、512次元のベクトルに変換された特徴ベクトルを獲得できることを見出した。換言すると、styleGANのマッピングネットワークは、例えば512画素×512画素または1024画素×1024画素などで構成される画像を512次元の特徴ベクトルに変換するニューラルネットワークとして機能することを見出した。
 このため、DNN10は、生成した複数のサンプル画像のうちの一つのサンプル画像が入力されると、styleGANのGeneratorの一部すなわちマッピングネットワークを用いて、当該サンプル画像が512次元のベクトルに変換された特徴ベクトルを生成する。例えば、DNN10は、図3Aに示すサンプル画像から、図3Bに示す512次元の特徴ベクトルを生成することができる。
 [1-2.取得部11]
 取得部11は、入力部12によりDNN10に入力されたサンプル画像の特徴ベクトルをDNNから取得する。取得部11は、DNN10がstyleGANで構成される場合、styleGANのマッピングネットワークの出力を取得することで、特徴ベクトルを取得する。
 [1-3.入力部12]
 入力部12は、DNN10に、複数のサンプル画像を入力する。本実施の形態では、入力部12は、取得部11から出力されたサンプル画像を、DNN10に入力する。
 [1-4.ハードウェア構成]
 次に、本実施の形態に係る心的イメージ可視化装置1のハードウェア構成について、図4を用いて説明する。図4は、本実施の形態に係る心的イメージ可視化の機能をソフトウェアにより実現するコンピュータ1000のハードウェア構成の一例を示す図である。
 コンピュータ1000は、図4に示すように、入力装置1001、出力装置1002、CPU及びGPU1003、内蔵ストレージ1004、RAM1005、読取装置1007、送受信装置1008及びバス1009を備えるコンピュータである。入力装置1001、出力装置1002、CPU及びGPU1003、内蔵ストレージ1004、RAM1005、読取装置1007及び送受信装置1008は、バス1009により接続される。
 入力装置1001は入力ボタン、タッチパッド、タッチパネルディスプレイなどといったユーザインタフェースとなる装置であり、ユーザの操作を受け付ける。なお、入力装置1001は、ユーザの接触操作を受け付ける他、音声での操作、リモコン等での遠隔操作を受け付ける構成であってもよい。
 内蔵ストレージ1004は、フラッシュメモリなどである。また、内蔵ストレージ1004は、心的イメージ可視化装置1の機能を実現するためのプログラム、及び、心的イメージ可視化装置1の機能構成を利用したアプリケーションの少なくとも一方が、予め記憶されていてもよい。
 RAM1005は、ランダムアクセスメモリ(Random Access Memory)であり、プログラムまたはアプリケーションの実行に際してデータ等の記憶に利用される。
 読取装置1007は、USB(Universal Serial Bus)メモリなどの記録媒体から情報を読み取る。読取装置1007は、上記のようなプログラムやアプリケーションが記録された記録媒体からそのプログラムやアプリケーションを読み取り、内蔵ストレージ1004に記憶させる。
 送受信装置1008は、無線または有線で通信を行うための通信回路である。送受信装置1008は、例えばネットワークに接続されたサーバ装置と通信を行い、サーバ装置から上記のようなプログラムやアプリケーションをダウンロードして内蔵ストレージ1004に記憶させる。
 CPU及びGPU1003は、中央演算処理装置(Central Processing Unit)とグラフィックスプロセッシングユニット(Graphics Processing Unit)であり、内蔵ストレージ1004に記憶されたプログラム、アプリケーションをRAM1005にコピーし、そのプログラムやアプリケーションに含まれる命令をRAM1005から順次読み出して実行する。
 [2.心的イメージ可視化装置1の動作]
 次に、上記のように構成された心的イメージ可視化装置1の動作について説明する。
 図5は、実施の形態1に係る心的イメージ可視化装置1の動作を示すフローチャートである。
 まず、心的イメージ可視化装置1は、学習済のDNN10に、複数のサンプル画像を生成させる(S10)。より具体的には、心的イメージ可視化装置1は、図1に示すDNN10を、特徴を学習するための特徴学習用画像のデータセットを用いて学習する。そして、心的イメージ可視化装置1は、このように学習させたDNN10に、特徴学習用画像に写る対象物と同一のカテゴリで異なる対象物が写る複数のサンプル画像を生成させる。
 次に、心的イメージ可視化装置1は、DNN10に、ステップS10で生成した複数のサンプル画像を入力する(S11)。
 次に、心的イメージ可視化装置1は、ステップS10で生成した複数のサンプル画像それぞれの特徴ベクトルを、DNN10から取得する(S12)。より具体的には、心的イメージ可視化装置1は、ステップS10で生成した複数のサンプル画像それぞれの特徴ベクトルであって、DNN10により、対応するサンプル画像がn次元(nは100以上の整数)のベクトルに変換された特徴ベクトルを、DNN10から取得する。
 [3.効果等]
 以上のように、本実施の形態によれば、特徴を学習するための特徴学習用画像のデータセットを用いて学習されたDNN10に、特徴学習用画像に写る対象物と同一のカテゴリで異なる対象物が写る複数のサンプル画像を生成させることができる。さらに、DNN10に、複数のサンプル画像それぞれの特徴ベクトルであって、対応するサンプル画像がn次元(nは100以上の整数)のベクトルとなる特徴ベクトルに変換させることができるので、DNN10から当該特徴ベクトルを取得することができる。
 図6は、実施の形態1に係る2つのサンプル画像の特徴ベクトルの加算平均により得られる画像を示す図である。図6の(a)、(b)に示される女性の顔画像と特徴ベクトルは、2つの異なるサンプル画像とそれぞれの特徴ベクトルの一例である。
 本実施の形態の心的イメージ可視化装置1により生成される特徴ベクトルは、例えば512次元の特徴ベクトルであり、一定の線形性を有する。このため、例えば図6の(a)及び(b)のような、2つの異なるサンプル画像の特徴ベクトルを平均した特徴ベクトルから生成される画像は、図6の(c)に示す女性の顔画像のように、図6の(a)及び(b)に示されるサンプル画像の特徴が平均的に含まれることになる。また、図6の(c)に示すように、図6の(a)及び(b)に示されるサンプル画像の特徴が平均的に含まれる画像は、図6の(a)及び(b)と同様に高画質な画像となるのがわかる。
 このため、数百枚のサンプル画像について心理学的逆相関法で感性評価を行った結果から、例えば最もその感性評価のスコアが高いサンプル画像の特徴ベクトルを取得することができる。この場合、感性評価のスコアが高いサンプル画像の特徴ベクトルから生成した画像を、心的イメージを示す画像とすればよい。また、数百枚のサンプル画像について心理学的逆相関法で感性評価を行った結果から、比較的感性評価のスコアが高い複数のサンプル画像それぞれの特徴ベクトルを取得してもよい。この場合、比較的感性評価のスコアが高い複数のサンプル画像それぞれの特徴ベクトルを重み付き加算平均した特徴ベクトルに対する非線形変換Fから生成した画像を、心的イメージを示す画像としてもよい。このようにして、本実施の形態の心的イメージ可視化装置1により生成される特徴ベクトルは、心的イメージを示す画像を生成するために用いることができる。
 なお、特徴ベクトルから画像を生成する方法としては、DNN10を用いてもよい。例えばDNN10がstyleGANで構成される場合、styleGANの合成ネットワークを用いることで、特徴ベクトルから画像を生成することができる。なお、多次元の特徴ベクトルから画像を生成できるニューラルネットワークであれば、styleGANの合成ネットワークに限らない。
 以上のように、本実施の形態の心的イメージ可視化装置1によれば、心理学的逆相関法で感性評価を行うサンプル画像を、上述したベース画像に依存せず、例えば1024画素×1024画素の高解像度で高画質に生成できる。また、本実施の形態の心的イメージ可視化装置1によれば、生成したサンプル画像の特徴ベクトルを生成できる。これにより、心理学的逆相関法で感性評価を行ったサンプル画像の特徴ベクトルを、評価結果に従って重み付き加算平均し、このように算出した特徴ベクトルから生成した画像を、心的イメージを示す画像として得ることができる。つまり、本実施の形態の心的イメージ可視化装置1によれば、ヒトの心的イメージをより高品質な画像で可視化することができる。
 (実施の形態2)
 実施の形態1では、可視化対象の心的イメージを持つ対象者に複数(数百枚)のサンプル画像について感性評価を行わせる場合を例に挙げて説明したが、これに限らない。可視化対象の心的イメージを持つ対象者の好みを予め学習させておいたDCNN(Deep Convolution Neural Networks)を用いて、複数(数百枚)のサンプル画像について心理学的逆相関法で感性評価を行ってもよい。
 以下では、実施の形態2として、心的イメージ可視化装置が生成したサンプル画像を感性評価するDCNNを備え、心的イメージを示す画像を生成する心的イメージ可視化システム100について説明する。
 [1.心的イメージ可視化システム100]
 図7は、実施の形態2に係る心的イメージ可視化システム100の構成の一例を示すブロック図である。なお、図1と同様の要素には同一の符号を付しており、詳細な説明は省略する。また、心的イメージ可視化システム100の機能は、実施の形態1と同様に、図4に示すコンピュータ1000を用いてソフトウェアにより実現される。
 本実施の形態では、心的イメージ可視化システム100は、心的イメージ可視化装置1Aと、DCNN13と、加算平均部14とを備える。以下、それぞれの構成要素の詳細について説明する。
 [1-1.心的イメージ可視化装置1A]
 図7に示す心的イメージ可視化装置1Aは、図1に示す心的イメージ可視化装置1と構成は同じである。心的イメージ可視化装置1Aでは、さらにDNN10が、加算平均部14により得られた第1特徴ベクトルから、心的イメージを示す画像を生成させる点を明示している。
 より具体的には、DNN10は、第1特徴ベクトルから心的イメージを示す画像を生成する。本実施の形態では、DNN10は、入力部12により第1特徴ベクトルが入力される。DNN10は、入力された第1特徴ベクトルから心的イメージを示す画像を生成する。DNN10がstyleGANで構成される場合、DNN10は、styleGANの合成ネットワークに第1特徴ベクトルを入力することで、合成ネットワークに心的イメージを示す画像を生成させる。詳細は、実施の形態1で説明した通りであるので、ここでの説明を省略する。
 取得部11は、DNN10が生成した心的イメージを示す画像を取得する。
 入力部12は、DNN10に、加算平均部14から得た第1特徴ベクトルを、DNN10に入力する。
 なお、サンプル画像、及び、特徴ベクトルの生成等については、実施の形態1で説明した通りであるので、ここでの説明を省略する。
 [1-2.DCNN13]
 DCNN13は、心理学的逆相関法を用いて用意された複数の画像と、心的イメージを持つ対象者が行った複数の画像に対する感性評価の結果とで構成される学習用データセットを用いて学習された畳み込みニューラルネットワークで構成される。学習用データセットは、既存のデータベース等から取得される種々の顔画像を含むデータセットでもよいし、自ら作成した種々の顔画像を含むデータセットでもよい。このようにして、DCNN13は、可視化対象の心的イメージを持つ対象者の好みを予め学習することができる。本実施の形態では、心理学的逆相関法を用いて用意された複数の画像は、実施の形態1と同様、例えば顔画像である。複数の画像に対する感性評価は、例えば、顔の美醜についての感性評価である。
 DCNN13は、心的イメージ可視化装置1Aにより生成された複数のサンプル画像それぞれが入力されると、複数のサンプル画像に対する感性評価の結果を予測し、複数のサンプル画像に対する心理学的逆相関法による感性評価の結果として出力する。
 ここで、DCNN13は、例えば、事前学習済のCNN(Convolution Neural Networks)と、CNNの後段に設けられた1層以上の畳み込み層と、1層以上の畳み込み層の後段に設けられたGAP(Global Average Pooling)層とで構成されてもよい。また、CNNは、複数の畳み込み層及び複数のプーリング層を有する畳み込みニューラルネットワークで構成される。
 図8は、図7に示すDCNN13のネットワーク構造の一例を示す図である。
 DCNN13は、例えば図8に示すように、事前学習済のVGG19と、3層の畳み込み層と、1層のGAP層とで構成される畳み込みニューラルネットワークである。事前学習済のVGG19は、DCNN13が有するCNNの一例である。なお、VGG19は、インターネットなど公開データベース等から取得することができる。DCNN13が有するCNNは、事前学習済のVGG19に限らない。また、DCNN13は、CNNの後段に1層以上の畳み込み層が構成されればよく、図8に示す3層の畳み込み層を構成する場合に限らない。
 図9は、図8に示すDCNN13の学習方法を説明するための図である。
 まず、心理学的逆相関法を用いて用意された複数の顔画像と、可視化対象の心的イメージを持つ対象者が行った当該複数の画像に対する感性評価の結果とで構成される学習用データセットを用意する。本実施の形態では、例えばそれぞれ女性の顔が写る複数の顔画像それぞれに対して、対象者がどのくらい美顔に感じるかを示す感性評価のスコアを付与したものを学習用データセットとしている。
 次に、学習用データセットの顔画像を一つずつ入力画像としてDCNN13に入力し、対象者が付与する感性評価のスコアを予測させ、差があれば差をなくすようにDCNN13にフィードバックする。このようにして、学習用データセットのすべての顔画像について、DCNN13が予測するスコアと、対象者が付与したスコアとの差を最小にするように学習させる。つまり、学習用データセットを用いて正解データを与える学習(教師あり学習)を、DCNN13に行う。
 これにより、DCNN13に対象者(個人)の感性評価を学習させることができるので、DCNN13は、任意の顔画像に対する感性評価を対象者に代わって行うことができる。
 ここで、メンタルテンプレートマッチング仮説によれば、美醜などの感性判定は、個人が心に持っているテンプレート(つまり心的イメージ)に基づいて行われる。そして、DCNN13は、そのパラメータを適切に学習することで、任意の顔画像に対する感性評価を対象者に代わって行うことができることから、発明者らは、DCNN13に、個人が心に持っている心的イメージを学習させることができることを見出した。
 これにより、DCNN13は、上記のような学習用データセットを準備して学習させることで、高名な芸術家またはデザイナーといった特殊技能を有する個人の感性(心的イメージ)をそのパラメータに保存することが可能となる。
 図10は、実施の形態2に係る複数のサンプル画像に対する感性評価の結果の一例を示す図である。
 図10に示される複数の女性の顔画像は、DCNN13により対象者に代わって感性評価が行われた複数のサンプル画像の一例である。例えば図10に示す3.7、2.2、4.2、3.1、…、は、DCNN13が当該複数の女性の顔画像それぞれに対して、対象者に代わって予測した感性評価のスコアの一例である。
 なお、図10には、複数の女性の顔画像の特徴ベクトルも示されている。
 [1-3.加算平均部14]
 加算平均部14は、複数のサンプル画像に対する心理学的逆相関法による感性評価の結果に従って、複数のサンプル画像に対応する特徴ベクトルを重み付き加算平均に対する非線形変換Fを行うことによって第1特徴ベクトルを得る。
 加算平均部14は、第1特徴ベクトルを入力部12に出力することで、第1特徴ベクトルをDNN10に入力する。
 図11Aは、実施の形態2に係る加算平均部14により算出された第1特徴ベクトルの一例を示す図である。図11Bは、図11Aに示す第1特徴ベクトルから生成された心的イメージを示す画像を示す図である。
 図11Aに示す第1特徴ベクトルは、図10に示す複数の女性の顔画像に対して予測された感性評価のスコアに基づいて、図10に示す複数の女性の顔画像の特徴ベクトルが加算平均された後に非線形変換されたものである。図11Aに示す第1特徴ベクトルは、入力部12によりDNN10に入力される。
 これにより、DNN10の合成ネットワークは、入力された図11Aに示す第1特徴ベクトルから、図11Bに示す画像を、心的イメージを示す画像として生成することができる。
 なお、本実施の形態では、図11Bに示す画像は、対象者(個人)が美顔に関する心的イメージに該当することになる。
 [2.効果等]
 図12は、実施の形態1及び2に係る美醜評価での心的イメージ可視化方法の全体像を示す図である。図12では、個人による美醜評価を行わせて美醜評価での心的イメージ可視化方法が示されている。なお、心的イメージ可視化装置1Aに生成された複数のサンプル画像に対して、心的イメージを持つ対象者が感性評価を行ってもよいし、上述したようにDCNN13が感性評価を予測してもよい。
 以上のように、本実施の形態によれば、心的イメージ可視化システム100は、生成した複数のサンプル画像について感性評価を行った結果に従い、当該複数のサンプル画像の特徴ベクトルを加算平均した後に非線形変換を行った第1特徴ベクトルから、心的イメージを示す画像を生成することができる。
 心的イメージ可視化装置1Aが生成した複数のサンプル画像は、可視化を試みる者等により選択または用意された実在する画像であるベース画像から派生した画像ではなく、実在しない画像または実在する画像に沿って変換された画像である。さらに、当該複数のサンプル画像の特徴ベクトルを加算平均した後に非線形変換を行った第1特徴ベクトルから生成した画像を、心的イメージを示す画像とすることができるので、心的イメージを示す画像は、用意したサンプル画像のみに規定されない。つまり、本実施の形態によれば、より対象者が持つ心的イメージに近いまたはそのものを示す画像を生成できる。
 また、心的イメージ可視化装置1Aが生成した複数のサンプル画像は、例えば1024画素×1024画素の高解像度であり高画質な画像である。このため、複数のサンプル画像の特徴ベクトルから算出される第1特徴ベクトルから生成される心的イメージを示す画像も高品質な画像で生成できる。
 よって、本実施の形態の心的イメージ可視化システム100によれば、ヒトの心的イメージをより高品質な画像で可視化することができる。
 また、本実施の形態によれば、DCNN13に、個人ごとの感性評価(心的イメージ)を学習させることができる。これにより、高名な芸術家またはデザイナーといった特殊技能を有する個人の感性(心的イメージ)をそのパラメータに保存することが可能となる。
 この結果、芸術家またはデザイナーは、ある時点での自身の感性をDCNN13という多層ニューラルネットワーク内にパラメータとして保存することができる。このため、芸術家またはデザイナーは、いつの時点でも過去の自分の感性を示す画像を参照して、作品またはデザインを作成することができる。
 さらに、心理学的逆相関法を用いて用意された複数の画像と、当該複数の画像に対する、例えば40代男性かつ関西在住者などである特定集団による評価結果とで構成される学習用データセットを準備できれば、DCNN13に、特定集団の心的イメージを学習させることができる。
 そして、特定対象者または特定集団の感性評価(心的イメージ)を学習したDCNN13を用いて、例えばあるデザインの是非について感性評価を予測させることもできる。これにより、当該デザインの是非について実際に大規模な市場調査を行う必要がなくなるという効果がある。さらに、当該デザインについて大規模市場調査を行うことなく販売対象者がどのような感性評価を行うかを、事前に把握できるという効果もある。
 また、本実施の形態の心的イメージ可視化システム100によれば、デザイナーの心的イメージを示す画像を生成できるので、当該デザイナーの心的イメージを、例えば開発者または営業担当者など当該デザイナー以外の者が画像として共有することができる。例えば、製品イメージの開発段階で、デザイナーまたは開発者が持つデザインの心的イメージを可視化し、グループ内で共有することもできる。
 また、本実施の形態の心的イメージ可視化システム100によれば、注文建築などを行う顧客が持つイメージ(心的イメージ)を可視化した画像を、短時間で生成することができる。これにより、顧客の求める商品デザインの開発を高精度で行えるといった効果もある。
 また、本実施の形態の心的イメージ可視化システム100によれば、例えば、高所得者がイメージする家屋の理想的な外観を、具体的なイメージとして可視化することができるので、建築メーカの設計に容易に反映させることができるという効果もある。
 なお、本実施の形態の心的イメージ可視化システム100によれば、個人ごとの具体的な理想顔を高品質画像として可視化することもできる。これにより、化粧または美容整形の完成後のイメージであって個人ごとの理想顔のイメージを示す画像を他者と共有することができる。
 (変形例1)
 実施の形態2では、DCNN13による複数のサンプル画像に対する心理学的逆相関法による感性評価の結果に従って、心的イメージ可視化装置1Aにより出力された複数のサンプル画像に対応する特徴ベクトルを重み付き加算平均する場合について説明した。重み付き加算平均することで、複数のサンプル画像に対応する512次元の特徴ベクトルから、1次元に次元圧縮した第1特徴ベクトルを得ることになるが、次元圧縮は1次元にする場合に限らない。2次元または3次元程度の次元に次元圧縮してもよい。以下では、実施の形態2の変形例1として、2次元または3次元程度に次元圧縮する場合について説明する。
 [1.心的イメージ可視化システム100B]
 図13は、実施の形態2の変形例1に係る心的イメージ可視化システム100Bの構成の一例を示すブロック図である。なお、図7と同様の要素には同一の符号を付しており、詳細な説明は省略する。また、心的イメージ可視化システム100Bの機能は、実施の形態1と同様に、図4に示すコンピュータ1000を用いてソフトウェアにより実現される。
 図13に示す心的イメージ可視化システム100Bは、図7に示す心的イメージ可視化システム100と比較して、加算平均部14の代わりに次元圧縮処理部14Bを備える点で構成が異なる。以下、それぞれの構成要素の詳細について、実施の形態2と異なる点を中心に説明する。
 [1-1.次元圧縮処理部14B]
 次元圧縮処理部14Bは、DCNN13による複数のサンプル画像に対する心理学的逆相関法による感性評価の結果に従い、心的イメージ可視化装置1Bにより出力された複数のサンプル画像に対応する特徴ベクトルを重み付けした特徴ベクトルを算出する。そして、次元圧縮処理部14Bは、重み付けした特徴ベクトルを、STC(Spike-triggered covariance)分析による次元圧縮を行うことで得た複数の固有ベクトルを出力する。
 図14は、実施の形態2の変形例1に係る次元圧縮処理部14Bの詳細構成の一例を示すブロック図である。
 次元圧縮処理部14Bは、図14に示すように、分散共分散行列算出部141と、特異値分解実行部142と、固有値選択部143と、固有ベクトル導出部144とを備える。
 分散共分散行列算出部141は、複数のサンプル画像に対する心理学的逆相関法による感性評価の結果に従って、複数のサンプル画像に対応する特徴ベクトルを重み付けする。分散共分散行列算出部141は、重み付けした特徴ベクトルの分散共分散行列を、STC(Spike-triggered covariance)分析により算出する。
 特異値分解実行部142は、算出した分散共分散行列に対して特異値分解を実行して複数の固有値を得る。
 本変形例では、重み付けされた特徴ベクトルのSTC行列を算出し、特異値分解して複数の固有値を得てもよい。STC分析は、主成分分析と類似した分析手法である。STC分析は、例えば多次元ベクトルにランダムな値を与えることで得られる分布における注目すべき特徴の分布の分散を最大化させる空間の軸を、直交するように取り直す手法ともいえる。空間の軸を多次元で直交するように取り直すことは、STC行列の固有ベクトルを取ることで実現できる。そして、取り直した軸で、所望の特徴の分布を表現し直すことにより、多次元ベクトルの次元を絞り込んだ(圧縮した)形で表現することができる。
 固有値選択部143は、特異値分解実行部142により得られた複数の固有値のうち、少なくとも2つの固有値を選択する。例えば、固有値選択部143は、特異値分解実行部142により得られた複数の固有値のうち、ランク順に並べたときの平均よりも分散の値が高い固有値と低い固有値とを選択してもよい。本変形例では、固有値選択部143は、ランク順に並べたときの1番目及び2番目に大きい固有値と、一番小さい固有値など、3つの固有値を選択する。
 固有ベクトル導出部144は、固有値選択部143により選択された当該少なくとも2つの固有値のいずれかをそれぞれを有する少なくとも2つの固有ベクトルを導出する。固有ベクトル導出部144は、導出した少なくとも2つの固有ベクトルを心的イメージ可視化装置1Bに出力する。本変形例では、固有ベクトル導出部144は、1番目及び2番目に大きい固有値と、一番小さい固有値とを有する3つの固有ベクトルを導出する。この場合、固有ベクトル導出部144は、導出した3つの固有ベクトルを心的イメージ可視化装置1Bの入力部12に出力する。
 [1-2.心的イメージ可視化装置1B]
 図13に示す心的イメージ可視化装置1Bは、図1及び図7に示す心的イメージ可視化装置1及び1Aと構成は同じである。心的イメージ可視化装置1Bでは、DNN10が、次元圧縮処理部14Bにより得られた少なくとも2つの固有ベクトルから、少なくとも2つのサブ心的イメージを示す画像を生成させる。少なくとも2つのサブ心的イメージはそれぞれ、上述した心的イメージを成分分解した1つのイメージに相当する。
 本変形例では、入力部12は、次元圧縮処理部14Bから得た少なくとも2つの固有ベクトルを、DNN10に入力する。
 DNN10は、入力部12により少なくとも2つの固有ベクトルのそれぞれが入力される。すると、DNN10は、入力された少なくとも2つの固有ベクトルから、少なくとも2つのサブ心的イメージを示す画像を生成する。ここで、DNN10がstyleGANで構成される場合、入力部12は、styleGANの生成器に、少なくとも2つの固有ベクトルのそれぞれを入力する。すると、styleGANの生成器により、心的イメージを構成する少なくとも2つのサブ心的イメージであって互いに直交性を仮定するサブ心的イメージを示す画像が生成される。
 なお、次元圧縮処理部14Bで特異値分解を実行して得た複数の固有値のいずれかをそれぞれ有する固有ベクトルを足し合わせたベクトルを、DNN10に入力すると、ほぼ心的イメージを示す画像が生成される。ここで、ほぼと記載したのは、次元圧縮により削除された情報があるからである。このように、心的イメージを成分分解したものそれぞれがサブ心的イメージに相当する。固有ベクトルからサブ心的イメージを生成することは、第1特徴ベクトルから心的イメージを生成することと同様であり、実施の形態1で説明した通りであるので、ここでの詳細は説明は省略する。
 取得部11は、DNN10が生成したサブ心的イメージを示す画像を取得する。
 なお、サンプル画像、及び、特徴ベクトルの生成等については、実施の形態1で説明した通りであるので、ここでの説明を省略する。
 [2.心的イメージ可視化システム100Bの動作例]
 以上のように構成された心的イメージ可視化システム100Bの動作例について説明する。本動作例では、心的イメージ可視化装置1BのDNN10は、styleGANで構成されているとして、実施の形態2と異なる点を中心に説明する。
 図15は、実施の形態2の変形例1に係る心的イメージ可視化システム100Bの動作例を概観的に示す図である。
 図15に示す動作例では、自動車の外観の良し悪しに関するサブ心的イメージを示す画像を生成する場合が示されている。図15には、心的イメージ可視化装置1Bにより生成された、自動車の外観を示す複数のサンプル画像が、サンプル画像S、S、…、SN-1、Sとして示されている。サンプル画像S、S、…、SN-1、Sはそれぞれ、心的イメージ可視化システム100Bを用いることで、上述したように512次元のベクトルの特徴ベクトルで表現される。サンプル画像S、S、…、SN-1、Sの下には、心的イメージ可視化装置1Bにより生成されたサンプル画像S、S、…、SN-1、Sのそれぞれの特徴ベクトルW、W、…、WN-1、Wが示されている。
 本動作例では、まず、DCNN13に、サンプル画像S、S、…、SN-1、Sに対する心理学的逆相関法による感性評価の結果を出力させる。
 次に、次元圧縮処理部14Bは、分散共分散行列141aを算出する。具体的には、次元圧縮処理部14Bは、サンプル画像S、S、…、SN-1、Sに対する心理学的逆相関法による感性評価の結果に従って重み付けした特徴ベクトルW、W、…、WN-1、Wの分散共分散行列141aを、STC分析により算出している。
 次に、次元圧縮処理部14Bは、固有ベクトル分析142aを行っている。具体的には、次元圧縮処理部14Bは、算出した分散共分散行列141aに対して、特異値分解を実行して512個の固有値を得ている。そして、次元圧縮処理部14Bは、特異値分解を実行して得た512個の固有値をランク順に並べたグラフ、例えば図16Aに示すようなグラフを作成する。
 ここで、図16Aは、図15に示す動作例に係る特異値分解を実行して得た複数の固有値をランク順に並べたグラフの一例を示す図である。図16Aに示す縦軸は分散(ばらつき)を示している。図16Aに示すように、点で表される固有値が重なって線のように見えているところと、線のように見えているところから離れた固有値とがあるのがわかる。この離れた点は、ランク順に並べたときの分散(ばらつき)の値が1番目及び2番目に大きい固有値と、分散(ばらつき)の値が一番小さい固有値となっており、それぞれSub1、Sub2及びSub512として示されている。
 本動作例では、次元圧縮処理部14Bに、ランク順に並べたときの1番目及び2番目に大きい固有値と、一番小さい固有値すなわちSub1、Sub2及びSub512として示されている3つの固有値を選択させる。なお、この3つの固有値の選択は、心的イメージ可視化システム100Bに対する操作または所定のアルゴリズムによりなされてもよい。
 次に、次元圧縮処理部14Bは、Sub1、Sub2及びSub512として示されている3つの固有値を有する3つの固有ベクトルを導出する。
 そして、次元圧縮処理部14Bにより導出された3つの固有ベクトルから、心的イメージ可視化装置1Bに3つのサブ心的イメージを示す画像を生成させる。なお、この生成は、心的イメージ可視化システム100Bに対する操作または所定のアルゴリズムによりなされてもよい。また、図15には、心的イメージ可視化装置1Bにより生成された3つのサブ心的イメージを示す画像Sub1、Sub2及びSub512が示されている。なお、画像Sub1、Sub2及びSub512は、本来、図3Aで示したグレースケールで示されたサンプル画像と同様にカラーの画像であるが、便宜上線図にして示している。
 図16Bは、図16Aに示す表を用いてサブ心的イメージを示す画像と心的イメージを示す画像との関係を説明するための図である。心的イメージを示す画像Tも、本来、図3Aで示したグレースケールで示されたサンプル画像と同様にカラーの画像であるが、図面上で比較しやすいように便宜上線図にして示している。
 図16Bに示すように、固有値が最も高い固有ベクトルから生成されたサブ心的イメージを示す画像Sub1に示される自動車の外観等は、心的イメージを示す画像Tに示される自動車の外観等に近いのがわかる。つまり、固有値が最も高い固有ベクトルから生成されたサブ心的イメージは、心的イメージを構成する寄与率が高く、対象者の好み(心的イメージ)に近いと言える。一方で、固有値が最も高い固有ベクトルから生成されたサブ心的イメージを示す画像Sub512は、心的イメージを示す画像Tから遠いのがわかる。つまり、固有値が最も低い固有ベクトルから生成されたサブ心的イメージは、心的イメージを構成する寄与率が低く、対象者の理想(心的イメージ)ではないと言える。しかしながら、発明者らは、自動車の外観の良し悪しに関するものも含め、対象者の心的イメージは、対象者の理想だけでなく、理想ではないものからも構成されていることに想到した。つまり、心的イメージは、対象者の理想(好み)と異なるものも抑制的であるが成分としてもっていることがわかった。
 [3.効果等]
 以上のように、本変形例によれば、心的イメージ可視化装置1Bにより出力された複数のサンプル画像に対応する多次元の特徴ベクトルから得られた2つ以上の固有ベクトルから、心的イメージを成分分解したようなサブ心的イメージの画像を生成して可視化することができる。
 なお、上述した変形例1に係る心的イメージ可視化システム100Bにおいて、DCNN13は必須ではない。心的イメージ可視化システム100Bが生成したサンプル画像に対して、DCNN13の代わりに対象者が心理学的逆相関法による感性評価をし、その結果を次元圧縮処理部14Bに入力するとしてもよい。
 (変形例2)
 上述した変形例1では、STC分析による次元圧縮を行う場合の例について説明したが、これに限らない。DMD(Dynamic Mode Decomposition)を適用して次元圧縮を行ってもよい。以下では、変形例1と異なる点を中心に説明する。
 [1-1.次元圧縮処理部14C]
 図17は、実施の形態2の変形例2に係る次元圧縮処理部14Cの詳細構成の一例を示すブロック図である。なお、図14と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 次元圧縮処理部14Cは、DCNN13による複数のサンプル画像に対する心理学的逆相関法による感性評価の結果に従い、心的イメージ可視化装置1Bにより出力された複数のサンプル画像に対応する特徴ベクトルを重み付けした特徴ベクトルを算出する。そして、次元圧縮処理部14Bは、重み付けした特徴ベクトルにDMDを適用して次元圧縮を行うことで得た複数の固有ベクトルを出力する。
 本変形例では、次元圧縮処理部14Cは、図17に示すように、DMD適用部141Cと、固有値選択部143と、固有ベクトル導出部144とを備える。
 DMD適用部141Cは、複数のサンプル画像に対する心理学的逆相関法による感性評価の結果に従って、複数のサンプル画像に対応する特徴ベクトルに重み付けした特徴ベクトルにDMDを適用することで、複数の固有値を得る。
 なお、STC分析により次元圧縮を行う場合、得られる複数の固有ベクトルは、独立すなわち直交性が仮定される。この直交性が強い制約となる場合がある。そこで、DMDを適用することで、直交性を仮定しない複数の固有ベクトルを得ることができる。DMDでは、例えばクープマン作用素といった何らかの線形作用素を用いることで、直交性を考慮に入れずに線形性を持たせることができる。その他については、STC分析による次元圧縮と同様となる。すなわち、DMDを適用することで、重み付けされた特徴ベクトルから、直交性を考慮に入れずに線形性を持たせたベクトルを算出して複数の固有値を得ることができる。これにより、STC分析による次元圧縮と同様に、DMDを適用して次元圧縮する場合も複数のサブ心的イメージを得ることができる。
 [1-2.心的イメージ可視化装置1B]
 本変形例でも、上記変形例1と同様に、入力部12は、次元圧縮処理部14Cから得た少なくとも2つの固有ベクトルを、DNN10に入力する。
 DNN10は、入力部12により少なくとも2つの固有ベクトルのそれぞれが入力される。すると、DNN10は、入力された少なくとも2つの固有ベクトルから、少なくとも2つのサブ心的イメージを示す画像を生成する。ここで、DNN10がstyleGANで構成される場合、入力部12は、styleGANの生成器に、少なくとも2つの固有ベクトルのそれぞれを入力する。すると、styleGANの生成器により、心的イメージを構成する少なくとも2つのサブ心的イメージであって互いに直交性を仮定しないサブ心的イメージを示す画像が生成される。
 なお、次元圧縮処理部14Cで得た複数の固有値のいずれかをそれぞれ有する固有ベクトルを足し合わせたベクトルを、DNN10に入力しても、ほぼ心的イメージを示す画像が生成される。
 [2.心的イメージ可視化システム100Bの動作例]
 本変形例では、図15に示す分散共分散行列141aと固有ベクトル分析142aとがSTC分析の代わりにDMDが適用されて動作する。その他の動作は、変形例1と同じであるので説明を省略する。
 なお、本変形例に係る心的イメージ可視化システム100Bにおいて、DCNN13は必須ではない。心的イメージ可視化システム100Bが生成したサンプル画像に対して、DCNN13の代わりに対象者が心理学的逆相関法による感性評価をし、その結果を次元圧縮処理部14Cに入力するとしてもよい。
 (実施の形態3)
 続いて、実施の形態1及び実施の形態2により生成できる心的イメージを用いた応用例として、心的イメージを用いたレコメンドシステム200について説明する。なお、心的イメージの代わりに、実施の形態2の変形例1、2で説明したサブ心的イメージを用いてもよい。
 [1.レコメンドシステム200]
 図18は、実施の形態3に係るレコメンドシステム200の構成の一例を示すブロック図である。レコメンドシステム200の機能は、図4に示すコンピュータ1000を用いてソフトウェアにより実現される。図19は、実施の形態3に係る心的イメージ或いはサブ心的イメージの一例を示す図である。なお、図19に示す心的イメージ画像或いはサブ心的イメージ画像の一例は、本来カラーの画像であるが、便宜上線図にして示している。図20は、実施の形態3に係る潜在空間の一例と、心的イメージ或いはサブ心的イメージの位置を示す図である。
 本実施の形態では、レコメンドシステム200は、記憶部20と、レコメンド画像生成UI(User Interface)21とを備える。以下、それぞれの構成要素の詳細について説明する。
 [1-1.記憶部20]
 記憶部20は、HDD(Hard Disk Drive)またはメモリ等で構成され、複数のレコメンド候補画像201などが記憶される。複数のレコメンド候補画像201は、複数の商品画像など、例えば数十から数百規模の既存製品の画像群で構成され、対象者(ユーザ)にレコメンド(お薦め)したい製品候補の画像群である。なお、画像群の規模は一例であり、数百規模を超えた規模であってもよい。
 本実施の形態では、一例であるが、複数のレコメンド候補画像201は、インテリアを構成する既存製品(インテリア製品)の画像群で構成されているとして説明する。
 [1-2.レコメンド画像生成UI21]
 レコメンド画像生成UI21は、記憶部20に記憶されている複数のレコメンド候補画像201のうち、対象者の持つ心的イメージに近い既存製品が示されるレコメンド候補画像201を、対象者に提示する。例えば、レコメンド画像生成UI21は、記憶部20に記憶されているそれぞれインテリア製品を示す複数のレコメンド候補画像201のうち、対象者の持つ心的イメージ(好み)に近いインテリア製品を示すレコメンド候補画像201を対象者に提示する。
 レコメンド画像生成UI21は、図18に示すように、メモリ210と、取得部211と、Embedding実行部212と、距離算出部213と、選択画像部214と、表示制御部215とを備える。
 メモリ210は、DNN2101と、心的イメージ画像(サブ心的イメージ画像)2102とを格納している。
 DNN2101は、図7(図13)に示す心的イメージ可視化システム100(100B)から取得されたDNN10のコピーであってもよく、実施の形態1及び2で説明した学習済のstyleGANであってもよい。DNN2101は、DNN10における学習済のstyleGANの潜在空間を利用できる形でメモリ210に格納されればその形態を問わない。本実施の形態では、当該styleGANは、例えば複数の既存のインテリア画像を含むデータセットを用いて、予め学習されている。
 心的イメージ画像(サブ心的イメージ画像)2102は、例えば、図7(図13)に示す心的イメージ可視化システム100(100B)により生成されたものであり、予め取得されてメモリ210に格納されている。本実施の形態では、予め取得されてメモリ210に格納されている心的イメージ画像(サブ心的イメージ画像)2102は、例えば図19に示すインテリア製品の画像Txである。
 取得部211は、記憶部20から、複数のレコメンド候補画像201を取得し、Embedding実行部212に出力する。また、取得部211は、メモリ210から、心的イメージ画像(サブ心的イメージ画像)2102を取得し、Embedding実行部212に出力する。
 なお、取得部211は、前もってDNN10の潜在空間を取得して、メモリ210に格納している。本実施の形態では、取得部211は、心的イメージ可視化システム100B(100)から、前もってDNN10のコピーを取得することでDNN10の潜在空間を取得している。例えば、取得部211は、図20に示されるような点(ベクトル位置)が分布するstyleGANの潜在空間を取得する。
 Embedding実行部212は、前もって、取得部211より取得された心的イメージ画像(サブ心的イメージ画像)2102をDNN2101の潜在空間内にembeddingし、心的イメージ画像(サブ心的イメージ画像)2102の位置(ベクトル位置)を得ている。本実施の形態では、Embedding実行部212は、例えば図19に示すインテリア製品の画像Txを、DNN2101の潜在空間内にembeddingし、例えば図20に示されるような当該画像Txの位置(ベクトル位置)を得る。図19に示すインテリア製品の画像Txは上述したように、心的イメージ画像(サブ心的イメージ画像)2102の一例である。
 また、Embedding実行部212は、取得部211により取得された複数のレコメンド候補画像201それぞれを、DNN2101の潜在空間内にembeddingし、当該潜在空間内における複数のレコメンド候補画像201それぞれの位置(ベクトル位置)を得る。
 距離算出部213は、DNN2101の潜在空間内における心的イメージの位置(ベクトル位置)と、embeddingした複数のレコメンド候補画像201それぞれの位置(ベクトル位置)との距離を算出する。
 図21は、実施の形態3に係る潜在空間内における心的イメージ或いはサブ心的イメージの位置と1つのレコメンド候補画像201aの位置との距離の一例を示す図である。図21には、図20に示す潜在空間内における図19に示すインテリア製品の画像Txの位置と、図20に示す潜在空間内における1つのレコメンド候補画像201aの位置とが示されている。なお、1つのレコメンド候補画像201aは、インテリア製品の一例であるカーテンの画像であるとして示されている。
 本実施の形態では、距離算出部213は、図21に示す潜在空間内において、例えば図19に示すインテリア製品の画像Txの位置と1つのレコメンド候補画像201aの位置との距離dを算出する。同様にして、距離算出部213は、図21に示す潜在空間内において、例えば図19に示すインテリア製品の画像Txの位置と複数のレコメンド候補画像201それぞれの位置との距離を算出する。
 選択画像部214は、取得部211により取得された複数のレコメンド候補画像201のうち、距離算出部213により算出された複数の距離のうち閾値以下の距離に対応する1以上のレコメンド候補画像201を選択する。
 本実施の形態では、選択画像部214は、距離算出部213により算出された複数の距離を用いて、対象者の心的イメージ画像(サブ心的イメージ画像)2102である図19に示すインテリア製品の画像Txに近い1以上のインテリア製品を選択する。
 表示制御部215は、選択画像部214により選択された1以上のレコメンド候補画像201を、心的イメージ画像(サブ心的イメージ画像)2102を持つ対象者に提示する。つまり、表示制御部215は、表示装置300を制御して、お薦め商品を示す画像を表示装置300に表示させることで対象者にお薦め商品を提示する。
 本実施の形態では、表示制御部215は、選択画像部214により選択された例えば図22A~図22Cに示すレコメンド候補画像201を、表示装置300に表示させることで当該対象者に提示する。
 ここで、図22A~図22Cはそれぞれ、実施の形態3に係るレコメンド画像生成UI21により提示されるレコメンド候補画像の一例を示す図である。図22A~図22Cにはそれぞれ、実施の形態3に係るレコメンド画像生成UI21により提示されるレコメンド候補画像201とその説明文との一例が示されている。なお、図22A~図22Cに示されるレコメンド候補画像201a、201b、201cは、本来、カラーの画像であるが、説明の便宜上線図にして示している。図22A、図22B及び図22Cには、インテリア製品の一例としてのカーテンの画像であるレコメンド候補画像201a、201b及び201cと共にその説明文とが示されている。
 [1-3.表示装置300]
 表示装置300は、画像または文字などを表示するディスプレイを有する。ここで、そのディスプレイは、例えば液晶ディスプレイ、プラズマディスプレイ、有機EL(Electro-Luminescence)ディスプレイなどである。また、表示装置300は、対象者による入力操作を受け付けるUIとしての機能を有し、例えばキーボード、マウス、タッチセンサ、タッチパッドなどを備える。
 [2.心的イメージ画像(サブ心的イメージ画像)2102の取得方法の一例]
 本実施の形態に係るレコメンドシステム200は、例えば、図7(図13)に示す心的イメージ可視化システム100(100B)から、心的イメージ画像(サブ心的イメージ画像)2102を予め取得してメモリ210に格納するとして説明した。
 レコメンドシステム200は、図7(図13)に示す心的イメージ可視化システム100(100B)から、心的イメージ画像(サブ心的イメージ画像)2102を、受動的に取得してもよいが、これに限らない。
 レコメンドシステム200は、図7(図13)に示す心的イメージ可視化システム100(100B)と連携することで、心的イメージ画像(サブ心的イメージ画像)2102を、能動的に取得してもよい。つまり、レコメンドシステム200は、表示装置300を介した対象者とのやりとりを通じて、図7(図13)に示す心的イメージ可視化システム100(100B)に、心的イメージ画像(サブ心的イメージ画像)2102を生成させてもよい。
 以下、この場合の心的イメージ画像(サブ心的イメージ画像)2102の取得方法の一例について説明する。
 図23Aは、実施の形態3に係るレコメンドシステム200の心的イメージ或いはサブ心的イメージの取得方法の一例を示す図である。図23Bは、実施の形態3に係る対象者が評価するサンプル画像の提示と評価方法の一例を示す図である。図18等と同様の要素には同一の符号を付しており、詳細な説明は省略する。
 図23Aに示すように、レコメンドシステム200は、まず、心的イメージ可視化システム100(100B)が生成したインテリア製品に関する複数のサンプル画像を取得する。例えばレコメンドシステム200は、10枚程度のサンプル画像を取得する。
 次に、レコメンドシステム200は、取得した複数のサンプル画像のそれぞれを順に、表示装置300に表示させ、表示させたサンプル画像に示されるインテリア製品がどの程度好みであるか対象者に入力させる心理学的逆相関法による感性評価を依頼する。図23Bには、表示装置300に、評価用サンプル画像の一例として、椅子、机、カーテンなどがそろったインテリアの画像Sxが示され、好みの程度を対象者に入力してもらうためのスコア入力ボタンが示されている。
 次に、レコメンドシステム200は、対象者により入力された画像Sxを含む複数のサンプル画像に対するスコアを取得すると、それらスコアを、心理学的逆相関法による感性評価の評価結果として心的イメージ可視化システム100(100B)に入力する。
 すると、心的イメージ可視化システム100(100B)では、心理学的逆相関法による感性評価の評価結果であるスコアと、心的イメージ可視化装置1Aにより出力された複数のサンプル画像に対応する特徴ベクトルとから、心的イメージ(サブ心的イメージ)を生成する。生成方法の詳細は、実施の形態1及び2で説明したのでここでの説明は省略する。
 次に、レコメンドシステム200は、心的イメージ可視化システム100(100B)により生成された心的イメージ画像(サブ心的イメージ画像)を取得し、心的イメージ画像(サブ心的イメージ画像)2102としてメモリ210に格納する。
 これにより、レコメンドシステム200は、10枚程度のサンプル画像を用いて、心的イメージ可視化システム100(100B)から、不特定の対象者それぞれが持つ心的イメージ(サブ心的イメージ)の画像を取得することができる。
 [3.効果等]
 以上のように、本実施の形態によれば、レコメンドシステム200は、対象者が持つ心的イメージ(サブ心的イメージ)の画像を用いることで、心的イメージ(サブ心的イメージ)に近い既存製品をレコメンドすることができる。つまり、対象者が持つ心的イメージ(サブ心的イメージ)の画像を用いることで、従来のレコメンドエンジンで必要であった購買履歴などの対象者の行動履歴情報がない状態でも、対象者の好みにあった既存製品を選択して、レコメンドすることができる。
 また、レコメンドシステム200は、心的イメージ可視化システム100(100B)と連携することで、不特定の対象者それぞれが持つ心的イメージ(サブ心的イメージ)の画像を取得することができる。そして、不特定の対象者それぞれが持つ心的イメージ(サブ心的イメージ)画像を用いることで、従来のレコメンドエンジンで必要であった購買履歴などの対象者の行動履歴情報がない状態でも、対象者の好みにあった既存製品を選択して、レコメンドすることができる。これにより、ECサイトに訪れる不特定の対象者に対しても、購買履歴などの対象者の行動履歴情報がない状態でも、対象者の好みにあった既存製品を選択して、レコメンドすることができる。
 なお、レコメンドシステム200は、心的イメージ可視化システム100(100B)と異なるシステムとして説明したが、これに限らない。レコメンドシステム200は、心的イメージ可視化システム100(100B)を内部に備えていてもよい。
 (他の実施態様の可能性)
 以上、本開示の一態様に係る心的イメージ可視化方法、レコメンド方法等について、実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したもの、あるいは異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の範囲内に含まれる。例えば、以下のような場合も本開示に含まれる。
 (1)上記の心的イメージ可視化装置、心的イメージ可視化システムまたはレコメンドシステムを構成する構成要素の一部または全部は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムでもよい。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 (2)上記の心的イメージ可視化装置、心的イメージ可視化システムまたはレコメンドシステムを構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
 (3)上記の心的イメージ可視化装置、心的イメージ可視化システムまたはレコメンドシステムを構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
 (4)上記の心的イメージ可視化装置、心的イメージ可視化システムまたはレコメンドシステムを構成する構成要素の一部または全部は、サーバ及びcloudストレージを含むネットワーク構造として分散して構成されるとしてもよい。データ入力装置と演算装置とは遠隔地に別個に存在することが可能であり、またそれぞれ複数の入力装置、演算装置が分散して存在するとしてもよい。
 本開示は、心的イメージ可視化方法、心的イメージ可視化装置及びプログラムに利用でき、特に、個人ごとまたは集団などの対象者の心的イメージを可視化するための心的イメージ可視化方法、心的イメージ可視化装置及びプログラムに利用できる。
 1、1A、1B 心的イメージ可視化装置
 10、2101 DNN
 11 取得部
 12 入力部
 13 DCNN
 14 加算平均部
 14B、14C 次元圧縮処理部
 20 記憶部
 21 レコメンド画像生成UI
 100、100B 心的イメージ可視化システム
 141 分散共分散行列算出部
 141a 分散共分散行列
 141C DMD適用部
 142 特異値分解実行部
 142a 固有ベクトル分析
 143 固有値選択部
 144 固有ベクトル導出部
 200 レコメンドシステム
 201 レコメンド候補画像
 210 メモリ
 211 取得部
 212 Embedding実行部
 213 距離算出部
 214 選択画像部
 215 表示制御部
 300 表示装置
 2102 心的イメージ画像(サブ心的イメージ画像)

Claims (12)

  1.  特徴を学習するための特徴学習用画像のデータセットを用いて学習されたDNN(Deep Neural Networks)に、前記特徴学習用画像に写る対象物と同一のカテゴリで異なる対象物が写る複数のサンプル画像を生成させるステップと、
     前記DNNに、前記複数のサンプル画像を入力するステップと、
     前記複数のサンプル画像それぞれの特徴ベクトルであって、前記DNNにより、対応するサンプル画像がn次元(nは100以上の整数)のベクトルに変換された特徴ベクトルを、前記DNNから取得するステップとを含み、
     前記特徴ベクトルは、心的イメージを示す画像を生成するために用いられる、
     心的イメージ可視化方法。
  2.  さらに、
     前記複数のサンプル画像に対する心理学的逆相関法による感性評価の結果に従って、前記複数のサンプル画像に対応する特徴ベクトルを重み付き加算平均して第1特徴ベクトルを得るステップと、
     前記DNNを用いて、前記第1特徴ベクトルから前記心的イメージを示す画像を生成するステップとを含む、
     請求項1に記載の心的イメージ可視化方法。
  3.  前記DNNは、styleGAN(A Style-Based Generator Architecture for Generative Adversarial Networks)で構成され、
     前記取得するステップでは、前記styleGANのマッピングネットワークの出力を取得することで、前記特徴ベクトルを取得し、
     前記生成するステップでは、前記styleGANの合成ネットワークに前記第1特徴ベクトルを入力することで前記合成ネットワークに前記心的イメージを示す画像を生成させる、
     請求項2に記載の心的イメージ可視化方法。
  4.  さらに、
     前記複数のサンプル画像に対する心理学的逆相関法による感性評価の結果に従って、前記複数のサンプル画像に対応する特徴ベクトルに重み付けした特徴ベクトルの分散共分散行列を、STC(Spike-triggered covariance)分析により算出するステップと、
     算出した前記分散共分散行列に対して特異値分解を実行して複数の固有値を得るステップと、
     前記複数の固有値のうち、少なくとも2つの固有値を選択するステップと、
     前記少なくとも2つの固有値のいずれかをそれぞれを有する少なくとも2つの固有ベクトルを導出するステップと、
     前記DNNを用いて、前記少なくとも2つの固有ベクトルから、前記心的イメージを構成する前記少なくとも2つのサブ心的イメージであって互いに直交性を仮定するサブ心的イメージを示す画像を生成するステップとを含む、
     請求項1に記載の心的イメージ可視化方法。
  5.  さらに、
     前記複数のサンプル画像に対する心理学的逆相関法による感性評価の結果に従って、前記複数のサンプル画像に対応する特徴ベクトルに重み付けした特徴ベクトルにDMD(Dynamic Mode Decomposition)を適用することで、複数の固有値を得るステップと、
     前記複数の固有値のうちから少なくとも2つの固有値を選択して、前記少なくとも2つの固有値のいずれかをそれぞれを有する少なくとも2つの固有ベクトルを得るステップと、
     前記DNNを用いて、前記少なくとも2つの固有ベクトルから、前記心的イメージを構成する前記少なくとも2つのサブ心的イメージであって互いに直交性を仮定しないサブ心的イメージを示す画像を生成するステップとを含む、
     請求項1に記載の心的イメージ可視化方法。
  6.  前記DNNは、styleGAN(A Style-Based Generator Architecture for Generative Adversarial Networks)で構成され、
     前記取得するステップでは、前記styleGANのマッピングネットワークの出力を取得することで、前記特徴ベクトルを取得し、
     前記生成するステップでは、前記styleGANの生成器に前記少なくとも2つの固有ベクトルを入力することで前記生成器に前記少なくとも2つのサブ心的イメージを示す画像を生成させる、
     請求項4または5に記載の心的イメージ可視化方法。
  7.  さらに、心理学的逆相関法を用いて用意された複数の画像と、前記心的イメージを持つ対象者が行った前記複数の画像に対する前記感性評価の結果とで構成される学習用データセットを用いて学習されたDCNN(Deep Convolution Neural Networks)に、前記複数のサンプル画像それぞれを入力し、前記複数のサンプル画像に対する前記感性評価の結果を予測させることにより、前記複数のサンプル画像に対する心理学的逆相関法による感性評価の結果を取得するステップを含む、
     請求項2~6のいずれか1項に記載の心的イメージ可視化方法。
  8.  前記DCNNは、
     事前学習済のCNN(Convolution Neural Networks)と、
     前記CNNの後段に設けられた1層以上の畳み込み層と、
     前記1層以上の畳み込み層の後段に設けられたGAP(Global Average Pooling)層とで構成され、
     前記CNNは、複数の畳み込み層と複数のプーリング層とを有する、
     請求項7に記載の心的イメージ可視化方法。
  9.  心的イメージ可視化方法を実行するためのプログラムであって、
     特徴を学習するための特徴学習用画像のデータセットを用いて学習されたDNN(Deep Neural Networks)に、前記特徴学習用画像に写る対象物と同一のカテゴリで異なる対象物が写る複数のサンプル画像を生成させるステップと、
     前記DNNに、前記複数のサンプル画像を入力するステップと、
     前記複数のサンプル画像それぞれの特徴ベクトルであって、前記DNNにより、対応するサンプル画像がn次元(nは100以上の整数)のベクトルに変換された特徴ベクトルを、前記DNNから取得するステップとを含み、
     前記特徴ベクトルは、心的イメージを示す画像を生成するために用いられる、
     プログラム。
  10.  特徴を学習するための特徴学習用画像のデータセットを用いて学習されたDNN(Deep Neural Networks)と、
     前記DNNに生成させた複数のサンプル画像であって前記特徴学習用画像に写る対象物と同一のカテゴリで異なる対象物が写る複数のサンプル画像を取得する取得部と、
     前記複数のサンプル画像を前記DNNに入力する入力部と、を備え、
     前記取得部は、前記複数のサンプル画像それぞれの特徴ベクトルであって、前記DNNにより、対応するサンプル画像が、n次元(nは100以上の整数)のベクトルに変換された特徴ベクトルを、前記DNNから取得し、
     前記特徴ベクトルは、心的イメージを示す画像を生成するために用いられる、
     心的イメージ可視化装置。
  11.  請求項1~8のいずれか1項に記載の心的イメージ可視化方法における前記DNNの潜在空間を取得するステップと、
     複数のレコメンド候補画像それぞれを、前記DNNの潜在空間内にembeddingするステップと、
     前記DNNの潜在空間内における前記心的イメージの位置と、embeddingした前記複数のレコメンド候補画像それぞれの位置との距離を算出するステップと、
     前記複数のレコメンド候補画像のうち、算出された前記距離のうち閾値以下の距離に対応する1以上のレコメンド候補画像を、前記心的イメージを持つ対象者に提示するステップとを含む、
     レコメンド方法。
  12.  請求項10に記載の心的イメージ可視化装置における前記DNNと、
     複数のレコメンド候補画像それぞれを、前記DNNの潜在空間内にembeddingするEmbedding実行部と、
     前記DNNの潜在空間内における前記心的イメージの位置と、embeddingした前記複数のレコメンド候補画像それぞれの位置との距離を算出する距離算出部と、
     前記複数のレコメンド候補画像のうち、算出された前記距離のうち閾値以下の距離に対応する1以上のレコメンド候補画像を、前記心的イメージを持つ対象者に提示する提示部とを備える、
     レコメンドシステム。
PCT/JP2021/005052 2020-02-12 2021-02-10 心的イメージ可視化方法、心的イメージ可視化装置及びプログラム WO2021162055A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022500453A JP7482551B2 (ja) 2020-02-12 2021-02-10 心的イメージ可視化方法、心的イメージ可視化装置及びプログラム
US17/798,750 US20230086573A1 (en) 2020-02-12 2021-02-10 Mental image visualization method, mental image visualization device and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020021509 2020-02-12
JP2020-021509 2020-02-12

Publications (1)

Publication Number Publication Date
WO2021162055A1 true WO2021162055A1 (ja) 2021-08-19

Family

ID=77291809

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/005052 WO2021162055A1 (ja) 2020-02-12 2021-02-10 心的イメージ可視化方法、心的イメージ可視化装置及びプログラム

Country Status (3)

Country Link
US (1) US20230086573A1 (ja)
JP (1) JP7482551B2 (ja)
WO (1) WO2021162055A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11989916B2 (en) * 2021-10-11 2024-05-21 Kyocera Document Solutions Inc. Retro-to-modern grayscale image translation for preprocessing and data preparation of colorization

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101970A (ja) * 1995-10-06 1997-04-15 Omron Corp 画像検索方法および画像検索装置
JP2007249319A (ja) * 2006-03-14 2007-09-27 Doshisha 画面の表示方法
JP2018063504A (ja) * 2016-10-12 2018-04-19 株式会社リコー 生成モデル学習方法、装置及びプログラム
JP6448839B1 (ja) * 2018-06-20 2019-01-09 株式会社 ディー・エヌ・エー 画像生成装置、画像生成器、画像識別器、画像生成プログラム、及び、画像生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101970A (ja) * 1995-10-06 1997-04-15 Omron Corp 画像検索方法および画像検索装置
JP2007249319A (ja) * 2006-03-14 2007-09-27 Doshisha 画面の表示方法
JP2018063504A (ja) * 2016-10-12 2018-04-19 株式会社リコー 生成モデル学習方法、装置及びプログラム
JP6448839B1 (ja) * 2018-06-20 2019-01-09 株式会社 ディー・エヌ・エー 画像生成装置、画像生成器、画像識別器、画像生成プログラム、及び、画像生成方法

Also Published As

Publication number Publication date
JPWO2021162055A1 (ja) 2021-08-19
JP7482551B2 (ja) 2024-05-14
US20230086573A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
Schulz et al. A tutorial on Gaussian process regression: Modelling, exploring, and exploiting functions
Hu et al. First impressions of personality traits from body shapes
Hsiao et al. A morphing method for shape generation and image prediction in product design
Duan et al. 3D face reconstruction from skull by regression modeling in shape parameter spaces
US20190180878A1 (en) Machine Learning to Identify Locations of Brain Injury
Danckaers et al. Posture normalisation of 3D body scans
CN113661520A (zh) 修改毛发外观
Chen et al. Consumers' perception-oriented product form design using multiple regression analysis and backpropagation neural network
WO2021162055A1 (ja) 心的イメージ可視化方法、心的イメージ可視化装置及びプログラム
Eldar et al. Ergonomic design visualization mapping-developing an assistive model for design activities
Hong et al. Virtual vs. actual body: applicability of anthropomorphic avatars to enhance exploratory creativity in architectural design education
Brolin Anthropometric diversity and consideration of human capabilities
Rakshit et al. A type-2 fuzzy classifier for gesture induced pathological disorder recognition
Li et al. Remodeling of mannequins based on automatic binding of mesh to anthropometric parameters
Mennella et al. Generating a novel synthetic dataset for rehabilitation exercises using pose-guided conditioned diffusion models: A quantitative and qualitative evaluation
WO2017219123A1 (en) System and method for automatically generating a facial remediation design and application protocol to address observable facial deviations
Chu et al. An exploratory study on computer-aided affective product design based on crowdsourcing
Liu et al. 2.5 D facial attractiveness computation based on data-driven geometric ratios
Fontanella et al. The offset normal shape distribution for dynamic shape analysis
Förger et al. Animating with style: defining expressive semantics of motion
Zonyfar et al. E-government in the public health sector: kansei engineering method for redesigning website
Modi et al. Role of Eye Tracking in Human Computer Interaction
Ebrahimi et al. Redesigning a kansei engineering designed scissors by user centered design approach
Frutos-Bernal et al. Tucker3-PCovR: The Tucker3 principal covariates regression model
JP6833134B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21752983

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022500453

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21752983

Country of ref document: EP

Kind code of ref document: A1