WO2021220658A1 - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
WO2021220658A1
WO2021220658A1 PCT/JP2021/011196 JP2021011196W WO2021220658A1 WO 2021220658 A1 WO2021220658 A1 WO 2021220658A1 JP 2021011196 W JP2021011196 W JP 2021011196W WO 2021220658 A1 WO2021220658 A1 WO 2021220658A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
generated
modality
synthetic
information processing
Prior art date
Application number
PCT/JP2021/011196
Other languages
English (en)
French (fr)
Inventor
淳 入江
クリストファー ライト
ボウマン ベルナデット エリオット
ハーム クローニー
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to EP21795866.9A priority Critical patent/EP4145386A4/en
Priority to CN202180029853.6A priority patent/CN115428013A/zh
Priority to JP2022517550A priority patent/JPWO2021220658A1/ja
Priority to US17/920,276 priority patent/US20230169754A1/en
Publication of WO2021220658A1 publication Critical patent/WO2021220658A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Definitions

  • This disclosure relates to information processing devices and programs.
  • Non-Patent Document 1 discloses a technique for generating a Student Network from a teacher network even when the learning data used for learning the teacher network cannot be used. There is.
  • an information processing apparatus generated by machine learning using the synthetic image obtained by using and as training data is provided.
  • a learning unit for generating a student network based on a teacher network generated by machine learning using an image stored in a large-scale image database as learning data.
  • the learning unit uses the synthetic image obtained by using the teacher network and the real environment image acquired by a plurality of different modalities in the real environment where the estimation using the student network is assumed as the learning data.
  • An information processing apparatus is provided that generates the student network by machine learning.
  • the computer uses a student network generated based on a teacher network generated by machine learning using images stored in a large-scale image database as training data.
  • the student network includes an estimation unit that estimates an object class related to an object included in the input image, and the student network is provided by the teacher network and a plurality of different modalities in a real environment in which estimation by the estimation unit is expected to be performed.
  • a program for functioning as an information processing device generated by machine learning using the acquired real environment image and the synthetic image obtained by using the acquired real environment image as training data is provided.
  • Knowledge diffusion is a technology to generate a new network (student network) according to the required specifications from the network (teacher network) when there is a certain high-precision learned network.
  • Knowledge diffusion is used, for example, when you want to generate a student network that is more in line with the actual environment from a general-purpose teacher network that has been trained using images provided by a large-scale image database.
  • Non-Patent Document 1 discloses a technique for generating a student network without using the learning data used for learning the teacher network.
  • Non-Patent Document 1 The technique disclosed in Non-Patent Document 1 is to input a real environment image acquired in a real environment into a teacher network to generate a synthetic image, perform machine learning using the synthetic image as learning data, and perform machine learning. It creates a student network.
  • FIG. 1 is a diagram for explaining the estimation of the object class using the student network.
  • FIG. 1 illustrates a case where an estimation device (not shown) that performs estimation using a student network generated by using a synthetic image is mounted on a moving body V such as an automobile.
  • the estimation device mounted on the moving body V estimates the object class of the object O included in the input captured image in real time, and outputs the estimation result.
  • Object O may be, for example, a wild animal such as a rabbit. According to the above estimation, it is possible to detect that the rabbit has jumped out in the traveling direction of the moving body V and cause the moving body V to take an avoidance action or the like.
  • the estimation accuracy of the object class using the student network is greatly affected by the data used during learning. For example, when there is a large discrepancy between the shooting environment of the image used as training data (location, illuminance, distance, noise, object type, etc.) and the shooting environment of the image acquired in the actual environment where the estimation is actually performed.
  • the student network can mis-estimate the object class of object O.
  • the learning data used in the generation of the student network is required to be close to the image actually taken in the actual environment. This also applies when the above-mentioned synthetic image is used as training data.
  • a synthetic image may be generated using real environment images acquired by a plurality of modality in the real environment, and a student network may be generated using the synthetic image.
  • FIG. 2 is a diagram for explaining the generation of a synthetic image using the real environment image acquired by the plurality of modality according to the embodiment of the present disclosure.
  • FIG. 2 shows an example in which teacher networks T1 to T3 corresponding to three different modality are used to generate synthetic images S1 to S3 having different modality.
  • the modality according to the embodiment of the present disclosure refers to a means of photographing an image.
  • the expression is widely used to express the same meaning in, for example, the medical field.
  • Examples of the modality according to the present embodiment include an RGB camera, a ToF camera, a LiDAR, a polarized camera, and the like.
  • the teacher network T1 uses a pseudo feature amount generated by analyzing the feature amount distribution obtained from a plurality of RGB images taken by the RGB camera in the actual environment. Then, the synthetic image S1 imitating the RGB image is updated and acquired so that the feature amount obtained when a certain synthetic image image is input to the teacher network T1 becomes close to the pseudo feature amount.
  • the teacher network T2 analyzes and generates a pseudo-feature amount distribution obtained from a plurality of ToF images taken by the ToF camera in a real environment.
  • the synthetic image S2 that imitates the ToF image is updated and acquired so that the feature amount obtained when a certain synthetic image image is input to the teacher network T2 is close to the pseudo feature amount. ..
  • the teacher network T3 analyzes and generates a pseudo-feature amount distribution obtained from a plurality of polarized images taken by the polarized camera in a real environment.
  • the synthetic image S3 that imitates the polarized image is updated and acquired so that the feature amount obtained when a certain synthetic image image is input to the teacher network T3 is close to the pseudo feature amount. ..
  • the difference in modality is expressed depending on the type or presence / absence of the texture.
  • the synthetic image according to the embodiment of the present disclosure may be generated by using the real environment image acquired by a plurality of different modality and the teacher network.
  • the real environment image acquired by the corresponding modality is input to each of the plurality of teacher networks T1 to T3 corresponding to a single modality. Can be generated based on.
  • one of the features of the student network according to the embodiment of the present disclosure is that it is generated by using the synthetic image generated as described above as learning data.
  • the characteristics of the object O for example, information on shape, color, distance, deflection, etc.
  • the characteristics of the object O can be widely and effectively learned by the student network. It is possible to improve the estimation accuracy by the student network.
  • FIG. 3 is a diagram for explaining an outline of the four phases according to the embodiment of the present disclosure.
  • Phase F1 is a phase for generating a teacher network.
  • Phase F2 is a phase for generating a synthetic image using the teacher network generated in phase F1.
  • Phase F3 is a phase for generating a teacher network using the synthetic image generated in phase F2.
  • Phase F4 is a phase in which estimation is performed using the student network generated in phase F3.
  • the teacher network is generated by using the first learning device 10.
  • FIG. 4 is a block diagram showing a configuration example of the first learning device 10 according to the present embodiment.
  • the first learning device 10 according to the present embodiment includes at least the first learning unit 110.
  • the first learning device 10 may further include, for example, an operation unit that accepts operations by the user, a display unit that displays various information, and the like.
  • the first learning unit 110 performs machine learning using the image stored in the large-scale DB 50 as learning data, and generates a teacher network.
  • the large-scale DB50 used for generating the teacher network includes, for example, various databases published on the Internet and widely used in research and development in the field of machine learning.
  • the first learning device 10 may be set in an environment different from that of the image generation device 20 and the second learning device 30, which will be described later.
  • Phase F2 a synthetic image is generated using the image generation device 20.
  • FIG. 5 is a block diagram showing a configuration example of the image generation device 20 according to the present embodiment.
  • the image generation device 20 according to the present embodiment includes at least an image generation unit 210.
  • the first learning device 10 may further include, for example, an operation unit that accepts operations by the user, a display unit that displays various information, and the like.
  • the image generation device 20 is installed at the main development site.
  • the development site includes a cloud environment.
  • the image generation unit 210 is a real environment acquired by a plurality of different modality in the real environment in which the teacher network generated in the phase F1 and the student network generated in the phase 3 are expected to execute the estimation. Generate a synthetic image using the image.
  • the image generation unit 210 generates a synthetic image using, for example, the real environment image stored in the real environment DB 60, and stores the generated synthetic image in the generated image DB 70.
  • the synthetic image according to the present embodiment may be generated based on adding noise to the feature amount obtained by inputting the real environment image into the teacher network.
  • FIG. 6 is a flowchart showing a flow of synthetic image generation using the image generation unit 210 according to the present embodiment.
  • Phase F2 first, the modality and the object class related to the synthetic image to be generated are specified (S202).
  • the designation may be made by a user (developer, etc.).
  • the image generation unit 210 acquires the corresponding real environment image from the real environment DB 60 based on the modality and the object class specified in step S202 (S204).
  • the image generation unit 210 inputs the real environment image acquired in step S204 into the teacher network and acquires the feature amount (S206).
  • the feature amount may be a feature amount after average pooling in the teacher network.
  • the image generation unit 210 projects the feature amount acquired in step S206 onto a certain space using t-SNE or the like (S208).
  • the image generation unit 210 repeatedly executes the processes in steps S204 to S208 until the number of data becomes sufficient.
  • the image generation unit 210 acquires a specified number of cluster centers and executes K-means (S210).
  • the image generation unit 210 obtains principal components (Principal Components) from the cluster data obtained in step S210 (S212).
  • Principal Components Principal Components
  • the projection onto the space using the above t-SNE or the like does not necessarily have to be executed in step S208.
  • the image generation unit 210 generates a new feature amount by adding noise in the main component direction obtained in step S212 (S214).
  • the synthetic image according to the present embodiment is generated based on adding noise in the main component direction in the feature amount distribution obtained by inputting the real environment image into the teacher network.
  • the image generation unit 210 generates a synthetic image so that the difference between the feature amount acquired in step S206 and the feature amount generated in step S214 becomes small (S216).
  • the synthetic image according to the present embodiment is the difference between the feature amount after average pooling obtained by inputting the real environment image into the teacher network and the feature amount in which noise is added in the principal component direction to the feature amount. It can be said that is generated so that
  • X i is the above equation (1), a synthetic image produced, g (X i) is the feature amount after Abe ledge Pooling in Teacher network when you enter X, t i is the main component Each of the features generated by adding noise in the direction is shown.
  • the image generation unit 210 repeatedly executes the processes in steps S214 and S216 until a predetermined number of synthetic images are generated.
  • the image generation unit 210 may return to step S202 and repeatedly execute the following processing.
  • the student network is generated by using the second learning device 30.
  • the second learning device 30 is an example of an information processing device that generates a student network by machine learning using the synthetic image generated in the phase F2 as learning data.
  • FIG. 7 is a block diagram showing a configuration example of the second learning device 30 according to the present embodiment.
  • the second learning device 30 according to the present embodiment includes at least the second learning unit 310.
  • the first learning device 10 may further include, for example, an operation unit that accepts operations by the user, a display unit that displays various information, and the like.
  • the second learning device 30 is installed at the main development site.
  • the development site includes a cloud environment.
  • the second learning unit 310 according to the present embodiment is an example of a learning unit that generates a student network based on a teacher network generated by machine learning using an image stored in a large-scale DB 50 as learning data. Further, the second learning unit 310 according to the present embodiment is obtained by using the teacher network and the real environment image acquired by a plurality of different modality in the real environment where the estimation using the student network is assumed. One of the features is to generate a student network by machine learning using the obtained synthetic image as learning data.
  • the second learning unit 310 acquires the synthetic image generated in the phase F2 from the generated image DB 70 and uses the synthetic image as the learning data to generate the student network. Further, the second learning unit 310 may use the real environment image stored in the real environment DB as the learning data.
  • the second learning unit 310 contains only the synthetic image stored in the generated image DB 70, the synthetic image predicted to further improve the accuracy of estimation by the student network, and the real environment image. May be used as training data.
  • the second learning unit 310 may use, among the generated synthetic images, synthetic images in which the similarity between different modality exceeds the threshold value as learning data.
  • FIG. 8 is a diagram for explaining a synthetic image having a high degree of similarity between different modality according to the present embodiment.
  • FIG. 8 illustrates synthetic images S11 to S13, S21 to S23, and S31 to S33 related to the object class "rabbit".
  • the synthetic images S11 to S13, S21 to S21, and S31 to S33 have different modality.
  • the above acceptance / rejection judgment is expected to be particularly effective when data of almost the same shape can be acquired in all modality.
  • the above similarity may be calculated using techniques such as template matching and feature point matching. Further, in the above-mentioned similarity calculation, deep learning or the like for determining a similar image may be used.
  • FIG. 9 is a flowchart showing the flow of acceptance / rejection determination and learning of the synthetic image based on the similarity between the modality according to the present embodiment.
  • the second learning unit 310 calculates the similarity between different modality for the generated synthetic image (S302).
  • the second learning unit 310 excludes synthetic images whose similarity calculated in step S302 is equal to or less than the threshold value (S304).
  • the second learning unit 310 performs learning using the remaining synthetic image and the real environment image as learning data, and generates a student network (S306).
  • the student network according to the present embodiment may be generated by machine learning using synthetic images in which the similarity between different modality exceeds the threshold value among the generated synthetic images.
  • the second learning unit 310 may use, among the generated synthetic images, synthetic images whose similarity exceeds the threshold value within the same modality as learning data.
  • FIG. 10 is a diagram for explaining a synthetic image having a high degree of similarity within the same modality according to the present embodiment.
  • FIG. 10 illustrates synthetic images S11 to S13, S21 to S23, and S31 to S33 related to the object class "rabbit".
  • the synthetic images S11 to S13, S21 to S21, and S31 to S33 have different modality.
  • the synthetic image S23 lacks one ear of the rabbit as the subject, and has a low degree of similarity between the synthetic images S21 and S22 having the same modality.
  • the synthetic image S31 lacks one ear of the rabbit, which is the subject, and has a low degree of similarity between the synthetic images S32 and S33 having the same modality.
  • synthetic images with low similarity within the same modality may be excluded from the training data.
  • the above-mentioned acceptance / rejection judgment is particularly effective when the shape change in the modality is small. Further, in this case, the acceptance / rejection determination based on the similarity within the same modality is different from the acceptance / rejection determination based on the similarity between different modality, and is effective even when the feature quantity distributions of the respective modality are not similar.
  • FIG. 11 is a flowchart showing a flow of acceptance / rejection determination and learning of a synthetic image based on the degree of similarity within the modality according to the present embodiment.
  • the second learning unit 310 calculates the similarity within the same modality for the generated synthetic image (S312).
  • the second learning unit 310 excludes synthetic images whose similarity calculated in step S312 is equal to or less than the threshold value (S314).
  • the second learning unit 310 performs learning using the remaining synthetic image and the real environment image as learning data, and generates a student network (S316).
  • the student network according to the present embodiment may be generated by machine learning using synthetic images in which the similarity within the same modality exceeds the threshold value among the generated synthetic images.
  • the second learning unit 310 In the above, the case of selecting the synthetic image to be adopted as the learning data from the generated multiple synthetic images has been described. On the contrary, the second learning unit 310 according to the present embodiment generates a new synthetic image by fusing the generated plurality of synthetic images, and uses the new synthetic image as learning data. May be good. In the following, the new synthetic image will be referred to as a fusion image.
  • the student network according to the present embodiment may be generated by machine learning using a fusion image in which a plurality of generated synthetic images are fused.
  • FIG. 12 is a diagram showing an example of a fusion image according to the present embodiment.
  • FIG. 12 illustrates a fusion image S13 generated by fusing synthetic images S11 and S12 of the same modality.
  • FIG. 12 illustrates a fusion image S23 generated by fusing synthetic images S21 and S22 of the same modality.
  • FIG. 12 illustrates a fusion image S33 generated by fusing synthetic images S31 and S32 of the same modality.
  • the fusion image according to the present embodiment may be generated by fusing a plurality of synthetic images related to the same object class among the generated synthetic images.
  • the fusion image according to the present embodiment may be generated by fusing a plurality of synthetic images having a similarity exceeding a threshold value among the generated synthetic images within the same modality.
  • processing such as alignment and rotation may be performed in order to increase the similarity.
  • a fusion image may be generated by fusing synthetic images relating to different modality.
  • FIG. 13 is a flowchart showing a flow of generation and learning of a fusion image within the same modality according to the present embodiment.
  • the second learning unit 310 calculates the similarity within the same modality for the generated synthetic image (S322).
  • the second learning unit 310 fuses synthetic images whose similarity calculated in step S322 exceeds the threshold value to generate a fusion image (S324).
  • the second learning unit 310 performs learning using the synthetic image including the fusion image generated in step S324 and the real environment image as learning data, and generates a student network (S326).
  • a student network S326
  • an image obtained by fusing a plurality of real environment images may be used as learning data.
  • FIG. 14 is a diagram for explaining a fusion image focusing on a plurality of different modality according to the present embodiment.
  • FIG. 14 illustrates a fusion image S41 generated by concatenation of synthetic images S11, S21, and S31, which are synthetic images having different modality, and synthetic images S11, S21, and S31. There is.
  • the fusion image according to the present embodiment may be generated by concatenating synthetic images related to a plurality of different modality.
  • the fusion image according to the present embodiment may be generated by connecting a plurality of generated synthetic images whose similarity between different modality exceeds a threshold value in the channel direction. ..
  • processing such as alignment and rotation may be performed in order to increase the similarity.
  • the above fusion image generation is expected to be particularly effective when data of almost the same shape can be acquired in all modality.
  • the information of all modality can be utilized, it is highly likely that the accuracy of estimation by the generated student network will be improved.
  • FIG. 15 is a flowchart showing a flow of generation and learning of a fusion image between different modality according to the present embodiment.
  • the second learning unit 310 calculates the similarity between different modality for the generated synthetic image (S332).
  • the second learning unit 310 generates a fusion image by connecting synthetic images whose similarity exceeds the threshold value calculated in step S332 in the channel direction (S334).
  • the second learning unit 310 performs learning using the synthetic image including the fusion image generated in step S334 and the real environment image as learning data, and generates a student network (S336).
  • a student network S336
  • an image in which a plurality of real environment images related to different modality are connected in the channel direction may be used as learning data.
  • the synthetic image according to the present embodiment may be generated based on the process of resembling the feature amount distribution related to each modality obtained by inputting the real environment image into the teacher network.
  • the process may be performed on real environment images relating to a plurality of modality acquired from the same timing and the same direction.
  • FIG. 16 is a diagram showing an example of processing for making the feature amount distribution related to each modality according to the present embodiment similar.
  • this process first, real environment images related to a plurality of modality acquired from the same timing and the same direction are acquired.
  • the first learning unit 110 generates an image E11 in which a plurality of real environment images acquired as described above are connected in the channel direction, and machine learning using the image E11 as training data. Generates the teacher network T4.
  • the feature amount obtained by inputting the actual environment image related to a certain modality into the teacher network and the actual environment image related to the modality different from the modality are input to the teacher network. It may include a process of bringing the feature amount closer to the feature amount obtained in the feature amount space.
  • Examples of the above-mentioned processing include Domain Adaptation.
  • X s is a feature amount obtained from a real environment image acquired by an RGB camera
  • X t is a feature amount obtained from a real environment image acquired by a ToF camera
  • the first learning unit 110 has a distribution of X s. Learning may be performed so that the distribution of X t and the distribution of X t come close to each other.
  • the feature amount obtained by inputting the real environment image related to a certain modality into the teacher network is transferred to the teacher network with the actual environment image related to a modality different from the modality. It may include a process of converting into a feature amount obtained by inputting.
  • the first learning unit 110 obtains, for example, a transformation matrix that projects a feature quantity related to a certain modality onto a feature quantity related to another modality by using a machine learning method or the like, and features using the transformation matrix.
  • the amount may be changed.
  • the transformation matrix may be obtained by the nonlinear regression problem.
  • the estimation device 40 is an example of an information processing device that estimates an object class using a student network.
  • FIG. 17 is a block diagram showing a configuration example of the estimation device 40 according to the present embodiment.
  • the estimation device 40 according to the present embodiment includes at least an acquisition unit 410 and an estimation unit 420.
  • the estimation device 40 may further include, for example, an operation unit that accepts operations by the user, a display unit that displays various information, and the like. Further, the estimation device 40 may be mounted on a moving body such as an automobile.
  • the acquisition unit 410 acquires an image in a real environment. More specifically, the acquisition unit 410 according to the present embodiment is of a plurality of modality used to acquire the real environment image used to generate the synthetic image used for learning the student network used by the estimation unit 420. The image is acquired by at least one modality.
  • the acquisition unit 410 acquires the image using at least one of the RGB camera and the ToF camera. do.
  • Estimatation unit 420 uses the student network generated based on the teacher network generated by machine learning using the image stored in the large-scale image database as the training data to input the image. Estimate the object class for the contained object.
  • the estimation unit 420 may estimate the object class related to the objects included in the image acquired by the acquisition unit 410. If there is an image acquired by at least one modality among the modality used for acquiring the real environment image used for generating the synthetic image, the estimation unit 420 according to the present embodiment puts the image into the student network. It can be input and the estimation result can be output.
  • FIG. 18 is a flowchart showing a processing flow by the estimation device 40 according to the present embodiment.
  • the acquisition unit 410 acquires an image with the same modality as the modality used for acquiring the real environment image used for generating the synthetic image (S402).
  • the estimation unit 420 inputs the image acquired in step S402 into the student network, and estimates the object class of the objects included in the image (S406).
  • the estimation unit 420 outputs the estimation result (S406).
  • the estimation result may be displayed on, for example, the estimation device 40 or a display unit included in the moving body, or may be used for controlling each device (for example, brake, steering, etc.) included in the moving body.
  • FIG. 19 is a block diagram showing a hardware configuration example of the information processing apparatus 90 according to the embodiment of the present disclosure.
  • the information processing device 90 may be a device having the same hardware configuration as each of the above devices.
  • the information processing device 90 includes, for example, a processor 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, an input device 878, and an output device.
  • It has 879, a storage 880, a drive 881, a connection port 882, and a communication device 883.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Further, components other than the components shown here may be further included.
  • the processor 871 functions as, for example, an arithmetic processing unit or a control device, and controls all or a part of the operation of each component based on various programs recorded in the ROM 872, the RAM 873, the storage 880, or the removable recording medium 901. ..
  • the ROM 872 is a means for storing a program read into the processor 871 and data used for calculation.
  • the RAM 873 temporarily or permanently stores, for example, a program read into the processor 871 and various parameters that change as appropriate when the program is executed.
  • the processors 871, ROM 872, and RAM 873 are connected to each other via, for example, a host bus 874 capable of high-speed data transmission.
  • the host bus 874 is connected to the external bus 876, which has a relatively low data transmission speed, via, for example, the bridge 875.
  • the external bus 876 is connected to various components via the interface 877.
  • Input device 8708 For the input device 878, for example, a mouse, a keyboard, a touch panel, buttons, switches, levers, and the like are used. Further, as the input device 878, a remote controller (hereinafter referred to as a remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used. Further, the input device 878 includes a voice input device such as a microphone.
  • the output device 879 transmits the acquired information to the user, for example, a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL, an audio output device such as a speaker or a headphone, a printer, a mobile phone, or a facsimile. It is a device that can notify visually or audibly. Further, the output device 879 according to the present disclosure includes various vibration devices capable of outputting tactile stimuli.
  • the storage 880 is a device for storing various types of data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, an optical magnetic storage device, or the like is used.
  • the drive 881 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable recording medium 901.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, a DVD media, a Blu-ray (registered trademark) media, an HD DVD media, various semiconductor storage media, and the like.
  • the removable recording medium 901 may be, for example, an IC card equipped with a non-contact type IC chip, an electronic device, or the like.
  • connection port 882 is a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), a RS-232C port, or an optical audio terminal.
  • an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), a RS-232C port, or an optical audio terminal.
  • the externally connected device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the communication device 883 is a communication device for connecting to a network, and is, for example, a communication card for wired or wireless LAN, Bluetooth (registered trademark), or WUSB (Wireless USB), a router for optical communication, and ADSL (Asymmetric Digital). A router for Subscriber Line), a modem for various communications, and the like.
  • the estimation device 40 is a student network generated based on a teacher network generated by machine learning using an image stored in a large-scale image database as training data.
  • the estimation unit 420 for estimating the object class related to the object included in the input image is provided by using.
  • the second learning device 30 generates a student network based on a teacher network generated by machine learning using an image stored in a large-scale image database as learning data.
  • a learning unit 310 is provided.
  • the second learning unit 310 according to the embodiment of the present disclosure uses the teacher network and the real environment image acquired by a plurality of different modality in the real environment where the estimation using the student network is assumed.
  • One of the features is that a student network is generated by machine learning using the obtained synthetic image as learning data.
  • this technology may be applied to an image that visualizes a sound source.
  • various techniques for generating an image from a sound source have been developed.
  • the image generation device 20 may generate a synthetic image using an image that visualizes a sound source
  • the second learning device 30 may generate a student network using the synthetic image.
  • the estimation device 40 can also estimate the class related to the sound source by using the student network generated as described above.
  • each step related to the processing described in the present specification does not necessarily have to be processed in chronological order in the order described in the flowchart or the sequence diagram.
  • each step related to the processing of each device may be processed in an order different from the described order, or may be processed in parallel.
  • the series of processes by each device described in the present specification may be realized by using any of software, hardware, and a combination of software and hardware.
  • the programs constituting the software are stored in advance in, for example, a recording medium (non-temporary medium: non-transitory media) provided inside or outside each device. Then, each program is read into RAM at the time of execution by a computer and executed by various processors, for example.
  • the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like.
  • the above computer program may be distributed via, for example, a network without using a recording medium.
  • Estimator With The student network uses a synthetic image obtained by using the teacher network and a real environment image acquired by a plurality of different modality in a real environment where estimation by the estimation unit is assumed as learning data.
  • Generated by machine learning Information processing device.
  • the synthetic image is generated based on adding noise to the features obtained by inputting the real environment image into the teacher network.
  • the information processing device according to (1) above.
  • (3) The synthetic image is generated based on adding noise in the principal component direction in the feature amount distribution obtained by inputting the real environment image into the teacher network.
  • the information processing device according to (2) above.
  • (4) In the synthetic image the difference between the feature amount after average pooling obtained by inputting the real environment image into the teacher network and the feature amount in which noise is added in the principal component direction to the feature amount becomes small. Generated as The information processing device according to (3) above.
  • the student network is generated by machine learning using the synthetic image in which the similarity between different modality exceeds the threshold value among the generated synthetic images.
  • the information processing device according to any one of (1) to (4) above.
  • (6) The student network is generated by machine learning using the synthetic images in which the similarity within the same modality exceeds the threshold value among the generated synthetic images.
  • the information processing device according to any one of (1) to (5) above.
  • the student network is generated by machine learning using a fusion image in which a plurality of the generated synthetic images are fused.
  • the information processing device according to any one of (1) to (6) above.
  • the fusion image is generated by fusing a plurality of the synthetic images whose similarity exceeds a threshold value among the generated synthetic images.
  • the information processing device according to (7) above.
  • the fusion image is generated by fusing a plurality of the synthetic images related to the same object class among the generated synthetic images.
  • the fusion image is generated by concatenating the synthetic images of a plurality of different modality.
  • the information processing device according to any one of (7) to (9) above.
  • the fusion image is generated by concatenating a plurality of the synthetic images generated in which the similarity between different modality exceeds a threshold value in the channel direction.
  • the synthetic image is generated based on inputting the real environment image acquired by the corresponding modality into each of the plurality of teacher networks corresponding to a single modality.
  • the synthetic image is generated based on a process of resembling the feature amount distribution related to each modality obtained by inputting the real environment image into the teacher network.
  • the information processing device according to any one of (1) to (11).
  • the synthetic image is generated using the teacher network generated by machine learning using an image obtained by connecting real environment images related to a plurality of modality acquired from the same timing and the same direction in the channel direction as training data.
  • NS The information processing device according to (13) above.
  • the synthetic image is a feature amount obtained by inputting the real environment image related to a certain modality into the teacher network and a feature obtained by inputting the real environment image related to a modality different from the modality into the teacher network.
  • Features with quantity Generated based on the process of bringing the distance closer in space The information processing device according to (13) above.
  • the synthetic image is a feature obtained by inputting a feature amount obtained by inputting the real environment image related to a certain modality into the teacher network, and a feature obtained by inputting the real environment image related to a modality different from the modality into the teacher network. Generated based on the process of converting to a quantity, The information processing device according to (13) above.
  • Acquisition unit that acquires an image in the actual environment, With more The estimation unit estimates the object class related to the objects included in the image acquired by the acquisition unit.
  • the acquisition unit acquires an image by at least one of the plurality of modality used for acquiring the real environment image used for generating the synthetic image.
  • a learning unit that generates a student network based on a teacher network generated by machine learning that uses images stored in a large-scale image database as learning data. With The learning unit learns synthetic images obtained by using the teacher network and real environment images acquired by a plurality of different modality in a real environment where estimation is expected to be executed using the student network. Generate the student network by machine learning. Information processing device. (20) Computer, Estimate the object class related to the objects included in the input image using the student network generated based on the teacher network generated by machine learning using the image stored in the large-scale image database as training data.
  • Estimator With The student network uses a synthetic image obtained by using the teacher network and a real environment image acquired by a plurality of different modality in a real environment where estimation by the estimation unit is assumed as learning data. Generated by machine learning, Information processing device, A program to function as.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】スチューデントネットワークを用いた推定の精度をより向上させる。 【解決手段】大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、を備え、前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、情報処理装置が提供される。

Description

情報処理装置およびプログラム
 本開示は、情報処理装置およびプログラムに関する。
 近年、脳神経系の仕組みを模した数学モデルであるニューラルネットワークが注目されている。また、ニューラルネットワークによる学習を効率化するための技術も多く提案されている。例えば、非特許文献1には、ティーチャーネットワーク(Teacher Network)の学習に用いられた学習データが利用できない場合であっても、当該ティーチャーネットワークからスチューデントネットワーク(Student Network)を生成する技術が開示されている。
Kartikeya Bhardwaj、外2名、「Dream Distillation: A Data-Independent Model Compression Framework」、2019年5月17日、[Online]、[令和2年4月1日検索]、インターネット<https://arxiv.org/pdf/1905.07072.pdf>
 非特許文献1に記載の技術のように、ティーチャーネットワークを用いて生成したイメージをスチューデントネットワークの学習に用いる場合、スチューデントネットワークによる推定の精度を向上させるためには、当該イメージの質を上げることが重要となる。
 本開示のある観点によれば、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、を備え、前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、情報処理装置が提供される。
 また、本開示の別の観点によれば、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基にスチューデントネットワークを生成する学習部、を備え、前記学習部は、前記ティーチャーネットワークと、前記スチューデントネットワークを用いた推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により前記スチューデントネットワークを生成する、情報処理装置が提供される。
 また、本開示の別の観点によれば、コンピュータを、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、を備え、前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、情報処理装置、として機能させるためのプログラムが提供される。
スチューデントネットワークを用いたオブジェクトクラスの推定について説明するための図である。 本開示の一実施形態に係る複数モダリティにより取得された実環境イメージを用いシンセティックイメージの生成について説明するための図である。 同実施形態に係る4つのフェーズについて概要を説明するための図である。 同実施形態に係る第1学習装置10の構成例を示すブロック図である。 同実施形態に係る画像生成装置20の構成例を示すブロック図である。 同実施形態に係る画像生成部210を用いたシンセティックイメージ生成の流れを示すフローチャートである。 同実施形態に係る第2学習装置30の構成例を示すブロック図である。 同実施形態に係る異なるモダリティ間における類似度の高いシンセティックイメージについて説明するための図である。 同実施形態に係るモダリティ間における類似度に基づくシンセティックイメージの採否判定と学習の流れを示すフローチャートである。 同実施形態に係る同一のモダリティ内における類似度の高いシンセティックイメージについて説明するための図である。 同実施形態に係るモダリティ内における類似度に基づくシンセティックイメージの採否判定と学習の流れを示すフローチャートである。 同実施形態に係るフュージョンイメージの一例を示す図である。 同実施形態に係る同一のモダリティ内に係るフュージョンイメージの生成と学習の流れを示すフローチャートである。 同実施形態に係る複数の異なるモダリティに着目したフュージョンイメージについて説明するための図である。 同実施形態に係る異なるモダリティ間に係るフュージョンイメージの生成と学習の流れを示すフローチャートである。 同実施形態に係る各モダリティに係る特徴量分布を類似させる処理の一例を示す図である。 同実施形態に係る推定装置40の構成例を示すブロック図である。 同実施形態に係る推定装置40による処理の流れを示すフローチャートである。 同実施形態に係る情報処理装置90のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.背景
  1.2.ティーチャーネットワークの生成
  1.3.シンセティックイメージの生成
  1.4.スチューデントネットワークの生成
  1.5.スチューデントネットワークを用いた推定
 2.ハードウェア構成例
 3.まとめ
 <1.実施形態>
 <<1.1.背景>>
 まず、本開示の一実施形態の概要について説明する。上述したように、近年、ニューラルネットワークによる学習を効率化するための技術が多く提案されている。このような技術には、例えば、ナレッジディスティレーション(knowledge distillation)と呼ばれる技術が挙げられる。
 ナレッジディスティレーションとは、ある高精度の学習済みネットワークがある場合において、当該ネットワーク(ティーチャーネットワーク)から、求められる仕様に応じた新たなネットワーク(スチューデントネットワーク)を生成する技術である。
 ナレッジディスティレーションは、例えば、大規模なイメージデータベースより提供されるイメージを用いて学習を行った汎用的なティーチャーネットワークから、実環境により則したスチューデントネットワークを生成したい場合等に用いられる。
 しかし、ナレッジディスティレーションを実施するためには、一般的にティーチャーネットワークの学習に用いられた学習データが求められる。このため、ティーチャーネットワークの学習に用いられた学習データが利用できない場合や、利用できる学習データの量が十分ではない場合、スチューデントネットワークを生成することが困難となったり、生成されるスチューデントネットワークの精度が低下したりする場合がある。
 一方、上述の非特許文献1には、ティーチャーネットワークの学習に用いられた学習データを用いずに、スチューデントネットワークを生成する技術が開示されている。
 非特許文献1に開示される技術は、実環境において取得された実環境イメージをティーチャーネットワークに入力することシンセティックイメージ(Synthetic Image)を生成し、当該シンセティックイメージを学習データとした機械学習を行い、スチューデントネットワークを生成するものである。
 係る技術によれば、ティーチャーネットワークの生成に用いられた学習データが利用できない状況でも、当該ティーチャーネットワークに基づくスチューデントネットワークを生成することが可能となる。なお、シンセティックイメージの詳細については別途後述する。
 ここで、上記のようなシンセティックイメージを用いたスチューデントネットワークの生成において、生成されるスチューデントネットワークの精度をさらに高めるには、学習データとして用いるシンセティックイメージの質を上げることが重要となる。
 ここでは、入力されるイメージに含まれるオブジェクトのオブジェクトクラスを推定するスチューデントネットワークを生成する場合を想定する。
 図1は、スチューデントネットワークを用いたオブジェクトクラスの推定について説明するための図である。図1には、シンセティックイメージを用いて生成したスチューデントネットワークを用いた推定を行う推定装置(図示しない)が自動車等の移動体Vに搭載される場合が例示されている。
 移動体Vに搭載される推定装置は、例えば、入力される撮影イメージに含まれるオブジェクトOのオブジェクトクラスをリアルタイムに推定し、推定の結果を出力する。オブジェクトOは、例えば、ウサギ等の野生動物であってもよい。上記のような推定によれば、移動体Vの進行方向にウサギが飛び出したこと等を検出し、移動体Vに回避動作等を取らせることが可能となる。
 しかし、ここで、スチューデントネットワークを用いたオブジェクトクラスの推定精度は、学習時に用いられたデータに大きく影響を受ける。例えば、学習データとして用いられたイメージの撮影環境(場所、照度、距離、ノイズ、オブジェクト種類など)と、実際に推定が行われる実環境で取得されるイメージの撮影環境との乖離が大きい場合、スチューデントネットワークは、オブジェクトOのオブジェクトクラスを誤推定する可能性がある。
 このため、スチューデントネットワークの生成において用いられる学習データは、実環境中で実際に撮影されるイメージと近いものであることが求められる。これは、上述のシンセティックイメージを学習データとして用いる場合にも同様である。
 本開示に係る技術思想は上記の点に着目して発想されたものであり、スチューデントネットワークを用いた推定の精度をより向上させることを可能とする。
 このために、本開示の一実施形態では、実環境において複数のモダリティにより取得された実環境イメージを用いてシンセティックイメージを生成し、当該シンセティックイメージを用いてスチューデントネットワークの生成を行ってよい。
 図2は、本開示の一実施形態に係る複数モダリティにより取得された実環境イメージを用いシンセティックイメージの生成について説明するための図である。図2には、異なる3つのモダリティに対応したティーチャーネットワークT1~T3を用いて、それぞれ異なるモダリティに係るシンセティックイメージS1~S3を生成する場合の一例が示されている。
 ここで、本開示の一実施形態に係るモダリティとは、イメージの撮影手段を指す。なお、当該表現は、例えば医療分野等においても同様の意味を表すものとして広く用いられている。本実施形態に係るモダリティの一例としては、RGBカメラ、ToFカメラ、LiDAR、偏光カメラ等が挙げられる。
 例えば、図2に示すModality 1がRGBカメラである場合、ティーチャーネットワークT1では、実環境においてRGBカメラで撮影された複数のRGBイメージから得た特徴量分布を解析し生成した疑似的特徴量を用いて、あるシンセティックイメージイメージをティーチャーネットワークT1に入力したときに得られた特徴量が当該疑似特徴量と近くなるように、RGBイメージを模倣したシンセティックイメージS1が更新されていき、取得される。
 また、例えば、図2に示すModality 2がToFカメラである場合、ティーチャーネットワークT2では、実環境においてToFカメラで撮影された複数のToFイメージから得た特徴量分布を解析し生成した疑似的特徴量を用いて、あるシンセティックイメージイメージをティーチャーネットワークT2に入力したときに得られた特徴量が当該疑似特徴量と近くなるように、ToFイメージを模倣したシンセティックイメージS2が更新されていき、取得される。
 また、例えば、図2に示すModality 3が偏光カメラである場合、ティーチャーネットワークT3では、実環境において偏光カメラで撮影された複数の偏光イメージから得た特徴量分布を解析し生成した疑似的特徴量を用いて、あるシンセティックイメージイメージをティーチャーネットワークT3に入力したときに得られた特徴量が当該疑似特徴量と近くなるように、偏向イメージを模倣したシンセティックイメージS3が更新されていき、取得される。
 なお、図2に示すシンセティックイメージS1~S3では、テクスチャの種別または有無によりモダリティの違いが表現されている。
 このように、本開示の一実施形態に係るシンセティックイメージは、異なる複数のモダリティにより取得された実環境イメージとティーチャーネットワークとを用いて生成されてよい。
 本実施形態に係るシンセティックイメージは、例えば、図2に示すように、単一のモダリティに対応した複数のティーチャーネットワークT1~T3のそれぞれに、対応するモダリティにより取得された実環境イメージを入力することに基づいて生成され得る。
 また、本開示の一実施形態に係るスチューデントネットワークは、上記のように生成されたシンセティックイメージを学習データとして用いることで生成されることを特徴の一つとする。
 上記特徴によれば、各モダリティにより取得したイメージに出現し得るオブジェクトOの特性(例えば、形状、色、距離、偏向に関する情報など)を、広く効果的にスチューデントネットワークに学習させることができ、当該スチューデントネットワークによる推定精度を向上させることが可能となる。
 本開示の一実施形態に係るスチューデントネットワークを用いた推定の実現は、主に4つのフェーズに大別される。図3は、本開示の一実施形態に係る4つのフェーズについて概要を説明するための図である。
 本開示の一実施形態に係るフェーズF1は、ティーチャーネットワークを生成するためのフェーズである。
 本開示の一実施形態に係るフェーズF2は、フェーズF1において生成したティーチャーネットワークを用いてシンセティックイメージを生成するためのフェーズである。
 本開示の一実施形態に係るフェーズF3は、フェーズF2において生成したシンセティックイメージを用いてティーチャーネットワークを生成するためのフェーズである。
 本開示の一実施形態に係るフェーズF4は、フェーズF3において生成したスチューデントネットワークを用いた推定を行うフェーズである。
 以下、上記の各フェーズにおける処理について詳細に説明する。
 <<1.2.ティーチャーネットワークの生成>>
 まず、フェーズF1におけるティーチャーネットワークの生成手法について述べる。本実施形態に係るフェーズF1においては、第1学習装置10を用いてティーチャーネットワークが生成される。
 図4は、本実施形態に係る第1学習装置10の構成例を示すブロック図である。図4に示すように、本実施形態に係る第1学習装置10は、少なくとも第1学習部110を備える。なお、第1学習装置10は、例えば、ユーザによる操作を受け付ける操作部や各種情報の表示を行う表示部などをさらに備えてもよい。
 (第1学習部110)
 本実施形態に係る第1学習部110は、大規模DB50に保存されるイメージを学習データとする機械学習を行い、ティーチャーネットワークを生成する。
 第1学習部110によるティーチャーネットワークの生成については、一般に広く用いられる手法が採用されてよいことから、詳細なフローの説明は省略する。なお、ティーチャーネットワークの生成に用いられる大規模DB50は、例えば、インターネット上において公開され、機械学習分野における研究開発において広く利用されている各種のデータベースが挙げられる。推定精度の高いデータを用いてティーチャーネットワークを生成することにより、後に生成されるスチューデントネットワークによる推定の精度を向上させることが可能である。
 なお、第1学習装置10は、後述する画像生成装置20や第2学習装置30とは異なる環境に設定されてもよい。
 <<1.3.シンセティックイメージの生成>>
 次に、フェーズF2におけるシンセティックイメージの生成手法について述べる。本実施形態に係るフェーズF2においては、画像生成装置20を用いてシンセティックイメージが生成される。
 図5は、本実施形態に係る画像生成装置20の構成例を示すブロック図である。図5に示すように、本実施形態に係る画像生成装置20は、少なくとも画像生成部210を備える。なお、第1学習装置10は、例えば、ユーザによる操作を受け付ける操作部や各種情報の表示を行う表示部などをさらに備えてもよい。
 また、本実施形態に係る画像生成装置20は、主たる開発現場に設置される。上記開発現場には、クラウド環境が含まれる。
 (画像生成部210)
 本実施形態に係る画像生成部210は、フェーズF1において生成されたティーチャーネットワークと、フェーズ3において生成されるスチューデントネットワークによる推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いてシンセティックイメージを生成する。
 本実施形態に係る画像生成部210は、例えば、実環境DB60に保存される実環境イメージを用いてシンセティックイメージの生成を行い、生成したシンセティックイメージを生成画像DB70に保存させる。
 本実施形態に係るシンセティックイメージは、ティーチャーネットワークに実環境イメージを入力して得られた特徴量にノイズを付与することに基づいて生成されてもよい。
 以下、本実施形態に係る画像生成部210によるシンセティックイメージの生成について詳細に説明する。図6は、本実施形態に係る画像生成部210を用いたシンセティックイメージ生成の流れを示すフローチャートである。
 本実施形態に係るフェーズF2では、まず、生成するシンセティックイメージに係るモダリティとオブジェクラスの指定が行われる(S202)。当該指定は、ユーザ(開発者等)により行われてよい。
 次に、画像生成部210は、ステップS202において指定されたモダリティとオブジェクトクラスに基づいて、対応する実環境イメージを実環境DB60から取得する(S204)。
 次に、画像生成部210は、ティーチャーネットワークにステップS204において取得した実環境イメージを入力し特徴量を取得する(S206)。当該特徴量は、ティーチャーネットワークにおけるアベレッジプーリング(Average Pooling)後の特徴量であってもよい。
 次に、画像生成部210は、ステップS206において取得した特徴量をt-SNEなどを用いてある空間に射影する(S208)。
 なお、画像生成部210は、十分なデータ数となるまでステップS204~S208における処理を繰り返し実行する。
 ここで、十分なデータ数が集まった場合、画像生成部210は、規定数のクラスタ中心を取得し、K-meansを実施する(S210)。
 次に、画像生成部210は、ステップS210において得られたクラスタデータに対して主成分(Principal Components)を求める(S212)。なお、上記のt-SNEなどを用いた空間への射影は、必ずしもステップS208において実行されなくてもよい。
 次に、画像生成部210は、ステップS212において求めた主成分方向にノイズを乗せて新たな特徴量を生成する(S214)。
 すなわち、本実施形態に係るシンセティックイメージは、ティーチャーネットワークに実環境イメージを入力して得られた特徴量分布において主成分方向にノイズを付与することに基づいて生成される、といえる。
 続いて、画像生成部210は、ステップS206において取得した特徴量と、ステップS214において生成した特徴量との差が小さくなるようなシンセティックイメージを生成する(S216)。
 すなわち、本実施形態に係るシンセティックイメージは、ティーチャーネットワークに実環境イメージを入力して得られるアベレッジプーリング後の特徴量と、当該特徴量に主成分方向にノイズを付与した特徴量と、の差が小さくなるように生成される、といえる。
 上記の処理は、下記の数式(1)により表すことができる。
Figure JPOXMLDOC01-appb-M000001
・・・(1)
 なお、上記数式(1)におけるXは、生成されるシンセティックイメージを、g(X)は、Xを入力した際のティーチャーネットワークにおけるアベレッジプーリング後の特徴量を、tは、主成分方向にノイズを付与して生成した特徴量をそれぞれ表す。
 本実施形態に係る画像生成部210は、定められた数のシンセティックイメージが生成されるまで、ステップS214およびS216における処理を繰り返し実行する。
 また、別のモダリティやオブジェクトクラスに係るシンセティックイメージを生成する場合、画像生成部210は、ステップS202に復帰し、以下の処理を繰り返し実行してもよい。
 以上、本実施形態に係るシンセティックイメージ生成の流れについて説明した。なお、より詳細な手法については、上述の非特許文献1を参照されたい。
 <<1.4.スチューデントネットワークの生成>>
 次に、フェーズF3におけるスチューデントネットワークの生成手法について述べる。本実施形態に係るフェーズF3においては、第2学習装置30を用いてスチューデントネットワークが生成される。本実施形態に係る第2学習装置30は、フェーズF2において生成されたシンセティックイメージを学習データとする機械学習によりスチューデントネットワークを生成する情報処理装置の一例である。
 図7は、本実施形態に係る第2学習装置30の構成例を示すブロック図である。図7に示すように、本実施形態に係る第2学習装置30は、少なくとも第2学習部310を備える。なお、第1学習装置10は、例えば、ユーザによる操作を受け付ける操作部や各種情報の表示を行う表示部などをさらに備えてもよい。
 また、本実施形態に係る第2学習装置30は、主たる開発現場に設置される。上記開発現場には、クラウド環境が含まれる。
 (第2学習部310)
 本実施形態に係る第2学習部310は、大規模DB50に保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基にスチューデントネットワークを生成する学習部の一例である。また、本実施形態に係る第2学習部310は、ティーチャーネットワークと、スチューデントネットワークを用いた推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習によりスチューデントネットワークを生成する、ことを特徴の一つとする。
 例えば、本実施形態に係る第2学習部310は、フェーズF2において生成されたシンセティックイメージを生成画像DB70から取得し、当該シンセティックイメージを学習データとして用いることで、スチューデントネットワークを生成する。また、第2学習部310は、実環境DBに保存される実環境イメージを学習データとして用いてもよい。
 なお、この際、本実施形態に係る第2学習部310は、生成画像DB70に保存されるシンセティックイメージのうちスチューデントネットワークによる推定の精度をより向上させると予測されるシンセティックイメージと、実環境イメージのみを学習データとして用いてもよい。
 上記のようなシンセティックイメージの選択によれば、生成されるスチューデントネットワークによる推定の精度をより効果的に向上させることが可能となる。
 例えば、本実施形態に係る第2学習部310は、生成されたシンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超えるシンセティックイメージを学習データとして用いてもよい。
 図8は、本実施形態に係る異なるモダリティ間における類似度の高いシンセティックイメージについて説明するための図である。図8には、オブジェクトクラス「ウサギ」に係るシンセティックイメージS11~S13、S21~S23、S31~S33が例示されている。ここで、シンセティックイメージS11~S13と、S21~S21と、S31~S33とは、それぞれ異なるモダリティに係るものとする。
 図8に示す一例の場合、シンセティックイメージS22およびS32では、被写体であるウサギの片耳が欠けおり、シンセティックイメージS12との類似度が低いものとなっている。このように、異なるモダリティ間における類似度が低いシンセティックイメージは、学習データから排除されてもよい。
 上記のような異なるモダリティ間における類似度に基づくシンセティックイメージの採否判定によれば、生成されるスチューデントネットワークによる推定の精度が効果的に向上することが予想される。
 また、上記のような採否判定は、すべてのモダリティにおいてほぼ同じ形状のデータが取得できる場合に、特に有効であることが予想される。
 なお、上記の類似度は、例えば、テンプレートマッチング、特徴点マッチングなどの技術を用いて計算されてもよい。また、上記の類似度計算には、類似画像を判定するディープラーニングなどが用いられてもよい。
 図9は、本実施形態に係るモダリティ間における類似度に基づくシンセティックイメージの採否判定と学習の流れを示すフローチャートである。
 まず、第2学習部310は、生成されたシンセティックイメージに対し、異なるモダリティ間で類似度を計算する(S302)。
 次に、第2学習部310は、ステップS302で計算した類似度が閾値以下のシンセティックイメージを除外する(S304)。
 次に、第2学習部310は、残ったシンセティックイメージと実環境イメージを学習データとして用いた学習を行い、スチューデントネットワークを生成する(S306)。
 以上説明したように、本実施形態に係るスチューデントネットワークは、生成されたシンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超えるシンセティックイメージを用いた機械学習により生成されてもよい。
 一方、本実施形態に係る第2学習部310は、生成されたシンセティックイメージのうち、同一のモダリティ内における類似度が閾値を超えるシンセティックイメージを学習データとして用いてもよい。
 図10は、本実施形態に係る同一のモダリティ内における類似度の高いシンセティックイメージについて説明するための図である。図10には、オブジェクトクラス「ウサギ」に係るシンセティックイメージS11~S13、S21~S23、S31~S33が例示されている。ここで、シンセティックイメージS11~S13と、S21~S21と、S31~S33とは、それぞれ異なるモダリティに係るものとする。
 図10に示す一例の場合、シンセティックイメージS23は、被写体であるウサギの片耳が欠けおり、同一のモダリティに係るシンセティックイメージS21およびS22との間の類似度が低いものとなっている。同様に、シンセティックイメージS31は、被写体であるウサギの片耳が欠けおり、同一のモダリティに係るシンセティックイメージS32およびS33との間の類似度が低いものとなっている。このように、同一のモダリティ内における類似度が低いシンセティックイメージは、学習データから排除されてもよい。
 上記のような同一のモダリティ内における類似度に基づくシンセティックイメージの採否判定によれば、生成されるスチューデントネットワークによる推定の精度が効果的に向上することが予想される。
 また、上記のような採否判定は、モダリティ内における形状変化が小さいときに特に有効であることが予想される。また、この場合、同一のモダリティ内における類似度に基づく採否判定は、異なるモダリティ間における類似度に基づく採否判定とは異なり、各モダリティの特徴量分布が類似していない場合にも有効である。
 図11は、本実施形態に係るモダリティ内における類似度に基づくシンセティックイメージの採否判定と学習の流れを示すフローチャートである。
 まず、第2学習部310は、生成されたシンセティックイメージに対し、同一のモダリティ内で類似度を計算する(S312)。
 次に、第2学習部310は、ステップS312で計算した類似度が閾値以下のシンセティックイメージを除外する(S314)。
 次に、第2学習部310は、残ったシンセティックイメージと実環境イメージを学習データとして用いた学習を行い、スチューデントネットワークを生成する(S316)。
 以上説明したように、本実施形態に係るスチューデントネットワークは、生成されたシンセティックイメージのうち、同一のモダリティ内における類似度が閾値を超えるシンセティックイメージを用いた機械学習により生成されてもよい。
 なお、上記では、生成された複数のシンセティックイメージから学習データとして採用するシンセティックイメージを取捨選択する場合について述べた。反対に、本実施形態に係る第2学習部310は、生成された複数のシンセティックイメージをフュージョン(Fusion)することにより、新たなシンセティックイメージを生成し、当該新たなシンセティックイメージを学習データとして用いてもよい。以下においては、上記新たなシンセティックイメージをフュージョンイメージと称する。
 すなわち、本実施形態に係るスチューデントネットワークは、生成された複数のシンセティックイメージをフュージョンしたフュージョンイメージを用いた機械学習により生成されてもよい。
 図12は、本実施形態に係るフュージョンイメージの一例を示す図である。図12には、同一のモダリティに係るシンセティックイメージS11およびS12をフュージョンすることにより生成されたフュージョンイメージS13が例示されている。同様に、図12には、同一のモダリティに係るシンセティックイメージS21およびS22をフュージョンすることにより生成されたフュージョンイメージS23が例示されている。同様に、図12には、同一のモダリティに係るシンセティックイメージS31およびS32をフュージョンすることにより生成されたフュージョンイメージS33が例示されている。
 図12に例示するように、本実施形態に係るフュージョンイメージは、生成されたシンセティックイメージのうち、同一のオブジェクトクラスに係る複数のシンセティックイメージをフュージョンすることにより生成されてもよい。
 また、本実施形態に係るフュージョンイメージは、生成された同一のモダリティ内に係るシンセティックイメージのうち、類似度が閾値を超える複数のシンセティックイメージをフュージョンすることにより生成されてもよい。
 なお、上記の場合、類似度を上げるために、位置合わせや回転などの処理が施されてもよい。
 また、十分に類似度が高い場合には、異なるモダリティ間に係るシンセティックイメージをフュージョンさせることで、フュージョンイメージが生成されてもよい。
 上記のようなフュージョンイメージの生成によれば、通常、特徴量空間内において表現できないデータをでき、学習データの多様性が向上する可能性がある。
 図13は、本実施形態に係る同一のモダリティ内に係るフュージョンイメージの生成と学習の流れを示すフローチャートである。
 まず、第2学習部310は、生成されたシンセティックイメージに対し、同一のモダリティ内で類似度を計算する(S322)。
 次に、第2学習部310は、ステップS322で計算した類似度が閾値を超えるシンセティックイメージをフュージョンしてフュージョンイメージを生成する(S324)。
 次に、第2学習部310は、ステップS324において生成したフュージョンイメージを含むシンセティックイメージと実環境イメージを学習データとして用いた学習を行い、スチューデントネットワークを生成する(S326)。なお、この場合、複数の実環境イメージをフュージョンしたイメージが学習データとして用いられてもよい。
 続いて、本実施形態に係る複数の異なるモダリティに着目したフュージョンイメージについて説明する。図14は、本実施形態に係る複数の異なるモダリティに着目したフュージョンイメージについて説明するための図である。
 図14には、それぞれ異なるモダリティに係るシンセティックイメージであるシンセティックイメージS11、S21、およびS31と、シンセティックイメージS11、S21、およびS31を連結(Concatenation)することにより生成されたフュージョンイメージS41が例示されている。
 このように、本実施形態に係るフュージョンイメージは、複数の異なるモダリティに係るシンセティックイメージを連結することにより生成されてもよい。
 より詳細には、本実施形態に係るフュージョンイメージは、生成されたシンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超える複数のシンセティックイメージを、チャンネル方向に連結することにより生成されてもよい。
 なお、上記の場合、類似度を上げるために、位置合わせや回転などの処理が施されてもよい。
 上記のようなフュージョンイメージの生成は、すべてのモダリティにおいてほぼ同じ形状のデータが取得できる場合に、特に有効であることが予想される。また、上記のようなフュージョンイメージによれば、すべてのモダリティの情報が活用できることから、生成されるスチューデントネットワークによる推定の精度が向上する可能性が高いと予想される。
 図15は、本実施形態に係る異なるモダリティ間に係るフュージョンイメージの生成と学習の流れを示すフローチャートである。
 まず、第2学習部310は、生成されたシンセティックイメージに対し、異なるモダリティ間で類似度を計算する(S332)。
 次に、第2学習部310は、ステップS332で計算した類似度が閾値を超えるシンセティックイメージをチャンネル方向に連結してフュージョンイメージを生成する(S334)。
 次に、第2学習部310は、ステップS334において生成したフュージョンイメージを含むシンセティックイメージと実環境イメージを学習データとして用いた学習を行い、スチューデントネットワークを生成する(S336)。なお、この場合、異なるモダリティに係る複数の実環境イメージをチャンネル方向に連結したイメージが学習データとして用いられてもよい。
 以上、本実施形態に係るシンセティックイメージの生成例について具体例を挙げて説明した。なお、上記で述べたようなシンセティックイメージを学習データとして用いることで、生成されるスチューデントネットワークによる推定の精度を効果的に向上させることが可能となる。
 なお、上記で例示したような、異なるモダリティ間に係るシンセティックイメージの類似度に基づく処理を行う場合には、各モダリティの特徴量分布が類似していることが望ましい。
 しかし、実際には、モダリティ間で特徴量分布が一致している保証はない。このため、何らの処理も行わない場合、類似するイメージが得られない可能性や、シンセティックイメージの生成に用いるノイズの値が同一であっても、特徴量空間上で異なる距離や方向を意味してしまう可能性がある。
 上記に鑑み、本実施形態に係るシンセティックイメージは、ティーチャーネットワークに実環境イメージを入力して得られる各モダリティに係る特徴量分布を類似させる処理に基づいて生成されてもよい。当該処理は、同一のタイミングおよび同一の方向から取得された複数のモダリティに係る実環境イメージを対象として実施されてよい。
 上記の処理によれば、モダリティ間の特徴量分布の差異を吸収し、学習データとしてより有用なシンセティックイメージを生成することが可能となる。
 図16は、本実施形態に係る各モダリティに係る特徴量分布を類似させる処理の一例を示す図である。当該処理においては、まず同一のタイミングおよび同一の方向から取得された複数のモダリティに係る実環境イメージが取得される。
 また、図16に示す一例の場合、第1学習部110は、上記のように取得された複数の実環境イメージをチャネル方向に連結したイメージE11を生成し、イメージE11を学習データとする機械学習によりティーチャーネットワークT4を生成する。
 上記のように生成されるティーチャーネットワークT4を用いることにより、イメージE11の生成に用いられたすべてのモダリティに係るシンセティックイメージS41を生成することが可能なる。
 また、各モダリティに係る特徴量分布を類似させる処理は、あるモダリティに係る実環境イメージをティーチャーネットワークに入力して得られる特徴量と、モダリティとは異なるモダリティに係る実環境イメージをティーチャーネットワークに入力して得られる特徴量との特徴量空間上における距離を近づける処理を含んでもよい。 
 上記処理には、例えば、ドメイン適応(Domain Adaptation)が挙げられる。例えば、XをRGBカメラにより取得した実環境イメージから得られる特徴量、XをToFカメラにより取得した実環境イメージから得られる特徴量とした場合、第1学習部110は、Xの分布とXの分布とが近づくように学習を行ってよい。
 また、各モダリティに係る特徴量分布を類似させる処理は、あるモダリティに係る実環境イメージをティーチャーネットワークに入力して得られる特徴量を、当該モダリティとは異なるモダリティに係る実環境イメージをティーチャーネットワークに入力して得られる特徴量に変換する処理を含んでもよい。
 本実施形態に係る第1学習部110は、例えば、あるモダリティに係る特徴量を別のモダリティに係る特徴量に射影する変換行列を機械学習手法等を用いて求め、当該変換行列を用いて特徴量の変化を行ってもよい。
 例えば、XをRGBカメラにより取得した実環境イメージから得られる特徴量、XをToFカメラにより取得した実環境イメージから得られる特徴量とした場合、第1学習部110は、X=AXs+B、を満たすようなAおよびBを求めることで、特徴量の変化を実現することができる。なお、ここでは、一例として線形回帰問題を示したが、変換行列は非線形回帰問題により求められてもよい。
 以上、本実施形態に係る各モダリティに係る特徴量分布を類似させる処理について具体例を示した。なお、上記はあくまで一例であり、各モダリティに係る特徴量分布の類似度の向上には、他の手段が用いられてもよい。
 <<1.5.スチューデントネットワークを用いた推定>>
 次に、フェーズF4におけるスチューデントネットワークを用いた推定について述べる。本実施形態に係るフェーズF4においては、フェーズF3において生成されたスチューデントネットワークを用いた推定が実施される。本実施形態に係る推定装置40は、スチューデントネットワークを用いてオブジェクトクラスを推定する情報処理装置の一例である。
 図17は、本実施形態に係る推定装置40の構成例を示すブロック図である。図17に示すように、本実施形態に係る推定装置40は、少なくとも取得部410と、推定部420とを備える。なお、推定装置40は、例えば、ユーザによる操作を受け付ける操作部や各種情報の表示を行う表示部などをさらに備えてもよい。また、推定装置40は、例えば、自動車等の移動体に搭載されてもよい。
 (取得部410)
 本実施形態に係る取得部410は、実環境においてイメージを取得する。より具体的には、本実施形態に係る取得部410は、推定部420が用いるスチューデントネットワークの学習に用いられたシンセティックイメージの生成に利用された実環境イメージの取得に用いられた複数のモダリティのうち、少なくとも一つのモダリティによりイメージを取得する。
 例えば、シンセティックイメージの生成に利用された実環境イメージの取得に、RGBカメラとToFカメラとが用いられた場合、取得部410は、RGBカメラまたはToFカメラのうち少なくとも一つを用いてイメージを取得する。
 (推定部420)
 本実施形態に係る推定部420は、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する。
 例えば、本実施形態に係る推定部420は、取得部410が取得したイメージに含まれるオブジェクトに係るオブジェクトクラスを推定してもよい。本実施形態に係る推定部420は、シンセティックイメージの生成に利用された実環境イメージの取得に用いられたモダリティのうち、少なくとも一つのモダリティにより取得されたイメージがあれば、当該イメージをスチューデントネットワークに入力し、推定結果を出力することができる。
 以下、本実施形態に係る推定装置40による推定の流れについて説明する。図18は、本実施形態に係る推定装置40による処理の流れを示すフローチャートである。
 図18に示すように、まず、取得部410が、シンセティックイメージの生成に利用された実環境イメージの取得に用いられたモダリティと同一のモダリティでイメージを取得する(S402)。
 次に、推定部420が、ステップS402において取得されたイメージをスチューデントネットワークに入力し、当該イメージに含まれるオブジェクトのオブジェクトクラス推定を行う(S406)。
 続いて、推定部420は、推定結果を出力する(S406)。当該推定結果は、例えば、推定装置40または移動体が備える表示部などに表示されてもよいし、移動体が備える各装置(例えば、ブレーキや、ステアリング等)の制御に用いられてもよい。
 <2.ハードウェア構成例>
 次に、本開示の一実施形態に係る第1学習装置10、画像生成装置20、第2学習装置30、および推定装置40に共通するハードウェア構成例について説明する。図19は、本開示の一実施形態に係る情報処理装置90のハードウェア構成例を示すブロック図である。情報処理装置90は、上記各装置と同等のハードウェア構成を有する装置であってよい。図19に示すように、情報処理装置90は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (プロセッサ871)
 プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <3.まとめ>
 以上説明したように、本開示の一実施形態に係る推定装置40は、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部420を備える。
 また、本開示の一実施形態に係る第2学習装置30は、大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基にスチューデントネットワークを生成する第2学習部310を備える。本開示の一実施形態に係る第2学習部310は、ティーチャーネットワークと、スチューデントネットワークを用いた推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習によりスチューデントネットワークを生成する、ことを特徴の一つとする。
 上記の構成によれば、スチューデントネットワークを用いた推定の精度をより向上させることが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、本技術は、音源を可視化したイメージに適用されてもよい。近年においては、音源からイメージを生成する各種の技術が開発されている。例えば、画像生成装置20は、音源を可視化したイメージを用いてシンセティックイメージを生成し、第2学習装置30は、当該シンセティックイメージを用いてスチューデントネットワークを生成してもよい。この場合、推定装置40は、上記のように生成されたスチューデントネットワークを用いることで、音源に係るクラスを推定することも可能である。
 また、本明細書において説明した処理に係る各ステップは、必ずしもフローチャートやシーケンス図に記載された順序に沿って時系列に処理される必要はない。例えば、各装置の処理に係る各ステップは、記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 また、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記録媒体(非一時的な媒体:non-transitory media)に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にRAMに読み込まれ、各種のプロセッサにより実行される。上記記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、
 を備え、
 前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、
情報処理装置。
(2)
 前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られた特徴量にノイズを付与することに基づいて生成される、
前記(1)に記載の情報処理装置。
(3)
 前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られた特徴量分布において主成分方向にノイズを付与することに基づいて生成される、
前記(2)に記載の情報処理装置。
(4)
 前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られるアベレッジプーリング後の特徴量と、当該特徴量に前記主成分方向にノイズを付与した特徴量と、の差が小さくなるように生成される、
前記(3)に記載の情報処理装置。
(5)
 前記スチューデントネットワークは、生成された前記シンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超える前記シンセティックイメージを用いた機械学習により生成される、
前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
 前記スチューデントネットワークは、生成された前記シンセティックイメージのうち、同一のモダリティ内における類似度が閾値を超える前記シンセティックイメージを用いた機械学習により生成される、
前記(1)~(5)のいずれかに記載の情報処理装置。
(7)
 前記スチューデントネットワークは、生成された複数の前記シンセティックイメージをフュージョンしたフュージョンイメージを用いた機械学習により生成される、
前記(1)~(6)のいずれかに記載の情報処理装置。
(8)
 前記フュージョンイメージは、生成された前記シンセティックイメージのうち、類似度が閾値を超える複数の前記シンセティックイメージをフュージョンすることにより生成される、
前記(7)に記載の情報処理装置。
(9)
 前記フュージョンイメージは、生成された前記シンセティックイメージのうち、同一のオブジェクトクラスに係る複数の前記シンセティックイメージをフュージョンすることにより生成される、
前記(7)または(8)に記載の情報処理装置。
(10)
 前記フュージョンイメージは、複数の異なるモダリティに係る前記シンセティックイメージを連結することにより生成される、
前記(7)~(9)のいずれかに記載の情報処理装置。
(11)
 前記フュージョンイメージは、生成された前記シンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超える複数の前記シンセティックイメージを、チャンネル方向に連結することにより生成される、
前記(10)に記載の情報処理装置。
(12)
 前記シンセティックイメージは、単一のモダリティに対応した複数の前記ティーチャーネットワークのそれぞれに、対応するモダリティにより取得された前記実環境イメージを入力することに基づいて生成される、
前記(1)~(11)のいずれかに記載の情報処理装置。
(13)
 前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られる各モダリティに係る特徴量分布を類似させる処理に基づいて生成される、
前記(1)~(11)のいずれかに記載の情報処理装置。
(14)
 前記シンセティックイメージは、同一のタイミングおよび同一の方向から取得された複数のモダリティに係る実環境イメージをチャンネル方向に連結したイメージを学習データとする機械学習により生成された前記ティーチャーネットワークを用いて生成される、
前記(13)に記載の情報処理装置。
(15)
 前記シンセティックイメージは、あるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量と、当該モダリティとは異なるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量との特徴量空間上における距離を近づける処理に基づいて生成される、
前記(13)に記載の情報処理装置。
(16)
 前記シンセティックイメージは、あるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量を、当該モダリティとは異なるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量に変換する処理に基づいて生成される、
前記(13)に記載の情報処理装置。
(17)
 前記実環境においてイメージを取得する取得部、
 をさらに備え、
 前記推定部は、前記取得部が取得したイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する、
前記(1)~(16)のいずれかに記載の情報処理装置。
(18)
 前記取得部は、前記シンセティックイメージの生成に利用された前記実環境イメージの取得に用いられた複数のモダリティのうち、少なくとも一つのモダリティによりイメージを取得する、
前記(17)に記載の情報処理装置。
(19)
 大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基にスチューデントネットワークを生成する学習部、
 を備え、
 前記学習部は、前記ティーチャーネットワークと、前記スチューデントネットワークを用いた推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により前記スチューデントネットワークを生成する、
情報処理装置。
(20)
 コンピュータを、
 大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、
 を備え、
 前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、
 情報処理装置、
として機能させるためのプログラム。
 10   第1学習装置
 110  第1学習部
 20   画像生成装置
 210  画像生成部
 30   第2学習装置
 310  第3学習部
 40   推定部
 410  取得部
 420  推定部
 50   大規模DB
 60   実環境DB
 70   生成画像DB

Claims (20)

  1.  大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、
     を備え、
     前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、
    情報処理装置。
  2.  前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られた特徴量にノイズを付与することに基づいて生成される、
    請求項1に記載の情報処理装置。
  3.  前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られた特徴量分布において主成分方向にノイズを付与することに基づいて生成される、
    請求項2に記載の情報処理装置。
  4.  前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られるアベレッジプーリング後の特徴量と、当該特徴量に前記主成分方向にノイズを付与した特徴量と、の差が小さくなるように生成される、
    請求項3に記載の情報処理装置。
  5.  前記スチューデントネットワークは、生成された前記シンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超える前記シンセティックイメージを用いた機械学習により生成される、
    請求項1に記載の情報処理装置。
  6.  前記スチューデントネットワークは、生成された前記シンセティックイメージのうち、同一のモダリティ内における類似度が閾値を超える前記シンセティックイメージを用いた機械学習により生成される、
    請求項1に記載の情報処理装置。
  7.  前記スチューデントネットワークは、生成された複数の前記シンセティックイメージをフュージョンしたフュージョンイメージを用いた機械学習により生成される、
    請求項1に記載の情報処理装置。
  8.  前記フュージョンイメージは、生成された前記シンセティックイメージのうち、類似度が閾値を超える複数の前記シンセティックイメージをフュージョンすることにより生成される、
    請求項7に記載の情報処理装置。
  9.  前記フュージョンイメージは、生成された前記シンセティックイメージのうち、同一のオブジェクトクラスに係る複数の前記シンセティックイメージをフュージョンすることにより生成される、
    請求項7に記載の情報処理装置。
  10.  前記フュージョンイメージは、複数の異なるモダリティに係る前記シンセティックイメージを連結することにより生成される、
    請求項7に記載の情報処理装置。
  11.  前記フュージョンイメージは、生成された前記シンセティックイメージのうち、異なるモダリティ間における類似度が閾値を超える複数の前記シンセティックイメージを、チャンネル方向に連結することにより生成される、
    請求項10に記載の情報処理装置。
  12.  前記シンセティックイメージは、単一のモダリティに対応した複数の前記ティーチャーネットワークのそれぞれに、対応するモダリティにより取得された前記実環境イメージを入力することに基づいて生成される、
    請求項1に記載の情報処理装置。
  13.  前記シンセティックイメージは、前記ティーチャーネットワークに前記実環境イメージを入力して得られる各モダリティに係る特徴量分布を類似させる処理に基づいて生成される、
    請求項1に記載の情報処理装置。
  14.  前記シンセティックイメージは、同一のタイミングおよび同一の方向から取得された複数のモダリティに係る実環境イメージをチャンネル方向に連結したイメージを学習データとする機械学習により生成された前記ティーチャーネットワークを用いて生成される、
    請求項13に記載の情報処理装置。
  15.  前記シンセティックイメージは、あるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量と、当該モダリティとは異なるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量との特徴量空間上における距離を近づける処理に基づいて生成される、
    請求項13に記載の情報処理装置。
  16.  前記シンセティックイメージは、あるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量を、当該モダリティとは異なるモダリティに係る前記実環境イメージを前記ティーチャーネットワークに入力して得られる特徴量に変換する処理に基づいて生成される、
    請求項13に記載の情報処理装置。
  17.  前記実環境においてイメージを取得する取得部、
     をさらに備え、
     前記推定部は、前記取得部が取得したイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する、
    請求項1に記載の情報処理装置。
  18.  前記取得部は、前記シンセティックイメージの生成に利用された前記実環境イメージの取得に用いられた複数のモダリティのうち、少なくとも一つのモダリティによりイメージを取得する、
    請求項17に記載の情報処理装置。
  19.  大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基にスチューデントネットワークを生成する学習部、
     を備え、
     前記学習部は、前記ティーチャーネットワークと、前記スチューデントネットワークを用いた推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により前記スチューデントネットワークを生成する、
    情報処理装置。
  20.  コンピュータを、
     大規模なイメージデータベースに保存されるイメージを学習データとする機械学習により生成されたティーチャーネットワークを基に生成されたスチューデントネットワークを用いて、入力されたイメージに含まれるオブジェクトに係るオブジェクトクラスを推定する推定部、
     を備え、
     前記スチューデントネットワークは、前記ティーチャーネットワークと、前記推定部による推定の実行が想定される実環境において複数の異なるモダリティにより取得された実環境イメージと、を用いて得られたシンセティックイメージを学習データとする機械学習により生成される、
     情報処理装置、
    として機能させるためのプログラム。
PCT/JP2021/011196 2020-04-30 2021-03-18 情報処理装置およびプログラム WO2021220658A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP21795866.9A EP4145386A4 (en) 2020-04-30 2021-03-18 INFORMATION PROCESSING APPARATUS AND PROGRAM
CN202180029853.6A CN115428013A (zh) 2020-04-30 2021-03-18 信息处理装置和程序
JP2022517550A JPWO2021220658A1 (ja) 2020-04-30 2021-03-18
US17/920,276 US20230169754A1 (en) 2020-04-30 2021-03-18 Information processing device and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020080172 2020-04-30
JP2020-080172 2020-04-30

Publications (1)

Publication Number Publication Date
WO2021220658A1 true WO2021220658A1 (ja) 2021-11-04

Family

ID=78331950

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/011196 WO2021220658A1 (ja) 2020-04-30 2021-03-18 情報処理装置およびプログラム

Country Status (5)

Country Link
US (1) US20230169754A1 (ja)
EP (1) EP4145386A4 (ja)
JP (1) JPWO2021220658A1 (ja)
CN (1) CN115428013A (ja)
WO (1) WO2021220658A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159654A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル
JP2020004178A (ja) * 2018-06-29 2020-01-09 ルネサスエレクトロニクス株式会社 学習モデルの評価方法、学習方法、装置、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159654A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル
JP2020004178A (ja) * 2018-06-29 2020-01-09 ルネサスエレクトロニクス株式会社 学習モデルの評価方法、学習方法、装置、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KARTIKEYA BHARDWAJ, DREAM DISTILLATION: A DATA-INDEPENDENT MODEL COMPRESSION FRAMEWORK, 17 May 2019 (2019-05-17), Retrieved from the Internet <URL:https://arxiv.org/pdf/1905.07072.pdf>

Also Published As

Publication number Publication date
JPWO2021220658A1 (ja) 2021-11-04
CN115428013A (zh) 2022-12-02
EP4145386A1 (en) 2023-03-08
EP4145386A4 (en) 2023-10-18
US20230169754A1 (en) 2023-06-01

Similar Documents

Publication Publication Date Title
CN109816589B (zh) 用于生成漫画风格转换模型的方法和装置
CN111476871B (zh) 用于生成视频的方法和装置
JP2022503647A (ja) クロスドメイン画像変換
WO2021208601A1 (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
US10713471B2 (en) System and method for simulating facial expression of virtual facial model
JP2021103555A (ja) 画像検出方法、装置、電子設備、記憶媒体、及びプログラム
WO2023160513A1 (zh) 3d素材的渲染方法、装置、设备及存储介质
CN110838122B (zh) 点云的分割方法、装置及计算机存储介质
WO2023005386A1 (zh) 模型训练方法和装置
WO2022073415A1 (zh) 一种数据生成方法、装置及存储介质
CN111539897A (zh) 用于生成图像转换模型的方法和装置
JP7298825B2 (ja) 学習支援装置、学習装置、学習支援方法及び学習支援プログラム
JP2022103136A (ja) 画像処理の方法、デバイス及びコンピュータ可読記憶媒体
JP6707715B2 (ja) 学習装置、推定装置、学習方法及びプログラム
WO2021220658A1 (ja) 情報処理装置およびプログラム
JP2022003447A (ja) 学習方法、コンテンツ再生装置、及びコンテンツ再生システム
JP2021086462A (ja) データ生成方法、データ生成装置、モデル生成方法、モデル生成装置及びプログラム
WO2023086398A1 (en) 3d rendering networks based on refractive neural radiance fields
US11042274B2 (en) Extracting demonstrations from in-situ video content
JP2022068146A (ja) データ注釈方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP6892557B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
WO2019198233A1 (ja) 動作認識装置、動作認識方法、及びコンピュータ読み取り可能な記録媒体
WO2019244200A1 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
JP2020037155A (ja) 仕草制御装置及び仕草制御プログラム
JP7111309B2 (ja) 情報処理装置、学習装置、認識装置、静止画の生産方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21795866

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022517550

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021795866

Country of ref document: EP

Effective date: 20221130