WO2024079792A1 - 情報処理装置、方法、及びプログラム - Google Patents

情報処理装置、方法、及びプログラム Download PDF

Info

Publication number
WO2024079792A1
WO2024079792A1 PCT/JP2022/037923 JP2022037923W WO2024079792A1 WO 2024079792 A1 WO2024079792 A1 WO 2024079792A1 JP 2022037923 W JP2022037923 W JP 2022037923W WO 2024079792 A1 WO2024079792 A1 WO 2024079792A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
converter
information processing
processing device
converters
Prior art date
Application number
PCT/JP2022/037923
Other languages
English (en)
French (fr)
Inventor
アルトゥーロ エドゥアルド セロンロペス
美玖 柳元
Original Assignee
株式会社エクサウィザーズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エクサウィザーズ filed Critical 株式会社エクサウィザーズ
Priority to PCT/JP2022/037923 priority Critical patent/WO2024079792A1/ja
Publication of WO2024079792A1 publication Critical patent/WO2024079792A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining

Definitions

  • This disclosure relates to an information processing device, an information processing method, and an information processing program.
  • AI Artificial Intelligence
  • GAN Generic Adversarial Network
  • a technology has been proposed that uses the above-mentioned image conversion technology to convert an artificially synthesized image into a realistic image that is close to an actually captured image.
  • a generation method has been proposed that is executed by an information processing device and includes a process of adjusting rendering parameters, a process of generating synthetic data based on the adjusted rendering parameters, and a process of adjusting the rendering parameters so that the realism score value is optimized (see Patent Document 1).
  • the rendering parameters of the above-mentioned conventional technology include multiple parameters that correspond to the characteristics of the image.
  • the present disclosure has been made in consideration of the above points, and aims to provide an information processing device, method, and program capable of generating synthetic images with improved realism.
  • the information processing device includes a converter that adds features relating to characteristics inherently present in a real image to an input image, the converter performing step-by-step image conversion using a plurality of converters prepared for each type of characteristic, which are connected in multiple stages so that the output image of a converter in a previous stage becomes the input image of a converter in a subsequent stage, and a learning unit that individually performs machine learning on each of the plurality of converters so that the output image has a higher degree of realism of objects in the image than the input image.
  • the information processing method is a method in which the conversion unit is a converter that adds features relating to characteristics inherently present in the real image to the input image, and the image is converted stepwise using a plurality of converters prepared for each type of characteristic, which are connected in multiple stages so that the output image of a converter in a previous stage becomes the input image of a converter in a subsequent stage, and the learning unit individually executes machine learning for each of the plurality of converters so that the degree to which objects in the image appear real is higher in the output image than in the input image.
  • the information processing program is a program for causing a computer to function as a converter that adds features relating to characteristics inherently present in a real image to an input image, a conversion unit that converts an image in stages using a plurality of converters prepared for each type of characteristic, which are connected in multiple stages so that the output image of a converter in a previous stage becomes the input image of a converter in a subsequent stage, and a learning unit that individually executes machine learning for each of the plurality of converters so that the degree of realism of objects in the image is higher in the output image than in the input image.
  • the information processing device, method, and program disclosed herein can generate synthetic images with improved realism.
  • FIG. 1 is a block diagram showing a hardware configuration of an information processing device according to an embodiment of the present invention.
  • 1 is a block diagram showing a functional configuration of an information processing device according to an embodiment of the present invention.
  • FIG. 4 is a block diagram showing a specific configuration of a conversion unit.
  • FIG. 13 is a block diagram showing an example of a specific use case of the conversion unit. 4 is a flowchart showing the flow of a learning process in the present embodiment.
  • 10 is a flowchart showing the flow of a generation process in this embodiment.
  • FIG. 13 is a diagram showing an example of output in a reference method.
  • FIG. 13 is a diagram showing an example of output in this technique.
  • FIG. 1 is a block diagram showing the hardware configuration of an information processing device 10 according to this embodiment.
  • the information processing device 10 has a CPU (Central Processing Unit) 12, a memory 14, a storage device 16, an input device 18, an output device 20, a storage medium reading device 22, and a communication I/F (Interface) 24.
  • Each component is connected to each other via a bus 26 so as to be able to communicate with each other.
  • the storage device 16 stores information processing programs for executing the learning process and generation process described below.
  • the CPU 12 is a central processing unit, and executes various programs and controls each component. That is, the CPU 12 reads the programs from the storage device 16 and executes the programs using the memory 14 as a working area.
  • the CPU 12 controls each of the components and performs various calculation processes according to the programs stored in the storage device 16.
  • Memory 14 is made up of RAM (Random Access Memory) and serves as a working area to temporarily store programs and data.
  • Storage device 16 is made up of ROM (Read Only Memory), HDD (Hard Disk Drive), SSD (Solid State Drive), etc., and stores various programs including the operating system and various data.
  • the input device 18 is a device for performing various inputs, such as a keyboard or a mouse.
  • the output device 20 is a device for outputting various information, such as a display or a printer.
  • a touch panel display may be used as the output device 20 to function as the input device 18.
  • the storage medium reader 22 reads data stored in various storage media 22A, such as CD (Compact Disc)-ROM, DVD (Digital Versatile Disc)-ROM, Blu-ray disc, and USB (Universal Serial Bus) memory, and writes data to the storage media.
  • the communication I/F 24 is an interface for communicating with other devices, and uses standards such as Ethernet (registered trademark), FDDI, or Wi-Fi (registered trademark), for example.
  • FIG. 2 is a block diagram showing an example of the functional configuration of the information processing device 10.
  • the information processing device 10 includes, as its functional configuration, a conversion unit 32, a learning unit 34, and a generation unit 36.
  • Each functional configuration is realized by the CPU 12 reading out an information processing program stored in the storage device 16, expanding it in the memory 14, and executing it.
  • the conversion unit 32 is configured by connecting converters in multiple stages, which add features relating to characteristics inherently present in the real image to the input image. Each converter is connected so that the output image of the converter in the previous stage becomes the input image of the converter in the subsequent stage.
  • FIG. 2 an example is shown in which the conversion unit 32 includes a first converter 321, a second converter 322, ..., a K-th converter 32K.
  • the kth converter 32k is configured, for example, with a machine learning model such as GAN.
  • the kth converter 32k is prepared for each type of multiple characteristics that should originally be present in the real image.
  • the characteristics include at least one of aesthetic characteristics based on the environmental conditions assumed when capturing the real image, and artifact characteristics based on artifacts assumed in the camera that captures the real image.
  • the aesthetic characteristics are an example of the "first characteristic" of the present disclosure, and the artifact characteristics are an example of the "second characteristic" of the present disclosure.
  • the aesthetic characteristics include at least one of the configuration and structure of the object in the image, the coloring, the lighting conditions, and the style of the painting.
  • the artifact characteristics include at least one of the noise and the camera factors.
  • FIG. 3 shows a more specific configuration of the conversion unit 32.
  • the conversion unit 32 includes a first converter 321 for aesthetic characteristic 1, a second converter 322 for aesthetic characteristic 2, ..., an nth converter 32n for aesthetic characteristic n.
  • the conversion unit 32 includes an n+1th converter 32n+1 for artifact characteristic 1, an n+2nd converter 32n+2 for artifact characteristic 2, ..., an n+mth converter 32K for artifact characteristic m.
  • n is the number of kth converters 32k for aesthetic characteristics
  • m is the number of kth converters 32k for artifact characteristics
  • n+m is K.
  • the initial composite image which is the input image to the conversion unit 32, becomes the input image to the first converter 321.
  • the initial composite image is a composite image generated by artificial processing, for example a rendered image generated by a rendering engine.
  • the first converter 321 generates and outputs a first composite image by adding features related to aesthetic characteristic 1 to the input image.
  • the first composite image becomes the input image for the second converter 322.
  • the second converter 322 generates and outputs a second composite image by adding features related to aesthetic characteristic 2 to the input image (first composite image).
  • the input image to the nth converter 32n is the n-1th composite image
  • the output image from the nth converter 32n is the nth composite image.
  • the input image to the n+1th converter 32n+1 is the nth composite image
  • the output image from the n+1th converter 32n+1 is the n+1th composite image.
  • the input image to the n+2th converter 32n+2 is the n+1th composite image
  • the output image from the n+2th converter 32n+2 is the n+2nd composite image.
  • the input image to the n+mth converter 32K is the n+m-1th composite image
  • the output image from the n+mth converter 32K is the Kth composite image
  • this Kth composite image is the output image from the converter 32.
  • the first converter 321 generates and outputs a first composite image by simulating the type, angle, intensity, etc. of lighting for the initial composite image and adding features.
  • the second converter 322 generates and outputs a second composite image by simulating each RGB value for the first composite image and adding features.
  • the third converter 323 (not shown) generates and outputs a third composite image by simulating the position, size, material, etc. of the object for the second composite image and adding features.
  • the nth converter 32n generates and outputs an nth composite image by simulating a style such as a sketch, line drawing, or mosaic for the n-1th composite image and adding features.
  • the n+1th converter 32n+1 generates and outputs the n+1th composite image with added features by simulating the type and intensity of noise.
  • the n+2th converter 32n+2 generates and outputs the n+2nd composite image with added features by simulating the camera focus, exposure, value range, chromatic aberration, lens barrel distortion, etc. for the n+1th composite image.
  • FIG. 4 shows an example of a more specific use case of the conversion unit 32.
  • the first converter 321, the second converter 322, and the third converter 323 are connected in this order in the conversion unit 32.
  • the first converter 321 is a converter that adds features related to the characteristics of the lighting conditions
  • the second converter 322 is a converter that adds features related to the characteristics of the noise
  • the third converter 323 is a converter that adds features related to the characteristics of the camera factors.
  • the first composite image is a composite image in which features related to the characteristics of the lighting conditions are added to the initial composite image.
  • the second composite image is a composite image in which features related to the characteristics of the lighting conditions and the noise are added to the initial composite image.
  • the third composite image is a composite image in which features related to the characteristics of the lighting conditions, the noise, and the characteristics of the camera factors are added to the initial composite image.
  • the learning unit 34 individually performs machine learning for each of the kth converters 32k so that the degree of realism of the objects in the image is higher in the output image than in the input image. Specifically, for each of the kth converters 32k, the learning unit 34 calculates a realism score by weighting and integrating multiple types of indices obtained from the pixel values of the output image (kth composite image) according to the type of characteristic corresponding to the kth converter 32k. Then, the learning unit 34 updates the parameters of the kth converter 32k so that the calculated realism score satisfies a predetermined criterion.
  • the indices for calculating the realism score include at least one of the indices related to the histogram intersection method, the similarity of the structure of the objects in the image, the Euclidean distance, the color reproducibility, the standard deviation of the pixel values, the focus score, the variance of the noise, the peak signal-to-noise ratio, and the mean square error. Note that the indices for calculating the realism score are not limited to those described above, and other indices may be used.
  • the learning unit 34 acquires metadata for calculating the realism score of each kth converter 32k.
  • the metadata includes weights for each index for calculating the realism score and a reference value of the realism score.
  • the weights for each index are determined in advance so that the greater the index is related to the characteristics corresponding to the kth converter 32k. For example, for the kth converter 32k that adds a feature related to the coloring characteristics, the weight of the color reproducibility index is set to a value greater than the weights of the other indexes.
  • the learning unit 34 calculates the values of each of the above indexes from the pixel values of the kth composite image, which is the output image of the kth converter 32k, and calculates the weighted sum of each index as the realism score using the weights included in the acquired metadata. The learning unit 34 then updates the parameters of the kth converter 32k so that the calculated realism score exceeds the reference value acquired as the metadata.
  • the method of updating the parameters is not limited to the above example.
  • the realism score is a value between 0 and 1, and the closer to 1 the score is, the more realistic the object in the image is.
  • the process of updating the parameters of the kth converter 32k so that the calculated realism score approaches 1 may be repeated a predetermined number of times.
  • the learning unit 34 sets the updated final parameters for each kth converter 32k.
  • the generation unit 36 inputs an image to the conversion unit 32, which has multiple k-th converters 32k on which machine learning has been performed by the learning unit 34, connected in multiple stages.
  • the conversion unit 32 converts the input image so that the degree of realism of the object in the image is higher than at the time of input, i.e., so that the realism score is higher, and generates an output image.
  • the generation unit 36 may output the output image generated by the conversion unit 32 as training data for a machine learning model in a system that performs a predetermined process based on the result obtained by inputting a captured image into a machine learning model.
  • Examples of such systems include a system that controls the operation of a robot arm including a pick-and-place, a system that detects a target object from an image, and a system that segments the area of an object on an image.
  • Other examples of such systems include a navigation system that guides the movement path of an autonomously moving device (such as a robot) and an autonomous driving system that determines the driving route of an autonomous vehicle.
  • FIG. 5 is a flowchart showing the flow of the learning process executed by the CPU 12 of the information processing device 10.
  • FIG. 6 is a flowchart showing the flow of the generation process executed by the CPU 12 of the information processing device 10.
  • the CPU 12 reads out an information processing program from the storage device 16, expands it in the memory 14, and executes it, causing the CPU 12 to function as each functional component of the information processing device 10, and the learning process shown in FIG. 5 and the generation process shown in FIG. 6 are executed.
  • the learning process and the generation process are examples of the "information processing method" of the present disclosure. Each of the learning process and the generation process will be described in detail below.
  • step S12 the learning unit 34 acquires an initial input image generated by a rendering engine or the like, and passes it to the conversion unit 32.
  • step S14 the learning unit 34 sets the variable k for identifying the kth converter 32k to 1.
  • step S16 the conversion unit 32 inputs the k-1 composite image as an input image to the k-th converter 32k to generate the k-th composite image.
  • the k-1 composite image is the input image obtained in step S12 above.
  • step S18 the learning unit 34 calculates the value of each index from the pixel values of the kth synthetic image generated in step S16, and calculates the weighted sum of each index as the realism score RS(k) using the weights included in the metadata acquired in step S10.
  • step S20 the learning unit 34 determines whether the calculated realism score RS(k) is greater than the reference value RSth(k) included in the metadata acquired in step S10. If RS(k)>RSth(k), the process proceeds to step S24, and if RS(k) ⁇ RSth(k), the process proceeds to step S22. In step S22, the learning unit 34 updates the parameters of the kth converter 32k so that RS(k)>RSth(k), and the process returns to step S16.
  • step S24 the learning unit 34 increments k by 1.
  • step S26 the learning unit 34 determines whether k has exceeded K, which is the number of the kth converters 32k. If k>K, the process proceeds to step S28, and if k ⁇ K, the process returns to step S16.
  • step S28 the learning unit 34 sets the updated final parameters for each of the kth converters 32k, and the learning process ends.
  • the generation process is executed after the above learning process is completed.
  • step S40 the generation unit 36 obtains an initial input image generated by a rendering engine or the like, and passes it to the conversion unit 32.
  • step S42 the generation unit 36 sets a variable k for identifying the kth converter 32k to 1.
  • step S44 the conversion unit 32 inputs the k-1 composite image as an input image to the k-th converter 32k to generate the k-th composite image.
  • the k-1 composite image is the input image obtained in step S40 above.
  • step S46 the generation unit 36 increments k by 1.
  • step S48 the generation unit 36 determines whether k has exceeded K, which is the number of the kth converters 32k. If k>K, the process proceeds to step S50, and if k ⁇ K, the process returns to step S44.
  • step S50 the generation unit 36 outputs the Kth composite image output from the Kth converter 32K as an output image, and the generation process ends.
  • the conversion unit is a converter that adds features relating to characteristics that are inherently present in the real image to the input image, and converts the image in stages using multiple converters prepared for each type of characteristic, which are connected in multiple stages so that the output image of the converter in the previous stage becomes the input image of the converter in the next stage.
  • the learning unit individually executes machine learning for each of the multiple converters so that the output image has a higher degree of realism of objects in the image than the input image. This makes it possible to optimize the converter for each characteristic. Therefore, it is possible to further improve the realism of a synthetic image generated by a conversion unit connected to a converter on which machine learning has been executed.
  • this method is a method that adds features related to lighting conditions and noise characteristics so as to increase the realism score with one converter. Also, this method is a method that performs image synthesis so as to increase the realism score with a conversion unit that connects in multiple stages a first converter that adds features related to the characteristics of lighting conditions and a second converter that adds features related to the characteristics of noise.
  • Figure 7 shows an example of output in the reference method.
  • the left image in Figure 7 is the input image to the converter, and the center image is the output image from the converter.
  • the right image in Figure 7 is an actual image captured of an actual object.
  • the realism score and the value of the index used to calculate the realism score are shown at the bottom of each of the input and output images. Even in the reference method, the realism score is higher for the output image than for the input image.
  • Figure 8 shows an example of output in this method.
  • the left image in Figure 8 is the same input image as in the case of the reference method in Figure 7.
  • the center image in Figure 8 is the first composite image output from the first converter
  • the right image is the second composite image output from the second converter.
  • the realism score and index are shown at the bottom of each figure.
  • the realism score of the second composite image of this method is higher than that of the output image of the reference method.
  • a composite image with improved realism can be generated by adding features for each characteristic using a converter optimized for each characteristic, compared to adding features related to multiple characteristics collectively using a single converter.
  • the learning process and generation process executed by the CPU by reading the software (program) in the above embodiment may be executed by various processors other than the CPU.
  • processors in this case include PLDs (Programmable Logic Devices) such as FPGAs (Field-Programmable Gate Arrays) whose circuit configuration can be changed after manufacture, and dedicated electrical circuits such as ASICs (Application Specific Integrated Circuits), which are processors having a circuit configuration designed specifically to execute specific processes.
  • the learning process and generation process may be executed by one of these various processors, or may be executed by a combination of two or more processors of the same or different types (e.g., multiple FPGAs, and a combination of a CPU and an FPGA, etc.).
  • the hardware structure of these various processors is, more specifically, an electrical circuit that combines circuit elements such as semiconductor elements.
  • the information processing program is described as being pre-stored (installed) in a storage device, but this is not limited to the above.
  • the program may be provided in a form recorded on a recording medium such as a CD-ROM, a DVD-ROM (Digital Versatile Disc Read Only Memory), or a USB (Universal Serial Bus) memory.
  • the program may also be provided in a form downloaded from an external device via a network.
  • Information processing device 12 CPU 14 Memory 16 Storage device 18 Input device 20 Output device 22 Storage medium reader 22A Storage medium 24 Communication I/F 26 Bus 32 Conversion units 321, 322, 323, 32k, 32K Converter 34 Learning unit 36 Generation unit

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

変換部(32)が、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、特性の種類毎に用意された複数の変換器(321、322、・・・、32K)を用いて、段階的に画像の変換を行い、学習部(34)が、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、複数の変換器の各々の機械学習を個別に実行する。

Description

情報処理装置、方法、及びプログラム
 本開示は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
 従来、GAN(Generative Adversarial Network)等のAI(Artificial Intelligence)を用いて、画像を生成又は変換することが行われている。具体的には、入力された画像の画風やカラーリングを変換した画像を生成する技術が存在する。
 また、実際に撮影された画像を機械学習モデルで処理して何らかの処理を実行するシステムが存在する。このようなシステムにおいて、その機械学習モデルの訓練のために、実際の画像を大量に用意することは手間がかかる。そこで、人工的に合成された画像を、上記のような画像変換の技術を用いて、実際に撮影された画像に近いリアリスティックな画像に変換する技術が提案されている。例えば、情報処理装置が実行する生成方法であって、レンダリングパラメータを調整する処理と、調整したレンダリングパラメータに基づき合成データを生成する処理と、リアリズムスコアの値が最適になるようにレンダリングパラメータを調整する処理と、を含む生成方法が提案されている(特許文献1参照)。
特許第7058434号公報
 上記従来技術のレンダリングパラメータには、画像の特性に応じた複数のパラメータが含まれている。しかしながら、上記従来技術では、どの特性について、どのように調整することで、よりリアルな合成画像が生成されるかということを把握することが困難である。そのため、パラメータの調整による合成画像のリアルさの向上に改善の余地がある。
 本開示は、上記の点に鑑みてなされたものであり、リアルさをより向上させた合成画像を生成することができる情報処理装置、方法、及びプログラムを提供することを目的とする。
 上記目的を達成するために、本開示の第1態様に係る情報処理装置は、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行う変換部と、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する学習部と、を含んで構成される。
 また、本開示の第2態様に係る情報処理方法は、変換部が、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行い、学習部が、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する方法である。
 また、本開示の第3態様に係る情報処理プログラムは、コンピュータを、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行う変換部、及び、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する学習部として機能させるためのプログラムである。
 本開示に係る情報処理装置、方法、及びプログラムによれば、リアルさをより向上させた合成画像を生成することができる。
本実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。 本実施形態に係る情報処理装置の機能構成を示すブロック図である。 変換部の具体的な構成を示すブロック図である。 変換部の具体的なユースケースの例を示すブロック図である。 本実施形態における学習処理の流れを示すフローチャートである。 本実施形態における生成処理の流れを示すフローチャートである。 参考手法における出力例を示す図である。 本手法における出力例を示す図である。
 以下、本開示の実施形態の一例を、図面を参照しつつ説明する。
 図1は、本実施形態に係る情報処理装置10のハードウェア構成を示すブロック図である。図1に示すように、情報処理装置10は、CPU(Central Processing Unit)12、メモリ14、記憶装置16、入力装置18、出力装置20、記憶媒体読取装置22、及び通信I/F(Interface)24を有する。各構成は、バス26を介して相互に通信可能に接続されている。
 記憶装置16には、後述する学習処理及び生成処理を実行するための情報処理プログラムが格納されている。CPU12は、中央演算処理ユニットであり、各種プログラムの実行、及び各構成の制御を行う。すなわち、CPU12は、記憶装置16からプログラムを読み出し、メモリ14を作業領域としてプログラムを実行する。CPU12は、記憶装置16に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。
 メモリ14は、RAM(Random Access Memory)により構成され、作業領域として一時的にプログラム及びデータを記憶する。記憶装置16は、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)等により構成され、オペレーティングシステムを含む各種プログラム及び各種データを格納する。
 入力装置18は、例えば、キーボードやマウス等の、各種の入力を行うための装置である。出力装置20は、例えば、ディスプレイやプリンタ等の、各種の情報を出力するための装置である。出力装置20として、タッチパネルディスプレイを採用することにより、入力装置18として機能させてもよい。
 記憶媒体読取装置22は、CD(Compact Disc)-ROM、DVD(Digital Versatile Disc)-ROM、ブルーレイディスク、USB(Universal Serial Bus)メモリ等の各種の記憶媒体22Aに記憶されたデータの読み込みや、記憶媒体に対するデータの書き込み等を行う。通信I/F24は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI又はWi-Fi(登録商標)等の規格が用いられる。
 次に、本実施形態に係る情報処理装置10の機能構成について説明する。図2は、情報処理装置10の機能構成の例を示すブロック図である。図2に示すように、情報処理装置10は、機能構成として、変換部32と、学習部34と、生成部36とを含む。各機能構成は、CPU12が記憶装置16に記憶された情報処理プログラムを読み出し、メモリ14に展開して実行することにより実現される。
 変換部32は、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器を多段階に接続して構成される。各変換器は、前段の変換器の出力画像が後段の変換器の入力画像となるように接続されている。図2では、変換部32は、第1変換器321、第2変換器322、・・・、第K変換器32Kを含む例を示している。以下では、各変換器を区別なく説明する場合には、「第k変換器32k」(k=1,2,・・・,K、Kは変換器の数)と表記する。
 第k変換器32kは、例えば、GAN等の機械学習モデルで構成される。第k変換器32kは、実画像に本来存在するはずの複数の特性の種類毎に用意される。特性は、実画像を撮影する場合に想定される環境条件に基づく美観特性、及び実画像を撮影するカメラに想定されるアーティファクトに基づくアーティファクト特性の少なくとも一方を含む。美観特性は、本開示の「第1特性」の一例であり、アーティファクト特性は、本開示の「第2特性」の一例である。具体的には、美観特性は、画像内の物体の構成及び構造、カラーリング、照明条件、及び画風の少なくとも1つを含む。アーティファクト特性は、ノイズ、及びカメラ要因の少なくとも1つを含む。
 図3に、変換部32について、より具体的な構成を示す。図3の例では、変換部32は、美観特性1用の第1変換器321、美観特性2用の第2変換器322、・・・、美観特性n用の第n変換器32nを含む。さらに、変換部32は、アーティファクト特性1用の第n+1変換器32n+1、アーティファクト特性2用の第n+2変換器32n+2、・・・、アーティファクト特性m用の第n+m変換器32Kを含む。nは、美観特性用の第k変換器32kの数であり、mは、アーティファクト特性用の第k変換器32kの数であり、n+mはKである。
 図3の例では、変換部32への入力画像である初期合成画像が第1変換器321への入力画像となる。初期合成画像は、人工的加工により生成される合成画像、例えば、レンダリングエンジンにより生成されるレンダリング画像である。第1変換器321は、入力画像に対して、美観特性1に関する特徴を追加した第1合成画像を生成して出力する。第1合成画像は、第2変換器322の入力画像となる。第2変換器322は、入力画像(第1合成画像)に対して、美観特性2に関する特徴を追加した第2合成画像を生成して出力する。
 以下同様に、第n変換器32nへの入力画像は第n-1合成画像、第n変換器32nからの出力画像は第n合成画像となる。また、第n+1変換器32n+1への入力画像は第n合成画像、第n+1変換器32n+1からの出力画像は第n+1合成画像となる。また、第n+2変換器32n+2への入力画像は第n+1合成画像、第n+2変換器32n+2からの出力画像は第n+2合成画像となる。また、第n+m変換器32Kへの入力画像は第n+m-1合成画像、第n+m変換器32Kからの出力画像は第K合成画像となり、この第K合成画像が変換部32からの出力画像となる。
 例えば、美観特性1が照明条件の場合、第1変換器321は、初期合成画像に対して、照明の種類、角度、強度等をシミュレーションして特徴を追加した第1合成画像を生成して出力する。また、例えば、美観特性2がカラーリングの場合、第2変換器322は、第1合成画像に対して、RGBの各値をシミュレーションして特徴を追加した第2合成画像を生成して出力する。また、例えば、美観特性3が画像内の物体の構成及び構造の場合、第3変換器323(図示省略)は、第2合成画像に対して、物体の位置、サイズ、材質等をシミュレーションして特徴を追加した第3合成画像を生成して出力する。また、例えば、美観特性nが画風の場合、第n変換器32nは、第n-1合成画像に対して、スケッチ、線画、モザイク等の画風をシミュレーションして特徴を追加した第n合成画像を生成して出力する。
 また、例えば、アーティファクト特性1がノイズの場合、第n+1変換器32n+1は、ノイズの種類、強度等をシミュレーションして特徴を追加した第n+1合成画像を生成して出力する。また、例えば、アーティファクト特性2がカメラ要因の場合、第n+2変換器32n+2は、第n+1合成画像に対して、カメラのフォーカス、露出、値域、色収差、レンズ鏡筒の歪み等をシミュレーションして特徴を追加した第n+2合成画像を生成して出力する。
 図4に、変換部32のより具体的なユースケースの例を示す。図4の例では、変換部32において、第1変換器321、第2変換器322、及び第3変換器323が順に接続されている。第1変換器321は、照明条件の特性に関する特徴を追加する変換器であり、第2変換器322は、ノイズの特性に関する特徴を追加する変換器であり、第3変換器323は、カメラ要因の特性に関する特徴を追加する変換器である。図4に示すように、第1合成画像は、初期合成画像に対して、照明条件の特性に関する特徴が追加された合成画像となる。また、第2合成画像は、初期合成画像に対して、照明条件及びノイズの特性に関する特徴が追加された合成画像となる。また、第3合成画像は、初期合成画像に対して、照明条件、ノイズ、及びカメラ要因の特性に関する特徴が追加された合成画像となる。
 学習部34は、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、第k変換器32kの各々の機械学習を個別に実行する。具体的には、学習部34は、第k変換器32kの各々について、出力画像(第k合成画像)の画素値から得られる複数種類の指標の各々を、第k変換器32kに対応する特性の種類に応じて重み付けをして統合したリアリズムスコアを算出する。そして、学習部34は、算出したリアリズムスコアが予め定めた基準を満たすように、第k変換器32kのパラメータを更新する。リアリズムスコアを算出するための指標は、ヒストグラム交差法、画像内の物体の構造の類似性、ユークリッド距離、色再現性、画素値の標準偏差、焦点スコア、ノイズの分散、ピーク信号対雑音比、及び平均二乗誤差に関する指標の少なくとも1つを含む。なお、リアリズムスコアを算出するための指標は、前述したものに限られず、その他の指標を用いてもよい。
 具体的には、学習部34は、各第k変換器32kのリアリズムスコア算出用のメタデータを取得する。メタデータは、リアリズムスコアを算出するための各指標に対する重み、及びリアリズムスコアの基準値を含む。各指標に対する重みは、その第k変換器32kに対応する特性に関連する指標ほど大きな値を予め定めておく。例えば、カラーリングの特性に関する特徴を追加する第k変換器32kについては、色再現性の指標の重みを、他の指標の重みよりも大きな値に設定しておく。例えば、学習部34は、第k変換器32kの出力画像である第k合成画像の画素値から、上記の各指標の値を算出し、取得したメタデータに含まれる重みを用いて、各指標の重み付き和をリアリズムスコアとして算出する。そして、学習部34は、算出したリアリズムスコアが、メタデータとして取得した基準値を超えるように、第k変換器32kのパラメータを更新する。
 なお、パラメータの更新方法は上記の例に限定されない。例えば、リアリズムスコアが0~1の間の値で、1に近いほど、画像内の物体の実物らしさを示す度合いが高いとする。この場合、算出したリアリズムスコアが1に近づくように第k変換器32kのパラメータを更新する処理を、予め定めた回数繰り返すようにしてもよい。
 学習部34は、第k変換器32kのそれぞれについて、更新した最終的なパラメータを各第k変換器32kに設定する。
 生成部36は、学習部34により機械学習が実行された複数の第k変換器32kを多段階に接続した変換部32に画像を入力する。これにより、変換部32が、画像内の物体の実物らしさを示す度合いが入力時より高くなるように、すなわちリアリズムスコアが高くなるように入力画像を変換して出力画像を生成する。生成部36は、変換部32により生成された出力画像を、例えば、撮影された画像を機械学習モデルへ入力して得られる結果に基づいて所定の処理を行うシステムにおける機械学習モデルの訓練データとして出力してよい。このようなシステムとしては、例えば、ピックアンドプレースを含むロボットアームの動作を制御するシステム、画像から対象物体を検出するシステム、画像上の物体の領域をセグメンテーションするシステム等が挙げられる。また、このようなシステムとして他にも、自律移動を行う装置(ロボット等)の移動進路を案内するナビゲーションシステムや、自動運転車両の走行経路を決定する自動運転システム等も挙げられる。
 次に、本実施形態に係る情報処理装置10の作用について説明する。図5は、情報処理装置10のCPU12により実行される学習処理の流れを示すフローチャートである。また、図6は、情報処理装置10のCPU12により実行される生成処理の流れを示すフローチャートである。CPU12が記憶装置16から情報処理プログラムを読み出して、メモリ14に展開して実行することにより、CPU12が情報処理装置10の各機能構成として機能し、図5に示す学習処理、及び図6に示す生成処理が実行される。なお、学習処理及び生成処理は、本開示の「情報処理方法」の一例である。以下、学習処理及び生成処理の各々について詳述する。
 まず、図5に示す学習処理について説明する。
 ステップS10で、学習部34が、各第k変換器32k(k=1,2,・・・,K)の、リアリズムスコアを算出するための各指標に対する重み、及びリアリズムスコアの基準値RSth(k)を含むリアリズムスコア算出用のメタデータを取得する。
 次に、ステップS12で、学習部34が、レンダリングエンジン等により生成された初期の入力画像を取得し、変換部32へ受け渡す。次に、ステップS14で、学習部34が、第k変換器32kを識別するための変数kに1を設定する。
 次に、ステップS16で、変換部32が、第k変換器32kに、入力画像として、第k-1合成画像を入力し、第k合成画像を生成する。k=1の場合における第k-1合成画像は、上記ステップS12で取得された入力画像である。
 次に、ステップS18で、学習部34が、上記ステップS16で生成された第k合成画像の画素値から、各指標の値を算出し、上記ステップS10で取得したメタデータに含まれる重みを用いて、各指標の重み付き和をリアリズムスコアRS(k)として算出する。
 次に、ステップS20で、学習部34が、算出したリアリズムスコアRS(k)が、上記ステップS10で取得したメタデータに含まれる基準値RSth(k)より大きいか否かを判定する。RS(k)>RSth(k)の場合には、ステップS24へ移行し、RS(k)≦RSth(k)の場合には、ステップS22へ移行する。ステップS22では、学習部34が、RS(k)>RSth(k)となるように、第k変換器32kのパラメータを更新し、ステップS16に戻る。
 ステップS24では、学習部34が、kを1インクリメントする。次に、ステップS26で、学習部34が、kが、第k変換器32kの数であるKを超えたか否かを判定する。k>Kの場合には、ステップS28へ移行し、k≦Kの場合には、ステップS16に戻る。
 ステップS28では、学習部34が、第k変換器32kのそれぞれについて、更新した最終的なパラメータを各第k変換器32kに設定し、学習処理は終了する。
 次に、図6に示す生成処理について説明する。生成処理は、上記の学習処理が終了した後に実行される。
 ステップS40で、生成部36が、レンダリングエンジン等により生成された初期の入力画像を取得し、変換部32へ受け渡す。次に、ステップS42で、生成部36が、第k変換器32kを識別するための変数kに1を設定する。
 次に、ステップS44で、変換部32が、第k変換器32kに、入力画像として、第k-1合成画像を入力し、第k合成画像を生成する。k=1の場合における第k-1合成画像は、上記ステップS40で取得された入力画像である。
 次に、ステップS46で、生成部36が、kを1インクリメントする。次に、ステップS48で、生成部36が、kが、第k変換器32kの数であるKを超えたか否かを判定する。k>Kの場合には、ステップS50へ移行し、k≦Kの場合には、ステップS44に戻る。
 ステップS50では、生成部36が、第K変換器32Kから出力された第K合成画像を出力画像として出力し、生成処理は終了する。
 以上説明したように、本実施形態に係る情報処理装置によれば、変換部が、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行う。そして、学習部が、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、複数の変換器の各々の機械学習を個別に実行する。これにより、特性毎に変換器を最適化することができる。そのため、機械学習が実行された変換器を接続した変換部により生成される合成画像のリアルさをより向上させることができる。
 ここで、本実施形態に係る手法(以下、「本手法」という)の効果を、参考手法と比較して説明する。ここでの参考手法は、1つの変換器で、リアリズムスコアが高くなるように、照明条件及びノイズの特性に関する特徴を追加する手法である。また、本手法は、照明条件の特性に関する特徴を追加する第1変換器と、ノイズの特性に関する特徴を追加する第2変換器とを多段階に接続した変換部により、リアリズムスコアが高くなるように、画像合成を行う手法である。
 図7に、参考手法における出力例を示す。図7の左図は、変換器への入力画像であり、中央の図は、変換器からの出力画像である。また、図7の右図は、実際の物体を撮影した実画像である。また、入力画像及び出力画像の各々の下部には、リアリズムスコア(Realism Score)、及びリアリズムスコアを算出するための指標の値を示している。参考手法においても、入力画像よりも出力画像の方が、リアリズムスコアが高くなっている。
 図8に、本手法における出力例を示す。図8の左図は、図7の参考手法の場合と同様の入力画像である。図8の中央の図は、第1変換器から出力される第1合成画像、右図は、第2変換器から出力される第2合成画像である。図7と同様に各図の下部には、リアリズムスコア及び指標を示している。図8に示すように、参考手法の出力画像に比べ、本手法の第2合成画像のリアリズムスコアの方が高くなっている。すなわち、照明条件及びノイズという複数の特性に関する特徴を追加する場合において、複数の特性に関する特徴の追加を1つの変換器でまとめて行う場合に比べ、特性毎に最適化された変換器を用いて、特性毎に特徴を追加する方が、リアルさをより向上させた合成画像を生成することができる。
<変形例>
 上記実施形態において、各変換器をどの順番で配置するかによって、最終的に出力される出力画像のリアリズムスコアは異なるものと想定される。そこで、変換器の並び順を異ならせた複数のパターンの各々について、上記実施形態と同様に各変換器の機械学習を実行し、最終的な出力画像のリアリズムスコアが最もよいパターンの並び順を採用するようにしてもよい。
 また、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した学習処理及び生成処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理及び生成処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 また、上記実施形態では、情報処理プログラムが記憶装置に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM、DVD-ROM(Digital Versatile Disc Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
10   情報処理装置
12   CPU
14   メモリ
16   記憶装置
18   入力装置
20   出力装置
22   記憶媒体読取装置
22A 記憶媒体
24   通信I/F
26   バス
32   変換部
321、322、323、32k、32K    変換器
34   学習部
36   生成部

Claims (11)

  1.  実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行う変換部と、
     画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する学習部と、
     を含む情報処理装置。
  2.  前記学習部は、前記複数の変換器の各々について、前記出力画像の画素値から得られる複数種類の指標の各々を、前記変換器に対応する前記特性の種類に応じて重み付けをして統合したリアリズムスコアを前記度合いとして算出し、算出した前記リアリズムスコアが予め定めた基準を満たすように前記変換器のパラメータを更新する請求項1に記載の情報処理装置。
  3.  前記特性は、画像を撮影する場合における環境条件に基づく第1特性、及び画像を撮影するカメラのアーティファクトに基づく第2特性の少なくとも一方を含む請求項1又は請求項2に記載の情報処理装置。
  4.  前記第1特性は、画像内の物体の構成及び構造、カラーリング、照明条件、及び画風の少なくとも1つを含む請求項3に記載の情報処理装置。
  5.  前記第2特性は、画像に含まれるノイズ、カメラのフォーカス、露出、値域、色収差、レンズ鏡筒の歪みの少なくとも1つを含む請求項3に記載の情報処理装置。
  6.  前記複数種類の指標は、ヒストグラム交差法、画像内の物体の構造の類似性、ユークリッド距離、色再現性、画素値の標準偏差、焦点スコア、ノイズの分散、ピーク信号対雑音比、及び平均二乗誤差に関する指標の少なくとも1つを含む請求項2に記載の情報処理装置。
  7.  前記変換部に画像を入力し、前記学習部により機械学習が実行され、多段階に接続された前記複数の変換器を用いて、前記変換部により段階的に画像の変換を行わせることで、前記画像内の物体の実物らしさを示す度合いが入力時より高くなるように変換された画像を生成する生成部を含む請求項1又は請求項2に記載の情報処理装置。
  8.  前記生成部は、人工的加工により生成された画像を前記変換部に入力することにより生成した画像を、撮影された画像を機械学習モデルへ入力して得られる結果に基づいて所定の処理を行うシステムにおける前記機械学習モデルの訓練データとして出力する請求項7に記載の情報処理装置。
  9.  前記システムは、ピックアンドプレースを含むロボットアームの動作を制御するシステム、画像から対象物体を検出するシステム、又は、画像上の物体の領域をセグメンテーションするシステムである請求項8に記載の情報処理装置。
  10.  変換部が、実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行い、
     学習部が、画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する
     情報処理方法。
  11.  コンピュータを、
     実画像に本来存在する特性に関する特徴を入力画像に追加する変換器であって、前段の変換器の出力画像が後段の変換器の入力画像となるように多段階に接続された、前記特性の種類毎に用意された複数の変換器を用いて、段階的に画像の変換を行う変換部、及び、
     画像内の物体の実物らしさを示す度合いが、入力画像よりも出力画像の方が高くなるように、前記複数の変換器の各々の機械学習を個別に実行する学習部
     として機能させるための情報処理プログラム。
PCT/JP2022/037923 2022-10-11 2022-10-11 情報処理装置、方法、及びプログラム WO2024079792A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/037923 WO2024079792A1 (ja) 2022-10-11 2022-10-11 情報処理装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/037923 WO2024079792A1 (ja) 2022-10-11 2022-10-11 情報処理装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2024079792A1 true WO2024079792A1 (ja) 2024-04-18

Family

ID=90668966

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/037923 WO2024079792A1 (ja) 2022-10-11 2022-10-11 情報処理装置、方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024079792A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244446A (ja) * 2009-04-09 2010-10-28 Nikon Corp データ処理装置、データ処理方法およびプログラム
WO2017171005A1 (ja) * 2016-04-01 2017-10-05 株式会社wise 3dグラフィック生成、人工知能の検証・学習システム、プログラム及び方法
JP7058434B1 (ja) * 2021-07-07 2022-04-22 株式会社エクサウィザーズ 生成方法、情報処理装置、プログラム、及び情報処理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010244446A (ja) * 2009-04-09 2010-10-28 Nikon Corp データ処理装置、データ処理方法およびプログラム
WO2017171005A1 (ja) * 2016-04-01 2017-10-05 株式会社wise 3dグラフィック生成、人工知能の検証・学習システム、プログラム及び方法
JP7058434B1 (ja) * 2021-07-07 2022-04-22 株式会社エクサウィザーズ 生成方法、情報処理装置、プログラム、及び情報処理システム

Similar Documents

Publication Publication Date Title
US9786036B2 (en) Reducing image resolution in deep convolutional networks
JP2019075121A (ja) マルチスケール特徴マップを利用してcnnのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置
White et al. Automatically tuning background subtraction parameters using particle swarm optimization
US9697583B2 (en) Image processing apparatus, image processing method, and computer-readable recording medium
JP7028322B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2020119555A (ja) 極限状況においてフォールトトレランス及びフラクチュエーションロバスト性を向上させるために、ジッタリングが起きたイメージを安定化させるプロセスで生成されたワーピングされたイメージに発生した歪曲を、ganを利用して減らすための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置
JP7207846B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN111507459A (zh) 降低神经网络的注解费用的方法和装置
JP6970460B2 (ja) モバイルデバイスまたは高精度の小型ネットワークに適用可能なハードウェアを最適化するために利用されるCNNパラメータ及び特徴値を量子化するために、重み量子化ロス値を利用してFL(Fractional Length)値を決定する方法及び装置{METHOD AND DEVICE FOR DETERMINING FL VALUE BY USING WEIGHTED QUANTIZATION LOSS VALUES TO THEREBY QUANTIZE CNN PARAMETERS AND FEATURE VALUES TO BE USED FOR OPTIMIZING HARDWARE APPLICABLE TO MOBILE DEVICES OR COMPACT NETWORKS WITH HIGH PRECISION}
WO2024079792A1 (ja) 情報処理装置、方法、及びプログラム
KR102482472B1 (ko) 기계학습 기반의 꼭짓점 추출을 통해 기울어진 차량 번호판 이미지를 직사각형화시킬 수 있는 전자 장치 및 그 동작 방법
TWI738974B (zh) 用於在模型轉換期間追蹤軸的方法、裝置及電腦可讀取媒體
WO2020022519A1 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
CN110889316B (zh) 一种目标对象识别方法、装置及存储介质
JP2022189901A (ja) 学習方法、学習装置、プログラムおよび記録媒体
CN112805653A (zh) 定位控制装置以及定位方法
JP7406654B2 (ja) 実際の場所の仮想環境復元を作成するための方法
CN113706572B (zh) 一种基于查询向量的端到端的全景图像分割方法
WO2021235247A1 (ja) 学習装置、生成方法、推論装置、推論方法、およびプログラム
JP6943295B2 (ja) 学習装置、学習方法、および学習プログラム
JPWO2020054402A1 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
JP2588499B2 (ja) ニューラルネットワークトレーニング方法及びその装置
JP7184801B2 (ja) 学習装置、学習方法、および学習プログラム
US20210004681A1 (en) Data processing apparatus, training apparatus, method of detecting an object, method of training, and medium
WO2023104158A1 (en) Method for neural network training with multiple supervisors