WO2024009412A1 - 判定装置、判定方法、および、判定プログラム - Google Patents

判定装置、判定方法、および、判定プログラム Download PDF

Info

Publication number
WO2024009412A1
WO2024009412A1 PCT/JP2022/026770 JP2022026770W WO2024009412A1 WO 2024009412 A1 WO2024009412 A1 WO 2024009412A1 JP 2022026770 W JP2022026770 W JP 2022026770W WO 2024009412 A1 WO2024009412 A1 WO 2024009412A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
image
unit
input data
vector quantization
Prior art date
Application number
PCT/JP2022/026770
Other languages
English (en)
French (fr)
Inventor
美尋 内田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/026770 priority Critical patent/WO2024009412A1/ja
Publication of WO2024009412A1 publication Critical patent/WO2024009412A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present invention relates to a determination device, a determination method, and a determination program for determining whether input data is data of an image to be recognized.
  • FIG. 1 For example, as shown in FIG. 1, consider a system that analyzes a meeting using the results of facial expression recognition of the facial part of input data.
  • this system When this system is input with an image of a dog's face, which is not originally a target for facial expression recognition, the system performs facial expression recognition on the image of the dog's face and says, ⁇ The participant has a positive emotion, so it's okay now.'' There is a risk that the recognition result "This is a meeting" will be output. In other words, the dog is not a participant in the meeting, so the above output is meaningless.
  • Autoencoder is an algorithm for dimensionality reduction using neural networks.
  • the autoencoder can be If it learns only from data, it should not be able to decode data from images that are not recognized.
  • a 28x28-dimensional data space pixel space
  • a low-dimensional data space latent space
  • images of objects that the autoencoder has learned can be decoded from a low-dimensional data space
  • images of objects that the autoencoder has not learned can be decoded from a low-dimensional data space.
  • the autoencoder alone cannot perform the above-mentioned input data image recognition process (for example, predicting the category label of the input data image), it is necessary to add a category label prediction function to the above-mentioned autoencoder. think of. For example, consider adding a function to predict the category label of an image of input data based on the data output from the autoencoder's encoding function (a function that converts input data to data in a low-dimensional data space). .
  • the encoder When adding a function to predict the category label of an image of input data to the encoder as described above, it is necessary to simultaneously learn to determine whether the input data is the data of the image to be recognized and to predict (classify) the category label. There is. Therefore, the low-dimensional data space handled by the encoder becomes discrete. Therefore, when the encoder decodes data of an image that falls into the gap and is not to be recognized, the data may end up being similar to the input data. As a result, the above technique has a problem in that it may not be possible to accurately determine whether input data is data of an image to be recognized.
  • the present invention includes an encoding unit that converts input data into data with a lower dimension than the input data, and discretization of the data converted by the encoding unit by vector quantization.
  • an autoencoder that includes a vector quantization unit that converts the data into data expressed by the vector quantization unit, and a decoding unit that decodes the data converted by the vector quantization unit into data of the original dimension;
  • the encoding unit of the autoencoder and the encoding unit of the autoencoder use the image of the object to be recognized as learning data so that the data decoded by the decoding unit approaches the input data that is the source of the data.
  • the present invention is characterized in that it includes a determination processing section that determines that the input data is not data of an image to be recognized when the input data is larger than a threshold value, and an output processing section that outputs the result of the determination.
  • FIG. 1 is a diagram illustrating an example of a conference analysis system that utilizes facial expression recognition.
  • FIG. 2 is a diagram illustrating an example of a data space (pixel space) and a low-dimensional data space (latent space).
  • FIG. 3 is a diagram showing an example of input data of an autoencoder and its decoded data.
  • FIG. 4 is a diagram for explaining vector quantization.
  • FIG. 5 is a diagram showing an example of the configuration of the determination device.
  • FIG. 6 is a diagram for explaining vector quantization learning.
  • FIG. 7 is a flowchart illustrating an example of the processing procedure of the error evaluation section of FIG.
  • FIG. 8 is a diagram illustrating an example of a processing procedure of the determination device.
  • FIG. 1 is a diagram illustrating an example of a conference analysis system that utilizes facial expression recognition.
  • FIG. 2 is a diagram illustrating an example of a data space (pixel space) and a low-dimensional data space (latent space).
  • FIG. 3
  • FIG. 9 is a diagram showing the results of evaluating the determination accuracy of the comparison example and the determination device using AUROC.
  • FIG. 10 is a diagram showing input data and decoded data of the comparative example and the determination device.
  • FIG. 11 is a diagram showing a computer that executes a program.
  • the image of data decoded by the autoencoder differs from the image of input data not only in color and shape but also in degree of blur. In other words, the decoded data has a stronger degree of blur.
  • the autoencoder originally assumes a continuous space.
  • the learned data is trained to form clusters of similar items in the feature space. Therefore, unlearned data is expressed separately from the cluster formed by learned data.
  • data that falls between clusters does not necessarily cannot be decoded. In other words, data that falls between clusters can be decrypted.
  • the determination device of this embodiment performs vector quantization after encoding (converting to low-dimensional data) the input data.
  • the determination device performs vector quantization by replacing the coordinates of a continuously expressed low-dimensional data space with the coordinates of the nearest grid point.
  • the determination device replaces the continuously expressed low-dimensional data space with a discrete expression by the above-mentioned vector quantization. Then, the determination device decodes the vector-quantized data.
  • the conventional technology only evaluates whether the difference in pixel values between the input data image and the decoded data image is small on average. It is not possible to evaluate the difference in the degree of blur between the image and the decoded data.
  • the determination device evaluates the difference between the input data and the decoded data in a Fourier space that can express information about the frequency of the image. For example, the determination device can obtain the spectral distribution of the input data image and the decoded data image by Fourier transforming these images. Here, since an image with a high degree of blur has a low power spectrum, the frequency approaches 0. On the other hand, an image with a low degree of blur has a power spectrum that extends to high frequencies. Therefore, the determination device can evaluate the degree of blur in the decoded data by calculating the difference between the power spectra of the input data image and the decoded data image.
  • the determination device uses vector quantization to decode limited features of the recognition target, and qualitatively focuses on frequencies (high frequencies) where decoding errors are likely to occur for images other than the recognition target. Evaluate the error. Thereby, the determination device can improve the accuracy of determining whether the input data is data of an image to be recognized.
  • the determination device 10 determines whether input data is data to be recognized.
  • the determination device 10 includes an input/output section 11, a storage section 12, and a control section 13.
  • the input/output unit 11 serves as an interface for the determination device 10 to receive and output various types of information.
  • the input/output unit 11 receives inputs such as learning data of the control unit 13 (image data of an object to be recognized), data to be determined by the control unit 13, and the like.
  • the input/output unit 11 outputs the processing result by the control unit 13.
  • the input/output unit 11 outputs a determination result by the control unit 13 (a determination result as to whether the input data is data of an image to be recognized), a predicted label of the input data, and the like.
  • the storage unit 12 stores various information and programs used when the control unit 13 operates, and various information obtained as a result of the operation of the control unit 13.
  • the storage unit 12 is, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 12 stores, for example, learning data input via the input/output unit 11. Further, the storage unit 12 stores, for example, parameters of the encoding unit 131, the label prediction unit 134, and the decoding unit 133 learned by the control unit 13.
  • the control unit 13 controls the entire determination device 10 .
  • the control unit 13 includes an autoencoder 130, a label prediction (recognition) unit 134, a learning unit 135, an error evaluation unit 136, a determination processing unit 137, and an output processing unit 138.
  • the functions of each section described above are realized, for example, by the CPU of the determination device 10 executing a program stored in the storage section of the determination device 10.
  • the autoencoder 130 encodes input data, performs vector quantization, and decodes the vector quantized data.
  • This autoencoder 130 includes an encoding section 131, a vector quantization section 132, and a decoding section 133.
  • the encoding unit 131 encodes input data. For example, the encoding unit 131 converts input data into data having a lower dimension than the input data. The encoding unit 131 is trained by the learning unit 135 so that the decoded data output by the decoding unit 133 matches the input data that is the source of the decoded data.
  • the vector quantization unit 132 converts the low-dimensional data output by the encoding unit 131 into data that is discretized and expressed in the low-dimensional space by vector quantization. For example, the vector quantization unit 132 converts the data to the data of the coordinates closest to the data among the coordinates of the grid points indicating possible values in a preset low-dimensional space (see FIG. 6). This vector quantization unit 132 is trained so that the coordinates of the data space before discretization approach a preset possible value (codebook).
  • the vector quantization unit 132 is trained to minimize the loss L shown in equation (1) below.
  • the first term of equation (1) indicates the error between the input data and its decoded data
  • the second term is a term for making the prototype closer to the encoded map
  • the third term is the error between the input data and its decoded data. This is a term to bring the map closer to the prototype.
  • sg( ⁇ ) indicates an operation that does not return a gradient
  • e indicates the closest codebook.
  • the decoding unit 133 decodes the low-dimensional data into original dimensional data. For example, the decoding unit 133 decodes the low-dimensional data vector-quantized by the vector quantization unit 132 into original dimensional data. The decoding unit 133 is also trained by the learning unit 135 so that the decoded data matches the input data that is the source of the decoded data.
  • the label prediction unit 134 performs image recognition processing of data converted into low-dimensional data by the encoding unit 131 of the autoencoder 130. For example, the label prediction unit 132 uses the data output from the encoding unit 131 to predict the label of the image of input data. For example, the label prediction unit 134 estimates the posterior probability of the image of the input data, and outputs the value of the estimated posterior probability as the predicted label of the input data. The label prediction unit 134 is trained by the learning unit 135 so that the posterior probability of the correct label of the input data image is maximized.
  • the learning unit 135 performs learning of the encoding unit 131, the label prediction unit 134, and the decoding unit 133 using the image of the object to be recognized as learning data. For example, the learning unit 135 determines that the data decoded by the decoding unit 133 is close to the input data that is the source of the data, and the predicted value of the label of the input data predicted by the label prediction unit 134 is the same as the label of the input data.
  • the encoding unit 131, label prediction unit 134, and decoding unit 133 perform learning so as to approach the correct value.
  • the error evaluation unit 136 evaluates the error in Fourier space between the image of the data decoded by the decoding unit 133 (decoded data) and the image of the input data (original data) that is the source of the data.
  • FIG. 7 An example of the processing flow of the error evaluation unit 136 is shown in FIG.
  • the error evaluation unit 136 converts an image of original input data to grayscale. Note that this process is not necessary if the image of the input data can originally be expressed as a grayscale image. Further, when the error evaluation unit 136 processes the input data image without converting it to gray scale, the series of processes shown in FIG. 7 may be applied to each channel.
  • the error evaluation unit 136 converts each image of decoded data and original data into a grayscale image (S1: convert to grayscale). Then, the error evaluation unit 136 subjects the images of the decoded data and the original data, which have been converted to gray scale, to Fourier transform (S2).
  • the Fourier transform is, for example, a two-dimensional Fourier transform, and can be expressed by the following equation (2).
  • M, N are the number of vertical and horizontal pixels of the image to be converted
  • k, l are arbitrary frequencies
  • e is Napier's number
  • i is an imaginary number
  • f is a pixel value.
  • the error evaluation unit 136 may change the arrangement order of the pixels of the image so that the low frequency component is placed in the center of the pixels.
  • the error evaluation unit 136 squares the real part and imaginary part of the Fourier transform result obtained in S2, and calculates the sum, thereby obtaining the power spectrum of each image of the decoded data and the original data. (S3). Note that the error evaluation unit 136 may perform some kind of normalization on the power spectrum acquired in S3.
  • the error evaluation unit 136 calculates the difference between the power spectra of the images of the decoded data and the original data (S4). For example, the error evaluation unit 136 evaluates the difference between the power spectrum images of the decoded data and the original data.
  • the evaluation index may be, for example, the mean square error, the mean absolute error, or the cross entropy. Then, the error evaluation unit 136 outputs the difference between the power spectra of the images of the decoded data and the original data obtained in S4 as an evaluation value.
  • the determination processing unit 137 determines whether the error between the decoded data image and the original data image evaluated by the error evaluation unit 136 is larger than a predetermined threshold value. If the determination processing unit 137 determines that the above error is larger than a predetermined threshold, the original data (input data) is not the data of the image to be recognized (not the data of the image to be predicted for the label). ). On the other hand, if the determination processing unit 137 determines that the above error is less than or equal to the predetermined threshold, it determines that the input data is data of an image to be recognized (data of an image to be predicted for a label). .
  • the output processing unit 138 outputs the result of the determination by the determination processing unit 137 as to whether the input data is the data of the image to be recognized, and the result of the prediction of the label of the image of the input data by the label prediction unit 134.
  • the encoding unit 131 of the determination device 10 converts input data into low-dimensional data (S1: encoding).
  • the label prediction unit 134 predicts the label of the input data image using the low-dimensional data converted in S1 (S2: label prediction). Further, the vector quantization unit 132 performs vector quantization of the low-dimensional data transformed in S1 (S3).
  • the decoding unit 133 decodes the vector quantized data in S3 into original dimensional data (S4: decoding).
  • the error evaluation unit 136 evaluates the error between the image of the data decoded in S4 and the image of the input data that is the source of the data in Fourier space (S5: Evaluation of decoding error in Fourier space) ).
  • the determination processing unit 137 determines whether the error evaluated in S5 is larger than a predetermined threshold. Here, if the determination processing unit 137 determines that the error evaluated in S5 is larger than the predetermined threshold, it determines that the input data is not the data of the image to be recognized. On the other hand, if the determination processing unit 137 determines that the error evaluated in S5 is less than or equal to the predetermined threshold, it determines that the input data is data of an image to be recognized (S6: error determination).
  • the output processing unit 138 outputs the determination result of the input data obtained in S6 and the predicted label of the image of the input data obtained in S2 (S7: output processing).
  • the determination device 10 performing the above processing, it is possible to accurately determine whether the input data is data of an image to be recognized.
  • FIG. 10 shows input data and decoded data of the determination apparatus 10 of the comparative example and the present embodiment. Comparing the decoded data of the dog image according to the comparative example and the decoded data of the dog image according to the determination device 10 of the present embodiment, it is found that the image of the decoded data is more blurry in the determination device 10 of the present embodiment than in the comparative example. It was confirmed that In other words, it was confirmed that the determination device 10 of this embodiment generates an image with a larger decoding error for an image other than the learning target (an image of a dog) than that of the comparative example.
  • each component of each part shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings.
  • the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices can be functionally or physically distributed or integrated in arbitrary units depending on various loads, usage conditions, etc. Can be integrated and configured.
  • all or any part of each processing function performed by each device may be realized by a CPU and a program executed by the CPU, or may be realized as hardware using wired logic.
  • the determination device 10 described above can be implemented by installing a program (determination program) in a desired computer as packaged software or online software. For example, by causing the information processing device to execute the above program, the information processing device can be made to function as the determination device 10.
  • the information processing device referred to here includes mobile communication terminals such as smartphones, mobile phones, and PHSs (Personal Handyphone Systems), as well as terminals such as PDAs (Personal Digital Assistants).
  • FIG. 11 is a diagram showing an example of a computer that executes the determination program.
  • Computer 1000 includes, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These parts are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012.
  • the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
  • Hard disk drive interface 1030 is connected to hard disk drive 1090.
  • Disk drive interface 1040 is connected to disk drive 1100.
  • Serial port interface 1050 is connected to, for example, mouse 1110 and keyboard 1120.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program that defines each process executed by the determination device 10 described above is implemented as a program module 1093 in which computer-executable code is written.
  • Program module 1093 is stored in hard disk drive 1090, for example.
  • a program module 1093 for executing processing similar to the functional configuration of the determination device 10 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the data used in the processing of the embodiment described above is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like.
  • the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). The program module 1093 and program data 1094 may then be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network
  • Judgment device 11 Input/output section 12 Storage section 13 Control section 130 Autoencoder 131 Encoding section 132 Vector quantization section 133 Decoding section 134 Label prediction section 135 Learning section 136 Error evaluation section 137 Judgment processing section 138 Output processing section

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Train Traffic Observation, Control, And Security (AREA)
  • Image Analysis (AREA)

Abstract

判定装置は、認識対象とする物体の画像を学習データとして用いて、入力データを符号化する符号化部と、符号化されたデータの復号を行う復号部と、符号化されたデータを用いて入力データのラベルを予測するラベル予測部とを学習する。学習後、判定装置は入力データを復号し、入力データの画像とその復号データの画像との誤差(復号誤差)が所定の閾値を超える場合、当該入力データは認識対象の画像のデータではないと判定する。ここで、判定装置は、べクトル量子化を用いて符号化されたデータの限定的な特徴のみを復号し、フーリエ空間において定性的に復号誤差の出やすい高周波に注目して、復号データの画像と元データの画像との誤差を評価する。

Description

判定装置、判定方法、および、判定プログラム
 本発明は、入力データが認識対象の画像のデータか否かを判定するための、判定装置、判定方法、および、判定プログラムに関する。
 画像認識等において、入力されたデータが認識対象の画像のデータか否かを判定することが重要である。例えば、人間の表情の認識を行う認識器に、人間以外の動物の画像のデータが入力された場合、誤った認識結果を出力してしまうおそれがある。
 例えば、図1に示すように、入力データの顔部分の表情認識の結果を用いて会議の解析を行うシステムを考える。このシステムに、本来、表情認識の対象ではない犬の顔の画像が入力されると、システムは、犬の顔の画像に対し表情認識を行い、「参加者はポジティブな感情なので、今はいい会議です」という認識結果を出力してしまうおそれがある。つまり、犬は会議の参加者ではないため、上記の出力は意味のない出力となる。
 ここで従来、入力データが認識対象の画像のデータか否かの判定を行うため、オートエンコーダ(自己符号化器)を用いる技術が提案されている。オートエンコーダは、ニューラルネットワークを使用した次元圧縮のためのアルゴリズムである。
 オートエンコーダが学習した対象物の画像は低次元のデータ空間から復号できる一方で、学習していない対象物の画像は低次元のデータ空間から復号できないと仮定すると、オートエンコーダを認識対象の画像のデータのみで学習すれば、認識対象外の画像のデータは復号できないはずである。
 例えば、図2に示す、認識対象外の画像も表現できる28×28次元のデータ空間(ピクセル空間)と、認識対象の画像のみを表現できる低次元のデータ空間(潜在空間)とを考える。この場合、オートエンコーダが学習した対象物(認識対象の物体)の画像は低次元のデータ空間から復号できる一方で、オートエンコーダが学習しなかった対象物(認識対象外の物体)の画像は低次元のデータ空間から復号できない。
 よって、オートエンコーダに上記の学習を行うことで、入力データが認識対象の画像のデータか否かを判定できると考えられる。
 ここでオートエンコーダ単体では、上記の入力データの画像の認識処理(例えば、入力データの画像のカテゴリラベルの予測)を行うことができないので、上記のオートエンコーダにカテゴリラベルの予測機能を付加することを考える。例えば、オートエンコーダの符号化機能(入力データを低次元のデータ空間のデータに変換する機能)から出力されたデータに基づき、入力データの画像のカテゴリラベルの予測を行う機能を付加することを考える。
Paul Bergmann, et al. " MVTec AD - A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection" Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019. Aaron Van Den Oord, et al. "Neural Discrete Representation Learning" Advances in neural information processing systems 30 (2017).
 上記のようにエンコーダに、入力データの画像のカテゴリラベルの予測機能を付加する場合、入力データが認識対象の画像のデータか否かの判定とカテゴリラベルの予測(分類)とを同時に学習する必要がある。このため、エンコーダが扱う低次元のデータ空間が離散的になってしまう。よって、エンコーダがその隙間に落ちる認識対象外の画像のデータを復号すると、入力データと近いものになってしまうことがある。その結果、上記の技術では、入力データが認識対象の画像のデータか否かを精度よく判定できない場合があるという問題があった。
 そこで、本発明は、前記した問題を解決し、入力データが認識対象の画像のデータか否かの判定精度を向上させることを課題とする。
 前記した課題を解決するため、本発明は、入力データを前記入力データよりも低次元のデータに変換する符号化部と、前記符号化部により変換されたデータを、ベクトル量子化により、離散化して表現したデータに変換するベクトル量子化部と、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する復号部とを含むオートエンコーダと、前記入力データの画像の認識を行う認識部と、認識対象の物体の画像を学習データとして用いて、前記復号部により復号されたデータが前記データの元となった入力データに近づくよう、前記オートエンコーダの前記符号化部および前記復号部を学習し、前記入力データの画像の認識結果が正解データに近づくよう、前記認識部を学習する学習部と、学習後の前記符号化部により変換された後、前記ベクトル量子化部により変換され、学習後の前記復号部により復号されたデータの画像と、前記データの元となった入力データの画像とのフーリエ空間における誤差を評価する誤差評価部と、評価した前記誤差が所定の閾値よりも大きい場合、前記入力データは、認識対象の画像のデータではないと判定する判定処理部と、前記判定の結果を出力する出力処理部と、を備えることを特徴とする。
 本発明によれば、入力データが認識対象の画像のデータか否かの判定精度を向上させることができる。
図1は、表情認識を活用した会議解析システムの例を示す図である。 図2は、データ空間(ピクセル空間)と、低次元のデータ空間(潜在空間)の例を説明する図である。 図3は、オートエンコーダの入力データとその復号データの例を示す図である。 図4は、ベクトル量子化を説明するための図である。 図5は、判定装置の構成例を示す図である。 図6は、ベクトル量子化の学習を説明するための図である。 図7は、図5の誤差評価部の処理手順の例を示すフローチャートである。 図8は、判定装置の処理手順の例を示す図である。 図9は、比較例と判定装置の判定精度をAUROCで評価した結果を示す図である。 図10は、比較例と判定装置それぞれの入力データとその復号データを示す図である。 図11は、プログラムを実行するコンピュータを示す図である。
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、本実施形態に限定されない。
[概要]
 まず、図3を用いて、オートエンコーダに、入力データの画像の認識(例えば、入力データの画像のカテゴリラベルの予測)機能を付加した技術の問題点を説明する。例えば、従来技術では認識対象(例えば、人物の顔)の画像で学習を行っても、認識対象外(例えば、犬の顔)の画像も比較的精度よく復号できてしまうことがある。例えば、オートエンコーダが人物の顔の画像で学習を行った場合、図3に示すように、犬の顔の画像も比較的精度よく復号できてしまうことがある。その結果、従来技術では、入力データが認識対象の画像のデータか否かを精度よく判定できないという問題があった。
 このような問題が発生する原因は、以下の2つが考えられる。
(1)従来技術は、オートエンコーダの学習と入力データの画像の認識(分類)の学習とを同時に行うことで、入力データの符号化先のデータ空間が離散的になっている。
(2)オートエンコーダによる復号データの画像は、入力データの画像と色や形が違うというよりぼけの程度が違う。つまり、復号データの方がぼけの程度が強い。
 上記の(1)については、本来、オートエンコーダは、連続的な空間を仮定する。一方、分類問題では、学習したデータは、特徴空間で、似たもの同士のクラスタを形成するように学習される。よって、学習していないデータは、学習したデータのなすクラスタから離れて表現される。ここで、クラスタの隙間に落ちたデータは、復号できないとは限らない。つまり、クラスタの隙間に落ちたデータは、復号される可能性がある。
 そこで、本実施形態の判定装置は、できるだけ隙間からデータをサンプリングしないようにするため、入力データを符号化(低次元のデータに変換)した後、ベクトル量子化を行う。
 例えば、判定装置は、図4に示すように、連続に表現される低次元のデータ空間の座標を、最近傍の格子点の座標に置き換えることによりベクトル量子化を行う。判定装置は、上記のベクトル量子化により、連続的に表される低次元のデータ空間を離散的な表現に置換する。そして、判定装置は、ベクトル量子化を行ったデータを対象にデータの復号を行う。
 また、上記の(2)については、従来技術は、入力データの画像と復号データの画像との画素値の差が平均的に小さいか否かを評価するものにすぎないため、入力データの画像と復号データの画像のぼけの程度の差を評価できない。
 そこで、判定装置は、画像の周波数の情報を表現できるフーリエ空間で入力データと復号データとの差を評価する。例えば、判定装置は、入力データの画像と復号データの画像をフーリエ変換することで、これらの画像のスペクトル分布を得ることができる。ここで、ぼけの程度が高い画像は、パワースペクトルが低いので周波数が0に近づく。一方、ぼけの程度が低い画像は、パワースペクトルが高周波数まで伸びる。よって、判定装置は、入力データの画像と復号データの画像のパワースペクトルの差をとることで、復号データのぼけの程度を評価できる。
 このように判定装置は、ベクトル量子化を用いて認識対象の限定的な特徴を復号し、かつ、認識対象外の画像について定性的に復号誤差の出やすい周波数(高周波数)に注目して復号誤差を評価する。これにより、判定装置は、入力データが認識対象の画像のデータか否かの判定精度を向上させることができる。
[構成例]
 次に、図5を用いて、判定装置10の構成例を説明する。判定装置10は、入力データが認識対象のデータか否かの判定を行う。判定装置10は、入出力部11、記憶部12および制御部13を備える。
[入出力部]
 入出力部11は、判定装置10が各種情報の入力を受け付けたり、出力したりする際のインタフェースを司る。例えば、入出力部11は、制御部13の学習データ(認識対象とする物体の画像のデータ)、制御部13の判定対象のデータ等の入力を受け付ける。また、入出力部11は、制御部13による処理結果を出力する。例えば、入出力部11は、制御部13における判定の結果(入力データが認識対象の画像のデータか否かの判定結果)、入力データの予測ラベル等を出力する。
[記憶部]
 記憶部12は、制御部13が動作する際に用いる各種情報やプログラム、制御部13が動作した結果得られた各種情報を記憶する。ここで、記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等である。
 記憶部12は、例えば、入出力部11経由で入力された学習データを記憶する。また、記憶部12は、例えば、制御部13により学習された符号化部131、ラベル予測部134、復号部133それぞれのパラメータ等を記憶する。
[制御部]
 制御部13は、判定装置10全体の制御を司る。制御部13は、オートエンコーダ130、ラベル予測(認識)部134、学習部135、誤差評価部136、判定処理部137、および、出力処理部138を備える。上記の各部の機能は、例えば、判定装置10のCPUが、判定装置10の記憶部に記憶されるプログラムを実行することにより実現される。
[オートエンコーダ]
 オートエンコーダ130は、入力データの符号化を行った後、ベクトル量子化し、ベクトル量子化したデータを復号する。このオートエンコーダ130は、符号化部131、ベベクトル量子化部132、および、復号部133を備える。
[符号化部]
 符号化部131は、入力データの符号化を行う。例えば、符号化部131は、入力データを当該入力データよりも低次元のデータに変換する。この符号化部131は、復号部133により出力される復号データが、当該復号データの元になった入力データに一致するように学習部135により学習される。
[ベクトル量子化部]
 ベクトル量子化部132は、符号化部131により出力された低次元のデータを、ベクトル量子化により、当該低次元の空間で離散化して表現したデータに変換する。例えば、ベクトル量子化部132は、予め設定された低次元の空間で取りうる値を示した格子点の座標のうち、当該データに最も近い座標のデータに変換する(図6参照)。このベクトル量子化部132は、離散化前のデータ空間の座標が、予め設定した取りうる値(コードブック)に近づくように学習される。
 例えば、ベクトル量子化部132は、以下の式(1)に示す損失Lができるだけ小さくするよう学習される。
Figure JPOXMLDOC01-appb-M000001
 式(1)の第1項は、入力データとその復号データとの誤差を示し、第2項は、プロトタイプを、エンコードされたマップに近づけるための項であり、第3項は、エンコードされたマップを、プロトタイプに近づけるための項である。sg(・)は、勾配を返さないという演算を示し、eは、最も近いコードブックを示す。
[復号部]
 復号部133は、低次元のデータを元の次元のデータに復号する。例えば、復号部133は、ベクトル量子化部132によりベクトル量子化された低次元のデータを、元の次元のデータに復号する。この復号部133も、復号データが、当該復号データの元になった入力データに一致するように学習部135により学習される。
[ラベル予測部]
 ラベル予測部134は、オートエンコーダ130の符号化部131により低次元のデータに変換されたデータの画像の認識処理を行う。例えば、ラベル予測部132は、符号化部131から出力されたデータを用いて、入力データの画像のラベルを予測する。例えば、ラベル予測部134は、入力データの画像の事後確率を推定し、推定した事後確率の値を入力データの予測ラベルとして出力する。このラベル予測部134は、入力データの画像の正解ラベルの事後確率が最大になるように学習部135により学習される。
[学習部]
 学習部135は、認識対象とする物体の画像を学習データとして用いて、符号化部131、ラベル予測部134、および、復号部133の学習を行う。例えば、学習部135は、復号部133が復号したデータが当該データの元になった入力データに近づき、かつ、ラベル予測部134が予測した入力データのラベルの予測値が当該入力データのラベルの正解値に近づくよう、符号化部131、ラベル予測部134、および、復号部133の学習を行う。
[誤差評価部]
 誤差評価部136は、フーリエ空間における、復号部133により復号されたデータ(復号データ)の画像と、当該データの元となった入力データ(元データ)の画像との誤差を評価する。
 誤差評価部136の処理フローの例を図7に示す。ここでは、誤差評価部136が、元の入力データの画像をグレースケールに変換する場合を例に説明する。なお、元々入力データの画像がグレースケールの画像で表現できる場合は、このプロセスは不要である。また、誤差評価部136が入力データの画像をグレースケールに変換せずに処理を行う場合は、図7に示す一連のプロセスを各チャネルに適用すればよい。
 まず、誤差評価部136は、復号データおよび元データそれぞれの画像をグレースケールの画像に変換する(S1:グレースケールに変換)。そして、誤差評価部136は、グレースケールに変換した復号データおよび元データそれぞれの画像をフーリエ変換する(S2)。フーリエ変換は、例えば、2次元フーリエ変換であり、以下の式(2)で表せる。
Figure JPOXMLDOC01-appb-M000002
 式(2)における、M,Nは変換対象の画像の縦横の画素数、k,lは任意の周波数、eはネイピア数、iは虚数、fは画素値を示す。また、誤差評価部136は、S2において、画素の中央に低周波成分が来るように画像の画素の並び順を変えてもよい。
 S2の後、誤差評価部136は、S2で得られたフーリエ変換の結果における実部と虚部をそれぞれ二乗し、和を取ることで、復号データおよび元データそれぞれの画像のパワースペクトルを取得する(S3)。なお、誤差評価部136は、S3で取得したパワースペクトルに対しては何らかの正規化を行ってもよい。
 S3の後、誤差評価部136は、復号データおよび元データそれぞれの画像のパワースペクトルの差を取る(S4)。例えば、誤差評価部136は、復号データおよび元データそれぞれのパワースペクトル画像の違いを評価する。ここで評価指標は、例えば、平均二乗誤差でもいいし、平均絶対誤差でもいいし、クロスエントロピーでもよい。そして、誤差評価部136は、S4で得られた復号データおよび元データそれぞれの画像のパワースペクトルの差を評価値として出力する。
[判定処理部]
 判定処理部137は、誤差評価部136により評価された、復号データの画像と元データの画像との誤差が所定の閾値よりも大きいか否かを判定する。そして、判定処理部137が、上記の誤差が所定の閾値よりも大きいと判定した場合、元データ(入力データ)は、認識対象の画像のデータではない(ラベルの予測対象の画像のデータではない)と判定する。一方、判定処理部137が、上記の誤差が所定の閾値以下であると判定した場合、入力データは、認識対象の画像のデータである(ラベルの予測対象の画像のデータである)と判定する。
[出力処理部]
 出力処理部138は、判定処理部137による入力データが認識対象の画像のデータか否かの判定の結果と、ラベル予測部134による当該入力データの画像のラベルの予測結果とを出力する。
 このような判定装置10によれば、入力データが認識対象の画像のデータか否かを精度よく判定することができる。
[処理手順の例]
 次に、図8を用いて判定装置10の処理手順の例を説明する。なお、判定装置10は、図8に示す処理の実行前に、学習部135により、符号化部131、ラベル予測部134、ベクトル量子化部132、および、復号部133を学習済みであるものとする。
 まず、判定装置10の符号化部131は、入力データを低次元のデータに変換する(S1:符号化)。
 その後、ラベル予測部134は、S1で変換された低次元のデータを用いて入力データの画像のラベルの予測を行う(S2:ラベル予測)。また、ベクトル量子化部132は、S1で変換された低次元のデータのベクトル量子化を行う(S3)。
 S3の後、復号部133は、S3でベクトル量子化されたデータを、元の次元のデータに復号する(S4:復号)。次に、誤差評価部136は、フーリエ空間における、S4で復号されたデータの画像と、当該データの元となった入力データの画像との誤差を評価する(S5:フーリエ空間における復号誤差の評価)。
 S5の後、判定処理部137は、S5で評価した誤差が所定の閾値よりも大きいか否かを判定する。ここで、判定処理部137が、S5で評価した誤差が所定の閾値よりも大きいと判定した場合、入力データは、認識対象の画像のデータではないと判定する。一方、判定処理部137が、S5で評価した誤差が所定の閾値以下と判定した場合、入力データは、認識対象の画像のデータであると判定する(S6:誤差の判定)。
 S6の後、出力処理部138は、S6で得られた入力データの判定結果と、S2で得られた当該入力データの画像の予測ラベルとを出力する(S7:出力処理)。
 判定装置10が上記の処理を実行することで、入力データが認識対象の画像のデータか否かを精度よく判定することができる。
[実験結果]
 次に、図9を用いて判定装置10の判定精度の実験結果を説明する。本実験において、判定装置10は、AffectNet(表情認識のための人の顔の画像)を学習データとして用いて学習した。その後、判定装置10は、AffectNetおよびStanford Dogs(犬の画像)の入力を受け付けると、入力データの画像の復号誤差により、当該入力データが人の顔の画像か否かを判定した。判定精度の評価には、AUROC(チャンスレート=0.5。1に近いほど良い性能)を用いた。比較例として、ナイーブなオートエンコーダを用いた。
 図9に示すように、本実施形態の判定装置10によれば、比較例よりもAUROCの値が向上することが確認できた。
 また、比較例および本実施形態の判定装置10それぞれの入力データとその復号データを図10に示す。比較例による犬の画像の復号データと、本実施形態の判定装置10による犬の画像の復号データとを比較すると、比較例よりも本実施形態の判定装置10の方が復号データの画像がぼやけていることが確認できた。つまり、比較例よりも本実施形態の判定装置10の方が、学習対象外の画像(犬の画像)について復号誤差の大きい画像を生成することが確認できた。
 このことから、本実施形態の判定装置10によれば、上記の復号誤差により、入力データが認識対象の画像のデータか否かを精度よく判定できることが確認できた。
[システム構成等]
 また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 前記した判定装置10は、パッケージソフトウェアやオンラインソフトウェアとしてプログラム(判定プログラム)を所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を判定装置10として機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等の端末等がその範疇に含まれる。
 図11は、判定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の判定装置10が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、判定装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10 判定装置
 11 入出力部
 12 記憶部
 13 制御部
 130 オートエンコーダ
 131 符号化部
 132 ベクトル量子化部
 133 復号部
 134 ラベル予測部
 135 学習部
 136 誤差評価部
 137 判定処理部
 138 出力処理部

Claims (5)

  1.  入力データを前記入力データよりも低次元のデータに変換する符号化部と、前記符号化部により変換されたデータを、ベクトル量子化により、離散化して表現したデータに変換するベクトル量子化部と、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する復号部とを含むオートエンコーダと、
     前記入力データの画像の認識を行う認識部と、
     認識対象の物体の画像を学習データとして用いて、前記復号部により復号されたデータが前記データの元となった入力データに近づくよう、前記オートエンコーダの前記符号化部および前記復号部を学習し、前記入力データの画像の認識結果が正解データに近づくよう、前記認識部を学習する学習部と、
     学習後の前記符号化部により変換された後、前記ベクトル量子化部により変換され、学習後の前記復号部により復号されたデータの画像と、前記データの元となった入力データの画像とのフーリエ空間における誤差を評価する誤差評価部と、
     評価した前記誤差が所定の閾値よりも大きい場合、前記入力データは、認識対象の画像のデータではないと判定する判定処理部と、
     前記判定の結果を出力する出力処理部と、
     を備えることを特徴とする判定装置。
  2.  前記ベクトル量子化部は、
     前記変換されたデータを、予め設定された前記低次元の空間で取りうる値を示した格子点の座標のうち、当該データに最も近い座標のデータに変換する
     ことを特徴とする請求項1に記載の判定装置。
  3.  前記誤差評価部は、
     前記復号されたデータの画像と前記データの元となった入力データの画像それぞれをフーリエ変換した結果から、パワースペクトルを取得し、取得したパワースペクトルの差分を、フーリエ空間における、前記復号されたデータの画像と、前記データの元となった入力データの画像との前記誤差とする
     ことを特徴とする請求項1に記載の判定装置。
  4.  入力データを前記入力データよりも低次元のデータに変換する符号化部と、前記符号化部により変換されたデータを、ベクトル量子化により、離散化して表現したデータに変換するベクトル量子化部と、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する復号部と、前記入力データの画像の認識を行う認識部とを備える判定装置が、
     認識対象の物体の画像を学習データとして用いて、前記復号部により復号されたデータが前記データの元となった入力データに近づくよう、前記符号化部および前記復号部を学習し、前記入力データの画像の認識結果が正解データに近づくよう、前記認識部を学習する工程と、
     学習後の前記符号化部により、入力データを前記低次元のデータに変換する工程と、
     前記ベクトル量子化部により、前記変換されたデータを離散化して表現したデータに変換する工程と、
     学習後の前記復号部により、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する工程と、
     フーリエ空間における、前記復号されたデータの画像と、前記データの元となった入力データの画像との誤差を評価する工程と、
     評価した前記誤差が所定の閾値よりも大きい場合、前記入力データは、認識対象の画像のデータではないと判定する工程と、
     前記判定の結果を出力する工程と、
     を含むことを特徴とする判定方法。
  5.  入力データを低次元のデータに変換する符号化部と、前記変換されたデータを離散化して表現したデータに変換するベクトル量子化部と、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する復号部とを備えるコンピュータに、
     認識対象の物体の画像を学習データとして用いて、前記復号部により復号されたデータが前記データの元となった入力データに近づくよう、前記符号化部および前記復号部を学習する工程と、
     学習後の前記符号化部により、入力データを前記低次元のデータに変換する工程と、
     前記ベクトル量子化部により、前記変換されたデータを離散化して表現したデータに変換する工程と、
     学習後の前記復号部により、前記ベクトル量子化部により変換されたデータを、元の次元のデータに復号する工程と、
     フーリエ空間における、前記復号されたデータの画像と、前記データの元となった入力データの画像との誤差を評価する工程と、
     評価した前記誤差が所定の閾値よりも大きい場合、前記入力データは、認識対象の画像のデータではないと判定する工程と、
     前記判定の結果を出力する工程と、
     を実行させるための判定プログラム。
PCT/JP2022/026770 2022-07-05 2022-07-05 判定装置、判定方法、および、判定プログラム WO2024009412A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/026770 WO2024009412A1 (ja) 2022-07-05 2022-07-05 判定装置、判定方法、および、判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/026770 WO2024009412A1 (ja) 2022-07-05 2022-07-05 判定装置、判定方法、および、判定プログラム

Publications (1)

Publication Number Publication Date
WO2024009412A1 true WO2024009412A1 (ja) 2024-01-11

Family

ID=89452976

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/026770 WO2024009412A1 (ja) 2022-07-05 2022-07-05 判定装置、判定方法、および、判定プログラム

Country Status (1)

Country Link
WO (1) WO2024009412A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005967A (ja) * 1999-06-21 2001-01-12 Matsushita Electric Ind Co Ltd 画像送信装置及びニューラルネットワーク
JP2003123073A (ja) * 2001-10-15 2003-04-25 Ricoh Co Ltd 欠陥検出方法
JP2018049355A (ja) * 2016-09-20 2018-03-29 株式会社東芝 異常検知装置、学習装置、異常検知方法、学習方法、異常検知プログラム、および学習プログラム
JP2019220104A (ja) * 2018-06-22 2019-12-26 日本電信電話株式会社 センサノード及びデータセンタとして機能する装置、センサネットワーク、通信方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005967A (ja) * 1999-06-21 2001-01-12 Matsushita Electric Ind Co Ltd 画像送信装置及びニューラルネットワーク
JP2003123073A (ja) * 2001-10-15 2003-04-25 Ricoh Co Ltd 欠陥検出方法
JP2018049355A (ja) * 2016-09-20 2018-03-29 株式会社東芝 異常検知装置、学習装置、異常検知方法、学習方法、異常検知プログラム、および学習プログラム
JP2019220104A (ja) * 2018-06-22 2019-12-26 日本電信電話株式会社 センサノード及びデータセンタとして機能する装置、センサネットワーク、通信方法及びプログラム

Similar Documents

Publication Publication Date Title
CN110163258B (zh) 一种基于语义属性注意力重分配机制的零样本学习方法及系统
US11221990B2 (en) Ultra-high compression of images based on deep learning
US9400918B2 (en) Compact face representation
KR20100131060A (ko) 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법
CN108021908B (zh) 人脸年龄段识别方法及装置、计算机装置及可读存储介质
CN114187373A (zh) 训练用于合成图像数据的生成器的方法和系统
Qiao et al. Hidden markov model based dynamic texture classification
CN112307883B (zh) 训练方法、装置、电子设备以及计算机可读存储介质
WO2021059388A1 (ja) 学習装置、画像処理装置、学習方法及び学習プログラム
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
Yang et al. Discernible image compression
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN114429675A (zh) 动作识别方法、模型训练方法、装置及电子设备
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
Nishii et al. Supervised image classification by contextual AdaBoost based on posteriors in neighborhoods
CN114360520A (zh) 语音分类模型的训练方法、装置、设备及存储介质
WO2024009412A1 (ja) 判定装置、判定方法、および、判定プログラム
Nguyen et al. Convolution autoencoder-based sparse representation wavelet for image classification
CN111401440A (zh) 目标分类识别方法、装置、计算机设备及存储介质
Sopov et al. Design efficient technologies for context image analysis in dialog HCI using self-configuring novelty search genetic algorithm
CN116109534A (zh) 对抗补丁生成方法、电子设备及计算机可读存储介质
CN116168394A (zh) 图像文本识别方法和装置
Severo et al. Modified firefly algorithm applied to image vector quantisation codebook design
CN115731412A (zh) 一种基于群等变注意力神经网络的图像分类方法及其装置
WO2024009442A1 (ja) 判定装置、判定方法、および、判定プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22950206

Country of ref document: EP

Kind code of ref document: A1