WO2024079854A1 - 情報処理装置、情報処理方法、及び記録媒体 - Google Patents

情報処理装置、情報処理方法、及び記録媒体 Download PDF

Info

Publication number
WO2024079854A1
WO2024079854A1 PCT/JP2022/038259 JP2022038259W WO2024079854A1 WO 2024079854 A1 WO2024079854 A1 WO 2024079854A1 JP 2022038259 W JP2022038259 W JP 2022038259W WO 2024079854 A1 WO2024079854 A1 WO 2024079854A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
likelihood ratio
elements
processing device
sequence data
Prior art date
Application number
PCT/JP2022/038259
Other languages
English (en)
French (fr)
Inventor
章記 海老原
大輝 宮川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/038259 priority Critical patent/WO2024079854A1/ja
Publication of WO2024079854A1 publication Critical patent/WO2024079854A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Definitions

  • This disclosure relates to the technical fields of information processing devices, information processing methods, and recording media.
  • Patent Document 1 discloses a device that classifies sequence data into one of a number of predefined classes by sequentially acquiring and analyzing multiple elements contained in the sequence data.
  • Patent Document 2 discloses a method of extracting feature vectors by performing time series integration using a joint vector.
  • Patent Document 3 discloses a method of estimating log-likelihood ratios using KLIEP (Kullback Leibler Importance Estimation Procedure), an estimation method that minimizes the KL distance.
  • KLIEP Kullback Leibler Importance Estimation Procedure
  • This disclosure aims to improve the related technology described above.
  • One aspect of the information processing device disclosed herein includes an acquisition means for acquiring multiple elements included in sequence data, a calculation means for calculating a likelihood ratio indicating the likelihood of the class to which the sequence data belongs by simultaneously inputting the multiple elements and calculating the relationship between each element, and a classification means for classifying the sequence data into at least one class out of multiple classes that are classification candidates based on the likelihood ratio.
  • One aspect of the information processing method disclosed herein involves using at least one computer to obtain multiple elements contained in sequence data, input the multiple elements simultaneously, calculate the relationships between the elements, calculate a likelihood ratio indicating the likelihood of the class to which the sequence data belongs, and classify the sequence data into at least one of multiple candidate classes based on the likelihood ratio.
  • a computer program is recorded that causes at least one computer to execute an information processing method that acquires multiple elements contained in sequence data, inputs the multiple elements simultaneously and calculates the relationships between the elements, calculates a likelihood ratio indicating the likelihood of the class to which the sequence data belongs, and classifies the sequence data into at least one of multiple classes that are classification candidates based on the likelihood ratio.
  • FIG. 1 is a block diagram showing a hardware configuration of an information processing device according to a first embodiment.
  • 1 is a block diagram showing a functional configuration of an information processing device according to a first embodiment.
  • 5 is a flowchart showing a flow of operations of the information processing device according to the first embodiment.
  • 6 is a graph showing an example of a likelihood ratio calculated by the information processing device according to the first embodiment, together with a comparative example.
  • 13 is a conceptual diagram showing an example of non-consecutive elements simultaneously inputted to an information processing device according to a second embodiment.
  • FIG. FIG. 13 is a block diagram showing the configuration of a self-attention mechanism used in an information processing device according to a third embodiment.
  • FIG. 13 is a conceptual diagram showing a method for calculating a likelihood ratio in the information processing device according to the third embodiment.
  • 11 is a conceptual diagram showing a method for calculating a likelihood ratio in an information processing device according to a comparative example.
  • FIG. 13 is a conceptual diagram showing integration of outputs by an information processing device according to a fourth embodiment.
  • FIG. 1 An information processing apparatus according to a first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 An information processing apparatus according to a first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 An information processing apparatus according to a first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 An information processing apparatus according to a first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 An information processing apparatus according to a first embodiment will be described with reference to FIGS. 1 to 4.
  • Fig. 1 is a block diagram showing the hardware configuration of the information processing apparatus according to the first embodiment.
  • the information processing device 10 includes a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, and a storage device 14.
  • the information processing device 10 may further include an input device 15 and an output device 16.
  • the above-mentioned processor 11, RAM 12, ROM 13, storage device 14, input device 15, and output device 16 are each connected via a data bus 17.
  • the processor 11 reads a computer program.
  • the processor 11 is configured to read a computer program stored in at least one of the RAM 12, the ROM 13, and the storage device 14.
  • the processor 11 may read a computer program stored in a computer-readable storage medium using a storage medium reading device (not shown).
  • the processor 11 may obtain (i.e., read) a computer program from a device (not shown) disposed outside the information processing device 10 via a network interface.
  • the processor 11 controls the RAM 12, the storage device 14, the input device 15, and the output device 16 by executing the computer program that the processor 11 reads.
  • a functional block that performs class classification based on a likelihood ratio is realized within the processor 11.
  • the processor 11 may function as a controller that performs each control in the information processing device 10.
  • the processor 11 may be configured as, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), an FPGA (field-programmable gate array), a DSP (Demand-Side Platform), an ASIC (Application Specific Integrated Circuit), or a quantum processor.
  • the processor 11 may be configured as one of these, or may be configured to use multiple processors in parallel.
  • RAM 12 temporarily stores computer programs executed by processor 11.
  • RAM 12 temporarily stores data that processor 11 uses temporarily while processor 11 is executing a computer program.
  • RAM 12 may be, for example, a D-RAM (Dynamic Random Access Memory) or an SRAM (Static Random Access Memory). Also, other types of volatile memory may be used instead of RAM 12.
  • ROM 13 stores computer programs executed by processor 11. ROM 13 may also store other fixed data. ROM 13 may be, for example, a P-ROM (Programmable Read Only Memory) or an EPROM (Erasable Read Only Memory). Also, other types of non-volatile memory may be used instead of ROM 13.
  • the storage device 14 stores data that the information processing device 10 stores long-term.
  • the storage device 14 may operate as a temporary storage device for the processor 11.
  • the storage device 14 may include, for example, at least one of a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device.
  • the input device 15 is a device that receives input instructions from a user of the information processing device 10.
  • the input device 15 may include, for example, at least one of a keyboard, a mouse, and a touch panel.
  • the input device 15 may be configured as a mobile terminal such as a smartphone or a tablet.
  • the input device 15 may be, for example, a device that includes a microphone and is capable of voice input.
  • the output device 16 is a device that outputs information related to the information processing device 10 to the outside.
  • the output device 16 may be a display device (e.g., a display) that can display information related to the information processing device 10.
  • the output device 16 may also be a speaker or the like that can output information related to the information processing device 10 as audio.
  • the output device 16 may be configured as a mobile terminal such as a smartphone or a tablet.
  • the output device 16 may also be a device that outputs information in a format other than an image.
  • the output device 16 may be a speaker that outputs information related to the information processing device 10 as audio.
  • FIG. 1 shows an example of an information processing device 10 that is configured to include multiple devices, all or some of these functions may be realized by a single device.
  • Such an information processing device may, for example, be configured to include only the above-mentioned processor 11, RAM 12, and ROM 13, and the other components (i.e., storage device 14, input device 15, output device 16, etc.) may be provided by an external device connected to the information processing device 10.
  • the information processing device 10 may have some of its calculation functions realized by an external device (for example, an external server or cloud, etc.).
  • Fig. 2 is a block diagram showing the functional configuration of the information processing device according to the first embodiment.
  • the information processing device 10 is a device that performs class classification of input sequence data, and is configured to include a data acquisition unit 50, a likelihood ratio calculation unit 100, and a class classification unit 200 as components for realizing the function.
  • Each of the data acquisition unit 50, the likelihood ratio calculation unit 100, and the class classification unit 200 may be a processing block realized by, for example, the above-mentioned processor 11 (see FIG. 1).
  • the data acquisition unit 50 is configured to be able to acquire multiple elements contained in the sequence data.
  • the data acquisition unit 50 may acquire data directly from any data acquisition device (e.g., a camera, a microphone, etc.), or may read data that has been acquired in advance by a data acquisition device and stored in storage, etc.
  • the data acquisition unit 50 may be configured to acquire data from each of multiple cameras.
  • the elements of the sequence data acquired by the data acquisition unit 50 are configured to be output to the likelihood ratio calculation unit 100.
  • sequence data is data that includes multiple elements arranged in a predetermined order, and one example is time-series data. More specific examples of sequence data include, but are not limited to, video data, audio data, or subdivided image data.
  • the likelihood ratio calculation unit 100 is configured to be able to calculate a likelihood ratio based on multiple elements acquired by the data acquisition unit 50.
  • the "likelihood ratio" here is an index that indicates the likelihood of the class to which the sequence data belongs.
  • the likelihood ratio calculation unit 100 calculates the likelihood ratio by calculating the relationship between multiple elements.
  • the likelihood ratio calculation unit 100 according to this embodiment is particularly configured to be able to calculate the likelihood ratio by inputting multiple elements simultaneously and calculating the relationship between each element. For example, when elements are acquired sequentially by the data acquisition unit 50, the likelihood ratio calculation unit 100 may simultaneously input all elements acquired up to the current time to calculate the likelihood ratio. A specific calculation method when multiple elements are input simultaneously will be described in detail in another embodiment described later.
  • the classifying unit 200 is configured to classify the sequence data based on the likelihood ratio calculated by the likelihood ratio calculating unit 100.
  • the classifying unit 200 selects at least one class to which the sequence data belongs from among a plurality of classes that are classification candidates.
  • the plurality of classes that are classification candidates may be preset.
  • the plurality of classes that are classification candidates may be appropriately set by the user, or may be appropriately set based on the type of sequence data to be handled.
  • the plurality of classes may be set as a class indicating that the face included in the video data is a real face (i.e., a biological face) and a class indicating that the face is a fake face (e.g., a face in a photograph or a 3D mask).
  • the information processing device can be used as a spoofing detection device.
  • the number of classes that are classification candidates is not limited to two, and may be three or more classes.
  • the information processing device 10 may be configured to include a learning unit (not shown). Specifically, the information processing device 10 may be configured to have a function of learning regarding the calculation of likelihood ratios. The learning of the information processing device 10 is executed, for example, by inputting training data prepared in advance. This training data may be configured, for example, as a set of sequence data and information on the correct class to which the sequence data belongs (i.e., correct data). When the information processing device 10 is trained, each parameter of the information processing device 10 may be optimized, for example, so that the loss function calculated by inputting the training data is reduced.
  • Fig. 3 is a flowchart showing the flow of operations of the information processing device according to the first embodiment.
  • the data acquisition unit 50 first acquires elements contained in the sequence data (step S11).
  • the data acquisition unit 50 outputs the acquired elements of the sequence data to the likelihood ratio calculation unit 100.
  • the likelihood ratio calculation unit 100 simultaneously inputs the multiple elements acquired by the data acquisition unit 50 and calculates the likelihood ratio (step S12). For example, when video data is acquired as sequence data, the likelihood ratio calculation unit 100 may simultaneously input multiple frames of the video data to calculate the likelihood ratio. By simultaneously inputting multiple elements, a likelihood ratio that takes into account the relationship between the multiple elements is calculated. The likelihood ratio calculation unit 100 outputs the calculated likelihood ratio to the class classification unit 200.
  • the class classification unit 200 performs class classification based on the calculated likelihood ratio (step S13).
  • the class classification may determine one class to which the sequence data belongs, or may determine multiple classes to which the sequence data is likely to belong.
  • the class classification unit 200 may have a function of outputting the result of the class classification. For example, the class classification unit 200 may output the result of the class classification to a display or the like. Alternatively, the class classification unit 200 may output the result of the class classification as sound via a speaker or the like.
  • the class classification unit 200 may calculate the likelihood ratio again without performing class classification (i.e., without determining the class to classify into).
  • the data acquisition unit 50 may acquire new elements contained in the sequence data, and a new likelihood ratio may be calculated.
  • a new likelihood ratio may be calculated by simultaneously inputting all of the elements previously acquired and the newly acquired element.
  • Fig. 4 is a graph showing an example of a likelihood ratio calculated by the information processing device according to the first embodiment together with a comparative example.
  • the likelihood ratio used for class classification gradually changes in one predetermined direction as the number of samples (i.e., the input elements) increases.
  • the likelihood ratio plateaus even as the number of samples increases (i.e., the likelihood ratio stops changing).
  • One of the reasons for the likelihood ratio plateauing is, for example, the inability to properly reflect the relationship between multiple elements.
  • the acquired elements are input one by one in sequence, so the relationship between data that is far apart is no longer taken into account, and it is thought that this causes the likelihood ratio to plateau. This plateauing of the likelihood ratio does not occur in all cases, but if it does occur, there is a risk that appropriate class classification will not be possible.
  • the likelihood ratio is calculated by inputting multiple elements simultaneously and calculating the relationship between each element. In this way, it is possible to calculate a likelihood ratio that appropriately reflects the relationship between each element input simultaneously. Therefore, in the information processing device 10 according to the first embodiment, it is possible to calculate a more accurate likelihood ratio compared to a case in which multiple elements are not input simultaneously.
  • the information processing device 10 according to the second embodiment will be described with reference to Fig. 5.
  • the second embodiment differs from the first embodiment only in some operations, and other parts may be the same as the first embodiment. Therefore, the following will describe in detail the parts that differ from the first embodiment, and will omit descriptions of other overlapping parts as appropriate.
  • Fig. 5 is a conceptual diagram showing an example of non-consecutive elements simultaneously inputted in the information processing device according to the second embodiment.
  • non-consecutive elements i.e., elements separated from each other
  • the likelihood ratio is calculated.
  • the elements x1 to x7 of the sequence data x1 , x4 , and x6 are simultaneously input to the likelihood ratio calculation unit 100.
  • the likelihood ratio calculation unit 100 calculates the likelihood ratio from the multiple non-consecutive frames that have been input.
  • all the elements to be input are discontinuous, but discontinuous and continuous elements may be input simultaneously. That is, it is not necessary that all the elements to be input are discontinuous, and as long as at least one element among the elements to be input is discontinuous, the technical effect described below can be obtained accordingly.
  • x1 , x2 , and x3 (continuous elements) and x5 (discontinuous element) may be input simultaneously.
  • the likelihood ratio is calculated by simultaneously inputting non-contiguous elements (i.e., elements that are distant from each other in the sequence data). In this way, the likelihood ratio can be calculated taking into account the relationship between distant elements. Therefore, it is possible to calculate a more accurate likelihood ratio compared to when only consecutive elements are input simultaneously (i.e., when only the relationship between consecutive elements is taken into account).
  • the information processing device 10 according to the third embodiment will be described with reference to Figures 6 to 8.
  • the third embodiment differs from the first and second embodiments in some operations, and other operations may be the same as those of the first and second embodiments. Therefore, the following will describe in detail the parts that differ from the embodiments already described, and will omit descriptions of other overlapping parts as appropriate.
  • Fig. 6 is a block diagram showing the configuration of the self-attention mechanism used in the information processing device according to the third embodiment.
  • the likelihood ratio is calculated using a self-attention mechanism.
  • feature quantities Q (Query), K (Key), and V (Value) are used. These feature quantities may be extracted from each element obtained from the sequence data.
  • the self-attention mechanism first calculates the matrix product of Q (query) and K (key). At this time, the self-attention mechanism may perform a process to normalize the calculated matrix product. For example, the self-attention mechanism may perform a normalization process using a softmax function.
  • the self-attention mechanism calculates the matrix product of Q (query) and K (key) and the matrix product of V (value).
  • the matrix product calculated here becomes the output of the self-attention mechanism.
  • the self-attention mechanism may also perform a predetermined restoration process or residual process on the calculated matrix product.
  • Fig. 7 is a conceptual diagram showing a method of calculating the likelihood ratio in the information processing device according to the third embodiment.
  • a plurality of elements are input to the self-attention mechanism at the same time.
  • elements x 1 to x 5 are input.
  • the self-attention mechanism the mutual relationship between a plurality of elements is calculated, and as a result, outputs y 1 to y 5 are obtained.
  • each of the outputs y 1 to y 5 is a value that takes x 1 to x 5 into consideration.
  • the likelihood ratio calculation unit 100 is configured to calculate a likelihood ratio from these outputs y 1 to y 5. Note that a method for calculating a likelihood ratio from a plurality of outputs will be described in another embodiment described later.
  • Fig. 8 is a conceptual diagram showing a method of calculating a likelihood ratio in an information processing device according to a comparative example.
  • the information processing device is configured to calculate a likelihood ratio by inputting a plurality of elements one by one in sequence. Specifically, in the information processing device according to the comparative example, when an element x1 is input, y11 is obtained as an output based on x1 . Then, when an element x2 is input, y12 is obtained as an output based on the input x2 and the previous output y11 . In this way, in the information processing device according to the comparative example, calculations based on the input elements and the previous outputs are repeated.
  • the influence of past elements may be weakened.
  • the influence of the first input element x1 on the last output y15 is considered to be smaller than the influence of the immediately preceding input x5 . This situation may cause the likelihood ratio to plateau, as described in Fig. 4, for example.
  • the likelihood ratio is calculated by simultaneously inputting multiple elements into the self-attention mechanism. In this way, it is possible to calculate a likelihood ratio that appropriately reflects the relationship between each of the elements input simultaneously. In other words, since all elements are calculated simultaneously, it is possible to prevent the influence of previously input elements from becoming small, as in the comparative example of FIG. 8. Therefore, it is possible to calculate a more accurate likelihood ratio. Note that, although an example of using a self-attention mechanism has been given in this embodiment, the same technical effect can be obtained even when using a similar mechanism such as an MLP-mixer.
  • the information processing device 10 according to the fourth embodiment will be described with reference to Fig. 9.
  • the fourth embodiment describes a more specific example of the operation of the third embodiment described above, and the device configuration and the overall operation may be the same as those of the third embodiment. Therefore, the following will describe in detail the parts that are different from the embodiments already described, and will omit the explanation of other overlapping parts as appropriate.
  • Fig. 9 is a conceptual diagram showing the integration of outputs by the information processing device according to the fourth embodiment.
  • the likelihood ratio calculation unit 100 executes an output integration process that integrates these multiple outputs. This makes it possible to calculate a single likelihood ratio that takes into account all of the multiple outputs.
  • the likelihood ratio calculation unit 100 integrates the multiple outputs using, for example, Normalized Sum Pooling (hereinafter, appropriately referred to as "NSPooling"). Specifically, the likelihood ratio calculation unit 100 executes a process of adding up the multiple outputs and dividing the sum by the maximum value of the multiple outputs. That is, it executes a process as shown in the following formula (1).
  • NSPooling Normalized Sum Pooling
  • the method used for the output integration process is not limited to the above-mentioned NSPooling.
  • the likelihood ratio calculation unit 100 may add up each of the multiple outputs and divide the total by a predetermined constant.
  • the likelihood ratio calculation unit 100 may also use a method for calculating the average of multiple outputs (Global Average Pooling).
  • the likelihood ratio calculation unit 100 may select and use one of the multiple outputs.
  • the likelihood ratio is calculated by integrating multiple outputs from the self-attention mechanism. In this way, it is possible to appropriately calculate the likelihood ratio by taking into account all outputs from the self-attention mechanism. Furthermore, when integrating multiple outputs, if a method such as the above-mentioned NSPooling is used, it is possible to equalize the contribution of each of the multiple elements.
  • each embodiment also includes a processing method in which a program that operates the configuration of each embodiment to realize the functions of the above-mentioned embodiments is recorded on a recording medium, the program recorded on the recording medium is read as code, and executed on a computer.
  • computer-readable recording media are also included in the scope of each embodiment.
  • each embodiment includes not only the recording medium on which the above-mentioned program is recorded, but also the program itself.
  • the recording medium may be, for example, a floppy disk, hard disk, optical disk, magneto-optical disk, CD-ROM, magnetic tape, non-volatile memory card, or ROM.
  • the scope of each embodiment is not limited to programs recorded on the recording medium that execute processes by themselves, but also includes programs that operate on an OS in conjunction with other software or the functions of an expansion board to execute processes.
  • the program itself may be stored on a server, and part or all of the program may be made downloadable from the server to a user terminal.
  • the program may be provided to the user in, for example, a SaaS (Software as a Service) format.
  • the information processing device described in Supplementary Note 1 includes an information processing device including: an acquiring means for acquiring multiple elements included in sequence data; a calculating means for calculating a likelihood ratio indicating the likelihood of a class to which the sequence data belongs by simultaneously inputting the multiple elements and calculating a relationship between the elements; and a classifying means for classifying the sequence data into at least one class of multiple classes that are classification candidates based on the likelihood ratio.
  • the information processing device according to Supplementary Note 2 is the information processing device according to Supplementary Note 1, wherein the calculation means simultaneously inputs non-sequential elements in the sequence data and calculates a relationship between the non-sequential elements.
  • the information processing device according to Supplementary Note 3 is the information processing device according to Supplementary Note 1 or 2, wherein the calculation means calculates the likelihood ratio using a self-attention mechanism.
  • the information processing device according to Supplementary Note 4 is the information processing device according to Supplementary Note 3, wherein the calculation means calculates the likelihood ratio by integrating a plurality of outputs from the self-attention mechanism.
  • the information processing device described in Supplementary Note 5 is the information processing device described in Supplementary Note 4, wherein the calculation means integrates the multiple outputs by dividing the sum of the multiple outputs by the maximum value of the multiple outputs.
  • the information processing method described in Supplementary Note 6 is an information processing method comprising: acquiring, by at least one computer, a plurality of elements included in sequence data; simultaneously inputting the plurality of elements and calculating a relationship between the elements; calculating a likelihood ratio indicating a likelihood of a class to which the sequence data belongs; and classifying the sequence data into at least one of a plurality of candidate classes based on the likelihood ratio.
  • the recording medium described in Supplementary Note 7 is a recording medium having recorded thereon a computer program for causing at least one computer to execute an information processing method of acquiring multiple elements included in sequence data, inputting the multiple elements simultaneously to calculate relationships between the elements, thereby calculating a likelihood ratio indicating the likelihood of a class to which the sequence data belongs, and classifying the sequence data into at least one of multiple candidate classes based on the likelihood ratio.
  • the computer program described in Supplementary Note 8 is a computer program that causes at least one computer to execute an information processing method of acquiring multiple elements included in sequence data, inputting the multiple elements simultaneously and calculating relationships between the elements, thereby calculating a likelihood ratio indicating the likelihood of a class to which the sequence data belongs, and classifying the sequence data into at least one of multiple classification candidate classes based on the likelihood ratio.
  • the information processing system described in Supplementary Note 9 includes an information processing system including: an acquiring means for acquiring multiple elements included in sequence data; a calculating means for calculating a likelihood ratio indicating the likelihood of a class to which the sequence data belongs by simultaneously inputting the multiple elements and calculating a relationship between the elements; and a classifying means for classifying the sequence data into at least one of multiple candidate classes based on the likelihood ratio.
  • Information processing device 50 Data acquisition unit 100 Likelihood ratio calculation unit 200 Classification unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

情報処理装置(1)は、系列データに含まれる複数の要素を取得する取得手段(50)と、複数の要素を同時に入力して各要素の関係性を計算することで、系列データが属するクラスの尤もらしさを示す尤度比を算出する算出手段(100)と、尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに系列データを分類する分類手段(200)と、を備える。このような情報処理装置によれば、同時に入力した各要素の関係性を適切に反映し、正確な尤度比を算出することが可能である。

Description

情報処理装置、情報処理方法、及び記録媒体
 この開示は、情報処理装置、情報処理方法、及び記録媒体の技術分野に関する。
 この種の装置として、尤度比を用いて系列データのクラス分類を行うものが知られている。例えば特許文献1では、系列データに含まれる複数の要素を逐次的に取得して解析することにより、系列データをあらかじめ定められた複数のクラスのうちのいずれかに分類すること開示されている。
 その他の関連する技術として、例えば特許文献2では、結合ベクトルを用いて時系列統合を行い、特徴ベクトルを抽出することが開示されている。特許文献3では、KL距離を最小化する推定手法であるKLIEP(Kullback Leibler Importance Estimation Procedure)を用いて、対数尤度比を推定することが開示されている。
国際公開第2020/194497号 国際公開第2022/144992号 国際公開第2021/229663号
 この開示は、上述した関連する技術を改善することを目的とする。
 この開示の情報処理装置の一の態様は、系列データに含まれる複数の要素を取得する取得手段と、前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出する算出手段と、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する分類手段と、を備える。
 この開示の情報処理方法の一の態様は、少なくとも1つのコンピュータによって、系列データに含まれる複数の要素を取得し、前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する。
 この開示の記録媒体の一の態様は、少なくとも1つのコンピュータに、系列データに含まれる複数の要素を取得し、前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する、情報処理方法を実行させるコンピュータプログラムが記録されている。
第1実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。 第1実施形態に係る情報処理装置の機能的構成を示すブロック図である。 第1実施形態に係る情報処理装置の動作の流れを示すフローチャートである。 第1実施形態に係る情報処理装置で算出される尤度比の一例を比較例と共に示すグラフである。 第2実施形態に係る情報処理装置で同時に入力される非連続の要素の一例を示す概念図である。 第3実施形態に係る情報処理装置で用いられる自己注意機構の構成を示すブロック図である。 第3実施形態に係る情報処理装置における尤度比の算出手法を示す概念図である。 比較例に係る情報処理装置における尤度比の算出手法を示す概念図である。 第4実施形態に係る情報処理装置による出力の統合を示す概念図である。
 以下、図面を参照しながら、情報処理装置、情報処理方法、及び記録媒体の実施形態について説明する。
 <第1実施形態>
 第1実施形態に係る情報処理装置について、図1から図4を参照して説明する。
 (ハードウェア構成)
 まず、図1を参照しながら、第1実施形態に係る情報処理装置のハードウェア構成について説明する。図1は、第1実施形態に係る情報処理装置のハードウェア構成を示すブロック図である。
 図1に示すように、第1実施形態に係る情報処理装置10は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。情報処理装置10は更に、入力装置15と、出力装置16と、を備えていてもよい。上述したプロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、それぞれデータバス17を介して接続されている。
 プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、情報処理装置10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、尤度比に基づくクラス分類を実行する機能ブロックが実現される。即ち、プロセッサ11は、情報処理装置10における各制御を実行するコントローラとして機能してよい。
 プロセッサ11は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)、量子プロセッサとして構成されてよい。プロセッサ11は、これらのうち一つで構成されてもよいし、複数を並列で用いるように構成されてもよい。
 RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic Random Access Memory)や、SRAM(Static Random Access Memory)であってよい。また、RAM12に代えて、他の種類の揮発性メモリが用いられてもよい。
 ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable Read Only Memory)や、EPROM(Erasable Read Only Memory)であってよい。また、ROM13に代えて、他の種類の不揮発性メモリが用いられてもよい。
 記憶装置14は、情報処理装置10が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
 入力装置15は、情報処理装置10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置15は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。入力装置15は、例えばマイクを含む音声入力が可能な装置であってもよい。
 出力装置16は、情報処理装置10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、情報処理装置10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。また、出力装置16は、情報処理装置10に関する情報を音声出力可能なスピーカ等であってもよい。出力装置16は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。また、出力装置16は、画像以外の形式で情報を出力する装置であってもよい。例えば、出力装置16は、情報処理装置10に関する情報を音声で出力するスピーカであってもよい。
 なお、図1では、複数の装置を含んで構成される情報処理装置10の例を挙げたが、これらの全部又は一部の機能を、1つの装置で実現してもよい。このような情報処理装置は、例えば、上述したプロセッサ11、RAM12、ROM13のみを備えて構成され、その他の構成要素(即ち、記憶装置14、入力装置15、出力装置16等)については、例えば情報処理装置10に接続される外部の装置が備えるようにしてもよい。また、情報処理装置10は、一部の演算機能を外部の装置(例えば、外部サーバやクラウド等)によって実現するものであってもよい。
 (機能的構成)
 次に、図2を参照しながら、第1実施形態に係る情報処理装置10の機能的構成について説明する。図2は、第1実施形態に係る情報処理装置の機能的構成を示すブロック図である。
 図2に示すように、第1実施形態に係る情報処理装置10は、入力される系列データのクラス分類を行う装置であり、その機能を実現するための構成要素として、データ取得部50と、尤度比算出部100と、クラス分類部200とを備えて構成されている。データ取得部50、尤度比算出部100、及びクラス分類部200の各々は、例えば上述したプロセッサ11(図1参照)によって実現される処理ブロックであってよい。
 データ取得部50は、系列データに含まれる複数の要素を取得可能に構成されている。データ取得部50は、任意のデータ取得装置(例えば、カメラやマイク等)から直接データを取得するものであってもよいし、あらかじめデータ取得装置で取得されストレージ等に記憶されているデータを読み出すものであってもよい。カメラからデータを取得する場合、データ取得部50は複数のカメラの各々からデータを取得するように構成されていてもよい。データ取得部50で取得された系列データの要素は、尤度比算出部100に出力される構成となっている。なお、系列データとは、所定の順番で並んだ複数の要素を含むデータであり、例えば時系列データが一例として挙げられる。系列データのより具体的な例としては、動画データ、音声データ、或いは画像データを細分化したもの等が挙げられるが、これに限られるものではない。
 尤度比算出部100は、データ取得部50で取得された複数の要素に基づいて、尤度比を算出可能に構成されている。なお、ここでの「尤度比」とは、系列データが属するクラスの尤もらしさを示す指標である。尤度比算出部100は、複数の要素の関係性を計算することで尤度比を算出する。また、本実施形態に係る尤度比算出部100は特に、複数の要素を同時に入力して各要素の関係性を計算することで、尤度比を算出可能に構成されている。尤度比算出部100は、例えばデータ取得部50において逐次的に要素が取得されている場合に、現在時刻までに取得されたすべての要素を同時に入力して尤度比を算出してよい。複数の要素を同時に入力した場合の具体的な計算方法については、後述する他の実施形態において詳しく説明する。
 クラス分類部200は、尤度比算出部100で算出された尤度比に基づいて、系列データを分類可能に構成されている。クラス分類部200は、分類候補である複数のクラスの中から、系列データが属する少なくとも1つのクラスを選択する。分類候補である複数のクラスは、予め設定されたものであってもよい。或いは、分類候補である複数のクラスは、ユーザによって適宜設定されるものであってもよいし、扱う系列データの種別等に基づいて適宜設定されるものであってもよい。例えば、複数のクラスは、動画データに含まれている顔が本物の顔(即ち、生体の顔)であることを示すクラスと、偽物の顔(例えば、写真や3Dマスクの顔)であることを示すクラスと、として設定されてよい。このようにすれば、情報処理装置をなりすまし検知装置として用いることができる。なお、分類候補である複数のクラスの数は、2つに限定されず、3つ以上のクラスであってもよい。
 なお、情報処理装置10は、図示せぬ学習部を備えて構成されてもよい。具体的には、情報処理装置10は、尤度比の算出に関する学習を行う機能を有するように構成されてもよい。情報処理装置10の学習は、例えば予め用意された訓練データを入力することで実行される。この訓練データは、例えば系列データと、その系列データが属する正解クラスに関する情報(即ち、正解データ)とのセットとして構成されてよい。情報処理装置10を学習する際には、例えば訓練データを入力することで算出された損失関数が小さくなるように、情報処理装置10の各パラメータが最適化されてよい。
 (動作の流れ)
 次に、図3を参照しながら、第1実施形態に係る情報処理装置10の動作の流れについて説明する。図3は、第1実施形態に係る情報処理装置の動作の流れを示すフローチャートである。
 図3に示すように、情報処理装置10の動作が開始されると、まずデータ取得部50が、系列データに含まれる要素を取得する(ステップS11)。データ取得部50は、取得した系列データの要素を、尤度比算出部100に出力する。
 続いて、尤度比算出部100が、データ取得部50で取得された複数の要素を同時に入力して尤度比を算出する(ステップS12)。尤度比算出部100は、例えば系列データとして動画データが取得されている場合に、動画データにおける複数フレームを同時に入力して尤度比を算出してよい。複数の要素が同時に入力されることで、複数の要素の互いの関係性を考慮した尤度比が算出されることになる。尤度比算出部100は、算出した尤度比を、クラス分類部200に出力する。
 続いて、クラス分類部200が、算出された尤度比に基づいてクラス分類を行う(ステップS13)。クラス分類は、系列データが属する1つのクラスを決定するものであってもよいし、系列データが属する可能性の高い複数のクラスを決定するものであってもよい。クラス分類部200は、クラス分類の結果を出力する機能を有していてもよい。例えば、クラス分類部200は、クラス分類の結果をディスプレイ等に出力するようにしてもよい。或いは、クラス分類部200は、クラス分類の結果を、スピーカ等を介して音声で出力するようにしてもよい。
 なお、クラス分類部200は、算出された尤度比が所定の閾値(即ち、どのクラスに分類するかを判定するための閾値)を超えていない場合、クラス分類を行わずに(即ち、分類するクラスを決定せずに)、再度尤度比を算出するようにしてもよい。この場合、データ取得部50が新たに系列データに含まれる要素を取得して、新たな尤度比が算出されてよい。例えば、これまでに取得した要素と、新たなに取得した要素とをすべて同時に入力することで、新たな尤度比が算出されてよい。
 (技術的効果)
 次に、図4を参照しながら、第1実施形態に係る情報処理装置10によって得られる技術的効果について説明する。図4は、第1実施形態に係る情報処理装置で算出される尤度比の一例を比較例と共に示すグラフである。
 図4において、クラス分類に用いられる尤度比は、サンプル数(即ち、入力される要素)が増加するごとに、徐々に所定の一方向に変化していくことが好ましい。しかしながら、複数の要素を同時に入力しない比較例では、サンプル数が増えても尤度比が頭打ちになっている(即ち、尤度比の変化が止まっている)。尤度比が頭打ちになる原因の一つとして、例えば複数の要素の関係性を適切に反映できていないことが挙げられる。具体的には、比較例では、取得した要素を1つずつ順次入力しているため、遠く離れたデータ同士の関係性が考慮されなくなり、その結果として尤度比が頭打ちになってしまっていると考えられる。このような尤度比の頭打ちは、すべての事例で発生する訳ではないが、もし発生した場合には、適切なクラス分類が行えなくなってしまうおそれがある。
 しかるに、第1実施形態に係る情報処理装置10では、複数の要素を同時に入力して各要素の関係性を計算することで尤度比が算出される。このようにすれば、同時に入力した各要素の関係性を適切に反映した尤度比を算出できる。よって、第1実施形態に係る情報処理装置10では、複数の要素を同時に入力しない場合と比べて、より正確な尤度比を算出することができる。
 <第2実施形態>
 第2実施形態に係る情報処理装置10について、図5を参照して説明する。なお、第2実施形態は、上述した第1実施形態と一部の動作が異なるのみであり、その他の部分については第1実施形態と同様であってよい。このため、以下では、第1実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (非連続要素の入力)
 まず、第2実施形態に係る情報処理装置10において尤度比の算出に用いられる複数の要素について、図5を参照して説明する。図5は、第2実施形態に係る情報処理装置で同時に入力される非連続の要素の一例を示す概念図である。
 図5に示すように、第2実施形態に係る情報処理装置10では、系列データに含まれる複数の要素のうち、非連続の要素(即ち、互いに離れた要素)が同時に入力されることで、尤度比が算出される。図に示す例では、系列データの要素であるx~xのうち、x、x、xが尤度比算出部100に同時に入力されている。例えば、系列データとして動画データが取得されている場合、第2実施形態に係る情報処理装置10では、時系列上で連続しない複数フレーム(言い換えれば、間にあるフレームを抜かした飛び飛びのフレーム)が同時に尤度比算出部に入力される。そして、尤度比算出部100は、入力された連続しない複数フレームから尤度比を算出する。
 なお、図5に示す例では、入力されるすべての要素が非連続となっているが、非連続である要素と、連続である要素とが同時に入力されてもよい。即ち、入力される複数の要素がすべて非連続である必要はなく、入力される複数の要素のうち、少なくも1つの要素が非連続であれば、後述する技術的効果は相応に得られる。例えば、図5に示すx~xのうち、x、x、及びx(連続する要素)と、x(非連続である要素)とが同時に入力されてよい。
 (技術的効果)
 次に、第2実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図5で説明したように、第2実施形態に係る情報処理装置10では、非連続の要素(即ち、系列データ上の互いに離れた要素)を同時に入力することで尤度比が算出される。このようにすれば、互いに離れた要素の関係性を考慮して尤度比を算出することができる。このため連続した要素のみが同時に入力される場合(即ち、連続する要素の関係しか考慮されない場合)と比較すると、より正確な尤度比を算出することが可能となる。
 <第3実施形態>
 第3実施形態に係る情報処理装置10について、図6から図8を参照して説明する。なお、第3実施形態は、上述した第1及び第2実施形態と一部の動作が異なるのみであり、その他の部分については第1及び第2実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (自己注意機構)
 まず、第3実施形態に係る情報処理装置10で用いられる自己注意機構について、図6を参照して説明する。図6は、第3実施形態に係る情報処理装置で用いられる自己注意機構の構成を示すブロック図である。
 図6において、第3実施形態に係る情報処理装置10では、自己注意(Self-Attention)機構を用いて尤度比が算出される。自己注意機構では、特徴量であるQ(Query:クエリ)、K(Key:キー)、及びV(Value:バリュー)が用いられる。これらの特徴量は、系列データから取得した各要素から抽出されたものであってよい。
 自己注意機構は、まずQ(クエリ)とK(キー)の行列積を演算する。この際、自己注意機構は、演算された行列積を正規化する処理を実行してもよい。例えば、自己注意機構は、ソフトマックス関数を用いた正規化処理を実行してもよい。
 続いて、自己注意機構は、Q(クエリ)とK(キー)との行列積と、V(バリュー)との行列積を演算する。ここで演算された行列積が、自己注意機構の出力となる。なお、自己注意機構は、演算した行列積に対して所定の復元処理や残差処理を実行するようにしてもよい。
 (自己注意機構を用いた尤度比算出)
 次に、上述した自己注意機構を用いた尤度比算出について、図7を参照して説明する。図7は、第3実施形態に係る情報処理装置における尤度比の算出手法を示す概念図である。
 図7に示すように、第3実施形態に係る情報処理装置10では、自己注意機構に複数の要素が同時に入力される。ここでは、x~xの要素が入力される例を挙げている。自己注意機構では、複数の要素の互いの関係性が計算され、その結果としてy~yの出力が得られている。具体的には、出力y~yの各々が、いずれもx~xを考慮した値となっている。尤度比算出部100は、これらの出力y~yから尤度比を算出するように構成される。なお、複数の出力から尤度比を算出する手法については、後述する他の実施形態で説明する。
 (技術的効果)
 次に、第3実施形態に係る情報処理装置10によって得られる技術的効果について、図8を参照して説明する。図8は、比較例に係る情報処理装置における尤度比の算出手法を示す概念図である。
 図8において、比較例に係る情報処理装置は、複数の要素を順次1つずつ入力して尤度比を算出するものとして構成されている。具体的には、比較例に係る情報処理装置では、要素xが入力されると、xに基づく出力としてy11が得られる。その後、要素xが入力されると、入力されたxと、前回の出力y11とに基づく出力としてy12が得られる。このように、比較例に係る情報処理装置では、入力された要素と、前回までの出力とに基づく演算が繰り返されていく。
 しかしながら、比較例に係る情報処理装置では、要素を1つずつ入力していくが故に、過去の要素の影響が希薄になってしまうおそれがある。例えば、図8に示す例では、最後に出力されているy15における最初に入力した要素xの影響は、直前に入力されたxの影響よりも小さいものであると考えられる。このような状況は、例えば図4で説明したような、尤度比の頭打ちの原因になってしまうおそれがある。
 しかるに、第3実施形態に係る情報処理装置10では、自己注意機構に複数の要素を同時に入力することで尤度比が算出される。このようにすれば、同時に入力した各要素の関係性を適切に反映した尤度比を算出できる。言い換えれば、すべての要素が同時に計算されるため、図8の比較例のように、過去に入力した要素の影響が小さくなってしまうことを防止できる。よって、より正確な尤度比を算出することが可能となる。なお、本実施形態では自己注意機構を用いる例を挙げたが、その他にも、MLP-mixer等の同様の機構を用いた場合でも、同様の技術的効果が得られる。
 <第4実施形態>
 第4実施形態に係る情報処理装置10について、図9を参照して説明する。なお、第4実施形態は、上述した第3実施形態のより具体的な動作例を説明するものであり、装置構成や全体としての動作については、第3実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (出力統合処理)
 まず、図9を参照しながら、第4実施形態に係る情報処理装置10が実行する出力統合処理(具体的には、自己注意機構からの出力を統合する処理)について説明する。図9は、第4実施形態に係る情報処理装置による出力の統合を示す概念図である。
 図9に示すように、第4実施形態に係る情報処理装置10では、自己注意機構に複数の要素が同時に入力され、それらに対応する複数の出力が得られる。即ち、入力した要素の数と同じ数の出力が得られる。ただし、複数の出力(ベクトル)をそのまま尤度比とすることはできない。そこで、第4実施形態に係る尤度比算出部100は、これら複数の出力を統合する出力統合処理を実行する。これにより、複数の出力のすべてを考慮した1つの尤度比を算出することができる。
 尤度比算出部100は、例えばNormalized Sum Pooling(以下、適宜「NSPooling」と称する)を用いて、複数の出力を統合する。具体的には、尤度比算出部100は、複数の出力の各々を足し合わせた合計を、複数の出力の最大値で割る処理を実行する。即ち、下記式(1)で示すような処理を実行する。
 なお、出力統合処理に用いる手法は、上述したNSPoolingに限られるものではない。例えば、尤度比算出部100は複数の出力の各々を足し合わせた合計を、所定の定数で割るようにしてもよい。また、尤度比算出部100は、複数の出力の平均を算出する手法(Global Average Pooling)を用いてもよい。或いは、尤度比算出部100は、複数の出力からいずれか1つを選択して用いるようにしてもよい。
 (技術的効果)
 次に、第4実施形態に係る情報処理装置10によって得られる技術的効果について説明する。
 図9で説明したように、第4実施形態に係る情報処理装置10では、自己注意機構からの複数の出力を統合して尤度比が算出される。このようにすれば、自己注意機構からの出力のすべてを考慮して、適切に尤度比を算出することができる。また、複数の出力を統合する際に、上述したNSPooling等の手法を用いれば、複数の要素の各々の貢献度を等価にすることが可能である。
 上述した各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
 記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。更に、プログラム自体がサーバに記憶され、ユーザ端末にサーバからプログラムの一部または全てをダウンロード可能なようにしてもよい。プログラムは、例えばSaaS(Software as a Service)形式でユーザに提供されてもよい。
 <付記>
 以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 付記1に記載の情報処理装置は、系列データに含まれる複数の要素を取得する取得手段と、前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出する算出手段と、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する分類手段と、を備える情報処理装置である。
 (付記2)
 付記2に記載の情報処理装置は、前記算出手段は、前記系列データにおける非連続の要素を同時に入力して、前記非連続の要素の関係性を計算する、付記1に記載の情報処理装置である。
 (付記3)
 付記3に記載の情報処理装置は、前記算出手段は、自己注意機構を用いて前記尤度比を算出する、付記1又は2に記載の情報処理装置である。
 (付記4)
 付記4に記載の情報処理装置は、前記算出手段は、前記自己注意機構からの複数の出力を統合して前記尤度比を算出する、付記3に記載の情報処理装置である。
 (付記5)
 付記5に記載の情報処理装置は、前記算出手段は、前記複数の出力を足し合わせたものを、前記複数の出力の最大値で除することで、前記複数の出力を統合する、付記4に記載の情報処理装置である。
 (付記6)
 付記6に記載の情報処理方法は、少なくとも1つのコンピュータによって、系列データに含まれる複数の要素を取得し、前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する、情報処理方法である。
 (付記7)
 付記7に記載の記録媒体は、少なくとも1つのコンピュータに、系列データに含まれる複数の要素を取得し、前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する、情報処理方法を実行させるコンピュータプログラムが記録された記録媒体である。
 (付記8)
 付記8に記載のコンピュータプログラムは、少なくとも1つのコンピュータに、系列データに含まれる複数の要素を取得し、前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する、情報処理方法を実行させるコンピュータプログラムである。
 (付記9)
 付記9に記載の情報処理システムは、系列データに含まれる複数の要素を取得する取得手段と、前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出する算出手段と、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する分類手段と、を備える情報処理システムである。
 この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理装置、情報処理方法、及び記録媒体もまたこの開示の技術思想に含まれる。
 10 情報処理装置
 50 データ取得部
 100 尤度比算出部
 200 クラス分類部

Claims (7)

  1.  系列データに含まれる複数の要素を取得する取得手段と、
     前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出する算出手段と、
     前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する分類手段と、
     を備える情報処理装置。
  2.  前記算出手段は、前記系列データにおける非連続の要素を同時に入力して、前記非連続の要素の関係性を計算する、
     請求項1に記載の情報処理装置。
  3.  前記算出手段は、自己注意機構を用いて前記尤度比を算出する、
     請求項1又は2に記載の情報処理装置。
  4.  前記算出手段は、前記自己注意機構からの複数の出力を統合して前記尤度比を算出する、
     請求項3に記載の情報処理装置。
  5.  前記算出手段は、前記複数の出力を足し合わせたものを、前記複数の出力の最大値で除することで、前記複数の出力を統合する、
     請求項4に記載の情報処理装置。
  6.  少なくとも1つのコンピュータによって、
     系列データに含まれる複数の要素を取得し、
     前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、
     前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する、
     情報処理方法。
  7.  少なくとも1つのコンピュータに、
     系列データに含まれる複数の要素を取得し、
     前記複数の要素を同時に入力して各要素の関係性を計算することで、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、
     前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する、
     情報処理方法を実行させるコンピュータプログラムが記録された記録媒体。
PCT/JP2022/038259 2022-10-13 2022-10-13 情報処理装置、情報処理方法、及び記録媒体 WO2024079854A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/038259 WO2024079854A1 (ja) 2022-10-13 2022-10-13 情報処理装置、情報処理方法、及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/038259 WO2024079854A1 (ja) 2022-10-13 2022-10-13 情報処理装置、情報処理方法、及び記録媒体

Publications (1)

Publication Number Publication Date
WO2024079854A1 true WO2024079854A1 (ja) 2024-04-18

Family

ID=90669005

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/038259 WO2024079854A1 (ja) 2022-10-13 2022-10-13 情報処理装置、情報処理方法、及び記録媒体

Country Status (1)

Country Link
WO (1) WO2024079854A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009245314A (ja) * 2008-03-31 2009-10-22 Kddi Corp 時系列データの識別装置および動画像への人物メタ情報付与装置
WO2022157973A1 (ja) * 2021-01-25 2022-07-28 日本電気株式会社 情報処理システム、情報処理方法、及びコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009245314A (ja) * 2008-03-31 2009-10-22 Kddi Corp 時系列データの識別装置および動画像への人物メタ情報付与装置
WO2022157973A1 (ja) * 2021-01-25 2022-07-28 日本電気株式会社 情報処理システム、情報処理方法、及びコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EBIHARA AKINORI A., TAIKI MIYAGAWA, KAZUYUKI SAKURAI, HITOSHI IMAOKA: "Deep Neural Networks for the Sequential Probability Ratio Test on Non-i.i.d. Data Series", 17 June 2020 (2020-06-17), pages 1 - 56, XP093062686, Retrieved from the Internet <URL:https://arxiv.org/pdf/2006.05587v2.pdf> *

Similar Documents

Publication Publication Date Title
WO2016054779A1 (en) Spatial pyramid pooling networks for image processing
CN111523413B (zh) 生成人脸图像的方法和装置
CN113505848B (zh) 模型训练方法和装置
CN112149615A (zh) 人脸活体检测方法、装置、介质及电子设备
WO2020238321A1 (zh) 用于识别年龄的方法和装置
WO2014074959A1 (en) Real-time face detection using pixel pairs
JPWO2016147612A1 (ja) システム、画像認識方法、および、プログラム
CN111767750A (zh) 图像处理方法和装置
CN110647832A (zh) 获取证件中信息的方法和装置、电子设备和存储介质
CN110490058B (zh) 行人检测模型的训练方法、装置、系统和计算机可读介质
JP2019220014A (ja) 画像解析装置、画像解析方法及びプログラム
CN108268778B (zh) 数据处理方法、装置及存储介质
WO2024079854A1 (ja) 情報処理装置、情報処理方法、及び記録媒体
JP6911995B2 (ja) 特徴抽出方法、照合システム、およびプログラム
CN112732553A (zh) 图像测试方法、装置、电子设备及存储介质
WO2022111688A1 (zh) 人脸活体检测方法、装置及存储介质
WO2024079853A1 (ja) 情報処理装置、情報処理方法、及び記録媒体
CN115004245A (zh) 目标检测方法、装置、电子设备和计算机存储介质
CN114842476A (zh) 水印检测方法及装置、模型训练方法及装置
CN114639056A (zh) 直播内容的识别方法、装置、计算机设备及存储介质
CN108446737B (zh) 用于识别对象的方法和装置
WO2021022712A1 (zh) 图像识别模型训练方法、装置以及计算机设备
CN112070022A (zh) 人脸图像识别方法、装置、电子设备和计算机可读介质
WO2023148846A1 (ja) 情報処理装置、情報処理方法、及び記録媒体
WO2023181272A1 (ja) 情報処理装置、情報処理方法、及び記録媒体