WO2022157973A1 - 情報処理システム、情報処理方法、及びコンピュータプログラム - Google Patents

情報処理システム、情報処理方法、及びコンピュータプログラム Download PDF

Info

Publication number
WO2022157973A1
WO2022157973A1 PCT/JP2021/002439 JP2021002439W WO2022157973A1 WO 2022157973 A1 WO2022157973 A1 WO 2022157973A1 JP 2021002439 W JP2021002439 W JP 2021002439W WO 2022157973 A1 WO2022157973 A1 WO 2022157973A1
Authority
WO
WIPO (PCT)
Prior art keywords
likelihood ratio
likelihood
information processing
learning
processing system
Prior art date
Application number
PCT/JP2021/002439
Other languages
English (en)
French (fr)
Inventor
大輝 宮川
章記 海老原
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2022576936A priority Critical patent/JPWO2022157973A1/ja
Priority to PCT/JP2021/002439 priority patent/WO2022157973A1/ja
Priority to US18/272,959 priority patent/US20240086424A1/en
Publication of WO2022157973A1 publication Critical patent/WO2022157973A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Definitions

  • This disclosure relates to the technical field of information processing systems, information processing methods, and computer programs that process information related to classification, for example.
  • Patent Document 1 discloses a technique for classifying series data into one of a plurality of predetermined classes by sequentially acquiring and analyzing multiple elements included in the series data.
  • Patent Document 2 discloses classifying the movement trajectories included in the image subset into subclasses, assigning the same subclass label to trajectories with a high subclass sharing ratio, and classifying each subclass.
  • Patent Document 4 discloses optimizing the parameters of an identification device by updating the parameters so that the loss function including the log-likelihood ratio becomes small.
  • This disclosure aims to improve the related technology described above.
  • One aspect of the information processing system of this disclosure is an acquisition unit that acquires a plurality of elements included in series data, and a class to which the series data belongs based on at least two consecutive elements among the plurality of elements.
  • calculation means for calculating a likelihood ratio indicating likelihood; classification means for classifying the series data into at least one class among a plurality of classes that are classification candidates based on the likelihood ratio; learning means for performing learning regarding calculation of the likelihood ratio using an exp-type loss function.
  • One aspect of the information processing method of this disclosure acquires a plurality of elements included in series data, and determines the likelihood of a class to which the series data belongs based on at least two consecutive elements among the plurality of elements. Calculate the likelihood ratio shown, classify the series data into at least one class among a plurality of classes that are classification candidates based on the likelihood ratio, and use a log-sum-exp type loss function, Learning regarding calculation of the likelihood ratio is performed.
  • One aspect of the computer program of the present disclosure obtains a plurality of elements included in series data, and indicates the likelihood of a class to which the series data belongs based on at least two consecutive elements among the plurality of elements. Calculate a likelihood ratio, classify the series data into at least one class among a plurality of classes that are classification candidates based on the likelihood ratio, and use a log-sum-exp type loss function to The computer is operated so as to learn about calculating the likelihood ratio.
  • FIG. 2 is a block diagram showing the hardware configuration of the information processing system according to the first embodiment
  • FIG. 1 is a block diagram showing a functional configuration of an information processing system according to a first embodiment
  • FIG. 4 is a flow chart showing the flow of operation of the classification device in the information processing system according to the first embodiment
  • 4 is a flow chart showing the flow of operation of a learning unit in the information processing system according to the first embodiment
  • 9 is a flow chart showing the operation flow of a learning unit in the information processing system according to the second embodiment
  • FIG. 11 is a matrix diagram showing an example of likelihood ratios considered by a learning unit in the information processing system according to the second embodiment
  • 13 is a flow chart showing the flow of operation of a learning unit in an information processing system according to the third embodiment
  • FIG. 16 is a flow chart showing the flow of operation of a learning unit in an information processing system according to the fourth embodiment
  • FIG. FIG. 14 is a matrix diagram showing an example of likelihood ratios considered by a learning unit in an information processing system according to a fourth embodiment
  • FIG. 22 is a block diagram showing a functional configuration of an information processing system according to a seventh embodiment
  • FIG. FIG. 16 is a flow chart showing the flow of operation of a classification device in an information processing system according to a seventh embodiment
  • FIG. FIG. 22 is a block diagram showing a functional configuration of an information processing system according to an eighth embodiment
  • FIG. FIG. 21 is a flow chart showing the flow of operations of a likelihood ratio calculation unit in an information processing system according to the eighth embodiment
  • FIG. FIG. 21 is a flow chart showing the flow of operation of a classification device in an information processing system according to a ninth embodiment
  • FIG. 1 An information processing system according to the first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 An information processing system according to the first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 is a block diagram showing the hardware configuration of an information processing system according to the first embodiment.
  • the information processing system 1 includes a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, and a storage device .
  • the information processing system 1 may further include an input device 15 and an output device 16 .
  • Processor 11 , RAM 12 , ROM 13 , storage device 14 , input device 15 and output device 16 are connected via data bus 17 .
  • the processor 11 reads a computer program.
  • processor 11 is configured to read a computer program stored in at least one of RAM 12, ROM 13 and storage device .
  • the processor 11 may read a computer program stored in a computer-readable recording medium using a recording medium reader (not shown).
  • the processor 11 may acquire (that is, read) a computer program from a device (not shown) arranged outside the information processing system 1 via a network interface.
  • the processor 11 controls the RAM 12, the storage device 14, the input device 15 and the output device 16 by executing the read computer program.
  • the processor 11 implements functional blocks for performing classification using likelihood ratios and related learning processing.
  • Examples of the processor 11 include a CPU (Central Processing Unit), GPU (Graphics Processing Unit), FPGA (Field-Programmable Gate Array), DSP (Demand-Side Platform), and ASIC (Application Specific Integrate).
  • the processor 11 may use one of the examples described above, or may use a plurality of them in parallel.
  • the RAM 12 temporarily stores computer programs executed by the processor 11.
  • the RAM 12 temporarily stores data temporarily used by the processor 11 while the processor 11 is executing the computer program.
  • the RAM 12 may be, for example, a D-RAM (Dynamic RAM).
  • the ROM 13 stores computer programs executed by the processor 11 .
  • the ROM 13 may also store other fixed data.
  • the ROM 13 may be, for example, a P-ROM (Programmable ROM).
  • the storage device 14 stores data that the information processing system 1 saves for a long period of time.
  • Storage device 14 may act as a temporary storage device for processor 11 .
  • the storage device 14 may include, for example, at least one of a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device.
  • the input device 15 is a device that receives input instructions from the user of the information processing system 1 .
  • Input device 15 may include, for example, at least one of a keyboard, mouse, and touch panel.
  • the input device 15 may be a dedicated controller (operation terminal).
  • the input device 15 may include a terminal owned by the user (for example, a smart phone, a tablet terminal, or the like).
  • the input device 15 may be a device capable of voice input including, for example, a microphone.
  • the output device 16 is a device that outputs information about the information processing system 1 to the outside.
  • the output device 16 may be a display device (for example, display) capable of displaying information about the information processing system 1 .
  • the display device here may be a television monitor, a personal computer monitor, a smart phone monitor, a tablet terminal monitor, or a monitor of other mobile terminals.
  • the display device may be a large monitor, digital signage, or the like installed in various facilities such as stores.
  • the output device 16 may be a device that outputs information in a format other than an image.
  • the output device 16 may be a speaker that outputs information about the information processing system 1 by voice.
  • FIG. 2 is a block diagram showing the functional configuration of the information processing system according to the first embodiment.
  • the information processing system 1 includes a classification device 10 and a learning section 300 .
  • the classification device 10 is a device that performs class classification of input series data, and includes a data acquisition unit 50, a likelihood ratio calculation unit 100, and a class classification unit 200 as processing blocks for realizing the function. configured with.
  • the learning unit 300 is configured to be able to execute learning processing regarding the classification device 10 .
  • the classification device 10 may be configured to include the learning unit 300 .
  • Each of the data acquisition unit 50, the likelihood ratio calculation unit 100, the class classification unit 200, and the learning unit 300 may be implemented by the above-described processor 11 (see FIG. 1).
  • the data acquisition unit 50 is configured to be able to acquire a plurality of elements included in series data.
  • the data acquisition unit 50 may directly acquire data from an arbitrary data acquisition device (for example, a camera, a microphone, etc.), or read data that has been acquired in advance by a data acquisition device and stored in a storage or the like. can be anything.
  • the data acquisition unit 50 may be configured to acquire data from each of the plurality of cameras.
  • the elements of the series data acquired by the data acquisition unit 50 are configured to be output to the likelihood ratio calculation unit 100 .
  • series data is data that includes a plurality of elements arranged in a predetermined order, and an example thereof is time series data. More specific examples of series data include moving image data and audio data, but are not limited to these.
  • the likelihood ratio calculator 100 is configured to be able to calculate the likelihood ratio based on at least two consecutive elements among the plurality of elements acquired by the data acquisition unit 50 .
  • the “likelihood ratio” here is an index indicating the likelihood of the class to which the series data belongs.
  • a specific example of the likelihood ratio and a specific calculation method will be described in detail in other embodiments described later.
  • the class classification unit 200 is configured to be able to classify series data based on the likelihood ratios calculated by the likelihood ratio calculation unit 100 .
  • the class classification unit 200 selects at least one class to which series data belongs from among a plurality of classes that are classification candidates.
  • a plurality of classes that are classification candidates may be set in advance.
  • a plurality of classes, which are classification candidates may be set as appropriate by the user, or may be set as appropriate based on the type of series data to be handled.
  • the learning unit 300 uses the loss function to learn about calculating the likelihood ratio. Specifically, learning regarding the calculation of the likelihood ratio is performed so that the class classification based on the likelihood ratio is performed accurately.
  • the loss function used by the learning unit 300 according to the present embodiment is a log-sum-exp type loss function, more specifically, a function in which log contains sum and exp.
  • a loss function may be preset as a function that satisfies such a definition. A specific example of the loss function will be described in detail in another embodiment described later.
  • FIG. 3 is a flow chart showing the operation flow of the classification device in the information processing system according to the first embodiment.
  • the data acquisition unit 50 first acquires the elements included in the series data (step S11).
  • the data acquisition unit 50 outputs the acquired elements of the series data to the likelihood ratio calculation unit 100 .
  • the likelihood ratio calculator 100 calculates the likelihood ratio based on the two or more acquired elements (step S12).
  • the class classification unit 200 performs class classification based on the calculated likelihood ratio (step S13).
  • the class classification may determine one class to which the series data belongs, or may determine a plurality of classes to which the series data are highly likely to belong.
  • the class classification unit 200 may output the result of class classification to a display or the like. Further, the class classification unit 200 may output the result of class classification by voice through a speaker or the like.
  • FIG. 4 is a flow chart showing the operation flow of the learning unit in the information processing system according to the first embodiment.
  • training data is first input to the learning unit 300 (step S101).
  • the training data may be configured, for example, as a set of series data and information on the correct class to which the series data belongs (that is, correct data).
  • the learning unit 300 adjusts the parameters (specifically, the parameters of the model for calculating the likelihood ratio) so that the calculated loss function becomes smaller (step S103). That is, the learning unit 300 optimizes the parameters of the model for calculating the likelihood ratio.
  • the learning unit 300 optimizes the parameters of the model for calculating the likelihood ratio.
  • existing techniques can be appropriately adopted.
  • An example of an optimization technique is error backpropagation, but other techniques may be used.
  • the learning unit 300 determines whether or not all learning has been completed (step S104).
  • the learning unit 300 may determine whether or not all learning has been completed, depending on whether or not all training data has been input, for example.
  • the learning section 300 may determine whether or not all learning has been completed based on whether or not a predetermined period of time has elapsed since the start of learning.
  • the learning unit 300 may determine whether or not all learning has been completed by determining whether or not the processing from steps S101 to S103 described above has been looped a predetermined number of times.
  • step S104 If it is determined that all learning has been completed (step S104: YES), the series of processing ends. On the other hand, if it is determined that all learning has not been completed (step S104: NO), the learning section 300 starts the process from step S101 again. As a result, the learning process using the training data is repeated, and the parameters are adjusted to be more optimal.
  • the learning unit 300 performs learning regarding calculation of likelihood ratios used for class classification. Especially in this embodiment, learning is performed using a log-sum-exp type loss function.
  • a log-sum-exp type loss function for learning the likelihood ratio improves the convergence in the stochastic gradient descent method. More specifically, it is possible to assign larger gradients to those that are relatively difficult to classify using the likelihood ratio (for example, hard class, hard frame, hard example), so convergence is accelerated and efficiency is improved. It is possible to learn For example, it takes a relatively long time to learn a DNN (Deep Neural Network), so by improving the convergence as described above, extremely efficient learning can be performed.
  • DNN Deep Neural Network
  • Loss Weighting As an existing technology that can be used when learning difficult classifications, there is a method of weighting by multiplying the loss function by an appropriate coefficient (so-called Loss Weighting), but this method has a coefficient Empirical rules and tuning are required when deciding. There is also a known method of learning by inputting difficult-to-classify data many times while allowing duplication (so-called oversampling). It takes a lot of steps to see and slows convergence. Alternatively, there is a known method of emphasizing difficult data by deleting data that is easy to classify (so-called undersampling). Degradation is inevitable. However, if learning is performed using the log-sum-exp type loss function described in this embodiment, efficient learning can be performed while solving the above problems.
  • FIG. 5 An information processing system 1 according to the second embodiment will be described with reference to FIGS. 5 and 6.
  • FIG. 5 It should be noted that the second embodiment differs from the above-described first embodiment only in a part of the operation. ) and the like may be the same as in the first embodiment. Therefore, in the following, portions different from the first embodiment will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 5 is a flow chart showing the operation flow of the information processing system according to the second embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • training data is first input to the learning unit 300 (step S101).
  • the learning unit 300 calculates a loss function using the input training data.
  • the likelihood of belonging to one class is the denominator, and the likelihood of belonging to another class is the numerator.
  • This loss function is a function that increases the likelihood ratio when the correct class to which the series data belongs is in the numerator of the likelihood ratio, and decreases the likelihood ratio when the correct class is in the denominator of the likelihood ratio.
  • This loss function is also a log-sum-exp type loss function, as in the first embodiment. The likelihood ratio considered in the loss function will be described later in detail with specific examples.
  • the learning unit 300 adjusts the parameters so that the calculated loss function becomes smaller (step S103). That is, the learning unit 300 optimizes the parameters of the model for calculating the likelihood ratio. After that, the learning unit 300 determines whether or not all learning has been completed (step S104). If it is determined that all learning has been completed (step S104: YES), a series of processing ends. On the other hand, if it is determined that all learning has not been completed (step S104: NO), the learning section 300 starts the process from step S101 again.
  • FIG. 6 is a matrix diagram showing an example of likelihood ratios considered by a learning unit in the information processing system according to the second embodiment.
  • the likelihood is considered in a matrix form.
  • class 0 the likelihood indicating the likelihood that the series data is “class 0”.
  • the numerator of the logarithmic likelihood ratio (hereinafter simply referred to as "likelihood ratio”) is all p(X
  • y 0).
  • the numerators of the likelihood ratios are all p(X
  • y 1).
  • the numerators of the likelihood ratios are all p(X
  • y 2).
  • the denominators of the likelihood ratios are all p(X
  • y 0).
  • the denominators of the likelihood ratios are all p(X
  • y 1).
  • the denominator of the likelihood ratio is all p(X
  • y 2).
  • the likelihood ratios on the diagonal of the matrix have the same likelihood in the denominator and the numerator. Specifically, log ⁇ p(X
  • y 0)/p(X
  • y 0) ⁇ in the first row from the top and the first column from the left, and in the second row from the top and the second column from the left log ⁇ p(X
  • y 1)/p(X
  • y 1) ⁇ , third row from top, third column from left log ⁇ p(X
  • y 2)/p(X
  • y 2) ⁇ have the same denominator and numerator respectively.
  • the likelihood ratios located opposite to each other with the likelihood ratio on the diagonal line have opposite denominators and numerators.
  • y 0)/p(X
  • y 1) ⁇ in the first row from the top and the second column from the left, and log ⁇ p(X
  • y 0)/p(X
  • y 1) ⁇ , the denominator and numerator are reversed.
  • y 0)/p(X
  • y 2) ⁇ in the first row from the top and the third column from the left and log In ⁇ p(X
  • y 2)/p(X
  • y 0) ⁇ , the denominator and the numerator are reversed.
  • the likelihood ratios where the denominator and numerator on the diagonal line are the same are all log1, and their value is zero. For this reason, the likelihood ratio in which the denominator and the numerator on the diagonal line are the same becomes a substantially meaningless value even if it is considered in the loss function. Therefore, the likelihood ratio in which the denominator and the numerator on the diagonal line are the same is not considered in the loss function.
  • the number of likelihood ratios remaining after excluding the likelihood ratios on the diagonal is N ⁇ (N ⁇ 1) where N is the number of classes.
  • the likelihood ratios of these N ⁇ (N ⁇ 1) patterns ie, the likelihood ratios excluding the diagonal likelihood ratios in the matrix
  • a specific example of the loss function considering the likelihood ratio of N ⁇ (N ⁇ 1) patterns will be described in detail in another embodiment described later.
  • the likelihood indicating the likelihood of belonging to one class is used as the denominator, and the likelihood indicating the likelihood of belonging to another class is used as the denominator.
  • Learning is performed using a loss function that considers the likelihood ratios of N ⁇ (N ⁇ 1) patterns as numerators.
  • a loss function that considers the likelihood ratios of N ⁇ (N ⁇ 1) patterns as numerators.
  • the loss function used in the second embodiment is a log-sum-exp type loss function as in the first embodiment. Therefore, it is possible to improve the convergence in the stochastic gradient descent method, and as a result, it is possible to perform efficient learning.
  • FIG. 7 is a flow chart showing the operation flow of the information processing system according to the third embodiment.
  • the same reference numerals are assigned to the same processes as those shown in FIG.
  • training data is first input to the learning unit 300 (step S101).
  • the learning unit 300 calculates a loss function using the input training data.
  • a loss function is calculated taking into consideration part of the likelihood ratio of N ⁇ (N ⁇ 1) patterns whose denominator is the likelihood indicating the likelihood of belonging to another class and whose numerator is the likelihood indicating the likelihood of belonging to another class (step S301 ). That is, the learning unit 300 according to the third embodiment does not consider all the likelihood ratios of the N ⁇ (N ⁇ 1) patterns described in the second embodiment, but only some of them.
  • this loss function also has a large likelihood ratio when the correct class to which the series data belongs is in the numerator of the likelihood ratio, and when the correct class is in the denominator of the likelihood ratio It is a function that reduces the likelihood ratio.
  • This loss function is also a log-sum-exp type loss function, as in the first embodiment.
  • the learning unit 300 adjusts the parameters so that the calculated loss function becomes smaller (step S103). After that, the learning unit 300 determines whether or not all learning has been completed (step S104). If it is determined that all learning has been completed (step S104: YES), a series of processing ends. On the other hand, if it is determined that all learning has not been completed (step S104: NO), the learning section 300 starts the process from step S101 again.
  • some of the likelihood ratios to be considered in the loss function may be selected in advance by the user or the like, or may be automatically selected by the learning unit 300.
  • the learning unit 300 may select the likelihood ratios according to a preset rule.
  • the learning unit 300 may determine whether to make a selection based on the calculated likelihood ratio value.
  • An example of selecting some likelihood ratios to be considered in the loss function is, for example, selecting only the likelihood ratios of one row or one column in the matrix shown in FIG.
  • the likelihood ratio to be considered in the loss function only the likelihood ratio in the first row of the matrix shown in FIG. 6 may be selected, or only the likelihood ratio in the second row may be selected, Only the likelihood ratio in the third row may be selected.
  • only the likelihood ratios in the first column of the matrix may be selected, only the likelihood ratios in the second column may be selected, or only the likelihood ratios in the third column may be selected.
  • only the likelihood ratios of some multiple rows or some multiple columns in the matrix may be selected. Specifically, only the likelihood ratios in the first and second rows of the matrix may be selected, only the likelihood ratios in the second and third rows may be selected, and the third row and only the likelihood ratios in the first row may be selected. Alternatively, only the likelihood ratios in the first and second columns of the matrix may be selected, only the likelihood ratios in the second and third columns may be selected, or the third and first columns may be selected. Only the eye likelihood ratios may be selected.
  • likelihood ratios considered in the loss function may be randomly selected without regard to rows or columns.
  • the likelihood indicating the likelihood of belonging to one class is used as the denominator, and the likelihood indicating the likelihood of belonging to another class is used as the numerator.
  • Learning is performed using a loss function that considers a portion of the likelihood ratios of the N ⁇ (N ⁇ 1) patterns.
  • a loss function that considers a portion of the likelihood ratios of the N ⁇ (N ⁇ 1) patterns.
  • the likelihood ratios to be considered in the loss function from among the N ⁇ (N ⁇ 1) patterns, all the likelihood ratios of the N ⁇ (N ⁇ 1) patterns Efficient learning can be performed compared to the case of considering .
  • learning efficiency can be improved by selecting only likelihood ratios that have a relatively large effect on the loss function and not selecting likelihood ratios that have a relatively small effect on the loss function.
  • the loss function used in the third embodiment is also a log-sum-exp type loss function, as in each of the above-described embodiments. Therefore, the convergence in the stochastic gradient descent method can be improved, and as a result, more efficient learning can be performed.
  • FIG. 8 An information processing system 1 according to the fourth embodiment will be described with reference to FIGS. 8 and 9.
  • FIG. 8 the fourth embodiment describes a specific selection example of the above-described third embodiment (that is, a selection example of some likelihood ratios to be considered in the loss function), and other parts , may be the same as in the third embodiment. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 8 is a flow chart showing the operation flow of the information processing system according to the fourth embodiment.
  • the same reference numerals are assigned to the same processes as those shown in FIG.
  • training data is first input to the learning unit 300 (step S101).
  • the learning unit 300 calculates a loss function using the input training data. is in the numerator to calculate a loss function considering the likelihood ratio (step S401). That is, the learning unit 300 according to the fourth embodiment selects the likelihood ratios in which the correct class is in the numerator as the likelihood ratios of a portion of the N ⁇ (N ⁇ 1) patterns described in the third embodiment. As in the second and third embodiments, this loss function also has a large likelihood ratio when the correct class to which the series data belongs is in the numerator of the likelihood ratio, and the correct class is in the denominator of the likelihood ratio. It is a function that reduces the likelihood ratio in a certain case. This loss function is also a log-sum-exp type loss function, as in the first embodiment. A specific example of the loss function considering the likelihood ratio that the correct class is in the numerator will be described in detail in another embodiment described later.
  • the learning unit 300 adjusts the parameters so that the calculated loss function becomes smaller (step S103). After that, the learning unit 300 determines whether or not all learning has been completed (step S104). If it is determined that all learning has been completed (step S104: YES), a series of processing ends. On the other hand, if it is determined that all learning has not been completed (step S104: NO), the learning section 300 starts the process from step S101 again.
  • FIG. 9 is a matrix diagram showing an example of likelihood ratios considered by a learning unit in the information processing system according to the fourth embodiment.
  • the likelihood ratios are arranged like an alternating matrix, as already explained in the second embodiment (see FIG. 6).
  • the learning unit 300 selects the likelihood ratios in which the correct class is in the numerator from among the likelihood ratios of N ⁇ (N ⁇ 1) patterns excluding the likelihood ratios on the diagonal line in such a matrix. to be considered in the loss function.
  • the learning unit 300 selects the likelihood ratios in which class 1 is in the numerator from the likelihood ratios of N ⁇ (N ⁇ 1) patterns and considers them in the loss function. Specifically, only the likelihood ratios in the second row from the top of FIG. 9 (excluding the likelihood ratios on the diagonal line) are selected and considered in the loss function. In this case, log ⁇ p(X
  • y 1)/p(X
  • y 0) ⁇ on the second row from the top and the first column from the left and log on the second row from the top and the third column from the left ⁇ p(X
  • y 1)/p(X
  • y 2) ⁇ will be considered in the loss function. That is, the likelihood ratios not shaded in gray in FIG. 9 are taken into account in the loss function.
  • learning section 300 calculates the likelihood that class 0 is in the numerator from the likelihood ratios of the N ⁇ (N ⁇ 1) patterns.
  • a power ratio may be selected and taken into account in the loss function. Specifically, only the likelihood ratios in the first row from the top of FIG. 9 (excluding the likelihood ratios on the diagonal line) should be selected and considered in the loss function. In this case, log ⁇ p(X
  • y 0)/p(X
  • y 1) ⁇ in the first row from the top and the second column from the left and log in the first row from the top and the third column from the left ⁇ p(X
  • y 0)/p(X
  • y 2) ⁇ will be considered in the loss function.
  • the learning unit 300 determines that class 2 is in the numerator from the likelihood ratios of the N ⁇ (N ⁇ 1) patterns.
  • a likelihood ratio may be selected to be considered in the loss function. Specifically, only the likelihood ratios in the third row from the top of FIG. 9 (excluding the likelihood ratios on the diagonal line) should be selected and considered in the loss function. In this case, log ⁇ p(X
  • y 2)/p(X
  • y 0) ⁇ on the third row from the top and the first column from the left and log on the third row from the top and the second column from the left ⁇ p(X
  • y 2)/p(X
  • y 1) ⁇ will be considered in the loss function.
  • the information processing system 1 uses a loss function that considers the likelihood ratio that the correct class is in the numerator of the N ⁇ (N ⁇ 1) patterns. Learning is performed. If such a loss function is used, as in each of the above-described embodiments, appropriate learning is performed. It becomes possible to select to Moreover, in the fourth embodiment, the likelihood ratio that the correct class is in the numerator (in other words, the likelihood ratio that may have a large impact on the loss function) is considered in the loss function. -1) Efficient learning can be performed compared to the case where all likelihood ratios of patterns are considered.
  • the loss function used in the fourth embodiment is also a log-sum-exp type loss function, as in each of the above-described embodiments. Therefore, the convergence in the stochastic gradient descent method can be improved, and as a result, more efficient learning can be performed.
  • the fifth embodiment describes a specific example of the loss function used in the above-described first to fourth embodiments, and the device configuration and operation flow are the same as those in the first to fourth embodiments. can be Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • Equation (1) is a loss function corresponding to the configuration that considers the likelihood ratio that the correct class is in the numerator, as described in the fourth embodiment.
  • K is the number of classes
  • M is the number of data
  • T is the time series length.
  • i is a subscript in the row direction
  • l is a subscript in the column direction (that is, a subscript indicating the row number and column number in the matrix shown in FIG. 6, etc.).
  • is the likelihood ratio, and in Equation (1) above, represents the logarithmic likelihood ratio at the label yk row, l-th column at time t.
  • the above formula (1) is in the form of "log( ⁇ exp(x))" with sum in log, and there is a large gradient for the dominant sum in log. Therefore, for example, the convergence in the stochastic gradient descent method is faster than loss functions such as " ⁇ log(1+exp(x))" and " ⁇ log(x)".
  • Equation (2) when the loss function is transformed as in Equation (2) above, there are multiple variations depending on which sum is included in log. For example, in equation (2), only the sum about K is put in log, but only the sum about M may be put in log, or only the sum about T may be put in log . Alternatively, we can put two sums over M and T into log, two sums over M and K into log, two sums over T and K into log You can put it in.
  • the sum to be included in the log may be determined in consideration of the influence given by each item. It should be noted that it suffices if it is set in advance as to which loss function with which sum is included in log is to be used. However, the configuration may be such that the user can appropriately select which loss function to use which sum is included in the log.
  • the learning unit 300 uses loss functions such as the above formulas (1) and (2). Therefore, it is possible to improve the convergence in the stochastic gradient descent method, and as a result, it is possible to perform efficient learning.
  • a loss function that includes multiple sums as in equation (2), select at least one sum to be included in log and put the remaining sums out of log to give convergence You can change the effect. As a result, it is possible to perform more efficient learning by appropriately setting which of a plurality of sums is to be used as a loss function in which the sum is included in log.
  • the sixth embodiment like the fifth embodiment, describes a specific example of the loss function used in the above-described first to fourth embodiments. It may be the same as the first to fourth embodiments. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • Equation (3) above is a loss function corresponding to the configuration that considers all the likelihood ratios of the N ⁇ (N ⁇ 1) patterns described in the second embodiment.
  • K is the number of classes
  • M is the number of data
  • T is the time series length.
  • i is a subscript in the row direction
  • l is a subscript in the column direction (that is, a subscript indicating the row number and column number in the matrix shown in FIG. 6, etc.).
  • is the Kronecker delta, which is "1" if the indices match, and "0" otherwise.
  • is the likelihood ratio, and in the above formula (3), represents the logarithmic likelihood ratio at the label yk row, l-th column at time t.
  • the loss function may be weighted. For example, weighting the above equation (4) results in the following equation (5).
  • weighting factors w it and w' itkl in the above equation (5) are weighting factors. These weighting factors may be values determined by empirical rules or tuning, for example. Alternatively, weighting may be performed using only one of the weighting coefficients w it and w′ itkl .
  • the weighting in equation (5) described above is merely an example, and weighting may be performed by multiplying a term different from equation (5) by a weighting factor, for example.
  • Equation (4) Although an example of weighting a loss function such as Equation (4) has been described here, other log-sum-exp type loss functions can be similarly weighted. For example, the equation (3) before transformation may be weighted, or the equations (1) and (2) described in the fifth embodiment may be weighted.
  • the learning unit 300 uses loss functions such as Equations (3), (4), and (5) above. Therefore, it is possible to improve the convergence in the stochastic gradient descent method, and as a result, it is possible to perform efficient learning. Further, more efficient learning can be performed by weighting as in Equation (5).
  • FIG. 10 An information processing system 1 according to the seventh embodiment will be described with reference to FIGS. 10 and 11.
  • FIG. The seventh embodiment differs from the above-described first to sixth embodiments only in a part of the configuration and operation (specifically, the configuration and operation of the classification device 10). It may be the same as the first to sixth embodiments. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 10 is a block diagram showing the functional configuration of an information processing system according to the seventh embodiment.
  • symbol is attached
  • the likelihood ratio calculator 100 in the classification device 10 includes a first calculator 110 and a second calculator 120 .
  • each of the first calculation unit 110 and the second calculation unit 120 may be implemented by, for example, the above-described processor 11 (see FIG. 1).
  • the first calculation unit 110 is configured to be able to calculate individual likelihood ratios based on two consecutive elements included in series data.
  • the individual likelihood ratio is calculated as a likelihood ratio indicating the likelihood of a class to which two consecutive elements belong.
  • the first calculation unit 110 may, for example, sequentially obtain elements included in the series data from the data obtaining unit 50 and sequentially calculate individual likelihood ratios based on two consecutive elements.
  • the individual likelihood ratio calculated by the first calculator 110 is configured to be output to the second calculator 120 .
  • the second calculator 120 is configured to be able to calculate the integrated likelihood ratio based on the plurality of individual likelihood ratios calculated by the first calculator 110 .
  • the integrated likelihood ratio is calculated as a likelihood ratio indicating the likelihood of a class to which the plurality of elements considered in each of the plurality of individual likelihood ratios belong.
  • the integrated likelihood ratio is calculated as a likelihood ratio indicating the likelihood of a class to which series data composed of multiple elements belong.
  • the integrated likelihood ratio calculated by the second calculation unit 120 is configured to be output to the class classification unit 200 .
  • the class classification unit 200 classifies the series data based on the integrated likelihood ratio.
  • the learning unit 300 may perform learning as the entire likelihood ratio calculation unit 100 (that is, the first calculation unit 110 and the second calculation unit 120 together).
  • the learning may be performed separately for the first calculator 110 and the second calculator 120 .
  • the learning unit 300 may be separately provided as a first learning unit that performs learning only on the first calculation unit 110 and a second learning unit that performs learning only on the second calculation unit 120 . In this case, only one of the first learning section and the second learning section may be provided.
  • FIG. 11 is a flow chart showing the operation flow of the classification device in the information processing system according to the seventh embodiment.
  • the data acquisition unit 50 first acquires the elements included in the series data (step S21).
  • the data acquisition unit 50 outputs the acquired elements of the series data to the first calculation unit 110 .
  • the first calculator 110 calculates an individual likelihood ratio based on the two consecutive elements that have been obtained (step S22).
  • the second calculator 120 calculates an integrated likelihood ratio based on the plurality of individual likelihood ratios calculated by the first calculator 110 (step S23).
  • the class classification unit 200 performs class classification based on the calculated integrated likelihood ratio (step S24).
  • the class classification may determine one class to which the series data belongs, or may determine a plurality of classes to which the series data are highly likely to belong.
  • the class classification unit 200 may output the result of class classification to a display or the like. Further, the class classification unit 200 may output the result of class classification by voice through a speaker or the like.
  • the individual likelihood ratios are first calculated based on two elements, and then integrated based on a plurality of individual likelihood ratios.
  • a likelihood ratio is calculated.
  • the integrated likelihood ratio calculated in this way it is possible to appropriately select the class to which the series data belongs.
  • the classification device 10 that calculates the individual likelihood ratio and the integrated likelihood ratio by using the log-sum-exp type loss function described in each of the above embodiments, the convergence in the stochastic gradient descent method can be improved. can be improved. Therefore, it becomes possible to perform efficient learning.
  • FIG. 12 An information processing system 1 according to the eighth embodiment will be described with reference to FIGS. 12 and 13.
  • FIG. 12 is a block diagram showing the functional configuration of an information processing system according to the eighth embodiment.
  • symbol is attached
  • the likelihood ratio calculator 100 in the classification device 10 includes a first calculator 110 and a second calculator 120 .
  • the first calculator 110 includes an individual likelihood ratio calculator 111 and a first storage.
  • the second calculator 120 includes an integrated likelihood ratio calculator 121 and a second storage 122 .
  • each of the individual likelihood ratio calculator 111 and the integrated likelihood ratio calculator 121 may be realized by, for example, the above-described processor 11 (see FIG. 1).
  • each of the first storage unit 112 and the second storage unit 122 may be implemented by, for example, the above-described storage device 14 (see FIG. 1).
  • the individual likelihood ratio calculation unit 111 is configured to be able to calculate an individual likelihood ratio based on two successive elements among the elements sequentially acquired by the data acquisition unit 50 . More specifically, individual likelihood ratio calculation section 111 calculates the individual likelihood ratio based on the newly acquired element and past data stored in first storage section 112 . Information stored in the first storage unit 112 can be read by the individual likelihood ratio calculation unit 111 . When the first storage unit 112 stores past individual likelihood ratios, the individual likelihood ratio calculation unit 111 reads out the stored past individual likelihood ratios and calculates new individual likelihood ratios in consideration of the acquired elements. It suffices to calculate the likelihood ratio. On the other hand, when the first storage unit 112 stores the elements themselves acquired in the past, the individual likelihood ratio calculation unit 111 calculates past individual likelihood ratios from the stored past elements, It is sufficient to calculate the likelihood ratio for the elements acquired in .
  • the integrated likelihood ratio calculation unit 121 is configured to be able to calculate an integrated likelihood ratio based on a plurality of individual likelihood ratios.
  • Integrated likelihood ratio calculation section 121 uses the individual likelihood ratios calculated by individual likelihood ratio calculation section 111 and the past integrated likelihood ratios stored in second storage section 122 to calculate new integrated likelihood ratios. Calculate the degree ratio.
  • Information stored in the second storage unit 122 (that is, past integrated likelihood ratios) is configured to be readable by the integrated likelihood ratio calculation unit 121 .
  • FIG. 13 is a flow chart showing the flow of operations of a likelihood ratio calculator in the information processing system according to the eighth embodiment.
  • the individual likelihood ratio calculation unit 111 in the first calculation unit 110 acquires past data from the first storage unit 112. Read out (step S31).
  • the past data is, for example, the result of processing by the individual likelihood ratio calculation unit 111 of the element acquired immediately before the element acquired this time by the data acquisition unit 50 (in other words, the calculated result of the element immediately before the element acquired this time). individual likelihood ratio).
  • the past data may be the element itself acquired immediately before the element acquired in the acquisition.
  • the individual likelihood ratio calculation unit 111 calculates a new individual likelihood ratio (that is, the data acquisition unit 50, the individual likelihood ratio for the element acquired this time) is calculated (step S32).
  • Individual likelihood ratio calculation section 111 outputs the calculated individual likelihood ratio to second calculation section 120 .
  • Individual likelihood ratio calculation section 111 may store the calculated individual likelihood ratio in first storage section 112 .
  • the integrated likelihood ratio calculator 121 in the second calculator 120 reads the past integrated likelihood ratios from the second storage unit 122 (step S33).
  • the past integrated likelihood ratio is, for example, the processing result of the integrated likelihood ratio calculation unit 121 for the element acquired immediately before the element acquired this time by the data acquisition unit 50 (in other words, the previous integrated likelihood ratio calculated for the elements).
  • the integrated likelihood ratio calculation unit 121 calculates a new integrated likelihood ratio based on the likelihood ratio calculated by the individual likelihood ratio calculation unit 111 and the past integrated likelihood ratio read from the second storage unit 122.
  • a likelihood ratio (that is, an integrated likelihood ratio for the elements acquired this time by the data acquisition unit 50) is calculated (step S34).
  • Integrated likelihood ratio calculation section 121 outputs the calculated integrated likelihood ratio to class classification section 200 .
  • the integrated likelihood ratio calculator 121 may store the calculated integrated likelihood ratio in the second storage unit 122 .
  • the integrated likelihood ratio is calculated.
  • the probability gradient Convergence in the descent method can be improved. Therefore, it becomes possible to perform efficient learning.
  • the ninth embodiment differs from the first to eighth embodiments described above only in part of the operation (specifically, the operation of the classifying unit 200). It may be the same as the eighth embodiment. Therefore, in the following, portions different from the already described embodiments will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 14 is a flow chart showing the operation flow of the classification device in the information processing system according to the ninth embodiment.
  • the same reference numerals are assigned to the same processes as those described in FIG.
  • the data acquisition unit 50 first acquires the elements included in the series data (step S11).
  • the data acquisition unit 50 outputs the acquired elements of the series data to the likelihood ratio calculation unit 100 .
  • the likelihood ratio calculator 100 calculates the likelihood ratio based on the two or more acquired elements (step S12).
  • the class classification unit 200 performs class classification based on the calculated likelihood ratio. Especially in the ninth embodiment, the class classification unit 200 selects a plurality of classes to which series data may belong. and output (step S41). That is, the class classification unit 200 does not determine one class to which the series data belongs, but rather determines a plurality of classes to which the series data are likely to belong. More specifically, the class classification unit 200 selects k classes (where k is a natural number equal to or less than n) from n classes (where n is a natural number) prepared as classification candidates. Execute the process.
  • the class classification unit 200 may output information about k classes to which series data may belong to a display or the like. Also, the class classification unit 200 may output information about k classes to which the series data may belong by voice through a speaker or the like.
  • the class classification unit 200 may rearrange and output them. For example, the class classification section 200 may rearrange the information on the k classes in descending order of likelihood ratio and output the sorted information. Alternatively, the class classification unit 200 may output each piece of information about k classes in a different manner for each class. For example, the class classification unit 200 may output a class with a high likelihood ratio in an emphasized display mode, while outputting a class with a low likelihood ratio in a non-emphasized display mode. In the case of highlighting, for example, the size or color of the displayed object may be changed, or the displayed object may be animated.
  • the information processing system 1 may be used for proposing products that a user is likely to be interested in on a web shopping site. Specifically, the information processing system 1 selects k products (that is, k classes) that the user is likely to be interested in from n products (that is, n classes) that are handled products. may be selected and output to the user (where k is a number smaller than n). In this case, past purchase histories, browsing histories, and the like are given as examples of the series data to be input.
  • a user's image can be captured by a mounted camera in some cases.
  • the user's emotion may be estimated from the user's image, and stores and products corresponding to that emotion may be suggested.
  • the line of sight of the user may be estimated from the image of the user (that is, the part the user is looking at may be estimated) to suggest stores and products that the user is likely to be interested in.
  • the user's attributes for example, gender, age, etc.
  • the n classes may be weighted according to the estimated information.
  • the information processing system 1 according to the ninth embodiment can also be used for criminal investigation. For example, when finding the true culprit from among a plurality of suspects, if only one of them who is most likely to be the culprit is selected, a big problem will arise if the selection is wrong.
  • the information processing system 1 according to the ninth embodiment can also be applied to analysis of radar images. Since radar images tend to have low definition due to their nature, it is difficult to accurately determine, for example, what is shown in the image only by a machine. However, in the information processing system 1 according to the present embodiment, it is possible to select and output k candidates that are highly likely to appear in the radar image. Therefore, it is possible to first output k candidates and have the user make a decision among them. For example, if "dog”, “cat”, "ship”, and "tank” are listed as candidates for the radar image of the port, the user can select "ship” which is highly related to the port as the radar image. It can be easily recognized from the photograph.
  • the application example described above is an example, and the information processing system 1 according to the present embodiment is applied in a situation where it is required to select k candidates from n candidates. By doing so, it is possible to achieve beneficial effects.
  • a processing method is also implemented in which a program for operating the configuration of each embodiment is recorded on a recording medium so as to realize the functions of each embodiment described above, the program recorded on the recording medium is read as code, and executed by a computer. Included in the category of form. That is, a computer-readable recording medium is also included in the scope of each embodiment. In addition to the recording medium on which the above program is recorded, the program itself is also included in each embodiment.
  • a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, magnetic tape, non-volatile memory card, and ROM can be used as recording media.
  • the program recorded on the recording medium alone executes the process, but also the one that operates on the OS in cooperation with other software and the function of the expansion board to execute the process. included in the category of
  • the information processing system includes acquisition means for acquiring a plurality of elements included in series data, and based on at least two consecutive elements among the plurality of elements, the likelihood of a class to which the series data belongs. a calculation means for calculating a likelihood ratio indicating the likelihood ratio, a classification means for classifying the series data into at least one class among a plurality of classes that are classification candidates based on the likelihood ratio, and a log-sum-exp type and learning means for learning about the calculation of the likelihood ratio using the loss function of .
  • the learning means calculates the likelihood of belonging to one of N classes (where N is a natural number) that are classification candidates for the series data as a denominator. Supplementary note 1, wherein the learning is performed using a loss function that takes into account the likelihood ratio of N ⁇ (N-1) patterns whose numerator is the likelihood that indicates the likelihood of belonging to another class.
  • N is a natural number
  • the learning is performed using a loss function that takes into account the likelihood ratio of N ⁇ (N-1) patterns whose numerator is the likelihood that indicates the likelihood of belonging to another class.
  • the learning means performs the learning using a loss function that takes into account the likelihood ratio of part of the N ⁇ (N ⁇ 1) patterns.
  • the learning means performs the learning using a loss function that takes into account the likelihood ratio that the correct class is in the numerator of the N ⁇ (N ⁇ 1) patterns.
  • the information processing system according to appendix 3 characterized by:
  • Appendix 5 The information processing system according to appendix 5, wherein the loss function includes a plurality of sums, and at least one of the plurality of sums is included in the log-sum-exp type. 5. The information processing system according to any one of Supplements 1 to 4.
  • the loss function includes a weighting factor corresponding to the difficulty of classifying the series data.
  • the likelihood ratio is an integrated likelihood ratio calculated by considering a plurality of individual likelihood ratios calculated based on two consecutive elements included in the series data. 7.
  • the acquisition means sequentially acquires a plurality of elements included in the series data, and the calculation means calculates the individual likelihood ratio based on the newly acquired elements. and the previously calculated integrated likelihood ratio to calculate a new integrated likelihood ratio.
  • appendix 9 The information processing method according to appendix 9 obtains a plurality of elements included in the series data, and calculates a likelihood of a class to which the series data belongs based on at least two consecutive elements among the plurality of elements. Calculate the likelihood ratio, classify the series data into at least one class among a plurality of classes that are classification candidates based on the likelihood ratio, and use a log-sum-exp type loss function to calculate the likelihood This information processing method is characterized by learning about calculation of the degree ratio.
  • appendix 10 The computer program according to appendix 10 obtains a plurality of elements included in series data, and obtains a likelihood indicating the likelihood of a class to which the series data belongs, based on at least two consecutive elements among the plurality of elements. Calculate the ratio, classify the series data into at least one class among a plurality of classes that are classification candidates based on the likelihood ratio, and use a log-sum-exp type loss function to calculate the likelihood
  • a computer program characterized by operating a computer to perform learning relating to calculation of ratios.
  • a recording medium according to appendix 11 is a recording medium characterized in that the computer program according to appendix 10 is recorded.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

情報処理システム(1)は、系列データに含まれる複数の要素を取得する取得手段(50)と、複数の要素のうち少なくとも2つの連続する要素に基づいて、系列データが属するクラスの尤もらしさを示す尤度比を算出する算出手段(100)と、尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに系列データを分類する分類手段(200)と、log-sum-exp型の損失関数を用いて、前記尤度比の算出に関する学習を行う学習手段(300)とを備える。このような情報処理システムによれば、分類候補である複数のクラスの中から、系列データが属するクラス適切に選択することが可能である。

Description

情報処理システム、情報処理方法、及びコンピュータプログラム
 この開示は、例えばクラス分類に関する情報を処理する情報処理システム、情報処理方法、及びコンピュータプログラムの技術分野に関する。
 この種のシステムとして、データのクラス分類を行うものが知られている。例えば特許文献1では、系列データに含まれる複数の要素を逐次的に取得して解析することにより、系列データをあらかじめ定められた複数のクラスのうちのいずれかに分類する技術が開示されている。特許文献2では、画像サブセットに含まれる移動軌跡をサブクラスに分類し、サブクラスの共有割合が高いものに同一のサブクラスラベルを付与して、各サブクラスをクラス分類することが開示されている。
 その他の関連する技術として、例えば特許文献3では、評価値G=sum{(c-exp(a×log(X))+b-y)×wp}が最小となるように処理を繰り返して、係数を最適化することが開示されている。特許文献4では、対数尤度比を含む損失関数が小さくなるようにパラメータを更新して、識別装置のパラメータを最適化することが開示されている。
国際公開第2020/194497号 国際公開第2012/127815号 特開2017-049674号公報 特開2007-114413号公報
 この開示は、上述した関連する技術を改善することを目的とする。
 この開示の情報処理システムの一の態様は、系列データに含まれる複数の要素を取得する取得手段と、前記複数の要素のうち少なくとも2つの連続する要素に基づいて、前記系列データが属するクラスの尤もらしさを示す尤度比を算出する算出手段と、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する分類手段と、log-sum-exp型の損失関数を用いて、前記尤度比の算出に関する学習を行う学習手段とを備える。
 この開示の情報処理方法の一の態様は、系列データに含まれる複数の要素を取得し、前記複数の要素のうち少なくとも2つの連続する要素に基づいて、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類し、log-sum-exp型の損失関数を用いて、前記尤度比の算出に関する学習を行う。
 この開示のコンピュータプログラムの一の態様は、系列データに含まれる複数の要素を取得し、前記複数の要素のうち少なくとも2つの連続する要素に基づいて、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類し、log-sum-exp型の損失関数を用いて、前記尤度比の算出に関する学習を行うようにコンピュータを動作させる。
第1実施形態に係る情報処理システムのハードウェア構成を示すブロック図である。 第1実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第1実施形態に係る情報処理システムにおける分類装置の動作の流れを示すフローチャートである。 第1実施形態に係る情報処理システムにおける学習部の動作の流れを示すフローチャートである。 第2実施形態に係る情報処理システムにおける学習部の動作の流れを示すフローチャートである。 第2実施形態に係る情報処理システムにおける学習部が考慮する尤度比の一例を示すマトリクス図である。 第3実施形態に係る情報処理システムにおける学習部の動作の流れを示すフローチャートである。 第4実施形態に係る情報処理システムにおける学習部の動作の流れを示すフローチャートである。 第4実施形態に係る情報処理システムにおける学習部が考慮する尤度比の一例を示すマトリクス図である。 第7実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第7実施形態に係る情報処理システムにおける分類装置の動作の流れを示すフローチャートである。 第8実施形態に係る情報処理システムの機能的構成を示すブロック図である。 第8実施形態に係る情報処理システムにおける尤度比算出部の動作の流れを示すフローチャートである。 第9実施形態に係る情報処理システムにおける分類装置の動作の流れを示すフローチャートである。
 以下、図面を参照しながら、情報処理システム、情報処理方法、及びコンピュータプログラムの実施形態について説明する。
 <第1実施形態>
 第1実施形態に係る情報処理システムについて、図1から図4を参照して説明する。
 (ハードウェア構成)
 まず、図1を参照しながら、第1実施形態に係る情報処理システムのハードウェア構成について説明する。図1は、第1実施形態に係る情報処理システムのハードウェア構成を示すブロック図である。
 図1に示すように、第1実施形態に係る情報処理システム1は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。情報処理システム1は更に、入力装置15と、出力装置16とを備えていてもよい。プロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
 プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、情報処理システム1の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、尤度比を用いる分類及びそれに関する学習処理を実行ための機能ブロックが実現される。なお、プロセッサ11の一例として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)が挙げられる。プロセッサ11は、上述した一例のうち一つを用いてもよいし、複数を並列で用いてもよい。
 RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
 ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
 記憶装置14は、情報処理システム1が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
 入力装置15は、情報処理システム1のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置15は、専用のコントローラ(操作端末)であってもよい。また、入力装置15は、ユーザが保有する端末(例えば、スマートフォンやタブレット端末等)を含んでいてもよい。入力装置15は、例えばマイクを含む音声入力が可能な装置であってもよい。
 出力装置16は、情報処理システム1に関する情報を外部に対して出力する装置である。例えば、出力装置16は、情報処理システム1に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。ここでの表示装置は、テレビモニタ、パソコンモニタ、スマートフォンのモニタ、タブレット端末のモニタ、その他の携帯端末のモニタであってよい。また、表示装置は、店舗等の各種施設に設置される大型モニタやデジタルサイネージ等であってよい。また、出力装置16は、画像以外の形式で情報を出力する装置であってもよい。例えば、出力装置16は、情報処理システム1に関する情報を音声で出力するスピーカであってもよい。
 (機能的構成)
 次に、図2を参照しながら、第1実施形態に係る情報処理システム1の機能的構成について説明する。図2は、第1実施形態に係る情報処理システムの機能的構成を示すブロック図である。
 図2に示すように、第1実施形態に係る情報処理システム1は、分類装置10と、学習部300と備えている。分類装置10は、入力される系列データのクラス分類を行う装置であり、その機能を実現するための処理ブロックとして、データ取得部50と、尤度比算出部100と、クラス分類部200とを備えて構成されている。また、学習部300は、分類装置10に関する学習処理を実行可能に構成されている。なお、ここでは、分類装置10とは別に学習部300が設けられる例を挙げているが、分類装置10が学習部300を備えて構成されてもよい。データ取得部50、尤度比算出部100、クラス分類部200、及び学習部300の各々は、上述したプロセッサ11(図1参照)によって実現されてよい。
 データ取得部50は、系列データに含まれる複数の要素を取得可能に構成されている。データ取得部50は、任意のデータ取得装置(例えば、カメラやマイク等)から直接データを取得するものであってもよいし、あらかじめデータ取得装置で取得されストレージ等に記憶されているデータを読み出すものであってもよい。カメラからデータを取得する場合、データ取得部50は複数のカメラの各々からデータを取得するように構成されていてもよい。データ取得部50で取得された系列データの要素は、尤度比算出部100に出力される構成となっている。なお、系列データとは、所定の順番で並んだ複数の要素を含むデータであり、例えば時系列データが一例として挙げられる。系列データのより具体的な例としては、動画データや音声データが挙げられるが、これに限られるものではない。
 尤度比算出部100は、データ取得部50で取得された複数の要素のうち少なくとも2つの連続する要素に基づいて、尤度比を算出可能に構成されている。なお、ここでの「尤度比」とは、系列データが属するクラスの尤もらしさを示す指標である。尤度比の具体例や具体的な算出方法については、後述する他の実施形態において詳しく説明する。
 クラス分類部200は、尤度比算出部100で算出された尤度比に基づいて、系列データを分類可能に構成されている。クラス分類部200は、分類候補である複数のクラスの中から、系列データが属する少なくとも1つのクラスを選択する。分類候補である複数のクラスは、予め設定されたものであってもよい。或いは、分類候補である複数のクラスは、ユーザによって適宜設定されるものであってもよいし、扱う系列データの種別等に基づいて適宜設定されるものであってもよい。
 学習部300は、損失関数を用いて尤度比の算出に関する学習を行う。具体的には、尤度比に基づくクラス分類が正確に行われるように、尤度比の算出に関する学習を実行する。本実施形態に係る学習部300が用いる損失関数は、log-sum-exp型の損失関数であり、より具体的にはlogの中にsumとexpが含まれている関数である。損失関数は、このような定義を満たす関数として予め設定されていてよい。損失関数の具体例については、後述する他の実施形態において詳しく説明する。
 (分類動作の流れ)
 次に、図3を参照しながら、第1実施形態に係る情報処理システム1における分類装置10の動作(具体的には、学習後のクラス分類動作)の流れについて説明する。図3は、第1実施形態に係る情報処理システムにおける分類装置の動作の流れを示すフローチャートである。
 図3に示すように、分類装置10の動作が開始されると、まずデータ取得部50が、系列データに含まれる要素を取得する(ステップS11)。データ取得部50は、取得した系列データの要素を、尤度比算出部100に出力する。そして、尤度比算出部100は、取得された2つ以上の要素に基づいて尤度比を算出する(ステップS12)。
 続いて、クラス分類部200が、算出された尤度比に基づいてクラス分類を行う(ステップS13)。クラス分類は、系列データが属する1つのクラスを決定するものであってもよいし、系列データが属する可能性の高い複数のクラスを決定するものであってもよい。クラス分類部200は、クラス分類の結果をディスプレイ等に出力するようにしてもよい。また、クラス分類部200は、クラス分類の結果を、スピーカ等を介して音声で出力するようにしてもよい。
 (学習動作の流れ)
 次に、図4を参照しながら、第1実施形態に係る情報処理システム1における学習部300の動作(即ち、尤度比の算出に関する学習動作)の流れについて説明する。図4は、第1実施形態に係る情報処理システムにおける学習部の動作の流れを示すフローチャートである。
 図4に示すように、学習動作が開始されると、まず学習部300には訓練データが入力される(ステップS101)。訓練データは、例えば系列データと、その系列データが属する正解クラスに関する情報(即ち、正解データ)とのセットとして構成されてよい。
 続いて、学習部300は、入力された訓練データを用いて損失関数を算出する(ステップS102)。ここでの損失関数は、すでに説明したように、log-sum-exp型の損失関数である。log-sum-exp型の損失関数は、logの中に、sum(総和)及びexp(指数関数)を含む損失関数であり、例えばlog(Σexp(x))のような関数である。
 続いて、学習部300は、算出した損失関数が小さくなるようにパラメータ(具体的には、尤度比を算出するモデルのパラメータ)を調整する(ステップS103)。即ち、学習部300は、尤度比を算出するモデルのパラメータを最適化する。なお、損失関数を用いたパラメータの最適化手法としては、適宜既存の技術を採用することが可能である。最適化手法の一例としては、誤差逆伝播法が挙げられるが、その他の手法を用いてもよい。
 その後、学習部300は、すべての学習が終了したか否かを判定する(ステップS104)。学習部300は、例えばすべての訓練データが入力されたか否かによって、すべての学習が終了したか否かを判定してよい。或いは、学習部300は、学習開始から所定期間が経過したか否かによって、すべての学習が終了したか否かを判定してよい。或いは、学習部300は、上述したステップS101からS103の処理が所定回数ループされたか否かによって、すべての学習が終了したか否かを判定してよい。
 すべての学習が終了したと判定した場合(ステップS104:YES)、一連の処理は終了する。一方で、すべての学習が終了していないと判定した場合(ステップS104:NO)、学習部300は、再びステップS101から処理を開始する。これにより、訓練データを用いる学習処理が繰り返され、パラメータがより最適なものへと調整されていく。
 (技術的効果)
 次に、第1実施形態に係る情報処理システム1によって得られる技術的効果について説明する。
 図1から図4で説明したように、第1実施形態に係る情報処理システム1では、学習部300によって、クラス分類に用いる尤度比の算出に関する学習が実行される。そして本実施形態では特に、log-sum-exp型の損失関数を用いて学習が行われる。本願発明者の研究するところによれば、尤度比の学習にlog-sum-exp型の損失関数を用いることで、確率勾配降下法における収束性を向上することが判っている。より具体的には、尤度比を用いたクラス分類が比較的難しいもの(例えば、hard class、hard frame、hard example)に対して、より大きな勾配を割り当てることができるため、収束を早めて効率的な学習を行うことが可能となる。例えば、DNN(Deep Neural Network)の学習には比較的長い時間がかかるため、上記のように収束性を高めることで、極めて効率的な学習が行えるようになる。
 なお、分類が難しいものを学習する際に利用可能な既存の技術として、損失関数に適当な係数を乗じて重み付けをする手法(所謂、Loss Weighting)が知られているが、この手法には係数を決める際に経験則やチューニングが要求されてしまう。また、分類の難しいデータを、重複を許して何度も入力して学習をする手法(所謂、Oversampling)も知られているが、ミニバッチ内に簡単なデータの方が現れにくくなり、すべてのデータを見るのに多くのステップ数がかかり収束が遅くなってしまう。あるいは、分類の簡単なデータを削除しすることで難しいデータを相対的に強調する手法(所謂、Undersampling)も知られているが、データの一部を削除することになるため、学習の制度が劣化することを避けられない。しかるに本実施形態で説明したlog-sum-exp型の損失関数を用いて学習すれば、上記のような問題点を解消しつつ、効率的な学習が行えるようになる。
 <第2実施形態>
 第2実施形態に係る情報処理システム1について、図5及び図6を参照して説明する。なお、第2実施形態は、上述した第1実施形態と比較して一部の動作が異なるのみであり、例えば装置構成(図1及び図2参照)や、分類装置10の動作(図3参照)等については、第1実施形態と同様であってよい。このため、以下では、第1実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (学習動作の流れ)
 まず、図5を参照しながら、第2実施形態に係る情報処理システム1における学習部300の動作の流れについて説明する。図5は、第2実施形態に係る情報処理システムの動作の流れを示すフローチャートである。なお、図5では、図4で示した処理と同様の処理に同一の符号を付している。
 図5に示すように、第2実施形態に係る情報処理システム1の動作が開始されると、まず学習部300には訓練データが入力される(ステップS101)。
 続いて、学習部300は、入力された訓練データを用いて損失関数を算出するが、第2実施形態では特に、系列データの分類候補であるN個(ただし、Nは自然数)のクラスのうち、一のクラスに属する尤もらしさを示す尤度を分母とし、他のクラスに属する尤もらしさを示す尤度を分子とするN×(N-1)パターンの尤度比を考慮した損失関数を算出する(ステップS201)。この損失関数は、系列データが属する正解クラスが尤度比の分子にある場合に尤度比が大きくなり、正解クラスが尤度比の分母にある場合に尤度比が小さくなる関数である。また、この損失関数も、第1実施形態と同様に、log-sum-exp型の損失関数とされている。損失関数に考慮される尤度比については、後に具体例を挙げて詳しく説明する。
 続いて、学習部300は、算出した損失関数が小さくなるようにパラメータを調整する(ステップS103)。即ち、学習部300は、尤度比を算出するモデルのパラメータを最適化する。その後、学習部300は、すべての学習が終了したか否かを判定する(ステップS104)。すべての学習が終了したと判定した場合(ステップS104:YES)、一連の処理は終了する。一方で、すべての学習が終了していないと判定した場合(ステップS104:NO)、学習部300は、再びステップS101から処理を開始する。
 (考慮する尤度比の具体例)
 次に、図6を参照しながら、上述した学習部300による学習動作において考慮される尤度比(即ち、損失関数の算出に考慮される尤度比)について、具体的に説明する。図6は、第2実施形態に係る情報処理システムにおける学習部が考慮する尤度比の一例を示すマトリクス図である。
 図6に示すように、尤度をマトリクス状にして考える。ここでは説明の便宜上、分類候補であるクラスが、「クラス0」、「クラス1」、「クラス2」の3つであるとする。p(X|y=0)は、系列データが「クラス0」である尤もらしさを示す尤度である。p(X|y=1)は、系列データが「クラス1」である尤もらしさを示す尤度である。p(X|y=2)は、系列データが「クラス2」である尤もらしさを示す尤度である。
 マトリクスの上から1行目は、対数尤度比(以下、単に「尤度比」と称する)の分子が、すべてp(X|y=0)となっている。マトリクスの上から2行目は、尤度比の分子が、すべてp(X|y=1)となっている。マトリクスの上から3行目は、尤度比の分子が、すべてp(X|y=2)となっている。一方、マトリクスの左から1列目は、尤度比の分母が、すべてp(X|y=0)となっている。マトリクスの左から2列目は、尤度比の分母が、すべてp(X|y=1)となっている。マトリクスの左から3列目は、尤度比の分母が、すべてp(X|y=2)となっている。
 マトリクスの対角線上にある尤度比(図6においてグレーで網掛けされている尤度比)は、分母と分子とが互いに同じ尤度になっている。具体的には、上から1行目、左から1列目のlog{p(X|y=0)/p(X|y=0)}、上から2行目、左から2列目のlog{p(X|y=1)/p(X|y=1)}、上から3行目、左から3列目のlog{p(X|y=2)/p(X|y=2)}は、それぞれ分母と分子とが同じである。また、上記対角線上の尤度比を挟んで対向する位置にある尤度比は、互いに分母と分子とが逆になっている。具体的には、上から1行目、左から2列目のlog{p(X|y=0)/p(X|y=1)}と、上から2行目、左から1列目のlog{p(X|y=1)/p(X|y=0)}とでは、分母と分子が逆になっている。同様に、上から1行目、左から3列目のlog{p(X|y=0)/p(X|y=2)}と、上から3行目、左から1列目のlog{p(X|y=2)/p(X|y=0)}とでは、分母と分子が逆になっている。上から2行目、左から3列目のlog{p(X|y=1)/p(X|y=2)}と、上から3行目、左から2列目のlog{p(X|y=2)/p(X|y=1)}とでは、分母と分子が逆になっている。よって、対角線を挟んで対向する位置にある尤度比は、互いに符号が逆の値となる。このように、マトリクスで示される各尤度比は、交代行列のように並んでいる。
 ここで特に、対角線上にある分母と分子とが同じになる尤度比は、すべてlog1であり、その値はゼロである。このため、対角線上にある分母と分子が同じになる尤度比については、損失関数に考慮しても実質的に意味がない値となる。このため、対角線上にある分母と分子とが同じになる尤度比については、損失関数に考慮しないものとする。対角線上の尤度比を除いた残りの尤度比の数は、クラスの数をNとすると、N×(N-1)となる。本実施形態では、これらのN×(N-1)パターンの尤度比(即ち、マトリクスにおける対角線上の尤度比を除く尤度比)を損失関数に考慮する。なお、N×(N-1)パターンの尤度比を考慮した損失関数の具体例については、後述する他の実施形態において詳しく説明する。
 (技術的効果)
 次に、第2実施形態に係る情報処理システム1によって得られる技術的効果について説明する。
 図5及び図6で説明したように、第2実施形態に係る情報処理システム1では、一のクラスに属する尤もらしさを示す尤度を分母とし、他のクラスに属する尤もらしさを示す尤度を分子とするN×(N-1)パターンの尤度比を考慮した損失関数を用いて学習が実行される。このような損失関数を用いれば、第1実施形態と同様に、クラスが不正解である場合のペナルティが大きくなり、クラスが正解である場合のペナルティが小さくなるような学習が行える。この結果、分類候補である複数のクラスの中から、系列データが属する少なくとも1つのクラスを適切に選択することが可能となる。
 分類候補として複数のクラスが存在する場合(所謂、マルチクラス分類を行う場合)、学習時にどのような尤度比を考慮するのか(例えば、何と何の比をとればよいのか)を決定することが容易ではない。しかるに、上述した損失関数を利用すれば、正解クラスが尤度比の分子にあるのか、それとも分母にあるのかによって尤度比の大小が変化し、損失関数に対して与える影響が変化する。このような損失関数を用いれば、マルチクラス分類における尤度比の算出に関する学習を適切に実行することができる。その結果、適切なクラス分類を実現することが可能となる。なお、学習時にどのような尤度比を考慮するのかについては、分類候補として3つ以上のクラスが存在する場合に、特に決定するのが難しくなる。よって、本実施形態に係る技術的効果は、分類候補が3つ以上のクラスである場合に顕著に発揮される。
 また、第2実施形態で用いられる損失関数も、第1実施形態と同様に、log-sum-exp型の損失関数である。よって、確率勾配降下法における収束性を向上することができ、その結果として効率的な学習を行うことが可能となる。
 <第3実施形態>
 第3実施形態に係る情報処理システム1について、図7を参照して説明する。なお、第3実施形態は、上述した第2実施形態と一部の動作が異なるのみで、その他の部分については、第第2実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (学習動作の流れ)
 まず、図7を参照しながら、第3実施形態に係る情報処理システム1における学習部300の動作の流れについて説明する。図7は、第3実施形態に係る情報処理システムの動作の流れを示すフローチャートである。なお、図7では、図4で示した処理と同様の処理に同一の符号を付している。
 図7に示すように、第3実施形態に係る情報処理システム1の動作が開始されると、まず学習部300には訓練データが入力される(ステップS101)。
 続いて、学習部300は、入力された訓練データを用いて損失関数を算出するが、第3実施形態では特に、系列データの分類候補であるN個のクラスのうち、一のクラスに属する尤もらしさを示す尤度を分母とし、他のクラスに属する尤もらしさを示す尤度を分子とするN×(N-1)パターンの尤度比の一部を考慮した損失関数を算出する(ステップS301)。即ち、第3実施形態に係る学習部300は、第2実施形態で説明したN×(N-1)パターンの尤度比をすべて考慮するのではなく、その一部のみを考慮する。なお、この損失関数も、第1実施形態と同様に、系列データが属する正解クラスが尤度比の分子にある場合に尤度比が大きくなり、正解クラスが尤度比の分母にある場合に尤度比が小さくなる関数である。また、この損失関数も、第1実施形態と同様に、log-sum-exp型の損失関数とされている。
 続いて、学習部300は、算出した損失関数が小さくなるようにパラメータを調整する(ステップS103)。その後、学習部300は、すべての学習が終了したか否かを判定する(ステップS104)。すべての学習が終了したと判定した場合(ステップS104:YES)、一連の処理は終了する。一方で、すべての学習が終了していないと判定した場合(ステップS104:NO)、学習部300は、再びステップS101から処理を開始する。
 (考慮する尤度比の選択例)
 続いて、損失関数に考慮する尤度比の選択例(即ち、N×(N-1)パターンの一部の尤度比の選択例)について具体的に説明する。
 N×(N-1)パターンの尤度比のうち、損失関数に考慮する一部の尤度比については、予めユーザ等が選択してもよいし、学習部300が自動的に選択するようにしてもよい。学習部300が損失関数に考慮する一部の尤度比を選択する場合、学習部300は、予め設定された所定のルールに従って尤度比を選択してもよい。或いは、学習部300は、算出された尤度比の値に基づいて選択するか否かを決定してもよい。
 損失関数に考慮する一部の尤度比の選択例としては、例えば図6に示したマトリクスにおける1つの行又は1つの列の尤度比のみを選択するものが挙げられる。例えば、損失関数に考慮する尤度比として、図6に示すマトリクスの1行目の尤度比だけを選択してもよいし、2行目の尤度比だけを選択してもよいし、3行目の尤度比だけを選択してもよい。或いは、マトリクスの1列目の尤度比だけを選択してもよいし、2列目の尤度比だけを選択してもよいし、3列目の尤度比だけを選択してもよい。
 また、マトリクスにおける一部の複数行又は一部の複数列の尤度比のみを選択してもよい。具体的には、マトリクスの1行目及び2行目の尤度比だけを選択してもよいし、2行目及び3行目の尤度比だけを選択してもよいし、3行目及び1行目の尤度比だけを選択してもよい。或いは、マトリクスの1列目及び2列目の尤度比だけを選択してもよいし、2列目及び3列目の尤度比だけを選択してもよいし、3列目及び1列目の尤度比だけを選択してもよい。
 なお、上述した尤度比の選択例は、あくまで一例であり、その他の尤度比が損失関数に考慮される尤度比として選択されてもよい。例えば、損失関数に考慮される尤度比は、行や列に関係なくランダムに選択されてもよい。
 (技術的効果)
 次に、第3実施形態に係る情報処理システム1によって得られる技術的効果について説明する。
 図7で説明したように、第3実施形態に係る情報処理システム1では、一のクラスに属する尤もらしさを示す尤度を分母とし、他のクラスに属する尤もらしさを示す尤度を分子とするN×(N-1)パターンのうち、一部の尤度比を考慮した損失関数を用いて学習が実行される。このような損失関数を用いれば、上述した第2実施形態と同様に、クラスが不正解である場合のペナルティが大きくなり、クラスが正解である場合のペナルティが小さくなるような学習が行える。この結果、分類候補である複数のクラスの中から、系列データが属する少なくとも1つのクラスを適切に選択することが可能となる。また、第3実施形態では特に、損失関数に考慮する尤度比をN×(N-1)パターンの中から適切に選択することで、N×(N-1)パターンのすべての尤度比を考慮する場合と比べて、効率的な学習を行うことができる。例えば、損失関数に与える影響が比較的大きい尤度比のみを選択し、損失関数に与える影響が比較的小さい尤度比を選択しないようにすれば、学習効率を高めることができる。
 また、第3実施形態で用いられる損失関数も、上述した各実施形態と同様に、log-sum-exp型の損失関数である。よって、確率勾配降下法における収束性を向上することができ、その結果として更に効率的な学習を行うことが可能となる。
 <第4実施形態>
 第4実施形態に係る情報処理システム1について、図8及び図9を参照して説明する。なお、第4実施形態は、上述した第3実施形態の具体的な選択例(即ち、損失関数に考慮する一部の尤度比の選択例)を説明するものであり、その他の部分については、第3実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (学習動作の流れ)
 まず、図8を参照しながら、第4実施形態に係る情報処理システム1における学習部300の動作の流れについて説明する。図8は、第4実施形態に係る情報処理システムの動作の流れを示すフローチャートである。なお、図8では、図4で示した処理と同様の処理に同一の符号を付している。
 図8に示すように、第4実施形態に係る情報処理システム1の動作が開始されると、まず学習部300には訓練データが入力される(ステップS101)。
 続いて、学習部300は、入力された訓練データを用いて損失関数を算出するが、第4実施形態では特に、すでに説明したN×(N-1)パターンの尤度比のうち、正解クラスが分子にある尤度比を考慮した損失関数を算出する(ステップS401)。即ち、第4実施形態に係る学習部300は、第3実施形態で説明したN×(N-1)パターンの一部の尤度比として、正解クラスが分子にある尤度比を選択する。なお、この損失関数も、第2及び第3実施形態と同様に、系列データが属する正解クラスが尤度比の分子にある場合に尤度比が大きくなり、正解クラスが尤度比の分母にある場合に尤度比が小さくなる関数である。また、この損失関数も、第1実施形態と同様に、log-sum-exp型の損失関数とされている。正解クラスが分子にある尤度比を考慮した損失関数の具体例については、後述する他の実施形態において詳しく説明する。
 続いて、学習部300は、算出した損失関数が小さくなるようにパラメータを調整する(ステップS103)。その後、学習部300は、すべての学習が終了したか否かを判定する(ステップS104)。すべての学習が終了したと判定した場合(ステップS104:YES)、一連の処理は終了する。一方で、すべての学習が終了していないと判定した場合(ステップS104:NO)、学習部300は、再びステップS101から処理を開始する。
 (考慮する尤度比の具体例)
 次に、図9を参照しながら、上述した学習部300による学習動作において考慮される尤度比(即ち、損失関数の算出に考慮される尤度比)について、具体的に説明する。図9は、第4実施形態に係る情報処理システムにおける学習部が考慮する尤度比の一例を示すマトリクス図である。
 図9に示すマトリクスは、すでに第2実施形態で説明したように(図6参照)、各尤度比が交代行列のように並んでいる。第4実施形態に係る学習部300は、このようなマトリクスにおける対角線上の尤度比を除いたN×(N-1)パターンの尤度比の中から、正解クラスが分子にある尤度比を選択して損失関数に考慮する。
 例えば、訓練データとして入力された系列データの正解クラスが「クラス1」であるとする。この場合、学習部300は、N×(N-1)パターンの尤度比の中から、クラス1が分子にある尤度比を選択して損失関数に考慮する。具体的には、図9の上から2行目の尤度比(対角線上の尤度比を除く)のみを選択して、損失関数に考慮する。この場合、上から2行目、左から1列目のlog{p(X|y=1)/p(X|y=0)}と、上から2行目、左から3列目のlog{p(X|y=1)/p(X|y=2)}とが損失関数に考慮されることになる。即ち、図9中のグレーで網掛けされていない尤度比が損失関数に考慮されることになる。
 なお、訓練データとして入力された系列データの正解クラスが「クラス0」である場合、学習部300は、N×(N-1)パターンの尤度比の中から、クラス0が分子にある尤度比を選択して損失関数に考慮すればよい。具体的には、図9の上から1行目の尤度比(対角線上の尤度比を除く)のみを選択して、損失関数に考慮すればよい。この場合、上から1行目、左から2列目のlog{p(X|y=0)/p(X|y=1)}と、上から1行目、左から3列目のlog{p(X|y=0)/p(X|y=2)}とが損失関数に考慮されることになる。
 同様に、訓練データとして入力された系列データの正解クラスが「クラス2」である場合、学習部300は、N×(N-1)パターンの尤度比の中から、クラス2が分子にある尤度比を選択して損失関数に考慮すればよい。具体的には、図9の上から3行目の尤度比(対角線上の尤度比を除く)のみを選択して、損失関数に考慮すればよい。この場合、上から3行目、左から1列目のlog{p(X|y=2)/p(X|y=0)}と、上から3行目、左から2列目のlog{p(X|y=2)/p(X|y=1)}とが損失関数に考慮されることになる。
 (技術的効果)
 次に、第4実施形態に係る情報処理システム1によって得られる技術的効果について説明する。
 図8及び図9で説明したように、第4実施形態に係る情報処理システム1では、N×(N-1)パターンのうち、正解クラスが分子にある尤度比を考慮した損失関数を用いて学習が実行される。このような損失関数を用いれば、上述した各実施形態と同様に、適切な学習が行われることになるため、分類候補である複数のクラスの中から、系列データが属する少なくとも1つのクラスを適切に選択することが可能となる。また、第4実施形態では特に、正解クラスが分子にある尤度比(言い換えれば、損失関数に大きな影響を与える可能性がある尤度比)が損失関数に考慮されるため、N×(N-1)パターンのすべての尤度比を考慮する場合と比べて、効率的な学習を行うことができる。
 また、第4実施形態で用いられる損失関数も、上述した各実施形態と同様に、log-sum-exp型の損失関数である。よって、確率勾配降下法における収束性を向上することができ、その結果として更に効率的な学習を行うことが可能となる。
 <第5実施形態>
 第5実施形態に係る情報処理システム1について説明する。なお、第5実施形態は、上述した第1から第4実施形態で用いられる損失関数の具体例を説明するものであり、装置構成や動作の流れについては、第1から第4実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
(損失関数の具体例)
 第5実施形態に係る情報処理システム1で用いられるlog-sum-exp型の損失関数として、例えば下記式(1)が挙げられる。なお、入力されるデータセット(データとラベルのセット)は{X,y i=1であるとする。
Figure JPOXMLDOC01-appb-M000001
 上記式(1)は、第4実施形態で説明した正解クラスが分子にある尤度比を考慮する構成に対応する損失関数である。式(1)における、Kはクラス数、Mはデータ数、Tは時系列長である。また、iは行方向、lは列方向の添字(即ち、図6等に示すマトリクスにおける行番号及び列番号を示す添字)である。λは尤度比であり、上記数式(1)では、時刻tにおけるラベルyk行l列目の対数尤度比を表している。
 上記式(1)は、logの中にsumが入った「log(Σexp(x))」の形であり、logの中にあるsumの中で支配的なものに対して大きな勾配がつく。よって、例えば、「Σlog(1+exp(x))」や「Σlog(x)」等のような損失関数と比べると、確率勾配降下法における収束が早くなる。
(損失関数の変形例)
 上記式(1)の損失関数は、下記式(2)のように変形できる。
Figure JPOXMLDOC01-appb-M000002
 上記式(2)では、上記式(1)においてlogの中に入っていた3つのsumのうち、2つのsumがlogの外に出されている。このように、損失関数の中に複数のsumが存在している場合、logの中に入るsumは少なくとも1つあればよく、残りのsumについては、logの外に出ていてよい。
 なお、上記式(2)のように損失関数を変形する場合、どのsumをlogの中に入れるかで複数のバリエーションが生ずる。例えば、式(2)では、Kに関するsumのみをlogの中に入れているが、Mに関するsumのみをlogの中に入れてもよいし、Tに関するsumのみをlogの中に入れてもよい。或いは、M及びTに関する2つのsumをlogの中に入れてもよいし、M及びKに関する2つのsumをlogの中に入れてもよいし、T及びKに関する2つのsumをlogの中に入れてもよい。
 上述したバリエーションでは、どのsumをlogの中に入れるかによって、収束性に与える影響が異なる。よって、各項目が与える影響を考慮してlogの中に入れるsumを決定するようにしてもよい。なお、どのsumをlogの中に入れた損失関数を用いるかについては、予め設定されていればよい。ただし、ユーザがどのsumをlogの中に入れた損失関数を用いるかを適宜選択可能に構成してもよい。
 (技術的効果)
 次に、第5実施形態に係る情報処理システム1によって得られる技術的効果について説明する。
 図10で説明したように、第5実施形態に係る情報処理システム1では、学習部300が、上記式(1)及び式(2)のような損失関数を利用する。よって、確率勾配降下法における収束性を向上することができ、その結果として効率的な学習を行うことが可能となる。また、式(2)のように、複数のsumを含む損失関数については、logの中に入れるsumを少なくとも1つ選択して、残りのsumをlogの外に出すことで、収束性に与える影響を変化させることができる。その結果、複数のsumのうち、どのsumをlogの中に入れた損失関数を用いるか適切に設定することで、より効率的な学習を行うことが可能となる。
 <第6実施形態>
 第6実施形態に係る情報処理システム1について説明する。なお、第6実施形態は、第5実施形態と同様に、上述した第1から第4実施形態で用いられる損失関数の具体例を説明するものであり、装置構成や動作の流れについては、第1から第4実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
(損失関数の具体例)
 第6実施形態に係る情報処理システム1で用いられるlog-sum-exp型の損失関数として、例えば下記式(3)が挙げられる。なお、入力されるデータセット(データとラベルのセット)は{X,y i=1であるとする。
Figure JPOXMLDOC01-appb-M000003
 上記式(3)は、第2実施形態で説明したN×(N-1)パターンのすべての尤度比を考慮する構成に対応する損失関数である。式(3)における、Kはクラス数、Mはデータ数、Tは時系列長である。また、iは行方向、lは列方向の添字(即ち、図6等に示すマトリクスにおける行番号及び列番号を示す添字)である。δはクロネッカーのデルタであり、添字が一致する場合に「1」、それ以外の場合は「0」となる。λは尤度比であり、上記数式(3)では、時刻tにおけるラベルyk行l列目の対数尤度比を表している。
 上記式(3)は、logの中にsumが入った「log(Σexp(x))」の形であり、logの中にあるsumの中で支配的なものに対して大きな勾配がつく。よって、例えば、「Σlog(1+exp(x))」や「Σlog(x)」等のような損失関数と比べると、確率勾配降下法における収束が早くなる。
(損失関数の変形例)
 上記式(3)の損失関数は、下記式(4)のように変形できる。
Figure JPOXMLDOC01-appb-M000004
 上記式(4)では、上記式(3)においてlogの中に入っていた4つのsumのうち、2つのsumがlogの外に出されている。第5実施形態でも説明したように、損失関数の中に複数のsumが存在している場合、logの中に入るsumは少なくとも1つあればよく、残りのsumについては、logの外に出ていてよい。
 (重み付けの例)
 損失関数には、重み付けが行われてもよい。例えば、上記式(4)に重み付けをすると下記式(5)のようになる。
Figure JPOXMLDOC01-appb-M000005
 上記式(5)におけるwit及びw’itklは、それぞれ重み係数である。これらの重み係数は、例えば経験則やチューニングによって決定された値であってよい。また、重み係数wit及びw’itklのうち、いずれか一方だけを利用して重み付けを行ってもよい。上述した式(5)の重み付けはあくまで一例であり、例えば式(5)とは異なる項に重み係数を乗ずることによって重み付けが行われてもよい。
 なお、ここでは式(4)のような損失関数に重み付けをする例について説明したが、その他のlog-sum-exp型の損失関数についても同様に重み付けを行うことが可能である。例えば、変形前の式(3)についても重み付けを行ってもよいし、第5実施形態で説明した式(1)や式(2)におもみ付けを行ってもよい。
 (技術的効果)
 次に、第6実施形態に係る情報処理システム1によって得られる技術的効果について説明する。
 図11で説明したように、第6実施形態に係る情報処理システム1では、学習部300が、上記式(3)、式(4)、及び式(5)のような損失関数を利用する。よって、確率勾配降下法における収束性を向上することができ、その結果として効率的な学習を行うことが可能となる。また、式(5)のように重み付けを行うことにより、更に効率的な学習を行うこともできる。
 <第7実施形態>
 第7実施形態に係る情報処理システム1について、図10及び図11を参照して説明する。なお、第7実施形態は、上述した第1から第6実施形態と一部の構成及び動作(具体的には、分類装置10の構成及び動作)が異なるのみで、その他の部分については、第1から第6実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図10を参照しながら、第7実施形態に係る情報処理システム1の機能的構成について説明する。図10は、第7実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図10では、図2で示した各構成要素と同様の要素に同一の符号を付している。
 図10に示すように、第7実施形態に係る情報処理システム1では、分類装置10における尤度比算出部100が、第1算出部110と、第2算出部120とを備えている。なお、第1算出部110及び第2算出部120の各々は、例えば上述したプロセッサ11(図1参照)によって実現されてよい。
 第1算出部110は、系列データに含まれる2つの連続する要素に基づいて、個別尤度比を算出可能に構成されている。個別尤度比は、2つの連続する要素が属するクラスの尤もらしさを示す尤度比として算出される。第1算出部110は、例えばデータ取得部50から系列データに含まれる要素を逐次的に取得して、2つの連続する要素に基づく個別尤度比を順次算出してもよい。第1算出部110で算出された個別尤度比は、第2算出部120に出力される構成となっている。
 第2算出部120は、第1算出部110で算出される複数の個別尤度比に基づいて、統合尤度比を算出可能に構成されている。統合尤度比は、複数の個別尤度比の各々で考慮された複数の要素が属するクラスの尤もらしさを示す尤度比として算出される。言い換えれば、統合尤度比は、複数の要素を含んで構成される系列データが属するクラスの尤もらしさを示す尤度比として算出される。第2算出部120で算出された統合尤度比は、クラス分類部200に出力される構成となっている。クラス分類部200は、統合尤度比に基づいて系列データのクラス分類を行う。
 なお、第5実施形態に係る学習部300は、尤度比算出部100全体として(即ち、第1算出部110及び第2算出部120をまとめて)学習を行うようにしてもよいし、第1算出部110及び第2算出部120に対して別々に学習を行うようにしてもよい。或いは、学習部300は、第1算出部110のみ学習を行う第1の学習部、及び第2算出部120のみ学習を行う第2の学習部として別々に設けられてもよい。この場合、第1の学習部及び第2の学習部のいずれか一方のみが設けられてもよい。
 (分類動作の流れ)
 次に、図11を参照しながら、第7実施形態に係る情報処理システム1における分類装置10の動作(具体的には、学習後のクラス分類動作)の流れについて説明する。図11は、第7実施形態に係る情報処理システムにおける分類装置の動作の流れを示すフローチャートである。
 図11に示すように、分類装置10の動作が開始されると、まずデータ取得部50が、系列データに含まれる要素を取得する(ステップS21)。データ取得部50は、取得した系列データの要素を、第1算出部110に出力する。
 そして、第1算出部110は、取得された連続する2つの要素に基づいて、個別尤度比を算出する(ステップS22)。その後、第2算出部120が、第1算出部110で算出された複数の個別尤度比に基づいて、統合尤度比を算出する(ステップS23)。
 続いて、クラス分類部200が、算出された統合尤度比に基づいてクラス分類を行う(ステップS24)。クラス分類は、系列データが属する1つのクラスを決定するものであってもよいし、系列データが属する可能性の高い複数のクラスを決定するものであってもよい。クラス分類部200は、クラス分類の結果をディスプレイ等に出力するようにしてもよい。また、クラス分類部200は、クラス分類の結果を、スピーカ等を介して音声で出力するようにしてもよい。
 (技術的効果)
 次に、第7実施形態に係る情報処理システム1によって得られる技術的効果について説明する。
 図10及び図11で説明したように、第7実施形態に係る情報処理システム1では、まず2つの要素に基づいて個別尤度比が算出された後、複数の個別尤度比に基づいて統合尤度比が算出される。このようにして算出される統合尤度比を用いれば、系列データが属するクラスを適切に選択することが可能となる。また、個別尤度比及び統合尤度比を算出する分類装置10においても、上述した各実施形態で説明したlog-sum-exp型の損失関数を用いることで、確率勾配降下法における収束性を向上することができる。よって、効率的な学習を行うことが可能となる。
 <第8実施形態>
 第8実施形態に係る情報処理システム1について、図12及び図13を参照して説明する。なお、第8実施形態は、上述した第7実施形態と一部の構成及び動作(具体的には、尤度比算出部100の構成及び動作)が異なるのみで、その他の部分については、第7実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図12を参照しながら、第8実施形態に係る情報処理システム1の機能的構成について説明する。図12は、第8実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図12では、図2及び図10で示した各構成要素と同様の要素に同一の符号を付している。
 図12に示すように、第8実施形態に係る情報処理システム1では、分類装置10における尤度比算出部100が、第1算出部110と、第2算出部120とを備えている。第1算出部110は、個別尤度比算出部111と、第1記憶部とを備えて構成されている。第2算出部120は、統合尤度比算出部121と、第2記憶部122とを備えて構成されている。なお、個別尤度比算出部111及び統合尤度比算出部121の各々は、例えば上述したプロセッサ11(図1参照)によって実現されてよい。また、第1記憶部112及び第2記憶部122の各々は、例えば上述した記憶装置14(図1参照)によって実現されてよい。
 個別尤度比算出部111は、データ取得部50で逐次的に取得される要素のうち、連続する2つの要素に基づいて、個別尤度比を算出可能に構成されている。より具体的には、個別尤度比算出部111は、新たに取得した要素と、第1記憶部112に記憶された過去データに基づいて個別尤度比を算出する。第1記憶部112で記憶されている情報は、個別尤度比算出部111によって読み出し可能に構成されている。第1記憶部112が過去の個別尤度比を記憶している場合、個別尤度比算出部111は、記憶された過去の個別尤度比を読み出して、取得され要素を考慮した新たな個別尤度比を算出すればよい。一方、第1記憶部112が過去に取得された要素そのものを記憶している場合、個別尤度比算出部111は、記憶された過去の要素から過去の個別尤度比を算出して、新たに取得された要素に対する尤度比を算出すればよい。
 統合尤度比算出部121は、複数の個別尤度比に基づいて、統合尤度比を算出可能に構成されている。統合尤度比算出部121は、個別尤度比算出部111で算出された個別尤度比と、第2記憶部122に記憶された過去の統合尤度比とを用いて、新たな統合尤度比を算出する。第2記憶部122で記憶されている情報(即ち、過去の統合尤度比)は、統合尤度比算出部121によって読み出し可能に構成されている。
 <尤度比算出動作の流れ>
 次に、図13を参照しながら、第8実施形態に係る情報処理システム1における尤度比算出動作(即ち、尤度比算出部100の動作)の流れについて説明する。図13は、第8実施形態に係る情報処理システムにおける尤度比算出部の動作の流れを示すフローチャートである。
 図13に示すように、尤度比算出部100による尤度比算出動作が開始されると、まず第1算出部110における個別尤度比算出部111が、第1記憶部112から過去データを読み出す(ステップS31)。過去データは、例えばデータ取得部50で今回取得された要素の1つ前に取得された要素の個別尤度比算出部111での処理結果(言い換えれば、1つ前の要素に対して算出された個別尤度比)であってよい。或いは、過去データは、取得で取得された要素の1つ前に取得された要素そのものであってもよい。
 続いて、個別尤度比算出部111は、データ取得部50で取得された要素と、第1記憶部112から読みだした過去データに基づいて、新たな個別尤度比(即ち、データ取得部50で今回取得された要素に対する個別尤度比)を算出する(ステップS32)。個別尤度比算出部111は、算出した個別尤度比を、第2算出部120に出力する。個別尤度比算出部111は、算出した個別尤度比を、第1記憶部112に記憶してもよい。
 続いて、第2算出部120における統合尤度比算出部121が、第2記憶部122から過去の統合尤度比を読み出す(ステップS33)。過去の統合尤度比は、例えばデータ取得部50で今回取得された要素の1つ前に取得された要素についての、統合尤度比算出部121での処理結果(言い換えれば、1つ前の要素に対して算出された統合尤度比)であってよい。
 続いて、統合尤度比算出部121は、個別尤度比算出部111で算出された尤度比と、第2記憶部122から読みだした過去の統合尤度比に基づいて、新たな統合尤度比(即ち、データ取得部50で今回取得された要素に対する統合尤度比)を算出する(ステップS34)。統合尤度比算出部121は、算出した統合尤度比を、クラス分類部200に出力する。統合尤度比算出部121は、算出した統合尤度比を、第2記憶部122に記憶してもよい。
 (技術的効果)
 次に、第8実施形態に係る情報処理システム1によって得られる技術的効果について説明する。
 図12及び図13で説明したように、第8実施形態に係る情報処理システム1では、過去の個別尤度比を用いて個別尤度比が算出された後、過去の統合尤度比を用いて統合尤度比が算出される。このようにして算出される統合尤度比を用いれば、系列データが属するクラスを適切に選択することが可能となる。また、過去のデータを用いて個別尤度比及び統合尤度比を算出する分類装置10においても、上述した各実施形態で説明したlog-sum-exp型の損失関数を用いることで、確率勾配降下法における収束性を向上することができる。よって、効率的な学習を行うことが可能となる。
 <第9実施形態>
 第9実施形態に係る情報処理システム1について、図14を参照して説明する。なお、第9実施形態は、上述した第1から第8実施形態と一部の動作(具体的には、クラス分類部200の動作)が異なるのみで、その他の部分については、第1から第8実施形態と同様であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳しく説明し、他の重複する部分については適宜説明を省略するものとする。
 (分類動作の流れ)
 まず、図14を参照しながら、第9実施形態に係る情報処理システム1における分類装置10の動作(具体的には、学習後のクラス分類動作)の流れについて説明する。図14は、第9実施形態に係る情報処理システムにおける分類装置の動作の流れを示すフローチャートである。なお、図14では、図3で説明した処理と同様の処理に同一の符号を付している。
 図14に示すように、分類装置10の動作が開始されると、まずデータ取得部50が、系列データに含まれる要素を取得する(ステップS11)。データ取得部50は、取得した系列データの要素を、尤度比算出部100に出力する。そして、尤度比算出部100は、取得された2つ以上の要素に基づいて尤度比を算出する(ステップS12)。
 続いて、クラス分類部200が、算出された尤度比に基づいてクラス分類を行うが、第9実施形態では特に、クラス分類部200が、系列データが属する可能性がある複数のクラスを選択して出力する(ステップS41)。即ち、クラス分類部200は、系列データが属する1つのクラスを決定するのではなく、系列データが属する可能性が高い複数のクラスを決定する。より具体的には、クラス分類部200は、分類候補として用意されたn個のクラス(ただし、nは自然数)の中から、k個のクラス(ただし、kはn以下の自然数)を選択する処理を実行する。
 クラス分類部200は、系列データが属する可能性があるk個のクラスに関する情報を、ディスプレイ等に出力するようにしてもよい。また、クラス分類部200は、系列データが属する可能性があるk個のクラスに関する情報を、スピーカ等を介して音声で出力するようにしてもよい。
 クラス分類部200は、系列データが属する可能性があるk個のクラスに関する情報を出力する際に、それらを並び替えて出力してもよい。例えば、クラス分類部200は、k個のクラスに関する情報を尤度比の高い順に並び替えて出力してもよい。或いは、クラス分類部200は、k個のクラスに関する情報の各々をクラス毎に異なる態様で出力するようにしてもよい。例えば、クラス分類部200は、尤度比の高いクラスを強調した表示態様で出力する一方で、尤度比の低いクラスを強調しない表示態様で出力するようにしてもよい。強調表示する場合、例えば表示する大きさや色を変えたりしてもよいし、表示するものに動きを与えてもよい。
 (具体的な活用例)
 上述したn個のクラスの中からk個のクラスを出力する構成について、具体的な適用例をいくつか挙げて説明する。
 (商品の提案)
 第9実施形態に係る情報処理システム1は、ウェブ上のショッピングサイトにおいて、ユーザが興味を持ちそうな商品の提案に用いられてもよい。具体的には、情報処理システム1は、取扱商品であるn個の商品(即ち、n個のクラス)の中から、ユーザが興味を持ちそうなk個の商品(即ち、k個のクラス)を選択して、ユーザに対して出力するようにしてもよい(なお、kはnより小さい数である)。この場合、入力される系列データの一例として、過去の購入履歴や閲覧履歴等が挙げられる。
 同様に、デジタルサイネージ等における商品や店舗の提案に用いられてもよい。デジタルサイネージでは、搭載されたカメラによってユーザの画像を撮像可能となっていることがある。この場合、ユーザの画像からユーザの感情を推定して、その感情に応じた店舗や商品を提案するようにしてもよい。また、ユーザの画像からユーザの視線を推定して(即ち、ユーザが見ている部分を推定して)、ユーザが興味を持ちそうな店舗や商品を提案するようにしてもよい。或いは、ユーザの画像からユーザの属性(例えば、性別や年齢等)を推定して、ユーザが興味を持ちそうな店舗や商品を提案するようにしてもよい。なお、上記のようにユーザに関する情報を推定する場合、推定した情報に応じてn個のクラスに重み付けを行ってよい。
 (犯罪捜査)
 第9実施形態に係る情報処理システム1は、犯罪捜査に用いることもできる。例えば、複数の容疑者の中から真犯人を見つける場合、その中から最も犯人である可能性の高い1人だけを選択すると、その選択が間違っていた場合に大きな問題が生ずる。しかるに、本実施形態に係る情報処理システム1では、犯人である可能性が高い上位K人の容疑者を選択して出力することができる。具体的には、複数の容疑者の各々に関する情報を要素として含む系列データから、犯人である可能性が高い上位k人に対応するクラスを選択して出力するようにすればよい。このようにすれば、例えば犯人である可能性が高い複数の容疑者を捜査対象として、適切に真犯人を見つけ出すことが可能となる。
 (レーダ画像分析)
 第9実施形態に係る情報処理システム1は、レーダ画像の分析に適用することもできる。レーダ画像は、その性質上、鮮明度が低いものが多いため、例えばその画像に写っているものが何であるのか、機械のみで正確に判定することが難しい。しかるに本実施形態に係る情報処理システム1では、レーダ画像に写っている可能性が高いk個の候補を選択して出力することができる。よって、まずはk個の候補を出力し、その中からユーザ自身で判断してもらうことが可能である。例えば、港のレーダ画像に写っているものとして、「犬」、「猫」、「船」、及び「戦車」が候補として挙げられれば、ユーザは港に関連の高い「船」がレーダ画像に写っていると容易に判断できる。
 なお、上述した適用例は一例であり、n個の候補の中から、k個のものを選択することが要求されるような状況であれば、本実施形態に係る情報処理システム1を適用することで、有益な効果を奏することが可能である。
 上述した各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
 記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。
 この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理システム、情報処理方法、及びコンピュータプログラムもまたこの開示の技術思想に含まれる。
 <付記>
 以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 付記1に記載の情報処理システムは、系列データに含まれる複数の要素を取得する取得手段と、前記複数の要素のうち少なくとも2つの連続する要素に基づいて、前記系列データが属するクラスの尤もらしさを示す尤度比を算出する算出手段と、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する分類手段と、log-sum-exp型の損失関数を用いて、前記尤度比の算出に関する学習を行う学習手段とを備えることを特徴とする情報処理システムである。
 (付記2)
 付記2に記載の情報処理システムは、前記学習手段は、前記系列データの分類候補であるN個(ただし、Nは自然数)のクラスのうち、一のクラスに属する尤もらしさを示す尤度を分母とし、他のクラスに属する尤もらしさを示す尤度を分子とするN×(N-1)パターンの前記尤度比を考慮した損失関数を用いて、前記学習を行うことを特徴とする付記1に記載の情報処理システムである。
 (付記3)
 付記3に記載の情報処理システムは、前記学習手段は、前記N×(N-1)パターンのうち一部の前記尤度比を考慮した損失関数を用いて、前記学習を行うことを特徴とする付記2に記載の情報処理システムである。
 (付記4)
 付記4に記載の情報処理システムは、前記学習手段は、前記N×(N-1)パターンのうち、前記正解クラスが分子にある尤度比を考慮した損失関数を用いて、前記学習を行うことを特徴とする付記3に記載の情報処理システムである。
 (付記5)
 付記5に記載の情報処理システムは、前記損失関数は、複数のsumを含んでおり、前記log-sum-exp型の中に前記複数のsumのうち少なくとも1つを含んでいることを特徴とする付記1から4のいずれか一項に記載の情報処理システムである。
 (付記6)
 付記6に記載の情報処理システムは、前記損失関数は、前記系列データの分類しにくさに応じた重み係数を含んでいることを特徴とする付記1から5のいずれか一項に記載の情報処理システムである。
 (付記7)
 付記7に記載の情報処理システムは、前記尤度比は、前記系列データに含まれる2つの連続する要素に基づいて算出される個別尤度比を複数考慮して算出される統合尤度比であることを特徴とする付記1から6のいずれか一項に記載の情報処理システムである。
 (付記8)
 付記8に記載の情報処理システムは、前記取得手段は、系列データに含まれる複数の要素を逐次的に取得し、前記算出手段は、新たに取得した要素に基づいて算出した前記個別尤度比と、過去に算出した前記統合尤度比とを用いて、新たな前記統合尤度比を算出することを特徴とする付記7に記載の情報処理システムである。
 (付記9)
 付記9に記載の情報処理方法は、系列データに含まれる複数の要素を取得し、前記複数の要素のうち少なくとも2つの連続する要素に基づいて、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類し、log-sum-exp型の損失関数を用いて、前記尤度比の算出に関する学習を行うことを特徴とする情報処理方法である。
 (付記10)
 付記10に記載のコンピュータプログラムは、系列データに含まれる複数の要素を取得し、前記複数の要素のうち少なくとも2つの連続する要素に基づいて、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類し、log-sum-exp型の損失関数を用いて、前記尤度比の算出に関する学習を行うようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
 (付記11)
 付記11に記載の記録媒体は、付記10に記載のコンピュータプログラムが記録されていることを特徴とする記録媒体である。
 1 情報処理システム
 11 プロセッサ
 14 記憶装置
 10 分類装置
 50 データ取得部
 100 尤度比算出部
 110 第1算出部
 111 個別尤度比算出部
 112 第1記憶部
 120 第2算出部
 121 統合尤度比算出部
 122 第2記憶部
 200 クラス分類部
 300 学習部

Claims (10)

  1.  系列データに含まれる複数の要素を取得する取得手段と、
     前記複数の要素のうち少なくとも2つの連続する要素に基づいて、前記系列データが属するクラスの尤もらしさを示す尤度比を算出する算出手段と、
     前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類する分類手段と、
     log-sum-exp型の損失関数を用いて、前記尤度比の算出に関する学習を行う学習手段と
     を備えることを特徴とする情報処理システム。
  2.  前記学習手段は、前記系列データの分類候補であるN個(ただし、Nは自然数)のクラスのうち、一のクラスに属する尤もらしさを示す尤度を分母とし、他のクラスに属する尤もらしさを示す尤度を分子とするN×(N-1)パターンの前記尤度比を考慮した損失関数を用いて、前記学習を行うことを特徴とする請求項1に記載の情報処理システム。
  3.  前記学習手段は、前記N×(N-1)パターンのうち一部の前記尤度比を考慮した損失関数を用いて、前記学習を行うことを特徴とする請求項2に記載の情報処理システム。
  4.  前記学習手段は、前記N×(N-1)パターンのうち、前記正解クラスが分子にある尤度比を考慮した損失関数を用いて、前記学習を行うことを特徴とする請求項3に記載の情報処理システム。
  5.  前記損失関数は、複数のsumを含んでおり、前記log-sum-exp型の中に前記複数のsumのうち少なくとも1つを含んでいることを特徴とする請求項1から4のいずれか一項に記載の情報処理システム。
  6.  前記損失関数は、前記系列データの分類しにくさに応じた重み係数を含んでいることを特徴とする請求項1から5のいずれか一項に記載の情報処理システム。
  7.  前記尤度比は、前記系列データに含まれる2つの連続する要素に基づいて算出される個別尤度比を複数考慮して算出される統合尤度比であることを特徴とする請求項1から6のいずれか一項に記載の情報処理システム。
  8.  前記取得手段は、系列データに含まれる複数の要素を逐次的に取得し、
     前記算出手段は、新たに取得した要素に基づいて算出した前記個別尤度比と、過去に算出した前記統合尤度比とを用いて、新たな前記統合尤度比を算出する
     ことを特徴とする請求項7に記載の情報処理システム。
  9.  系列データに含まれる複数の要素を取得し、
     前記複数の要素のうち少なくとも2つの連続する要素に基づいて、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、
     前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類し、
     log-sum-exp型の損失関数を用いて、前記尤度比の算出に関する学習を行う
     ことを特徴とする情報処理方法。
  10.  系列データに含まれる複数の要素を取得し、
     前記複数の要素のうち少なくとも2つの連続する要素に基づいて、前記系列データが属するクラスの尤もらしさを示す尤度比を算出し、
     前記尤度比に基づいて、分類候補である複数のクラスのうち少なくとも1つのクラスに前記系列データを分類し、
     log-sum-exp型の損失関数を用いて、前記尤度比の算出に関する学習を行う
     ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
PCT/JP2021/002439 2021-01-25 2021-01-25 情報処理システム、情報処理方法、及びコンピュータプログラム WO2022157973A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022576936A JPWO2022157973A1 (ja) 2021-01-25 2021-01-25
PCT/JP2021/002439 WO2022157973A1 (ja) 2021-01-25 2021-01-25 情報処理システム、情報処理方法、及びコンピュータプログラム
US18/272,959 US20240086424A1 (en) 2021-01-25 2021-01-25 Information processing system, information processing method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/002439 WO2022157973A1 (ja) 2021-01-25 2021-01-25 情報処理システム、情報処理方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2022157973A1 true WO2022157973A1 (ja) 2022-07-28

Family

ID=82548651

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/002439 WO2022157973A1 (ja) 2021-01-25 2021-01-25 情報処理システム、情報処理方法、及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20240086424A1 (ja)
JP (1) JPWO2022157973A1 (ja)
WO (1) WO2022157973A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024079854A1 (ja) * 2022-10-13 2024-04-18 日本電気株式会社 情報処理装置、情報処理方法、及び記録媒体
WO2024079853A1 (ja) * 2022-10-13 2024-04-18 日本電気株式会社 情報処理装置、情報処理方法、及び記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
WO2020194497A1 (ja) * 2019-03-26 2020-10-01 日本電気株式会社 情報処理装置、個人識別装置、情報処理方法及び記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
WO2020194497A1 (ja) * 2019-03-26 2020-10-01 日本電気株式会社 情報処理装置、個人識別装置、情報処理方法及び記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
UCHIBE, EIJI ET AL.: "Imitation learning based on entropy-regularized reinforcement learning", THE 33RD ANNUAL CONFERENCE OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, 7 June 2019 (2019-06-07) - 2 March 2021 (2021-03-02), pages 1 - 4, XP081742725, Retrieved from the Internet <URL:https://www.jstage.jst.go.jp/article/pjsai/JSAI2019/0/JSAI2019_1I3J203/_pdf/-char/ja> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024079854A1 (ja) * 2022-10-13 2024-04-18 日本電気株式会社 情報処理装置、情報処理方法、及び記録媒体
WO2024079853A1 (ja) * 2022-10-13 2024-04-18 日本電気株式会社 情報処理装置、情報処理方法、及び記録媒体

Also Published As

Publication number Publication date
JPWO2022157973A1 (ja) 2022-07-28
US20240086424A1 (en) 2024-03-14

Similar Documents

Publication Publication Date Title
CN109446430B (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
US9424493B2 (en) Generic object detection in images
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
CN106293074B (zh) 一种情绪识别方法和移动终端
CN112784778B (zh) 生成模型并识别年龄和性别的方法、装置、设备和介质
WO2022157973A1 (ja) 情報処理システム、情報処理方法、及びコンピュータプログラム
US20170103284A1 (en) Selecting a set of exemplar images for use in an automated image object recognition system
CN110363084A (zh) 一种上课状态检测方法、装置、存储介质及电子
CN111461168A (zh) 训练样本扩充方法、装置、电子设备及存储介质
US11605002B2 (en) Program, information processing method, and information processing apparatus
CN108369664A (zh) 调整神经网络的大小
US11809519B2 (en) Semantic input sampling for explanation (SISE) of convolutional neural networks
CN111737473A (zh) 文本分类方法、装置及设备
CN114399808A (zh) 一种人脸年龄估计方法、系统、电子设备及存储介质
CN113886697A (zh) 基于聚类算法的活动推荐方法、装置、设备及存储介质
Bajwa et al. A multifaceted independent performance analysis of facial subspace recognition algorithms
CN108229572B (zh) 一种参数寻优方法及计算设备
CN116503608A (zh) 基于人工智能的数据蒸馏方法及相关设备
CN113961765B (zh) 基于神经网络模型的搜索方法、装置、设备和介质
Dey et al. Mood recognition in online sessions using machine learning in realtime
US11042837B2 (en) System and method for predicting average inventory with new items
US20240054400A1 (en) Information processing system, information processing method, and computer program
JP7099254B2 (ja) 学習方法、学習プログラム及び学習装置
KR20210035622A (ko) 시계열 데이터 유사도 계산 시스템 및 방법
CN113837811B (zh) 一种电梯广告点位推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21921081

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022576936

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18272959

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21921081

Country of ref document: EP

Kind code of ref document: A1