WO2023139640A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
WO2023139640A1
WO2023139640A1 PCT/JP2022/001574 JP2022001574W WO2023139640A1 WO 2023139640 A1 WO2023139640 A1 WO 2023139640A1 JP 2022001574 W JP2022001574 W JP 2022001574W WO 2023139640 A1 WO2023139640 A1 WO 2023139640A1
Authority
WO
WIPO (PCT)
Prior art keywords
estimator
error
approximation
deviation
information processing
Prior art date
Application number
PCT/JP2022/001574
Other languages
English (en)
French (fr)
Inventor
佳祐 鈴木
剛範 辻川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/001574 priority Critical patent/WO2023139640A1/ja
Publication of WO2023139640A1 publication Critical patent/WO2023139640A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Definitions

  • the present invention relates to an information processing device and an information processing method.
  • Non-Patent Document 1 An example of a sample size determination method is described in Non-Patent Document 1.
  • the method determines the sample size n required to satisfy the inequality expressed by formula (2) with a probability that the sample mean expressed by formula (1) is 1- ⁇ or more, as the minimum natural number greater than or equal to the value expressed by formula (3).
  • z ⁇ /2 is the upper ⁇ /2 point of the standard normal distribution.
  • min ⁇ 1 , ⁇ 2 ⁇ is the minimum value of ⁇ 1 , ⁇ 2 .
  • Non-Patent Document 1 The scope of application of the sample size determination method described in Non-Patent Document 1 is limited only to normal distributions. The reason is that the distribution of the estimator cannot be reduced to a known distribution with the sample size n as a parameter if properties inherent in the normal distribution, including reproducibility, cannot be assumed.
  • An object of the present invention is to provide an information processing apparatus and an information processing method that can determine the sample size, etc., even when normality cannot be assumed.
  • An information processing apparatus includes normal approximation means for performing an approximation process of approximating an estimator distribution with a normal distribution, deviation evaluation means for evaluating deviations occurring in the approximation process, and data evaluation means for evaluating data relating to calculation of the estimator from the results of the approximation process and deviations.
  • the information processing method of one aspect of the present invention performs approximation processing for approximating the estimator distribution with a normal distribution, evaluates the deviation that occurs in the approximation processing, and evaluates the data related to the calculation of the estimator from the result of the approximation processing and the deviation.
  • the information processing program of one aspect of the present invention causes a computer to perform approximation processing that approximates the estimator distribution with a normal distribution, evaluates the deviation that occurs in the approximation processing, and evaluates the data related to the calculation of the estimator from the result of the approximation processing and the deviation.
  • the present invention it is possible to determine the sample size necessary for calculating the estimator, etc. for general distributions that are not limited to normal distributions.
  • the reason for this is that the normal approximation and deviation evaluation make it possible to evaluate the distribution of the estimator without using the inherent properties of the normal distribution.
  • FIG. 1 is a block diagram showing a first embodiment
  • FIG. FIG. 11 is a block diagram showing a second embodiment
  • FIG. 11 is a block diagram showing a third embodiment
  • FIG. FIG. 12 is a block diagram showing a fourth embodiment
  • FIG. FIG. 12 is a block diagram showing a fifth embodiment
  • FIG. 1 is a block diagram showing an example of a computer having a CPU
  • FIG. 2 is a block diagram showing main parts of the information processing apparatus
  • FIG. 1 is a block diagram showing a configuration example of a sample size determination device as a first embodiment of an information processing device.
  • the sample size determination device includes an estimator type determination unit 100, a left error input unit 110, a right error input unit 111, a reliability factor input unit 120, a standard deviation lower bound input unit 130, a standard deviation upper bound input unit 131, a third product moment upper bound input unit 132, a fourth product moment lower bound input unit 133, a fourth product moment upper bound input unit 134, a sixth product moment upper bound input unit 135, and a left distribution function lower bound input unit 1.
  • 36 a left distribution function upper bound input unit 137 , a right distribution function lower bound input unit 138 , a right distribution function upper bound input unit 139 and a sample size evaluation unit 140 .
  • the unit 138 and the right distribution function upper bound input unit 139 input the left error, the right error, the reliability rate, the standard deviation lower bound, the standard deviation upper bound, the third product moment upper bound, the fourth product moment lower bound, the fourth product moment upper bound, the sixth product moment upper bound, the left distribution function lower bound, the left distribution function upper bound, the right distribution function lower bound, and the right distribution function upper bound, respectively.
  • the estimator type determination unit 100 determines the type of input estimator. That is, the estimator type determination unit 100 determines the type of estimator to be calculated.
  • the types of estimators are sample means, unbiased variances, or sample quantiles. Therefore, the estimator type determination unit 100 receives data that can specify the sample mean, the unbiased variance, or the sample quantile.
  • the sample size evaluation unit 140 includes a normal approximation unit 141 , a deviation evaluation unit 142 and a size determination unit 143 .
  • the normal approximation unit 141 calculates a value (hereinafter also referred to as "asymptotic approximation probability") that approximates the probability that the value obtained by subtracting the estimator from the true value, which is the value to be estimated, is equal to or less than the left-side error value and the value obtained by subtracting the true value from the estimator is equal to or less than the right-side error value for a fixed sample size. That is, the normal approximation unit 141 executes approximation processing for approximating the estimator distribution with a normal distribution. Note that the estimator distribution is the probability distribution followed by the estimator.
  • the deviation evaluation unit 142 evaluates the deviation generated by the approximation processing by the normal approximation unit 141. Specifically, assuming a case where an estimator of an input type is calculated from samples having a fixed sample size, the deviation evaluation unit 142 calculates the upper bound of the absolute value of the difference (hereinafter also referred to as "deviation") between the probability that the value obtained by subtracting the estimator from the true value for a fixed sample size is equal to or less than the left error value and the value obtained by subtracting the true value from the estimator is equal to or less than the right error value, and the value obtained by approximating the probability by the asymptotic normality of the estimator distribution.
  • device the upper bound of the absolute value of the difference
  • the size determination unit 143 evaluates data related to the calculation of the estimator from the results of the approximation processing by the normal approximation unit 141, that is, the asymptotic approximation probability and the deviation by the deviation evaluation unit 142. For example, the size determination unit 143 sets the initial value of the sample size n to 2, and repeats the following procedure until a sample size that satisfies a predetermined condition is determined. Specifically, the value calculated by the deviation evaluation unit 142 is subtracted from the value calculated by the normal approximation unit 141 for the sample size n, and if this value is equal to or greater than the reliability rate, the sample size necessary for calculating the estimator is determined as n at that time. Otherwise, update the sample size to n+1.
  • the estimator type determination unit 100 determines the type of the input calculated estimator (estimator to be calculated) (step S101).
  • the sample size evaluation unit 140 inputs each parameter (step S102).
  • the sample size evaluation unit 140 inputs the left error ⁇ 1 and the right error ⁇ 2 via the left error input unit 110 and the right error input unit 111, respectively. ⁇ 140 ⁇ 130 ⁇ 131 ⁇ 3 ⁇ 132 ⁇ 4 ⁇ 133 ⁇ 4 ⁇ 134 ⁇ 6 ⁇ 135 ⁇ 136 ⁇ 137 ⁇ 138 ⁇ 139 ⁇ 1 ⁇ 2 ⁇ 3 ⁇ A ⁇ 4 ⁇ B ⁇ 4 ⁇ C ⁇ 6 ⁇ D ⁇ l 1 ⁇ u 1 ⁇ l 2 ⁇ u 2 ⁇
  • the sample size evaluation unit 140 also inputs the reliability rate 1- ⁇ via the reliability rate input unit 120 (step S102). Note that the reliability rate 1 ⁇ corresponds to the probability (percentage) of occurrence of sufficient estimation of the true value by the estimator.
  • the size determining unit 143 sets 2 as the initial value of the sample size n (step S103).
  • the normal approximation unit 141 calculates a value (asymptotic approximation probability) P n obtained by approximating the probability that the value obtained by subtracting the estimator from the true value is equal to or less than the left error value and that the value obtained by subtracting the true value from the estimator is equal to or less than the right error value by approximating the asymptotic normality of the estimator distribution (step S104). That is, the normal approximation unit 141 performs approximation processing.
  • the normal approximation unit 141 uses the following equation (11) as P n in the process of step S104.
  • is the cumulative distribution function of the standard normal distribution.
  • the normal approximation unit 141 uses Equation (12) below as P n in the process of step S104.
  • the normal approximation unit 141 uses the following equation (13) as P n in the process of step S104. Equations (11) to (13) correspond to approximation equations.
  • the deviation evaluation unit 142 calculates the upper bound of the absolute value (hereinafter also referred to as “normal approximation error”) E n for the difference (deviation) between the probability that the value obtained by subtracting the estimator from the true value is equal to or less than the left error value and the value obtained by subtracting the true value from the estimator is equal to or less than the right error value, and the difference (deviation) between the probability and the value approximated by the asymptotic normality of the estimator distribution (step S105).
  • E n corresponds to the deviation generated in the approximation process by the normal approximation unit 141 .
  • the process of calculating En is also referred to as deviation evaluation process.
  • the deviation evaluation unit 142 uses Equation (14) below as En in the process of step S105.
  • the deviation evaluation unit 142 uses the following equation (15) as En in the process of step S105.
  • the size determining unit 143 calculates the value of P n ⁇ E n (step S106). If P n ⁇ E n is less than the reliability rate 1 ⁇ , the size determination unit 143 increases the value of the sample size by 1, and returns to the state of repeating the processes after step S104 (step S107). When P n ⁇ E n is equal to or greater than the reliability rate 1 ⁇ , the size determination unit 143 determines the sample size n at that time as the sample size necessary for calculating the estimator of the determined type (step S108).
  • the sample size determiner can determine the sample size needed to calculate the estimator. Specifically, the sample size determination device can determine the sample size necessary for the probability that the value obtained by subtracting the estimator from the true value is equal to or less than the input left error and the probability that the value obtained by subtracting the estimator from the true value is equal to or less than the input right error is equal to or greater than the input confidence rate.
  • the reason why it is not necessary to assume normality for the distribution followed by the samples is that the processing by the normal approximation unit 141 and the deviation evaluation unit 142 makes it possible to evaluate the distribution of the estimator without using the inherent properties of the normal distribution.
  • FIG. 3 is a block diagram showing a configuration example of the reliability rate determination device.
  • the reliability rate determination device of the second embodiment includes an estimator type determination unit 100, a left error input unit 110, a right error input unit 111, a sample size input unit 121, a standard deviation lower bound input unit 130, a standard deviation upper bound input unit 131, a third product moment upper bound input unit 132, a fourth product moment lower bound input unit 133, a fourth product moment upper bound input unit 134, a sixth product moment upper bound input unit 135, and a left distribution.
  • a function lower bound input unit 136 , a left distribution function upper bound input unit 137 , a right distribution function lower bound input unit 138 , a right distribution function upper bound input unit 139 , and a reliability rate evaluation unit 150 are provided.
  • Estimator type determination unit 100 left error input unit 110, right error input unit 111, standard deviation lower bound input unit 130, standard deviation upper bound input unit 131, 3rd product moment upper bound input unit 132, 4th product moment lower bound input unit 133, 4th product moment upper bound input unit 134, 6th product moment upper bound input unit 135, left distribution function lower bound input unit 136, left distribution function upper bound input unit 137, right distribution function lower bound
  • the configurations and functions of the input section 138 and the right distribution function upper bound input section 139 are the same as those in the first embodiment.
  • the sample size input unit 121 inputs the sample size used for calculating the estimator.
  • the reliability evaluation unit 150 includes a normal approximation unit 151 , a deviation evaluation unit 152 and a reliability determination unit 153 .
  • the normal approximation unit 151 calculates a value (that is, the asymptotic approximation probability) that approximates the probability that the value obtained by subtracting the estimator from the true value is equal to or less than the left error value and the value obtained by subtracting the true value from the estimator is equal to or less than the right error value by the asymptotic normality of the estimator distribution. That is, the normal approximation unit 151 approximates the estimator distribution with a normal distribution.
  • the types of estimators are sample mean, unbiased variance, or sample quantile.
  • the deviation evaluation unit 152 evaluates the deviation generated by the approximation processing by the normal approximation unit 151. Specifically, assuming that the estimator of the type input to the estimator type determination unit 100 is calculated for the sample size input to the sample size input unit 121, the deviation evaluation unit 152 calculates the upper limit of the absolute value (i.e., the deviation) between the probability that the value obtained by subtracting the estimator from the true value is equal to or less than the left error value and the value obtained by subtracting the true value from the estimator is equal to or less than the right error value, and the value obtained by approximating the probability by the asymptotic normality of the estimator distribution. , normal approximation error).
  • the reliability rate determination unit 153 determines a value obtained by subtracting the value calculated by the deviation evaluation unit 152 from the value calculated by the normal approximation unit 151 as the reliability rate.
  • the estimator type determination unit 100 determines the type of the input calculated estimator (step S101). Like the sample size evaluation unit 140 in the first embodiment (see step S102 in FIG. 2), the reliability rate evaluation unit 150 inputs each parameter (step S112). However, in the first embodiment, the sample size evaluation unit 140 receives the reliability rate 1- ⁇ via the reliability rate input unit 120, but in the present embodiment, the reliability rate evaluation unit 150 inputs the sample size via the sample size input unit 121 in the process of step S112.
  • each parameter satisfies the conditions of the above expressions (5) to (10).
  • the normal approximation unit 151 calculates the asymptotic approximation probability P n using any of the above equations (11), (12) and (13) according to the type of calculated estimator determined by the estimator type determination unit 100 (step S104). Similar to the deviation evaluation unit 142 in the first embodiment, the deviation evaluation unit 152 calculates the normal approximation error En using any one of the above equations (14), (15) and (16) according to the type of calculated estimator determined by the estimator type determination unit 100 (step S105).
  • the normal approximation unit 151 and the deviation evaluation unit 152 in the present embodiment calculate the asymptotic approximation probability P n and the normal approximation error E n for the sample size input to the sample size input unit 121.
  • the reliability rate determination unit 153 determines a reliability rate by subtracting the E n calculated by the deviation evaluation unit 152 from the P n calculated by the normal approximation unit 151 (step S116).
  • the reliability rate determination device can determine the lower bound of the probability that, when the estimator is calculated from samples of the input sample size, the left-side error that is the true value minus the estimator is less than or equal to the input left-side error, and the value that is the estimator minus the true value is less than or equal to the input right-side error.
  • the reason why it is not necessary to assume normality for the distribution followed by the samples is that the processing by the normal approximation unit 151 and the deviation evaluation unit 152 makes it possible to evaluate the distribution of the estimator without using the unique properties of the normal distribution.
  • FIG. 5 is a block diagram showing a configuration example of the error determination device.
  • the error determination device of the third embodiment includes an estimator type determination unit 100, a reliability factor input unit 120, a sample size input unit 121, a standard deviation lower bound input unit 130, a standard deviation upper bound input unit 131, a third product moment upper bound input unit 132, a fourth product moment lower bound input unit 133, a fourth product moment upper bound input unit 134, a sixth product moment upper bound input unit 135, a left distribution function lower bound input unit 136, A left distribution function upper bound input unit 137, a right distribution function lower bound input unit 138, a right distribution function upper bound input unit 139, an error evaluation unit 160, a left error initial value input unit 165, a right error initial value input unit 166, a left error increase width input unit 167, and a right error increase width input unit 168.
  • Estimator type determination unit 100 reliability factor input unit 120, sample size input unit 121, standard deviation lower bound input unit 130, standard deviation upper bound input unit 131, 3rd product moment upper bound input unit 132, 4th product moment lower bound input unit 133, 4th product moment upper bound input unit 134, 6th product moment upper bound input unit 135, left distribution function lower bound input unit 136, left distribution function upper bound input unit 137, right distribution function lower bound
  • the configurations and functions of the input section 138 and the right distribution function upper bound input section 139 are the same as those in the first embodiment or the second embodiment.
  • the left side error initial value input unit 165 inputs the left side error initial value ⁇ 1 .
  • the right error initial value input unit 166 inputs the initial value ⁇ 2 of the right error.
  • the left side error increase width input unit 167 inputs the left side error increase width ⁇ 1 . Enter the increment width ⁇ 2 of the right side error. Note that the left error corresponds to an error when the estimator deviates to the left of the true value.
  • a right error corresponds to an error when the estimator deviates to the right of the true value.
  • the error evaluation unit 160 includes a normal approximation unit 161 , a deviation evaluation unit 162 and an error determination unit 163 .
  • the normal approximation unit 161 approximates the probability that the value obtained by subtracting the estimator from the true value is less than or equal to the fixed left-side error value and the value obtained by subtracting the true value from the estimator is less than or equal to the fixed right-side error value by approximating the asymptotic normality of the estimator distribution (i.e. , asymptotic approximate probability). That is, the normal approximation unit 161 approximates the estimator distribution with a normal distribution.
  • the types of estimators are, for example, sample mean, unbiased variance, or sample quantile.
  • the deviation evaluation unit 162 evaluates the deviation generated by the approximation processing by the normal approximation unit 161. Specifically, assuming that the estimator of the type input to the estimator type determination unit 100 is calculated from the samples of the sample size input to the sample size input unit 121 for the fixed left-side error and the fixed right-side error, the deviation evaluation unit 162 calculates the probability that the value obtained by subtracting the estimator from the true value is less than or equal to the fixed left-side error and the value obtained by subtracting the true value from the estimator is less than or equal to the fixed right-side error, and the value obtained by approximating the probability by the asymptotic normality of the estimator distribution. The upper bound of the absolute value (that is, the normal approximation error) is calculated for the difference (that is, deviation) from .
  • the error determination unit 163 increases the fixed value of the left error by ⁇ 1 and increases the fixed value of the right error by ⁇ 2 until the value calculated by the normal approximation unit 161 minus the value calculated by the deviation evaluation unit 162 becomes equal to or greater than the value input to the reliability rate input unit 120. Then, the error determination unit 163 determines the left error and the right error when a predetermined condition is satisfied as the error.
  • the estimator type determination unit 100 determines the type of the input calculated estimator (step S101).
  • the error evaluation unit 160 inputs each parameter (step S122).
  • the error evaluation unit 160 inputs the left error initial value ⁇ 1 and the right error initial value ⁇ 2 via the left error initial value input unit 165 and the right error initial value input unit 166, respectively.
  • the error evaluation unit 160 inputs the standard deviation lower bound ⁇ 1 , the standard deviation upper bound ⁇ 2 , the 3rd moment upper bound A, the 4th moment lower bound B, and the 4th moment upper bound through the standard deviation lower bound input portion 130 , the standard deviation upper bound input portion 131 , the 3rd moment upper bound input portion 132 , the 4th moment lower bound input portion 133 , the 4th moment upper bound input portion 134 , and the 6th moment upper bound input portion 135 . Enter C, and the 6th order moment upper bound D.
  • the error evaluation unit 160 inputs the left error initial value ⁇ 1 , the right error initial value ⁇ 2 , the left error increase width ⁇ 1 , and the right error increase width ⁇ 2 via the left error initial value input unit 165, the right error initial value input unit 166, the left error increase input unit 167, and the right error increase input unit 168.
  • the sample size evaluation unit 140 receives the reliability rate 1- ⁇ via the reliability rate input unit 120
  • the reliability rate evaluation unit 150 receives the sample size via the sample size input unit 121.
  • the error evaluation unit 160 inputs both the reliability rate 1- ⁇ and the sample size in the process of step S122.
  • Error evaluation unit 160 inputs left distribution function lower bound l 1 , left distribution function upper bound u 1 , right distribution function lower bound l 2 , and right distribution function upper bound u 2 via left distribution function lower bound input unit 136, left distribution function upper bound input unit 137, right distribution function lower bound input unit 138, and right distribution function upper bound input unit 139 (step S123).
  • the parameters input to the error evaluation unit 160 via the left distribution function lower bound input unit 136, the left distribution function upper bound input unit 137, the right distribution function lower bound input unit 138, and the right distribution function upper bound input unit 139 satisfy the conditions of the above equations (9) to (10).
  • the normal approximation unit 161 calculates the asymptotic approximation probability P n using any of the above equations (11), (12), and (13) according to the type of calculated estimator determined by the estimator type determination unit 100 (step S104).
  • the deviation evaluation unit 162 calculates the normal approximation error E n using any one of the above equations (14), (15) and (16) according to the type of calculated estimator determined by the estimator type determination unit 100 (step S105).
  • the error determination unit 163 calculates the value of P n ⁇ E n (step S106). When P n ⁇ E n is less than the reliability rate 1 ⁇ , the error determination unit 163 increases the left error ⁇ 1 and the right error ⁇ 2 by ⁇ 1 and ⁇ 2 respectively. Then, the process returns to the state of repeating the processes after step S123 (step S127). When P n ⁇ E n is equal to or greater than the reliability rate 1 ⁇ , the error determining unit 163 determines the left error ⁇ 1 and the right error ⁇ 2 at that time as errors when the determined type of estimator is calculated (step S128).
  • the error determination device can determine the left-side error and the right-side error so that the probability that the value obtained by subtracting the estimator from the true value is less than or equal to the left-hand error and the value obtained by subtracting the true value from the estimator is less than or equal to the right-hand error is greater than or equal to the reliability rate.
  • the reason why it is not necessary to assume normality for the distribution followed by the samples is that the processing by the normal approximation unit 161 and the deviation evaluation unit 162 enables the distribution of the estimator to be evaluated without using the properties inherent to the normal distribution.
  • FIG. 7 is a block diagram showing the first embodiment.
  • a first example is an example of the first embodiment.
  • the apparatus of the first example includes the sample size evaluation unit 140, the data set input unit 400, the sample usage determination unit 410, and the model construction unit 420 of the first embodiment.
  • the data set input unit 400 inputs a data set consisting of a plurality of samples that can have different sample sizes.
  • the sample size evaluator 140 determines the sample size required to calculate the sample mean, unbiased variance, or sample quantile.
  • the sample usage determination unit 410 extracts from the data set a number of samples equal to or larger than the sample size determined by the sample size evaluation unit 140 .
  • the model building unit 420 builds a model by machine learning, with sample mean, unbiased variance, or sample quantile as feature quantities.
  • the model construction unit 420 uses the data set consisting of only the samples of sufficient size extracted by the sample usage determination unit 410 for model training in order to reduce the scattering of the feature quantity distribution and perform robust learning.
  • the selection of data used for constructing a model has been described, but the result of the sample usage determining unit 410 can also be used for selecting test data for the constructed model.
  • FIG. 8 is a block diagram showing a second embodiment.
  • a second example is an example of the second embodiment.
  • the apparatus of the second embodiment includes a reliability rate evaluation unit 150, a data set input unit 500, a sample usage determination unit 510, a model construction unit 520, and a threshold input unit 530 in the second embodiment.
  • the data set input unit 500 inputs a data set consisting of a plurality of samples that can have different sample sizes.
  • the reliability rate evaluation unit 150 determines the reliability rate when the sample mean, unbiased variance, or sample quantile is calculated from each sample in the data set.
  • Sample use determining section 510 compares the reliability rate with the threshold value input to threshold input section 530 .
  • the sample usage determination unit 510 extracts only samples whose reliability rate is equal to or higher than the threshold value from the data set.
  • the model construction unit 520 constructs a model by machine learning using the sample mean, unbiased variance, or sample quantile as a feature quantity.
  • the model building unit 520 uses a data set consisting only of samples from which feature values can be extracted with a sufficient reliability extracted by the sample usage determining unit 510 in order to reduce the scattering of the feature value distribution and perform robust learning for model training.
  • the selection of data used for constructing a model has been described, but the result of the sample usage determining unit 510 can also be used for selecting test data for the constructed model.
  • FIG. 9 is a block diagram showing a third embodiment.
  • the third example is also an example of the second embodiment.
  • the apparatus of the third example includes the reliability rate evaluation unit 150, data set input unit 501, weight calculation unit 540, and model construction unit 550 of the second embodiment.
  • the dataset input unit 501 inputs a dataset consisting of a plurality of samples with a common sample size.
  • the reliability rate evaluation unit 150 determines the reliability rate when the sample mean, unbiased variance, or sample quantile is calculated for a sample size common to each sample in the data set.
  • the weight calculator 540 determines the weight to be given to each estimator according to the determined reliability rate.
  • the model construction unit 550 assigns weights determined by the weight calculation unit 540 to the sample mean, unbiased variance, or sample quantiles, which are feature quantities, to build a model that emphasizes feature quantities with high reliability rates. In this embodiment, selection of data to be used for constructing a model has been described, but the result of the weight calculator 540 can also be used when using test data for the constructed model.
  • FIG. 10 is a block diagram showing a fourth embodiment.
  • a fourth example is an example of the third embodiment.
  • the apparatus of the fourth embodiment includes the error evaluation unit 160, data set input unit 600, sample usage determination unit 610, model construction unit 620, and threshold input unit 630 of the third embodiment.
  • the data set input unit 600 inputs a data set consisting of a plurality of samples that can have different sample sizes. Error estimator 160 determines, for each sample in the data set, the error in calculating the sample mean, unbiased variance, or sample quantile from that sample. Sample use determination section 610 compares the error with the threshold input to threshold input section 630 . The sample use determination unit 610 extracts only samples whose error is equal to or less than the threshold from the data set. The model construction unit 620 constructs a model by machine learning using the sample mean, unbiased variance, or sample quantile as feature quantities.
  • the model building unit 620 uses a data set consisting of only samples from which feature values with sufficiently small error from the true value can be extracted, extracted by the sample usage determination unit 610, for model training.
  • the selection of data used for constructing a model has been described, but the result of the sample usage determining unit 610 can also be used for selecting test data for the constructed model.
  • FIG. 11 is a block diagram showing the fifth embodiment.
  • the fifth example is also an example of the third embodiment.
  • the apparatus of the fifth example includes the error evaluation unit 160, data set input unit 601, weight calculation unit 640, and model construction unit 650 of the third embodiment.
  • a dataset input unit 601 inputs a dataset consisting of a plurality of samples with a common sample size.
  • the error estimator 160 determines the error in calculating the sample mean, unbiased variance, or sample quantile for a sample size common to each sample in the data set.
  • the weight calculator 640 determines the weight to be given to each estimator according to the determined smallness of the error.
  • the model construction unit 650 attaches weights determined by the weight calculation unit 640 to the sample mean, unbiased variance, or sample quantiles, which are the feature amounts, thereby emphasizing the feature amount having a small error from the true value. Model construction can be performed. In this embodiment, selection of data to be used for constructing a model has been described, but the result of the weight calculator 640 can also be used when using test data for the constructed model.
  • the device of the above example can be applied to improve the model by excluding samples with insufficient sample size from the training data set in model construction by machine learning that includes sample mean, unbiased variance, or sample quantile as feature values.
  • the information processing apparatus of the above-described embodiment can be applied to applications such as grasping in advance the sample size required for calculation and referring to the experimental plan for data acquisition when data analysis using any of the sample mean, unbiased variance, or sample quantile is assumed.
  • each component in the above embodiments and examples can be configured with one piece of hardware, but can also be configured with one piece of software. Also, each component can be configured by a plurality of pieces of hardware, and can also be configured by a plurality of pieces of software. It is also possible to configure part of each component with hardware and the other part with software.
  • Each function (each process) in the above embodiment can be realized by a computer having a processor such as a CPU (Central Processing Unit) and a memory.
  • a storage device stores a program for implementing the method (processing) in the above embodiments, and each function may be realized by executing the program stored in the storage device with a CPU.
  • FIG. 12 is a block diagram showing an example of a computer having a CPU.
  • a computer is implemented in the apparatus of each of the above embodiments and examples.
  • the CPU 1000 implements each function in the above embodiments and examples by executing processes according to programs stored in the storage device 1001 .
  • the CPU 1000 can realize each function in each of the sample size determination device, reliability rate determination device, and error determination device shown in FIGS.
  • the CPU 1000 can realize the function of the sample size evaluation unit 140 and the functions of each input unit shown in FIG.
  • the CPU 1000 can implement the functions of the reliability rate determination device and the functions of each input unit shown in FIG.
  • the CPU 1000 can realize the function of the error determination device and the function of each input section shown in FIG.
  • the computer can realize each function in the apparatus of each embodiment described above. That is, the CPU 1000 can implement the functions of each block in the devices shown in FIGS.
  • the storage device 1001 is, for example, a non-transitory computer readable medium.
  • Non-transitory computer readable media include various types of tangible storage media. Specific examples of non-transitory computer-readable media include magnetic recording media (e.g., hard disks), magneto-optical recording media (e.g., magneto-optical disks), CD-ROMs (Compact Disc-Read Only Memory), CD-Rs (Compact Disc-Recordable), CD-R/W (Compact Disc-ReWritable), semiconductor memories (e.g., mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM).
  • magnetic recording media e.g., hard disks
  • magneto-optical recording media e.g., magneto-optical disks
  • CD-ROMs Compact Disc-Read Only Memory
  • CD-Rs Compact Disc-Recordable
  • CD-R/W Compact Disc-ReWritable
  • semiconductor memories e.g.
  • the program may also be stored on various types of transitory computer readable medium.
  • a transitory computer-readable medium is provided with a program, for example, via a wired or wireless communication path, ie, via an electrical, optical or electromagnetic wave.
  • the memory 1002 is, for example, RAM (Random Access Memory), and is storage means for temporarily storing data when the CPU 1000 executes processing.
  • RAM Random Access Memory
  • a mode in which a program held by the storage device 1001 or a temporary computer-readable medium is transferred to the memory 1002 and the CPU 1000 executes processing based on the program in the memory 1002 can also be assumed.
  • FIG. 13 is a block diagram showing the main parts of the information processing device.
  • the apparatus 10 for calculating an estimator shown in FIG. A data evaluation means (data evaluation unit) 13 for evaluating data (in the embodiment, implemented by a size determination unit 143, a reliability rate determination unit 153, or an error determination unit 163) is provided.
  • the data evaluation unit 13 is, for example, a sample size determination unit (implemented by the size determination unit 143 in the embodiment) that determines the sample size for calculating the estimator.
  • a sample size is an example of data related to calculation of an estimator. Note that the sample size determination means, for example, in the iterative calculation of sample size search (for example, the processing of steps S104 to S107 in the first embodiment), the sample size when P n ⁇ E n becomes the reliability rate 1 ⁇ or more is the finally determined sample size.
  • the data evaluation means 13 is, for example, reliability rate determination means (implemented by the reliability rate determination unit 153 in the embodiment) that determines the reliability rate.
  • a reliability rate is an example of data relating to calculation of an estimator. Note that, in the second embodiment, the reliability rate determination unit 153, which is an example of reliability rate determination means, uses P n ⁇ E n as the reliability rate.
  • the data evaluation means 13 is, for example, error determination means (implemented by the error determination unit 163 in the embodiment) that determines the error between the estimated amount and the true value.
  • An error is an example of data relating to the calculation of the estimator.
  • An information processing apparatus comprising: data evaluation means for evaluating data relating to calculation of an estimator from the result of the approximation process and the deviation.
  • the normal approximation means uses an approximation formula including a sample size as a parameter, and performs the approximation process while changing the parameter
  • the deviation evaluation means uses an evaluation formula including a sample size as a parameter, and performs the deviation evaluation process while changing the parameter
  • the information processing apparatus according to Supplementary Note 2, wherein the sample size determination means determines the value of the parameter when the difference between the result of the approximation process and the deviation becomes equal to or greater than a reliability factor as the sample size.
  • the normal approximation means performs the approximation process using an approximation formula including a sample size as a parameter
  • the deviation evaluation means performs the deviation evaluation process using an evaluation formula including a sample size as a parameter, 5.
  • the information processing apparatus according to supplementary note 4, wherein the reliability factor determination means determines a difference between the result of the approximation process and the deviation as the reliability factor.
  • the normal approximation means performs the approximation while changing a left error corresponding to an error when the estimator deviates to the left from the true value and a right error corresponding to an error when the estimator deviates to the right from the true value
  • the deviation evaluation means performs the deviation evaluation process while changing the left side error and the right side error
  • the information processing apparatus according to appendix 6, wherein the error determination means determines the left-side error and the right-side error when the difference between the result of the approximation process and the deviation is equal to or greater than a reliability rate as the error between the estimated amount and the true value.
  • Appendix 8 The information processing device according to any one of Appendices 1 to 7, wherein the estimator is sample mean, unbiased variance, or sample quantile.
  • Appendix 13 The information processing method according to any one of Appendices 9 to 12, wherein the estimator is a sample mean, an unbiased variance, or a sample quantile.
  • Appendix 14 A computer-readable recording medium storing an information processing program, The information processing program comprises: approximating the estimator distribution with a normal distribution, Evaluate the deviation that occurs in the approximation process, A computer-readable recording medium for evaluating data relating to calculation of an estimator from the result of the approximation process and the deviation.
  • the information processing program causes the computer to: 15.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Complex Calculations (AREA)

Abstract

情報処理装置10は、推定量分布を正規分布で近似する近似処理を行う正規近似部と、近似処理で発生するずれを評価するずれ評価部と、近似処理の結果とずれとから推定量の算出に関するデータを評価するデータ評価部とを含む。

Description

情報処理装置および情報処理方法
 本発明は、情報処理装置および情報処理方法に関する。
 サンプルサイズ決定方法の一例が、非特許文献1に記載されている。その方法では、指定された誤差ε,ε(>0)、信頼率(信頼度)1-δ、分散σに関して、有限サンプルx,・・・,xが平均μと分散σをもつ正規分布から生じているとする。そして、その方法は、(1)式で示される標本平均が1-δ以上の確率で(2)式で表される不等式を満たすために必要なサンプルサイズnを、(3)式で表される値以上の最小の自然数と決定する。zδ/2は、標準正規分布の上側δ/2点である。min{ε,ε}は、ε,εの最小値である。
Figure JPOXMLDOC01-appb-M000001
永田靖著、「サンプルサイズの決め方」朝倉書店、2003年9月20日、182-183頁
 非特許文献1に記載されたサンプルサイズ決定方法の適用範囲は、正規分布のみに限定される。その理由は、再生性をはじめとする、正規分布に固有の性質を仮定できない場合、推定量の分布が、サンプルサイズnをパラメータに持つ既知の分布へと帰着されないためである。
 本発明は、正規性を仮定できない場合でも、サンプルサイズの決定等を行える情報処理装置および情報処理方法を提供することを目的とする。
 本発明の一態様の情報処理装置は、推定量分布を正規分布で近似する近似処理を行う正規近似手段と、近似処理で発生するずれを評価するずれ評価手段と、近似処理の結果とずれとから推定量の算出に関するデータを評価するデータ評価手段とを含む。
 本発明の一態様の情報処理方法は、推定量分布を正規分布で近似する近似処理を行い、近似処理で発生するずれを評価し、近似処理の結果とずれとから推定量の算出に関するデータを評価する。
 本発明の一態様の情報処理プログラムは、コンピュータに、推定量分布を正規分布で近似する近似処理を行わせ、近似処理で発生するずれを評価させ、近似処理の結果とずれとから推定量の算出に関するデータを評価させる。
 本発明によれば、正規分布に限らない一般の分布に対して、推定量算出に必要なサンプルサイズの決定等を行うことができる。その理由は、正規近似とずれ評価によって、正規分布に固有の性質を用いることなく、推定量の分布が評価可能となるためである。
サンプルサイズ決定装置の構成例を示すブロック図である。 サンプルサイズ決定装置の動作を示すフローチャートである。 信頼率決定装置の構成例を示すブロック図である。 信頼率決定装置の動作を示すフローチャートである。 誤差決定装置の構成例を示すブロック図である。 誤差決定装置の動作を示すフローチャートである。 第1の実施例を示すブロック図である。 第2の実施例を示すブロック図である。 第3の実施例を示すブロック図である。 第4の実施例を示すブロック図である。 第5の実施例を示すブロック図である。 CPUを有するコンピュータの一例を示すブロック図である。 情報処理装置の主要部を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
[第1の実施形態]
[構成の説明]
 図1は、情報処理装置の第1の実施形態としてのサンプルサイズ決定装置の構成例を示すブロック図である。図1に示すように、サンプルサイズ決定装置は、推定量種類判定部100、左側誤差入力部110、右側誤差入力部111、信頼率入力部120、標準偏差下界入力部130、標準偏差上界入力部131、3次積率上界入力部132、4次積率下界入力部133、4次積率上界入力部134、6次積率上界入力部135、左側分布関数下界入力部136、左側分布関数上界入力部137、右側分布関数下界入力部138、右側分布関数上界入力部139、およびサンプルサイズ評価部140を備える。
 左側誤差入力部110、右側誤差入力部111、信頼率入力部120、標準偏差下界入力部130、標準偏差上界入力部131、3次積率上界入力部132、4次積率下界入力部133、4次積率上界入力部134、6次積率上界入力部135、左側分布関数下界入力部136、左側分布関数上界入力部137、右側分布関数下界入力部138、右側分布関数上界入力部139は、それぞれ、左側誤差、右側誤差、信頼率、標準偏差下界、標準偏差上界、3次積率上界、4次積率下界、4次積率上界、6次積率上界、左側分布関数下界、左側分布関数上界、右側分布関数下界、右側分布関数上界を入力する。
 推定量種類判定部100は、入力された推定量の種類を判定する。すなわち、推定量種類判定部100は、算出すべき推定量の種類を判定する。推定量の種類は、標本平均、不偏分散、または標本分位点である。したがって、推定量種類判定部100には、標本平均、不偏分散、または標本分位点を特定可能なデータが入力される。
 サンプルサイズ評価部140は、正規近似部141、ずれ評価部142とサイズ決定部143とを含む。
 固定されたサンプルサイズをもつサンプルから、入力された種類の推定量を算出する場合を想定し、正規近似部141は、固定されたサンプルサイズに対して、推定したい値である真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率を推定量分布の漸近正規性により近似した値(以下、「漸近近似確率」ともいう。)を算出する。すなわち、正規近似部141は、推定量分布を正規分布で近似する近似処理を実行する。なお、推定量分布は、推定量が従う確率分布である。
 ずれ評価部142は、正規近似部141による近似処理で発生するずれを評価する。具体的には、固定されたサンプルサイズをもつサンプルから、入力された種類の推定量を算出する場合を想定し、ずれ評価部142は、固定されたサンプルサイズに対して、真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率と、当該確率を推定量分布の漸近正規性により近似した値との差分(以下、「ずれ」ともいう。)について、絶対値の上界を算出する。
 サイズ決定部143は、正規近似部141による近似処理の結果すなわち漸近近似確率とずれ評価部142によるずれとから推定量の算出に関するデータを評価する。例えば、サイズ決定部143は、サンプルサイズnの初期値を2に設定し、所定の条件を満たすサンプルサイズが決定されるまで以下の手順を繰り返す。具体的には、サンプルサイズnに対して、正規近似部141で算出された値からずれ評価部142で算出された値を減じ、この値が信頼率以上であれば、推定量算出に必要なサンプルサイズをそのときのnに決定する。そうでない場合は、サンプルサイズをn+1に更新する。
[動作の説明]
 次に、図2のフローチャートを参照して本実施形態のサンプルサイズ決定装置の動作を説明する。
 まず、推定量種類判定部100は、入力された算出推定量(算出対象の推定量)の種類を判定する(ステップS101)。
 サンプルサイズ評価部140は、各パラメータを入力する(ステップS102)。本実施形態では、ステップS102の処理で、サンプルサイズ評価部140は、左側誤差入力部110および右側誤差入力部111を介して、左側誤差εおよび右側誤差εを入力する。また、サンプルサイズ評価部140は、標準偏差下界入力部130、標準偏差上界入力部131、3次積率上界入力部132、4次積率下界入力部133、4次積率上界入力部134、6次積率上界入力部135、左側分布関数下界入力部136、左側分布関数上界入力部137、右側分布関数下界入力部138、および右側分布関数上界入力部139を介して、標準偏差下界σ、標準偏差上界σ、3次積率上界A、4次積率下界B、4次積率上界C、6次積率上界D、左側分布関数下界l、左側分布関数上界u、右側分布関数下界l、右側分布関数上界uを入力する。
 各パラメータは、以下の条件を満たすように設定される。すなわち、推定量算出に用いられる独立同分布な有限サンプルを発生させる分布に従う乱数Xに対して、期待値をμ=E[X]、標準偏差をσ((4)式参照)、累積分布関数をF、Fの100p%点を、ξ=inf{t|F(t)≧p}と表した場合に、以下の条件が成り立つ。ただし、0<p<1である。
Figure JPOXMLDOC01-appb-M000002
 σ≦σ≦σ                (5)
 E[|(X-μ)|]≦A           (6)
 B≦E[|(X-μ)-σ|]≦C     (7)
 E[|(X-μ)-σ|]≦D       (8)
 l≦F(ξ-ε)≦u          (9)
 l≦F(ξ+ε)≦u          (10)
 また、サンプルサイズ評価部140は、信頼率入力部120を介して信頼率1-δを入力する(ステップS102)。なお、信頼率1-δは、推定量による真値の十分な推定が発生する確率(割合)に相当する。
 サイズ決定部143は、サンプルサイズnの初期値として2を設定する(ステップS103)。正規近似部141は、真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率を推定量分布の漸近正規性により近似した値(漸近近似確率)Pを算出する(ステップS104)。すなわち、正規近似部141は、近似処理を行う。
 推定量種類判定部100によって算出推定量の種類が標本平均と判定された場合には、本実施形態では、正規近似部141は、ステップS104の処理で、Pとして、下記の(11)式を用いる。Φは、標準正規分布の累積分布関数である。
Figure JPOXMLDOC01-appb-M000003
 推定量種類判定部100によって算出推定量の種類が不偏分散と判定された場合には、本実施形態では、正規近似部141は、ステップS104の処理で、Pとして、下記の(12)式を用いる。
Figure JPOXMLDOC01-appb-M000004
 推定量種類判定部100によって算出推定量の種類が標本分位点の一例である標本の100p%点と判定された場合には、本実施形態では、正規近似部141は、ステップS104の処理で、Pとして、下記の(13)式を用いる。なお、(11)~(13)式は、それぞれ、近似式に相当する。
Figure JPOXMLDOC01-appb-M000005
 (13)式において、下記の記号で表される値は、npを超えない最大の整数を示す。
Figure JPOXMLDOC01-appb-M000006
 ずれ評価部142は、真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率と、当該確率を推定量分布の漸近正規性により近似した値との差分(ずれ)について、絶対値の上界(以下、「正規近似誤差」ともいう。)Eを算出する(ステップS105)。Eは、正規近似部141による近似処理で発生するずれに相当する。Eを算出する処理を、ずれ評価処理ともいう。
 推定量種類判定部100によって算出推定量の種類が標本平均と判定された場合には、本実施形態では、ずれ評価部142は、ステップS105の処理で、Eとして、下記の(14)式を用いる。
Figure JPOXMLDOC01-appb-M000007
 推定量種類判定部100によって算出推定量の種類が不偏分散と判定された場合には、本実施形態では、ずれ評価部142は、ステップS105の処理で、Eとして、下記の(15)式を用いる。
Figure JPOXMLDOC01-appb-M000008
 推定量種類判定部100によって算出推定量の種類が標本の100p%点と判定された場合には、本実施形態では、ずれ評価部142は、ステップS105の処理で、Eとして、下記の(16)式を用いる。なお、(14)~(16)式は、それぞれ、評価式(ずれ評価式)に相当する。また、(14)~(16)式において、C=0.4748である。
Figure JPOXMLDOC01-appb-M000009
 サイズ決定部143は、P-Eの値を算出する(ステップS106)。P-Eが信頼率1-δ未満の場合には、サイズ決定部143はサンプルサイズの値を1増やし、ステップS104以降の処理を繰り返す状態に戻る(ステップS107)。P-Eが信頼率1-δ以上となった場合には、サイズ決定部143は、そのときのサンプルサイズnを、判定された種類の推定量算出に必要なサンプルサイズとして決定する(ステップS108)。
[効果の説明]
 本実施形態では、サンプルが従う分布に正規性を仮定することなく、サンプルサイズ決定装置は、推定量算出に必要なサンプルサイズを決定できる。具体的には、サンプルサイズ決定装置は、真値から推定量を減じた値が入力された左側誤差以下、かつ、推定量から真値を減じた値が入力された右側誤差以下となる確率が、入力された信頼率以上となるために必要なサンプルサイズを決定できる。サンプルが従う分布に正規性を仮定しなくてもよい理由は、正規近似部141とずれ評価部142との処理によって、正規分布に固有の性質を用いることなく、推定量の分布が評価可能になるからである。
[第2の実施形態]
[構成の説明]
 次に、情報処理装置の第2の実施形態としての信頼率決定装置を説明する。
 図3は、信頼率決定装置の構成例を示すブロック図である。図3に示すように、第2の実施形態の信頼率決定装置は、推定量種類判定部100、左側誤差入力部110、右側誤差入力部111、サンプルサイズ入力部121、標準偏差下界入力部130、標準偏差上界入力部131、3次積率上界入力部132、4次積率下界入力部133、4次積率上界入力部134、6次積率上界入力部135、左側分布関数下界入力部136、左側分布関数上界入力部137、右側分布関数下界入力部138、右側分布関数上界入力部139、および信頼率評価部150を備える。
 推定量種類判定部100、左側誤差入力部110、右側誤差入力部111、標準偏差下界入力部130、標準偏差上界入力部131、3次積率上界入力部132、4次積率下界入力部133、4次積率上界入力部134、6次積率上界入力部135、左側分布関数下界入力部136、左側分布関数上界入力部137、右側分布関数下界入力部138、および右側分布関数上界入力部139の構成と機能とは、第1の実施形態におけるそれらと同じである。サンプルサイズ入力部121は、推定量の算出に利用されるサンプルサイズを入力する。
 信頼率評価部150は、正規近似部151、ずれ評価部152と信頼率決定部153とを含む。
 サンプルサイズ入力部121に入力されたサンプルサイズに対して、推定量種類判定部100に入力された種類の推定量が算出された場合を想定し、正規近似部151は、真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率を推定量分布の漸近正規性により近似した値(すなわち、漸近近似確率)を算出する。すなわち、正規近似部151は、推定量分布を正規分布で近似する。なお、本実施形態でも、推定量の種類は、標本平均、不偏分散、または標本分位点である。
 ずれ評価部152は、正規近似部151による近似処理で発生するずれを評価する。具体的には、サンプルサイズ入力部121に入力されたサンプルサイズに対して、推定量種類判定部100に入力された種類の推定量が算出された場合を想定し、ずれ評価部152は、真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率と、当該確率を推定量分布の漸近正規性により近似した値との差分(すなわち、ずれ)について、絶対値の上界(すなわち、正規近似誤差)を算出する。信頼率決定部153は、正規近似部151算出した値からずれ評価部152が算出した値を減じた値を信頼率として決定する。
[動作の説明]
 次に、図4のフローチャートを参照して本実施形態の信頼率決定装置の動作を説明する。
 まず、推定量種類判定部100は、入力された算出推定量の種類を判定する(ステップS101)。信頼率評価部150は、第1の実施形態におけるサンプルサイズ評価部140と同様に(図2におけるステップS102参照)、各パラメータを入力する(ステップS112)。ただし、第1の実施形態では、サンプルサイズ評価部140は、信頼率入力部120を介して信頼率1-δを受け取ったが、本実施形態では、信頼率評価部150は、ステップS112の処理で、サンプルサイズ入力部121を介して、サンプルサイズを入力する。
 なお、各パラメータが上記の(5)~(10)式の条件を満たすことは、第1の実施形態と同様である。
 正規近似部151は、第1の実施形態における正規近似部141と同様に、推定量種類判定部100が判定した算出推定量の種類に応じて、上記の(11)式、(12)式および(13)式のいずれかを用いて、漸近近似確率Pを算出する(ステップS104)。ずれ評価部152は、第1の実施形態におけるずれ評価部142と同様に、推定量種類判定部100が判定した算出推定量の種類に応じて、上記の(14)式、(15)式および(16)式のいずれかを用いて、正規近似誤差Eを算出する(ステップS105)。なお、本実施形態における正規近似部151およびずれ評価部152は、第1の実施形態における正規近似部141およびずれ評価部142とは異なり、サンプルサイズ入力部121に入力されたサンプルサイズに対して、漸近近似確率Pおよび正規近似誤差Eを算出する。
 信頼率決定部153は、正規近似部151が算出したPからずれ評価部152が算出したEを減じた値を信頼率として決定する(ステップS116)。
[効果の説明]
 本実施形態では、サンプルが従う分布に正規性を仮定することなく、信頼率決定装置は、推定量を入力されたサンプルサイズのサンプルから算出した場合に、真値から推定量を減じた値が入力された左側誤差以下、かつ、推定量から真値を減じた値が入力された右側誤差以下となる確率の下界を決定できる。サンプルが従う分布に正規性を仮定しなくてもよい理由は、正規近似部151とずれ評価部152との処理によって、正規分布に固有の性質を用いることなく、推定量の分布が評価可能になるからである。
[第3の実施形態]
[構成の説明]
 次に、情報処理装置の第3の実施形態としての誤差決定装置を説明する。
 図5は、誤差決定装置の構成例を示すブロック図である。図5に示すように、第3の実施形態の誤差決定装置は、推定量種類判定部100、信頼率入力部120、サンプルサイズ入力部121、標準偏差下界入力部130、標準偏差上界入力部131、3次積率上界入力部132、4次積率下界入力部133、4次積率上界入力部134、6次積率上界入力部135、左側分布関数下界入力部136、左側分布関数上界入力部137、右側分布関数下界入力部138、右側分布関数上界入力部139、誤差評価部160、左側誤差初期値入力部165、右側誤差初期値入力部166、左側誤差増加幅入力部167、および右側誤差増加幅入力部168を備える。
 推定量種類判定部100、信頼率入力部120、サンプルサイズ入力部121、標準偏差下界入力部130、標準偏差上界入力部131、3次積率上界入力部132、4次積率下界入力部133、4次積率上界入力部134、6次積率上界入力部135、左側分布関数下界入力部136、左側分布関数上界入力部137、右側分布関数下界入力部138、および右側分布関数上界入力部139の構成と機能とは、第1の実施形態または第2の実施形態におけるそれらと同じである。
 左側誤差初期値入力部165は、左側誤差の初期値εを入力する。右側誤差初期値入力部166は、右側誤差の初期値εを入力する。左側誤差増加幅入力部167は、左側誤差の増加幅ηを入力する。右側誤差の増加幅ηを入力する。なお、左側誤差は、推定量が真値よりも左側にずれる場合の誤差に相当する。右側誤差は、推定量が真値よりも右側にずれる場合の誤差に相当する。
 誤差評価部160は、正規近似部161、ずれ評価部162および誤差決定部163を含む。
 固定された左側誤差および固定された右側誤差に対して、サンプルサイズ入力部121に入力されたサンプルサイズのサンプルから推定量種類判定部100に入力された種類の推定量が算出された場合を想定し、正規近似部161は、真値から推定量を減じた値が固定された左側誤差の値以下、かつ、推定量から真値を減じた値が固定された右側誤差の値以下となる確率を推定量分布の漸近正規性により近似した値(すなわち、漸近近似確率)を算出する。すなわち、正規近似部161は、推定量分布を正規分布で近似する。なお、本実施形態でも、推定量の種類は、例えば、標本平均、不偏分散、または標本分位点である。
 ずれ評価部162は、正規近似部161による近似処理で発生するずれを評価する。具体的には、固定された左側誤差および固定された右側誤差に対して、サンプルサイズ入力部121に入力されたサンプルサイズのサンプルから推定量種類判定部100に入力された種類の推定量が算出された場合を想定し、ずれ評価部162は、真値から推定量を減じた値が固定された左側誤差以下、かつ、推定量から真値を減じた値が固定された右側誤差以下となる確率と、当該確率を推定量分布の漸近正規性により近似した値との差分(すなわち、ずれ)について、絶対値の上界(すなわち、正規近似誤差)を算出する。
 誤差決定部163は、正規近似部161が算出した値からずれ評価部162が算出した値を減じた値が、信頼率入力部120に入力された値以上になるまで、左側誤差の固定値をηだけ増加させるとともに、右側誤差の固定値をηだけ増加させる。そして、誤差決定部163は、所定の条件が満たされたときの左側誤差および右側誤差を誤差として決定する。
[動作の説明]
 次に、図6のフローチャートを参照して本実施形態の誤差決定装置の動作を説明する。
 まず、推定量種類判定部100は、入力された算出推定量の種類を判定する(ステップS101)。
 誤差評価部160は、各パラメータを入力する(ステップS122)。本実施形態では、ステップS122の処理で、誤差評価部160は、左側誤差初期値入力部165および右側誤差初期値入力部166を介して、左側誤差の初期値εおよび右側誤差の初期値εを入力する。また、誤差評価部160は、標準偏差下界入力部130、標準偏差上界入力部131、3次積率上界入力部132、4次積率下界入力部133、4次積率上界入力部134、および6次積率上界入力部135を介して、標準偏差下界σ、標準偏差上界σ、3次積率上界A、4次積率下界B、4次積率上界C、および6次積率上界Dを入力する。
 また、誤差評価部160は、ステップS122の処理で、左側誤差初期値入力部165、右側誤差初期値入力部166、左側誤差増加幅入力部167、および右側誤差増加幅入力部168を介して、左側誤差の初期値ε、右側誤差の初期値ε、左側誤差の増加幅η、および右側誤差の増加幅ηを入力する。
 なお、各パラメータは、上記の(5)~(8)式の条件を満たす。
 また、第1の実施形態ではサンプルサイズ評価部140は信頼率入力部120を介して信頼率1-δを受け取り、第2の実施形態では信頼率評価部150はサンプルサイズ入力部121を介してサンプルサイズを受け取ったが、本実施形態では、誤差評価部160は、ステップS122の処理で、信頼率1-δとサンプルサイズとの双方を入力する。
 誤差評価部160は、左側分布関数下界入力部136、左側分布関数上界入力部137、右側分布関数下界入力部138、および右側分布関数上界入力部139を介して、左側分布関数下界l、左側分布関数上界u、右側分布関数下界l、右側分布関数上界uを入力する(ステップS123)。
 なお、誤差評価部160に、左側分布関数下界入力部136、左側分布関数上界入力部137、右側分布関数下界入力部138、および右側分布関数上界入力部139を介して入力される各パラメータに関して、上記の(9)~(10)式の条件が満たされている。
 正規近似部161は、第1の実施形態における正規近似部141と同様に、推定量種類判定部100が判定した算出推定量の種類に応じて、上記の(11)式、(12)式および(13)式のいずれかを用いて、漸近近似確率Pを算出する(ステップS104)。
 ずれ評価部162は、第1の実施形態におけるずれ評価部142と同様に、推定量種類判定部100が判定した算出推定量の種類に応じて、上記の(14)式、(15)式および(16)式のいずれかを用いて、正規近似誤差Eを算出する(ステップS105)。
 誤差決定部163は、P-Eの値を算出する(ステップS106)。誤差決定部163は、P-Eが信頼率1-δ未満の場合には、左側誤差εと右側誤差εとのそれぞれを、η、ηだけ増加させる。そして、ステップS123以降の処理を繰り返す状態に戻る(ステップS127)。P-Eが信頼率1-δ以上となった場合には、誤差決定部163は、そのときの左側誤差εおよび右側誤差εを、判定された種類の推定量を算出した場合の誤差として決定する(ステップS128)。
[効果の説明]
 本実施形態では、サンプルが従う分布に正規性を仮定することなく、誤差決定装置は、真値から推定量を減じた値が左側誤差以下、かつ、推定量から真値を減じた値が右側誤差以下となる確率が、信頼率以上となるように左側誤差と右側誤差とを決定できる。サンプルが従う分布に正規性を仮定しなくてもよい理由は、正規近似部161とずれ評価部162との処理によって、正規分布に固有の性質を用いることなく、推定量の分布が評価可能になるからである。
 次に、具体的な実施例を説明する。
[第1の実施例]
 図7は、第1の実施例を示すブロック図である。第1の実施例は、第1の実施形態の実施例である。
 図7に示すように、第1の実施例の装置は、第1の実施形態におけるサンプルサイズ評価部140と、データセット入力部400と、サンプル利用判定部410と、モデル構築部420と備える。
 データセット入力部400は、サンプルサイズが異なり得る複数のサンプルからなるデータセットを入力する。サンプルサイズ評価部140は、標本平均、不偏分散または標本分位点の算出に必要なサンプルサイズを決定する。サンプル利用判定部410は、サンプルサイズ評価部140によって決定されたサンプルサイズ以上である数のサンプルをデータセットから抽出する。
 モデル構築部420は、標本平均、不偏分散または標本分位点を特徴量とする、機械学習によるモデル構築を行う。モデル構築部420は、特徴量分布の散らばりを低減し頑健な学習を行うために、サンプル利用判定部410で抽出された十分なサイズのサンプルのみからなるデータセットをモデルの訓練に使用する。なお、本実施例ではモデルの構築に用いるデータの選別について説明したが、構築したモデルに対するテストデータの選別にもサンプル利用判定部410の結果を利用することができる。
[第2の実施例]
 図8は、第2の実施例を示すブロック図である。第2の実施例は、第2の実施形態の実施例である。
 図8に示すように、第2の実施例の装置は、第2の実施形態における信頼率評価部150と、データセット入力部500と、サンプル利用判定部510と、モデル構築部520と、しきい値入力部530とを備える。
 データセット入力部500は、サンプルサイズが異なり得る複数のサンプルからなるデータセットを入力する。信頼率評価部150は、データセット内の各サンプルから標本平均、不偏分散または標本分位点を算出した場合の信頼率を決定する。サンプル利用判定部510は、信頼率を、しきい値入力部530に入力されたしきい値と比較する。サンプル利用判定部510は、信頼率がしきい値以上であるサンプルのみをデータセットから抽出する。モデル構築部520は、標本平均、不偏分散または標本分位点を特徴量とする、機械学習によるモデル構築を行う。モデル構築部520は、特徴量分布の散らばりを低減し頑健な学習を行うために、サンプル利用判定部510で抽出された十分な信頼率で特徴量抽出が可能なサンプルのみからなるデータセットをモデルの訓練に使用する。なお、本実施例ではモデルの構築に用いるデータの選別について説明したが、構築したモデルに対するテストデータの選別にもサンプル利用判定部510の結果を利用することができる。
[第3の実施例]
 図9は、第3の実施例を示すブロック図である。第3の実施例も、第2の実施形態の実施例である。
 図9に示すように、第3の実施例の装置は、第2の実施形態における信頼率評価部150と、データセット入力部501と、重み算出部540と、モデル構築部550とを備える。
 データセット入力部501は、サンプルサイズが共通である複数のサンプルからなるデータセットを入力する。信頼率評価部150は、データセット内の各サンプルに共通のサンプルサイズに対して、標本平均、不偏分散または標本分位点を算出した場合の信頼率を決定する。重み算出部540は、決定された信頼率の高さに応じて各推定量に付与する重みを決定する。モデル構築部550は、特徴量である標本平均、不偏分散または標本分位点に重み算出部540で決定された重みを付与することによって、信頼率の高い特徴量を重要視したモデル構築を行うことができる。なお、本実施例ではモデルの構築に用いるデータの選別について説明したが、構築したモデルに対するテストデータ利用時にも重み算出部540の結果を利用することができる。
[第4の実施例]
 図10は、第4の実施例を示すブロック図である。第4の実施例は、第3の実施形態の実施例である。
 図10に示すように、第4の実施例の装置は、第3の実施形態における誤差評価部160と、データセット入力部600と、サンプル利用判定部610と、モデル構築部620と、しきい値入力部630とを備える。
 データセット入力部600は、サンプルサイズが異なり得る複数のサンプルからなるデータセットを入力する。誤差評価部160は、データセット内の各サンプルについて、そのサンプルから標本平均、不偏分散または標本分位点を算出した場合の誤差を決定する。サンプル利用判定部610は、誤差を、しきい値入力部630に入力されたしきい値と比較する。サンプル利用判定部610は、誤差が閾値以下となるサンプルのみをデータセットから抽出する。モデル構築部620は、標本平均、不偏分散または標本分位点を特徴量とする、機械学習によるモデル構築を行う。モデル構築部620は、特徴量分布の散らばりを低減し頑健な学習を行うために、サンプル利用判定部610で抽出された、真値との誤差が十分小さい特徴量を抽出可能なサンプルのみからなるデータセットをモデルの訓練に使用する。なお、本実施例ではモデルの構築に用いるデータの選別について説明したが、構築したモデルに対するテストデータの選別にもサンプル利用判定部610の結果を利用することができる。
[第5の実施例]
 図11は、第5の実施例を示すブロック図である。第5の実施例も、第3の実施形態の実施例である。
 図11に示すように、第5の実施例の装置は、第3の実施形態における誤差評価部160と、データセット入力部601と、重み算出部640と、モデル構築部650とを備える。
 データセット入力部601は、サンプルサイズが共通である複数のサンプルからなるデータセットを入力する。誤差評価部160は、データセット内の各サンプルに共通のサンプルサイズに対して、標本平均、不偏分散または標本分位点を算出した場合の誤差を決定する。重み算出部640は、決定された誤差の小ささに応じて各推定量に付与する重みを決定する。モデル構築部650は、特徴量である標本平均、不偏分散または標本分位点に重み算出部640で決定された重みを付与することによって、真値との誤差が小さい特徴量を重要視したモデル構築を行うことができる。なお、本実施例ではモデルの構築に用いるデータの選別について説明したが、構築したモデルに対するテストデータ利用時にも重み算出部640の結果を利用することができる。
 上記の実施例の装置は、標本平均、不偏分散または標本分位点を特徴量に含む機械学習によるモデル構築において、サンプルサイズが不足したサンプルを訓練データセットから除外することによって、モデルの改善を図るといった用途に適用可能である。また、上記の実施形態の情報処理装置は、標本平均、不偏分散または標本分位点のいずれかを用いたデータ分析を行うことが想定される場合に、算出に必要なサンプルサイズを事前に把握し、データ取得のための実験計画の参考とするといった用途にも適用可能である。
 上記の実施形態および実施例における各構成要素は、1つのハードウェアで構成可能であるが、1つのソフトウェアでも構成可能である。また、各構成要素は、複数のハードウェアでも構成可能であり、複数のソフトウェアでも構成可能である。また、各構成要素のうちの一部をハードウェアで構成し、他部をソフトウェアで構成することもできる。
 上記の実施形態における各機能(各処理)を、CPU(Central Processing Unit )等のプロセッサやメモリ等を有するコンピュータで実現可能である。例えば、記憶装置(記憶媒体)に上記の実施形態における方法(処理)を実施するためのプログラムを格納し、各機能を、記憶装置に格納されたプログラムをCPUで実行することによって実現してもよい。
 図12は、CPUを有するコンピュータの一例を示すブロック図である。コンピュータは、上記の各実施形態および実施例の装置に実装される。CPU1000は、記憶装置1001に格納されたプログラムに従って処理を実行することによって、上記の実施形態および実施例における各機能を実現する。例えば、CPU1000は、図1,図3,図5に示されたサンプルサイズ決定装置、信頼率決定装置および誤差決定装置の各々における各機能を実現できる。換言すれば、CPU1000は、図1に示されたサンプルサイズ評価部140の機能と各入力部の機能を実現できる。また、CPU1000は、図3に示された信頼率決定装置の機能と各入力部の機能を実現できる。さらに、CPU1000は、図5に示された誤差決定装置の機能と各入力部の機能を実現できる。
 また、コンピュータは、上記の各実施例の装置における各機能を実現できる。すなわち、CPU1000は、図7~図11に示された装置における各ブロックの機能を実現できる。
 記憶装置1001は、例えば、非一時的なコンピュータ可読媒体(non-transitory computer readable medium )である。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium )を含む。非一時的なコンピュータ可読媒体の具体例として、磁気記録媒体(例えば、ハードディスク)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM(Compact Disc-Read Only Memory )、CD-R(Compact Disc-Recordable )、CD-R/W(Compact Disc-ReWritable )、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM )、フラッシュROM)がある。
 また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium )に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。
 メモリ1002は、例えばRAM(Random Access Memory)で実現され、CPU1000が処理を実行するときに一時的にデータを格納する記憶手段である。メモリ1002に、記憶装置1001または一時的なコンピュータ可読媒体が保持するプログラムが転送され、CPU1000がメモリ1002内のプログラムに基づいて処理を実行するような形態も想定しうる。
 図13は、情報処理装置の主要部を示すブロック図である。図13に示す推定量算出のための装置10は、推定量分布を正規分布で近似する近似処理を行う正規近似手段(正規近似部)11(実施形態では、正規近似部141,151,161で実現される。)と、近似処理で発生するずれを評価するずれ評価手段(ずれ評価部)12(実施形態では、ずれ評価部142,152,162で実現される。)と、近似処理の結果とずれとから推定量の算出に関するデータを評価するデータ評価手段(データ評価部)13(実施形態では、サイズ決定部143、信頼率決定部153または誤差決定部163で実現される。)とを備えている。
 データ評価手段13は、例えば、推定量の算出のためのサンプルサイズを決定するサンプルサイズ決定手段(実施形態では、サイズ決定部143で実現される。)である。サンプルサイズは、推定量の算出に関するデータの一例である。なお、サンプルサイズ決定手段は、例えば、サンプルサイズ探索する繰り返し演算(例えば、第1の実施形態におけるステップS104~S107の処理)において、P-Eが信頼率1-δ以上となったときのサンプルサイズを最終的に決定されたサンプルサイズとする。
 データ評価手段13は、例えば、信頼率を決定する信頼率決定手段(実施形態では、信頼率決定部153で実現される。)である。信頼率は、推定量の算出に関するデータの一例である。なお、第2の実施形態では、信頼率決定手段の一例である信頼率決定部153は、P-Eを信頼率とする。
 データ評価手段13は、例えば、推定量と真値との誤差を決定する誤差決定手段(実施形態では、誤差決定部163で実現される。)である。誤差は、推定量の算出に関するデータの一例である。
 上記の実施形態および実施例の一部または全部は、以下の付記のようにも記載され得るが、本発明は、以下の構成に限定されるわけではない。
(付記1)推定量分布を正規分布で近似する近似処理を行う正規近似手段と、
 前記近似処理で発生するずれを評価するずれ評価手段と、
 前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価するデータ評価手段と
 を備えた情報処理装置。
(付記2)前記データ評価手段は、前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定するサンプルサイズ決定手段である
 付記1の情報処理装置。
(付記3)前記正規近似手段は、サンプルサイズをパラメータとして含む近似式を使用し、該パラメータを変化させながら前記近似処理を行い、
 前記ずれ評価手段は、サンプルサイズをパラメータとして含む評価式を使用し、該パラメータを変化させながら前記ずれ評価処理を行い、
 前記サンプルサイズ決定手段は、前記近似処理の結果と前記ずれとの差が、信頼率以上になったときのパラメータの値を、サンプルサイズとして決定する
 付記2の情報処理装置。
(付記4)前記データ評価手段は、前記推定量の算出に関するデータとしての信頼率を決定する信頼率決定手段である
 付記1の情報処理装置。
(付記5)前記正規近似手段は、サンプルサイズをパラメータとして含む近似式を使用して前記近似処理を行い、
 前記ずれ評価手段は、サンプルサイズをパラメータとして含む評価式を使用して前記ずれ評価処理を行い、
 前記信頼率決定手段は、前記近似処理の結果と前記ずれとの差を信頼率として決定する
 付記4の情報処理装置。
(付記6)前記データ評価手段は、前記推定量の算出に関するデータとしての、推定量と推定したい値である真値との誤差を決定する誤差決定手段である
 付記1の情報処理装置。
(付記7)前記正規近似手段は、推定量が真値よりも左側にずれる場合の誤差に相当する左側誤差および推定量が真値よりも右側にずれる場合の誤差に相当する右側誤差を変化させながら前記近似処理を行い、
 前記ずれ評価手段は、前記左側誤差および前記右側誤差を変化させながら前記ずれ評価処理を行い、
 前記誤差決定手段は、前記近似処理の結果と前記ずれとの差が信頼率以上になったときの前記左側誤差および前記右側誤差を、推定量と真値との誤差として決定する
 付記6の情報処理装置。
(付記8)推定量は、標本平均、不偏分散、または標本分位点である
 付記1から付記7のうちのいずれかの情報処理装置。
(付記9)推定量分布を正規分布で近似する近似処理を行い、
 前記近似処理で発生するずれを評価し、
 前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価する
 情報処理方法。
(付記10)前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定する
 付記9の情報処理方法。
(付記11)前記推定量の算出に関するデータとしての信頼率を決定する
 付記9の情報処理方法。
(付記12)前記推定量の算出に関するデータとしての、推定量と推定したい値である真値との誤差を決定する
 付記9の情報処理方法。
(付記13)推定量は、標本平均、不偏分散、または標本分位点である
 付記9から付記12のうちのいずれかの情報処理方法。
(付記14)情報処理プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
 前記情報処理プログラムは、コンピュータに、
 推定量分布を正規分布で近似する近似処理を行わせ、
 前記近似処理で発生するずれを評価させ、
 前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価させる
 コンピュータ読み取り可能な記録媒体。
(付記15)前記情報処理プログラムは、前記コンピュータに、
 前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定させる
 付記14のコンピュータ読み取り可能な記録媒体。
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記の実施形態および実施例に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 10  情報処理装置
 11  正規近似手段
 12  ずれ評価手段
 13  データ評価手段
 100 推定量種類判定部
 120 信頼率入力部
 121 サンプルサイズ入力部
 140 サンプルサイズ評価部
 141,151,161 正規近似部
 142,152,162 ずれ評価部
 143 サイズ決定部
 150 信頼率評価部
 153 信頼率決定部
 160 誤差評価部
 163 誤差決定部
 400 データセット入力部
 410 サンプル利用判定部
 420 モデル構築部
 500,501 データセット入力部
 510 サンプル利用判定部
 520,550 モデル構築部
 530 しきい値入力部
 540 重み算出部
 600,601 データセット入力部
 610 サンプル利用判定部
 620,650 モデル構築部
 630 しきい値入力部
 640 重み算出部
 1000 CPU
 1001 記憶装置
 1002 メモリ

Claims (15)

  1.  推定量分布を正規分布で近似する近似処理を行う正規近似手段と、
     前記近似処理で発生するずれを評価するずれ評価処理を行うずれ評価手段と、
     前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価するデータ評価手段と
     を備えた情報処理装置。
  2.  前記データ評価手段は、前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定するサンプルサイズ決定手段である
     請求項1に記載の情報処理装置。
  3.  前記正規近似手段は、サンプルサイズをパラメータとして含む近似式を使用し、該パラメータを変化させながら前記近似処理を行い、
     前記ずれ評価手段は、サンプルサイズをパラメータとして含む評価式を使用し、該パラメータを変化させながら前記ずれ評価処理を行い、
     前記サンプルサイズ決定手段は、前記近似処理の結果と前記ずれとの差が、信頼率以上になったときのパラメータの値を、サンプルサイズとして決定する
     請求項2に記載の情報処理装置。
  4.  前記データ評価手段は、前記推定量の算出に関するデータとしての信頼率を決定する信頼率決定手段である
     請求項1に記載の情報処理装置。
  5.  前記正規近似手段は、サンプルサイズをパラメータとして含む近似式を使用して前記近似処理を行い、
     前記ずれ評価手段は、サンプルサイズをパラメータとして含む評価式を使用して前記ずれ評価処理を行い、
     前記信頼率決定手段は、前記近似処理の結果と前記ずれとの差を信頼率として決定する
     請求項4に記載の情報処理装置。
  6.  前記データ評価手段は、前記推定量の算出に関するデータとしての、推定量と推定したい値である真値との誤差を決定する誤差決定手段である
     請求項1に記載の情報処理装置。
  7.  前記正規近似手段は、推定量が真値よりも左側にずれる場合の誤差に相当する左側誤差および推定量が真値よりも右側にずれる場合の誤差に相当する右側誤差を変化させながら前記近似処理を行い、
     前記ずれ評価手段は、前記左側誤差および前記右側誤差を変化させながら前記ずれ評価処理を行い、
     前記誤差決定手段は、前記近似処理の結果と前記ずれとの差が信頼率以上になったときの前記左側誤差および前記右側誤差を、推定量と真値との誤差として決定する
     請求項6に記載の情報処理装置。
  8.  推定量は、標本平均、不偏分散、または標本分位点である
     請求項1から請求項7のうちのいずれか1項に記載の情報処理装置。
  9.  推定量分布を正規分布で近似する近似処理を行い、
     前記近似処理で発生するずれを評価し、
     前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価する
     情報処理方法。
  10.  前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定する
     請求項9に記載の情報処理方法。
  11.  前記推定量の算出に関するデータとしての信頼率を決定する
     請求項9に記載の情報処理方法。
  12.  前記推定量の算出に関するデータとしての、推定量と推定したい値である真値との誤差を決定する
     請求項9に記載の情報処理方法。
  13.  推定量は、標本平均、不偏分散、または標本分位点である
     請求項9から請求項12のうちのいずれか1項に記載の情報処理方法。
  14.  情報処理プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
     前記情報処理プログラムは、コンピュータに、
     推定量分布を正規分布で近似する近似処理を行わせ、
     前記近似処理で発生するずれを評価させ、
     前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価させる
     コンピュータ読み取り可能な記録媒体。
  15.  前記情報処理プログラムは、前記コンピュータに、
     前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定させる
     請求項14に記載のコンピュータ読み取り可能な記録媒体。
PCT/JP2022/001574 2022-01-18 2022-01-18 情報処理装置および情報処理方法 WO2023139640A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/001574 WO2023139640A1 (ja) 2022-01-18 2022-01-18 情報処理装置および情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/001574 WO2023139640A1 (ja) 2022-01-18 2022-01-18 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
WO2023139640A1 true WO2023139640A1 (ja) 2023-07-27

Family

ID=87347972

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/001574 WO2023139640A1 (ja) 2022-01-18 2022-01-18 情報処理装置および情報処理方法

Country Status (1)

Country Link
WO (1) WO2023139640A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149866A (ja) * 1992-11-09 1994-05-31 Ricoh Co Ltd 解探索装置
JP2002149714A (ja) * 2000-08-31 2002-05-24 Toshiba Corp 信頼性設計支援装置および信頼性設計支援方法およびプログラムを記録した媒体およびプログラム製品

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149866A (ja) * 1992-11-09 1994-05-31 Ricoh Co Ltd 解探索装置
JP2002149714A (ja) * 2000-08-31 2002-05-24 Toshiba Corp 信頼性設計支援装置および信頼性設計支援方法およびプログラムを記録した媒体およびプログラム製品

Similar Documents

Publication Publication Date Title
US11030246B2 (en) Fast and accurate graphlet estimation
JP6337881B2 (ja) データ予測装置
US20110029469A1 (en) Information processing apparatus, information processing method and program
Dubourg et al. Metamodel-based importance sampling for the simulation of rare events
Wills et al. Parameter estimation for discrete-time nonlinear systems using EM
Li et al. A Bayesian chi-squared test for hypothesis testing
CN111460692A (zh) 考虑退化速率相互影响的设备剩余寿命预测方法及系统
KR101725121B1 (ko) 특징 벡터 분류 장치 및 방법
JP6930602B2 (ja) 異常判定装置、異常判定方法、及びプログラム
Dörre et al. Likelihood-based analysis of doubly-truncated data under the location-scale and AFT model
Avellina et al. Distributed randomized model structure selection for NARX models
Weiß et al. Non-parametric analysis of serial dependence in time series using ordinal patterns
WO2023139640A1 (ja) 情報処理装置および情報処理方法
CN111612022A (zh) 用于分析数据的方法、设备和计算机存储介质
Feutrill et al. Differential entropy rate characterisations of long range dependent processes
CN110633971A (zh) 资损估计方法以及装置
Sverchkov A new approach to estimation of response probabilities when missing data are not missing at random
CN113313049A (zh) 超参数的确定方法、装置、设备、存储介质以及计算机程序产品
Fuh Asymptotically optimal change point detection for composite hypothesis in state space models
Volf et al. On selection of optimal stochastic model for accelerated life testing
Surya Some results on maximum likelihood from incomplete data: finite sample properties and improved M-estimator for resampling
Wolfer et al. Variance-aware estimation of kernel mean embedding
Kosiorowski Two procedures for robust monitoring of probability distributions of economic data stream induced by depth functions
CN107218964B (zh) 一种试验子样容量性状的判定方法
Bai et al. Rare-Event Simulation Without Variance Reduction: An Extreme Value Theory Approach

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22921803

Country of ref document: EP

Kind code of ref document: A1