WO2023068126A1 - 学習装置、データ加工装置、パラメータ生成装置、学習方法、データ加工方法及びパラメータ生成方法 - Google Patents
学習装置、データ加工装置、パラメータ生成装置、学習方法、データ加工方法及びパラメータ生成方法 Download PDFInfo
- Publication number
- WO2023068126A1 WO2023068126A1 PCT/JP2022/037996 JP2022037996W WO2023068126A1 WO 2023068126 A1 WO2023068126 A1 WO 2023068126A1 JP 2022037996 W JP2022037996 W JP 2022037996W WO 2023068126 A1 WO2023068126 A1 WO 2023068126A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- evaluation
- unit
- image
- parameter
- data
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 225
- 238000000034 method Methods 0.000 title claims description 41
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000011156 evaluation Methods 0.000 claims abstract description 266
- 238000010801 machine learning Methods 0.000 claims abstract description 60
- 238000011158 quantitative evaluation Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000010586 diagram Methods 0.000 description 41
- 238000013441 quality evaluation Methods 0.000 description 36
- 101001090050 Homo sapiens Thioredoxin-dependent peroxide reductase, mitochondrial Proteins 0.000 description 22
- 102100034769 Thioredoxin-dependent peroxide reductase, mitochondrial Human genes 0.000 description 22
- 101150085182 ATG1 gene Proteins 0.000 description 13
- 101100335771 Arabidopsis thaliana G6PD1 gene Proteins 0.000 description 13
- 101100165611 Arabidopsis thaliana VTE3 gene Proteins 0.000 description 13
- 102100028829 Heat shock 70 kDa protein 4L Human genes 0.000 description 13
- 101150099978 Hspa4l gene Proteins 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 101150058440 Asc-1 gene Proteins 0.000 description 7
- 102100024630 Asc-type amino acid transporter 1 Human genes 0.000 description 7
- 101100110003 Danio rerio pycard gene Proteins 0.000 description 7
- 101100247325 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RAS2 gene Proteins 0.000 description 7
- 101150081875 Slc7a10 gene Proteins 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 101150028385 ATG2 gene Proteins 0.000 description 3
- 102100029464 Aquaporin-9 Human genes 0.000 description 3
- 101100536419 Arabidopsis thaliana TATC gene Proteins 0.000 description 3
- 102100028765 Heat shock 70 kDa protein 4 Human genes 0.000 description 3
- 101000771413 Homo sapiens Aquaporin-9 Proteins 0.000 description 3
- 101000921370 Homo sapiens Elongation of very long chain fatty acids protein 1 Proteins 0.000 description 3
- 101000619708 Homo sapiens Peroxiredoxin-6 Proteins 0.000 description 3
- 101150054249 Hspa4 gene Proteins 0.000 description 3
- 102100022239 Peroxiredoxin-6 Human genes 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 101000974349 Homo sapiens Nuclear receptor coactivator 6 Proteins 0.000 description 2
- 101000608194 Homo sapiens Pyrin domain-containing protein 1 Proteins 0.000 description 2
- 102100022929 Nuclear receptor coactivator 6 Human genes 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Definitions
- the present disclosure relates to a learning device, data processing device, parameter generation device, learning method, data processing method, and parameter generation method.
- image quality parameters parameters that change the image quality (hereafter sometimes referred to as “image quality parameters”) in order to improve the "image quality", which is the element of brightness, contrast, saturation, tone, definition, etc. is being done.
- image quality parameters there are various image quality parameters that change brightness, contrast, saturation, tone, definition, and the like. For example, if there are 28 types of image quality parameters as image quality parameters, and each value of the 28 types of image quality parameters can be adjusted in 255 steps, the total number of image quality parameter combinations is 2.4 ⁇ 10 67 sets. It becomes a huge number. It is difficult even for a skilled engineer to visually determine the optimum one from such a huge number of combinations of image quality parameters.
- the optimum image quality parameters are different for each image, the optimum image quality parameters for one image are not necessarily the optimum for other images. Therefore, if one image quality parameter is fixedly applied to a plurality of images, satisfactory image quality may not be obtained.
- the optimum image quality parameters are different for each image, as with still images.
- speech is also processed using parameters that change sound quality (hereinafter sometimes referred to as "sound quality parameters").
- Sound quality parameters Multimedia data that can be handled by computers are roughly classified into image data, moving image data, and audio data.
- image quality parameter and the sound quality parameter may be referred to as "quality parameter”.
- this disclosure proposes a technique that can improve the quality of multimedia data while reducing the effort required to determine suitable quality parameters.
- the learning device of the present disclosure has an evaluation unit, a generation unit, and a learning unit.
- the evaluation unit obtains a plurality of evaluation results for each of the plurality of multimedia data by quantitatively evaluating the plurality of multimedia data.
- the generator selects a second parameter from among a plurality of first parameters having different values based on the plurality of evaluation results, and generates teacher data including the selected second parameter.
- the learning unit performs machine learning using the teacher data to generate a trained model that outputs a third parameter used for processing multimedia data to be processed.
- FIG. 1 is a diagram illustrating a configuration example of an image processing system according to Embodiment 1 of the present disclosure
- FIG. 1 is a diagram illustrating a configuration example of an image learning device according to Embodiment 1 of the present disclosure
- FIG. 1 is a diagram illustrating a configuration example of an image processing apparatus according to Embodiment 1 of the present disclosure
- FIG. 1 is a diagram illustrating an example of a processing procedure in an image processing system according to Embodiment 1 of the present disclosure
- FIG. 1 is a diagram illustrating an example of a processing procedure in an image processing system according to Embodiment 1 of the present disclosure
- FIG. 1 is a diagram illustrating an example of a processing procedure in an image processing system according to Embodiment 1 of the present disclosure
- FIG. 4 is a diagram showing an example of quantitative evaluation according to Embodiment 1 of the present disclosure
- FIG. 4 is a diagram showing an example of quantitative evaluation according to Embodiment 1 of the present disclosure
- It is a figure which shows the structural example of the image processing system which concerns on Embodiment 2 of this indication.
- FIG. 7 is a diagram illustrating an example of a processing procedure in an image processing system according to Embodiment 2 of the present disclosure
- FIG. 7 is a diagram illustrating an example of a processing procedure in an image processing system according to Embodiment 2 of the present disclosure;
- FIG. 7 is a diagram illustrating an example of a processing procedure in an image processing system according to Embodiment 2 of the present disclosure;
- FIG. 10 is a diagram illustrating an operation example of a selection unit according to Embodiment 2 of the present disclosure
- FIG. 11 is a diagram illustrating a configuration example of a speech processing system according to Embodiment 3 of the present disclosure
- FIG. 11 is a diagram illustrating a configuration example of a speech learning device according to Embodiment 3 of the present disclosure
- FIG. 11 is a diagram illustrating a configuration example of a voice processing device according to Embodiment 3 of the present disclosure
- FIG. 13 is a diagram illustrating an example of a processing procedure in a speech processing system according to Embodiment 3 of the present disclosure
- FIG. 13 is a diagram illustrating an example of a processing procedure in a speech processing system according to Embodiment 3 of the present disclosure
- FIG. 13 is a diagram illustrating an example of a processing procedure in a speech processing system according to Embodiment 3 of the present disclosure
- FIG. 10 is a diagram illustrating an operation example of a selection unit according to Embodiment
- FIG. 13 is a diagram illustrating an example of a processing procedure in a speech processing system according to Embodiment 3 of the present disclosure
- FIG. 11 is a diagram showing an example of quantitative evaluation according to Embodiment 3 of the present disclosure
- FIG. 11 is a diagram illustrating a configuration example of a speech processing system according to Embodiment 4 of the present disclosure
- FIG. 13 is a diagram illustrating a configuration example of a speech learning device according to Embodiment 4 of the present disclosure
- FIG. 13 is a diagram illustrating an example of a processing procedure in a speech processing system according to Embodiment 4 of the present disclosure
- FIG. 13 is a diagram illustrating an example of a processing procedure in a speech processing system according to Embodiment 4 of the present disclosure
- FIG. 13 is a diagram illustrating an operation example of a selection unit according to Embodiment 4 of the present disclosure;
- FIG. 1 is a diagram illustrating a configuration example of an image processing system according to Embodiment 1 of the present disclosure.
- the image processing system 1 has an image learning device 10 and an image processing device 20 .
- the image learning device 10 generates an image quality parameter generation model by performing machine learning using the original image and the image quality parameter group, and outputs the generated image quality parameter generation model to the image processing device 20 .
- the image processing device 20 obtains a processed image by processing the image to be processed using the image quality parameter generation model input from the image learning device 10 .
- FIG. 2 is a diagram illustrating a configuration example of an image learning device according to Embodiment 1 of the present disclosure.
- the image learning device 10 includes a first processing unit 13, a first evaluation unit 14, a teacher data generation unit 15, a first storage unit 16, a first machine learning unit 17, and a second storage unit. 18 and an output unit 19 .
- FIG. 3 is a diagram illustrating a configuration example of an image processing apparatus according to Embodiment 1 of the present disclosure.
- the image processing device 20 has an acquisition unit 21 , a third storage unit 22 , a parameter generation unit 23 and a second processing unit 24 .
- ⁇ Processing procedure in the image processing system> 4, 5, and 6 are diagrams illustrating an example of processing procedures in the image processing system according to the first embodiment of the present disclosure.
- an original image is input to the first processing unit 13 and the teacher data generation unit 15, and an image quality parameter group is input to the first processing unit 13 and the teacher data generation unit 15.
- each of the image quality parameter groups PG1 to PGN is a combination of multiple types of image quality parameters.
- each of the image quality parameter groups PG1 to PGN includes four types of image quality parameter PA for changing brightness, image quality parameter PB for changing contrast, image quality parameter PC for changing saturation, and image quality parameter PD for changing tone. is formed by the image quality parameters of
- the image quality parameter groups PG1 to PGN have different values for at least one of the image quality parameters PA, PB, PC, and PD. That is, the image quality parameter groups PG1 to PGN are image quality parameters having different values.
- the first processing unit 13 processes the original image using each of the image quality parameter groups PG1 to PGN to acquire the output images OP1 to OPN having different image qualities, and first evaluates the acquired output images OP1 to OPN.
- Output to the unit 14 The output image OP1 is an image obtained by processing the original image using the image quality parameter group PG1, the output image OP2 is an image obtained by processing the original image using the image quality parameter group PG2,
- the output image OPN is an image obtained by processing the original image using the image quality parameter group PGN. That is, the output image OP1 corresponds to the image quality parameter group PG1, the output image OP2 corresponds to the image quality parameter group PG2, and the output image OPN corresponds to the image quality parameter group PGN.
- Each of the output images OP1 to OPN is input to the first evaluation unit 14 .
- the input images input to the first evaluation unit 14 are the output images OP1 to OPN.
- the first evaluation unit 14 evaluates the image quality of each of the output images OP1 to OPN by quantitatively evaluating each of the output images OP1 to OPN.
- the first evaluation unit 14 performs a quantitative evaluation on each of the output images OP1 to OPN based on a predetermined viewpoint of image quality.
- the first evaluation unit 14 outputs scores SC1 to SCN, which are evaluation results of the output images OP1 to OPN, respectively, to the teacher data generation unit 15 .
- the score SC1 indicates the score of the output image OP1
- the score SC2 indicates the score of the output image OP2
- the score SCN indicates the score of the output image OPN.
- each of the output images OP1-OPN corresponds to each of the image quality parameter groups PG1-PGN
- each of the scores SC1-SCN corresponds to each of the output images OP1-OPN. Therefore, each of the scores SC1-SCN corresponds to each of the image quality parameter groups PG1-PGN. That is, it can be said that the score SC1 is the evaluation result of the image quality parameter group PG1, the score SC2 is the evaluation result of the image quality parameter group PG2, and the score SCN is the evaluation result of the image quality parameter group PGN.
- the training data generation unit 15 selects the score corresponding to the highest evaluation result (hereinafter sometimes referred to as "best image quality score”) from among the input scores SC1 to SCN.
- the teacher data generator 15 selects, for example, the maximum value among the scores SC1 to SCN as the best image quality score.
- the teacher data generation unit 15 selects an image quality parameter group (hereinafter sometimes referred to as "best image quality parameter group") corresponding to the best image quality score from the image quality parameter groups PG1 to PGN. Since the best image quality parameter group is the image quality parameter group corresponding to the best image quality score, the image quality parameter group that can obtain the highest image quality when the original image is processed, that is, the image quality parameter group that is optimal for processing the original image.
- the training data generation unit 15 associates the original image with the best image quality parameter group, generates training data TDB including the original image and the best image quality parameter group, and stores the generated training data TDB in the first storage unit 16. Output.
- the first storage unit 16 stores the teaching data TDB generated by the teaching data generation unit 15 .
- FIG. 4 by sequentially inputting a plurality of M different original images to the image learning apparatus 10, a plurality of M teacher data TDBs including different original images and different best image quality parameter groups can be obtained. can be mass-produced mechanically (automatically).
- the operator may manually adjust the values of the best image quality parameter group selected by the training data generation unit 15.
- the training data generation unit 15 may generate the training data TDB containing the feature amount of the original image and the best image quality parameter group.
- the feature amount of the original image include the average, variance, histogram, etc. of the pixel values of the original image.
- the first machine learning unit 17, as shown in FIG. Generate an "image quality parameter generation model” as Deep learning such as CNN (Convolutional Neural Network), for example, is used as machine learning when generating the image quality parameter generation model. Since each of the teacher data TDB1 to TDB3 includes the original image and the best image quality parameter group for the original image, the image quality parameter generation model generated by the first machine learning unit 17 is input with the image to be processed. In this case, it becomes a trained model that outputs an optimal image quality parameter group for processing the image to be processed (hereinafter sometimes referred to as "optimal image quality parameter group").
- optimal image quality parameter group an optimal image quality parameter group for processing the image to be processed
- the first machine learning unit 17 outputs the image quality parameter generation model generated as shown in FIG. Store the generative model.
- the output unit 19 acquires the image quality parameter generation model stored in the second storage unit 18 and outputs the acquired image quality parameter generation model to the image processing device 20 .
- the output of the image quality parameter generation model from the image learning device 10 to the image processing device 20 is performed, for example, according to an operator's instruction to the image learning device 10 .
- the acquisition unit 21 acquires the image quality parameter generation model output from the image learning device 10 and outputs the acquired image quality parameter generation model to the third storage unit 22 .
- Acquisition of the image quality parameter generation model from the image learning device 10 in the image processing device 20 is performed according to an operator's instruction to the image processing device 20, for example.
- the third storage unit 22 stores the image quality parameter generation model acquired by the acquisition unit 21 .
- the image to be processed is input to the parameter generation unit 23 and the second processing unit 24 .
- the parameter generation unit 23 that has received the image to be processed uses the image quality parameter generation model stored in the third storage unit 22 to generate an optimum image quality parameter group (that is, the image to be processed is processed A group of image quality parameters that can obtain the highest image quality when the image quality is obtained), and outputs the generated optimal image quality parameter group to the second processing unit 24 .
- the second processing unit 24 acquires a processed image by processing the image to be processed using the optimum image quality parameter group, and outputs the acquired processed image. Since the image quality parameter group used when the image to be processed is processed in the second processing unit 24 is the optimum image quality parameter group, the processed image can obtain the highest image quality.
- ⁇ Quantitative evaluation> 7 and 8 are diagrams showing an example of quantitative evaluation according to Embodiment 1 of the present disclosure.
- the quantitative evaluation of image quality performed by the first evaluation unit 14 will be described below with reference to two evaluation examples, image quality evaluation example 1 and image quality evaluation example 2.
- FIG. 1 A schematic diagram showing an example of quantitative evaluation according to Embodiment 1 of the present disclosure.
- Image quality evaluation example 1 is based on a predetermined viewpoint (hereinafter sometimes referred to as a “first viewpoint”) that “a processed image having the highest image quality is an image with no bias in luminance distribution.” This is an evaluation example.
- the first evaluation unit 14 generates histograms (hereinafter sometimes referred to as "luminance histograms") obtained by dividing the luminance into 256 levels for each of the output images OP1 to OPN.
- the brightness histogram represents the distribution of brightness in each of the output images OP1 to OPN.
- the first evaluation unit 14 determines the number of pixels included in each of the 256 regions (hereinafter sometimes referred to as "luminance bin”) in the luminance histogram (hereinafter sometimes referred to as "bin pixel number”) are counted per luminance bin for each of the 256 luminance bins.
- the first evaluation unit 14 calculates, for each luminance bin, the occupancy ratio of the number of bin pixels to the total number of pixels included in one output image (hereinafter sometimes referred to as “pixel occupancy ratio”).
- the first evaluation unit 14 counts the number of luminance bins whose pixel occupancy is equal to or greater than the threshold TH1 (hereinafter, may be referred to as "high occupancy bin number").
- the first evaluation unit 14 counts the high occupancy bin numbers for each of the output images OP1 to OPN.
- the first evaluation unit 14 sets the high occupancy bin numbers of each of the output images OP1 to OPN as scores SC1 to SCN of each of the output images OP1 to OPN.
- the maximum value of the high occupancy bin number is "256".
- the score for the output image becomes a large value.
- the score for the output image will be a small value of “10”.
- Image quality evaluation example 2 is based on a predetermined viewpoint (hereinafter sometimes referred to as a “second viewpoint”) that “a processed image having the highest image quality is an image having optimum brightness.” This is an evaluation example.
- the original image is also input to the first evaluation unit 14 (not shown).
- the first evaluation unit 14 calculates the average luminance value of all pixels included in one original image (hereinafter sometimes referred to as “original image average luminance”).
- a brightness table 141 as shown in FIG. 8 is preset in the first evaluation unit 14 .
- a plurality of ranges of original image average brightness and the optimum average brightness of all pixels included in one image (hereinafter sometimes referred to as "optimal average brightness”) are associated with each other. is set.
- the brightness table 141 is created by a skilled technician with a detailed eye for analysis.
- the first evaluation unit 14 refers to the brightness table 141 based on the average brightness of the original image, and acquires from the brightness table 141 the optimum average brightness corresponding to the average brightness of the original image. For example, when the original image average brightness is "35", the first evaluation unit 14 acquires "19" from the brightness table 141 as the optimum average brightness.
- the first evaluation unit 14 calculates the average luminance value of all pixels included in one output image (hereinafter sometimes referred to as “output image average luminance”). .
- the first evaluation unit 14 calculates the absolute values of the differences between the optimum average luminance and the output image average luminance as scores SC1 to SCN according to Equation (1). Therefore, in image quality evaluation example 2, an output image with a smaller score value is an image that is more in line with the second viewpoint.
- Score abs (optimal average luminance - output image average luminance) (1)
- the first embodiment has been described above.
- FIG. 9 is a diagram illustrating a configuration example of an image processing system according to Embodiment 2 of the present disclosure.
- the image processing system 2 has an image learning device 30 and an image processing device 20 .
- the image learning device 30 generates an image quality parameter generation model by performing machine learning using the teacher data, the original image, and the image quality parameter group, and outputs the generated image quality parameter generation model to the image processing device 20 .
- FIG. 10 is a diagram illustrating a configuration example of an image learning device according to Embodiment 2 of the present disclosure.
- the image learning device 30 includes a first processing unit 13, a first evaluation unit 14, a first storage unit 16, a first machine learning unit 17, a second storage unit 18, and an output unit 19.
- the image learning device 30 also has a second machine learning unit 31 , a fourth storage unit 32 , a second evaluation unit 33 , a selection unit 34 and a teacher data generation unit 35 .
- ⁇ Processing procedure in the image processing system> 11 and 12 are diagrams illustrating an example of a processing procedure in an image processing system according to Embodiment 2 of the present disclosure.
- a human evaluator evaluates the evaluation target image while visually comparing the reference image and the evaluation target image.
- the evaluator manually adjusts the image quality parameters and applies the various manually adjusted image quality parameters to the reference image.
- an image to be evaluated which is a processed image, is obtained.
- FIG. 11 shows, as an example, a case where evaluation target images ET01 to ET13 are obtained as a result of processing a reference image using image quality parameters with mutually different values.
- the evaluator visually determines that the image quality of all the obtained images to be evaluated changes gradually by adjusting the image quality parameters and has the highest image quality. Assume that the score of the image to be evaluated is "0.5". Also, the evaluator assigns a score of "1.0" to the image to be evaluated that is visually determined to have the greatest degree of change from the reference image due to excessive adjustment of the image quality parameter. In this way, the evaluator evaluates each evaluation target image by scoring each evaluation target image based on the evaluator's subjectivity. As a result, for example, as shown in FIG.
- a score of “0.36” is given to the image ET04, “0.18” to the image to be evaluated ET05, “0.12” to the image to be evaluated ET06, and “0.66” to the image to be evaluated ET07. be done. Further, for example, as shown in FIG. 11, “0.50” for the evaluation target image ET08, “0.90” for the evaluation target image ET09, “0.25” for the evaluation target image ET10, and “0.25” for the evaluation target image ET11 is assigned a score of "0.78", the evaluation target image ET12 is assigned a score of "0.41", and the evaluation target image ET13 is assigned a score of "0.72". In other words, in the example shown in FIG.
- the evaluation target image ET08 is subjectively determined to have the highest image quality by the evaluator's visual observation. ⁇ ET01 ⁇ ET10 ⁇ ET05 ⁇ ET06. Also, evaluation target images ET07, ET13, ET11, ET03, ET09, and ET02 with scores greater than 0.5 are judged to have undergone excessive image quality adjustment.
- the evaluator associates the reference image, the evaluation target image, and the score with each other, and generates teacher data TDA including the reference image, the evaluation target image, and the score. Therefore, for example, the teacher data TDA01 includes the reference image, the evaluation target image ET01, and the score "0.31" of the evaluation target image ET01 in association with each other, and the teacher data TDA02 includes the reference image and , the evaluation target image ET02 and the score "0.99" of the evaluation target image ET02 are included in association with each other. The score "0.84" is included in association with each other.
- the teacher data TDA04 to TDA13 also include the reference image, the evaluation target images ET04 to ET13, and the scores of the evaluation target images ET04 to ET13 in association with each other.
- the second machine learning unit 31 generates an "image quality evaluation model" by performing machine learning using a plurality of teacher data TDA.
- deep learning such as CNN is used as machine learning for generating the image quality evaluation model.
- the second machine learning unit 31 outputs the image quality evaluation model generated as shown in FIG. memorize
- the original image is input to the first processing unit 13, the teacher data generation unit 35, and the second evaluation unit 33, and the image quality parameter group is subjected to the first processing. It is input to the unit 13 and the teacher data generation unit 35 .
- the selection unit 34 is an evaluation unit that evaluates the image quality of each of the output images OP1 to OPN from among the first evaluation unit 14 and the second evaluation unit 33 (hereinafter sometimes referred to as an “image quality evaluation execution unit”). is selected for each output image.
- image quality evaluation execution unit When the selection unit 34 selects the first evaluation unit 14 as the image quality evaluation execution unit, the selection unit 34 outputs to the first evaluation unit 14 the output image for which the first evaluation unit 14 evaluates the image quality among the output images OP1 to OPN. do.
- the selection unit 34 selects the second evaluation unit 33 as the image quality evaluation execution unit
- the output image selected by the second evaluation unit 33 from among the output images OP1 to OPN is selected by the second evaluation unit for image quality evaluation.
- the input image input to the first evaluation unit 14 is the output image selected by the selection unit 34 from among the output images OP1 to OPN (hereinafter sometimes referred to as "selected image")
- the second evaluation unit The input images input to 33 are the original image and the selected image.
- the first evaluation unit 14 evaluates the image quality of each selected image by quantitatively evaluating each selected image in the same manner as in the first embodiment. As in the first embodiment, the first evaluation unit 14 performs quantitative evaluation on each selected image based on a predetermined viewpoint of image quality.
- the second evaluation unit 33 uses the image quality evaluation model stored in the fourth storage unit 32 to evaluate each selected image.
- the evaluation of the selected image by the second evaluation unit 33 is performed in the same manner as the evaluation by the evaluator of the evaluation target images ET01 to ET13 as described above.
- the evaluator evaluated the evaluation target images ET01 to ET13 relative to the reference image and gave scores to each of the evaluation target images ET01 to ET13.
- Each of the evaluation target images ET01 to ET13 was an image processed by applying different image quality parameters to the same reference image.
- an image quality evaluation model is generated using teacher data TDA that includes the reference image, the evaluation target image, and the score of the evaluation target image in association with each other.
- the original image and the selected image are input to the second evaluation unit 33, and the second evaluation unit 33 evaluates the selected image using an image quality evaluation model based on the original image and the selected image, Score the selected images. That is, the original image corresponds to the reference image in FIG.
- the second evaluation unit 33 evaluates the selected image using the image quality evaluation model generated by the second machine learning unit 31, similarly to when the evaluator evaluates each of the evaluation target images ET01 to ET13.
- a rating of the selected image can be made on the scale of .
- the second evaluation unit 33 outputs the score, which is the evaluation result of the selected image, to the teacher data generation unit 35.
- the original image, the image quality parameter group PG1 to PGN, and the score of the selected image (hereinafter sometimes referred to as "selected image score") are input to the teacher data generation unit 35.
- the selected image score is input to the teacher data generation unit 35 from either the first evaluation unit 14 or the second evaluation unit 33 selected by the selection unit 34 .
- the total number of selected image scores is the output The number of images is N, which is the same as the total number of images.
- the N selected image scores may be denoted as SSC1 to SSCN.
- the training data generation unit 35 selects the best image quality score from among the input selected image scores SSC1 to SSCN.
- the teacher data generator 35 selects, for example, the maximum value among the scores SSC1 to SSCN as the best image quality score.
- the teacher data generator 35 selects the best image quality parameter group from the image quality parameter groups PG1 to PGN.
- the training data generation unit 35 associates the original image with the best image quality parameter group, generates training data TDB including the original image and the best image quality parameter group, and stores the generated training data TDB in the first storage unit 16.
- the first storage unit 16 stores the teaching data TDB generated by the teaching data generation unit 35 .
- ⁇ Operation of selection part> 13 is a diagram illustrating an operation example of a selection unit according to the second embodiment of the present disclosure.
- the selection unit 34 generates a luminance histogram for each of the output images OP1 to OPN.
- the selection unit 34 counts the number of bin pixels for each luminance bin for each of the 256 luminance bins.
- the selection unit 34 determines the bin with the maximum number of bin pixels (hereinafter sometimes referred to as “peak pixel number bin”) among the 256 luminance bins.
- the selection unit 34 determines the luminance corresponding to the pixel count peak bin (hereinafter sometimes referred to as “peak luminance”) among the 256 levels of luminance.
- the selector 34 compares the peak luminance with the threshold TH2.
- the threshold TH2 is, for example, "128", which is the median value of 256 levels of brightness.
- the output image When the peak luminance is equal to or higher than the threshold TH2, the output image is bright and the correct answer rate in the second evaluation unit 33 tends to be high. select. On the other hand, when the peak luminance is less than the threshold TH2, the output image is dark and the correct answer rate in the second evaluation unit 33 tends to be low. to select.
- Embodiment 3 In Embodiment 3, the technology of the present disclosure will be described by citing audio data as an example of multimedia data.
- FIG. 14 is a diagram illustrating a configuration example of a speech processing system according to Embodiment 3 of the present disclosure.
- the speech processing system 3 has a speech learning device 50 and a speech processing device 40 .
- Speech learning device 50 generates a sound quality parameter generation model by performing machine learning using the original speech and the sound quality parameter group, and outputs the generated sound quality parameter generation model to speech processing device 40 .
- the speech processing device 40 acquires processed speech by processing the speech to be processed using the sound quality parameter generation model input from the speech learning device 50 .
- FIG. 15 is a diagram illustrating a configuration example of a speech learning device according to Embodiment 3 of the present disclosure.
- the speech learning device 50 includes a first processing unit 53, a first evaluation unit 54, a teacher data generation unit 55, a first storage unit 56, a first machine learning unit 57, and a second storage unit. 58 and an output unit 59 .
- FIG. 16 is a diagram illustrating a configuration example of a voice processing device according to Embodiment 3 of the present disclosure.
- the voice processing device 40 has an acquisition unit 41 , a third storage unit 42 , a parameter generation unit 43 and a second processing unit 44 .
- ⁇ Processing procedure in the audio processing system> 17, 18, and 19 are diagrams illustrating an example of a processing procedure in a speech processing system according to Embodiment 3 of the present disclosure.
- the original speech is input to the first processing unit 53 and the teacher data generation unit 55
- the sound quality parameter group is input to the first processing unit 53 and the teacher data generation unit 55.
- each of the sound quality parameter groups APG1 to APGN is a combination of multiple types of sound quality parameters.
- each of the sound quality parameter groups APG1 to APGN includes a sound quality parameter APA that changes the frequency characteristic, a sound quality parameter APB that changes the distortion factor, a sound quality parameter APC that changes the SN ratio, and a sound quality parameter APD that changes the dynamic range. It is formed by four types of sound quality parameters.
- the value of at least one of the sound quality parameters APA, APB, APC, and APD differs from each other between the sound quality parameter groups APG1 to APGN. That is, the sound quality parameter groups APG1 to APGN are sound quality parameters having different values.
- the first processing unit 53 acquires output voices AOP1 to AOPN having different voice qualities by processing the original voice using each of the sound quality parameter groups APG1 to APGN, and first evaluates the acquired output voices AOP1 to AOPN. Output to unit 54 .
- the output voice AOP1 is the voice obtained by processing the original voice using the quality parameter group APG1
- the output voice AOP2 is the voice obtained by processing the original voice using the quality parameter group APG2
- the output speech AOPN is speech obtained by processing the original speech using the quality parameter group APGN. That is, the output audio AOP1 corresponds to the sound quality parameter group APG1, the output audio AOP2 corresponds to the sound quality parameter group APG2, and the output audio AOPN corresponds to the sound quality parameter group APGN.
- Each of the output voices AOP1 to AOPN is input to the first evaluation unit 54.
- the input voices input to the first evaluation unit 54 are the output voices AOP1 to AOPN.
- the first evaluation unit 54 evaluates the sound quality of each of the output sounds AOP1 to AOPN by quantitatively evaluating each of the output sounds AOP1 to AOPN.
- the first evaluation unit 54 performs a quantitative evaluation on each of the output voices AOP1 to AOPN based on a predetermined viewpoint of sound quality.
- the first evaluation unit 54 outputs scores ASC1 to ASCN, which are the evaluation results of the output voices AOP1 to AOPN, respectively, to the teacher data generation unit 55.
- the score ASC1 indicates the score of the output speech AOP1
- the score ASC2 indicates the score of the output speech AOP2
- the score ASCN indicates the score of the output speech AOPN.
- the teacher data generation unit 55 receives the original speech, the sound quality parameter groups APG1 to APGN, and the scores ASC1 to ASCN.
- each of the output voices AOP1-AOPN corresponds to each of the sound quality parameter groups APG1-APGN
- each of the scores ASC1-ASCN corresponds to each of the output voices AOP1-AOPN. Therefore, each of the scores ASC1-ASCN corresponds to each of the sound quality parameter groups APG1-APGN. That is, it can be said that the score ASC1 is the evaluation result of the sound quality parameter group APG1, the score ASC2 is the evaluation result of the sound quality parameter group APG2, and the score ASCN is the evaluation result of the sound quality parameter group APGN.
- the training data generation unit 55 selects the score corresponding to the highest evaluation result (hereinafter sometimes referred to as "best sound quality score") from among the input scores ASC1 to ASCN.
- the teacher data generator 55 selects, for example, the maximum value among the scores ASC1 to ASCN as the best sound quality score.
- the training data generator 55 selects a sound quality parameter group (hereinafter sometimes referred to as a "best sound quality parameter group") corresponding to the best sound quality score from the sound quality parameter groups APG1 to APGN. Since the best sound quality parameter group is the sound quality parameter group corresponding to the best sound quality score, the sound quality parameter group that can obtain the highest sound quality when the original voice is processed, that is, the sound quality parameter group that is optimal for processing the original voice.
- the training data generation unit 55 associates the original speech and the best sound quality parameter group with each other, generates training data TDD including the original speech and the best sound quality parameter group, and stores the generated training data TDD in the first storage unit 56. Output.
- the first storage unit 56 stores the teaching data TDD generated by the teaching data generation unit 55 .
- the operator may manually adjust the values of the best sound quality parameter group selected by the training data generation unit 55.
- the teacher data generation unit 55 may generate the teacher data TDD containing the feature amount of the original voice and the best sound quality parameter group.
- the feature quantity of the original speech include the sound pressure of the original speech, fundamental frequency, formant frequency, MFCC (Mel-Frequency Cepstral Coefficient), and the like.
- the first machine learning unit 57 performs machine learning using a plurality of teacher data TDD including teacher data TDD1 to TDD3 stored in the first storage unit 56, thereby obtaining a learned model.
- Generate a "sound quality parameter generation model" as Deep learning such as CNN (Convolutional Neural Network) and RNN (Recurrent Neural Network) is used as machine learning for generating the sound quality parameter generation model.
- CNN Convolutional Neural Network
- RNN Recurrent Neural Network
- the first machine learning unit 57 outputs the sound quality parameter generation model generated as shown in FIG. Store the generative model.
- the output unit 59 acquires the sound quality parameter generation model stored in the second storage unit 58 and outputs the acquired sound quality parameter generation model to the voice processing device 40 .
- the output of the sound quality parameter generation model from the speech learning device 50 to the speech processing device 40 is performed according to an operator's instruction to the speech learning device 50, for example.
- the acquisition unit 41 acquires the sound quality parameter generation model output from the speech learning device 50 and outputs the acquired sound quality parameter generation model to the third storage unit 42 .
- Acquisition of the sound quality parameter generation model from the speech learning device 50 in the speech processing device 40 is performed, for example, according to an operator's instruction to the speech processing device 40 .
- the third storage unit 42 stores the sound quality parameter generation model acquired by the acquisition unit 41 .
- the speech to be processed is input to the parameter generation unit 43 and the second processing unit 44.
- the parameter generation unit 43 which receives the voice to be processed as input, uses the sound quality parameter generation model stored in the third storage unit 42, as shown in FIG. A sound quality parameter group that can obtain the highest sound quality when the sound quality is obtained), and outputs the generated optimum sound quality parameter group to the second processing unit 44 .
- the second processing unit 44 acquires processed voice by processing the voice to be processed using the optimum sound quality parameter group, and outputs the acquired processed voice. Since the sound quality parameter group used when the sound to be processed is processed in the second processing unit 44 is the optimum sound quality parameter group, the processed sound can obtain the highest sound quality.
- FIG. 20 is a diagram illustrating an example of quantitative evaluation according to Embodiment 3 of the present disclosure.
- the quantitative evaluation of the sound quality performed by the first evaluation unit 54 is based on, for example, a predetermined viewpoint (hereinafter referred to as a “third viewpoint”) that “processed sound having the highest sound quality is sound that is not offensive to the ears.” It is an evaluation based on
- the first evaluation unit 54 performs a Fourier transform on each of the output sounds AOP1 to AOPN to obtain a histogram indicating amplitude values for each frequency band (hereinafter referred to as a "frequency histogram") for each of the output sounds AOP1 to AOPN. (sometimes called).
- the frequency histogram indicates frequency characteristics of each of the output audios AOP1-AOPN.
- the first evaluation unit 54 compares the amplitude value of each region (hereinafter sometimes referred to as “frequency bin”) in the frequency histogram with the threshold TH3, and the frequency bin ( The number of high-amplitude bins (hereinafter sometimes referred to as “high-amplitude bins”) is counted.
- the third embodiment has been described above.
- FIG. 21 is a diagram illustrating a configuration example of a speech processing system according to Embodiment 4 of the present disclosure.
- the speech processing system 4 has a speech learning device 70 and a speech processing device 40 .
- Speech learning device 70 generates a sound quality parameter generation model by performing machine learning using teacher data, original speech, and a sound quality parameter group, and outputs the generated sound quality parameter generation model to speech processing device 40 .
- FIG. 22 is a diagram illustrating a configuration example of a speech learning device according to Embodiment 4 of the present disclosure.
- the speech learning device 70 includes a first processing unit 53, a first evaluation unit 54, a first storage unit 56, a first machine learning unit 57, a second storage unit 58, and an output unit 59.
- the speech learning device 70 also has a second machine learning section 71 , a fourth storage section 72 , a second evaluation section 73 , a selection section 74 and a teacher data generation section 75 .
- ⁇ Processing procedure in the audio processing system> 23 and 24 are diagrams illustrating an example of a processing procedure in a speech processing system according to Embodiment 4 of the present disclosure.
- a human evaluator evaluates the evaluation target speech while actually listening to and comparing the reference speech and the evaluation target speech.
- the evaluator manually adjusts the sound quality parameters and applies the various manually adjusted sound quality parameters to the reference speech.
- the speech to be evaluated which is the post-processing speech, is obtained.
- FIG. 23 shows, as an example, a case where evaluation target speeches AET01 to AET13 are obtained as a result of processing a reference speech with sound quality parameters having mutually different values.
- the evaluator sets the score of the reference speech to "0"
- the sound quality of all the evaluation target speech obtained is gradually changed by adjusting the sound quality parameters, and is judged to have the highest sound quality.
- the score of the evaluation target speech is "0.5”.
- the evaluator assigns a score of "1.0" to the evaluation target voice judged to have the greatest degree of change from the reference voice due to excessive adjustment of the sound quality parameter.
- the evaluator evaluates each evaluation target speech by scoring each evaluation target speech based on the evaluator's subjectivity. As a result, for example, as shown in FIG.
- a score of "0.36" is given to the speech AET04, "0.18” to the evaluation speech AET05, “0.12” to the evaluation speech AET06, and "0.66” to the evaluation speech AET07. be done. Also, for example, as shown in FIG. is given a score of "0.78", the evaluation target speech AET12 is given a score of "0.41", and the evaluation target speech AET13 is given a score of "0.72". In other words, in the example shown in FIG. 23, while the evaluator subjectively determined that the evaluation target speech AET08 has the highest sound quality, the sound quality of the evaluation target speech AET08 is set to the highest sound quality. ⁇ AET10 ⁇ AET05 ⁇ AET06. In addition, it is determined that excessive sound quality adjustment is performed for the evaluation target speeches AET07, AET13, AET11, AET03, AET09, and AET02 with scores greater than 0.5.
- the evaluator associates the reference speech, the speech to be evaluated, and the score with each other, and generates teacher data TDC including the reference speech, the speech to be evaluated, and the score. Therefore, for example, the teacher data TDC01 includes the reference speech, the evaluation target speech AET01, and the score "0.31" of the evaluation target speech AET01 in association with each other, and the teacher data TDC02 includes the reference speech and , the evaluation target speech AET02 and the score "0.99" of the evaluation target speech AET02 are included in association with each other. The score "0.84" is included in association with each other.
- the teacher data TDC04 to TDC13 also include the reference speech, each of the evaluation target speeches AET04 to AET13, and the score of each of the evaluation target speeches AET04 to AET13 in association with each other.
- the second machine learning unit 71 generates a "sound quality evaluation model" by performing machine learning using a plurality of teacher data TDC.
- deep learning such as CNN and RNN is used as machine learning for generating the sound quality evaluation model.
- the second machine learning unit 71 outputs the sound quality evaluation model generated as shown in FIG. memorize
- the original speech is input to the first processing unit 53, the teaching data generation unit 75, and the second evaluation unit 73, and the sound quality parameter group is subjected to the first processing. It is input to the unit 53 and the teacher data generation unit 75 .
- the output sounds AOP1 to AOPN output from the first processing unit 53 are input to the selection unit 74.
- the selection unit 74 is selected from the first evaluation unit 54 and the second evaluation unit 73 and evaluates the sound quality of each of the output audios AOP1 to AOPN (hereinafter sometimes referred to as a "sound quality evaluation execution unit"). for each output audio.
- the selection unit 74 selects the first evaluation unit 54 as the sound quality evaluation execution unit, the selection unit 74 outputs to the first evaluation unit 54 the output sound that causes the first evaluation unit 54 to evaluate the sound quality of the output sounds AOP1 to AOPN. do.
- the selection unit 74 selects the second evaluation unit 73 as the sound quality evaluation execution unit, the selection unit 74 selects the output sound from among the output sounds AOP1 to AOPN for the second evaluation unit 73 to evaluate the sound quality. 73. That is, the input voice input to the first evaluation unit 54 is the output voice selected by the selection unit 74 from among the output voices AOP1 to AOPN (hereinafter sometimes referred to as "selected voice"), and the second evaluation unit The input voices input to 73 are the original voice and the selected voice.
- the first evaluation unit 54 evaluates the sound quality of each selected voice by quantitatively evaluating each selected voice in the same manner as in the third embodiment. As in the third embodiment, the first evaluation unit 54 performs quantitative evaluation on each selected voice based on a predetermined viewpoint of sound quality.
- the second evaluation unit 73 uses the sound quality evaluation model stored in the fourth storage unit 72 to evaluate each selected voice.
- the evaluation of the selected speech by the second evaluation unit 73 is performed in the same manner as the evaluation by the evaluator of the evaluation target speeches AET01 to AET13 as described above.
- the evaluator evaluated the evaluation target speeches AET01 to AET13 relative to the reference speech and scored each of the evaluation target speeches AET01 to AET13. Moreover, each of the evaluation target speeches AET01 to AET13 was speech processed by applying different sound quality parameters to the same reference speech. Then, the second machine learning unit 71 generates a sound quality evaluation model using teacher data TDC that includes the reference speech, the evaluation target speech, and the score of the evaluation target speech in association with each other.
- the original speech and the selected speech are input to the second evaluation unit 73, and the second evaluation unit 73 evaluates the selected speech using the sound quality evaluation model based on the original speech and the selected speech, Score selected voices.
- the second evaluation unit 73 evaluates the selected speech using the sound quality evaluation model generated by the second machine learning unit 71, similarly to when the evaluator evaluates each of the evaluation target speeches AET01 to AET13.
- the evaluation of selected speech can be made on the scale of .
- the second evaluation unit 73 outputs the score, which is the evaluation result of the selected voice, to the teacher data generation unit 75.
- the teacher data generation unit 75 is input with the original voice, the sound quality parameter groups APG1 to APGN, and the score of the selected voice (hereinafter sometimes referred to as "selected voice score").
- the selected speech score is input to the teacher data generation unit 75 from either the first evaluation unit 54 or the second evaluation unit 73 selected by the selection unit 74 .
- each of the output voices AOP1 to AOPN is sorted by the selection unit 74 to either the first evaluation unit 54 or the second evaluation unit 73, so the total number of selected voice scores is N, which is the same as the total number of voices.
- the N selected speech scores may be denoted as ASSC1 to ASSCN.
- the teacher data generation unit 75 selects the best sound quality score from among the input selected speech scores ASSC1 to ASSCN.
- the teacher data generator 75 selects, for example, the maximum value among the scores ASSC1 to ASSCN as the best sound quality score.
- the teacher data generator 75 selects the best sound quality parameter group from the sound quality parameter groups APG1 to APGN.
- the training data generation unit 75 associates the original speech and the best sound quality parameter group with each other, generates training data TDD including the original speech and the best sound quality parameter group, and stores the generated training data TDD in the first storage unit 56.
- the first storage unit 56 stores teacher data TDD generated by the teacher data generator 75 .
- ⁇ Operation of selection unit> 25 is a diagram illustrating an operation example of a selection unit according to Embodiment 4 of the present disclosure.
- the selection unit 74 generates a frequency histogram for each of the output sounds AOP1 to AOPN by Fourier transforming each of the output sounds AOP1 to AOPN.
- the selector 74 determines the bin having the maximum amplitude value (hereinafter sometimes referred to as "amplitude peak bin") among the plurality of frequency bins.
- the selector 74 determines the frequency (hereinafter sometimes referred to as "peak frequency") to which the amplitude peak bin corresponds.
- peak frequency hereinafter sometimes referred to as "peak frequency”
- the selection unit 74 selects the second evaluation unit 73 as the sound quality evaluation execution unit. do.
- the peak frequency is less than 1 kHz, the output voice is unclear and the correct answer rate in the second evaluation unit 73 tends to be low. to select.
- the fourth embodiment has been described above.
- the first storage units 16 and 56, the second storage units 18 and 58, the third storage units 22 and 42, and the fourth storage units 32 and 72 are implemented as hardware by storage media such as memory and storage. be done.
- SDRAM Serial Dynamic Random Access Memory
- RAM Random Access Memory
- ROM Read Only Memory
- flash memory and the like.
- a storage that realizes the first storage units 16 and 56, the second storage units 18 and 58, the third storage units 22 and 42, and the fourth storage units 32 and 72, a HDD (Hard Disk Drive), An SSD (Solid State Drive) and the like are included.
- a HDD Hard Disk Drive
- An SSD Solid State Drive
- First processing units 13, 53, first evaluation units 14, 54, teacher data generation units 15, 35, 55, 75, first machine learning units 17, 57, parameter generation units 23, 43, second processing unit 24, 44, the second machine learning units 31 and 71, the second evaluation units 33 and 73, and the selection units 34 and 74 are implemented as hardware by, for example, a processor.
- CPU Central Processing Unit
- GPU Graphics Processing Unit
- NPU Neural-network Processing Unit
- DSP Digital Signal Processor
- FPGA Field Programmable Gate Array
- ASIC Application Specific Integrated Circuit
- the output units 19 and 59 and the acquisition units 21 and 41 are implemented as hardware, for example, by wired network interface modules or wireless communication modules.
- the image learning devices 10 and 30 and the speech learning devices 50 and 70 are implemented as computers such as personal computers and servers, for example.
- the image processing device 20 and the audio processing device 40 are implemented as mobile terminals such as smartphones and tablet terminals, for example.
- the learning device of the present disclosure includes the first evaluation unit (the first evaluation units 14 and 54 of the embodiment) and the generation unit (the It has teacher data generation units 15 and 55) and a first learning unit (first machine learning units 17 and 57 of the embodiment).
- the first evaluation unit obtains a plurality of first evaluation results for each of the plurality of multimedia data by quantitatively evaluating the plurality of multimedia data.
- the generator selects a second parameter from a plurality of first parameters having different values based on the plurality of first evaluation results, and generates first teacher data including the selected second parameter.
- the first learning unit performs the first machine learning using the first teacher data to generate the first learned model (image quality parameter generation in the embodiment) that outputs the third parameter used for processing the multimedia data to be processed. model, sound quality parameter generation model).
- the multimedia data is image data
- the first evaluation unit performs quantitative evaluation based on the luminance distribution of the image data.
- the multimedia data is image data
- the first evaluation unit performs quantitative evaluation based on the average brightness of the image data.
- the multimedia data is audio data
- the first evaluation unit performs quantitative evaluation based on the frequency characteristics of the audio data.
- the data processing device of the present disclosure includes a generation unit (parameter generation units 23 and 43 of the embodiment) and a processing unit (second processing unit of the embodiment 24, 44).
- the generating unit generates a third Generate parameters.
- the processing unit processes the multimedia data to be processed using the generated third parameter.
- the learning device of the present disclosure includes a second learning unit (second machine learning units 31 and 71 of the embodiment) and a second evaluation unit ( Second evaluation units 33, 73) and selection units (selection units 34, 74 in the embodiment) are further provided.
- the second learning unit outputs a third evaluation result for the input multimedia data by performing second machine learning using second teacher data including the second evaluation result for the multimedia data to be evaluated.
- Models image quality evaluation model and sound quality evaluation model of the embodiment
- a second evaluation unit obtains a plurality of third evaluation results for each of the plurality of multimedia data using the second trained model.
- the selection unit selects an evaluation execution unit that evaluates a plurality of pieces of multimedia data from among the first evaluation unit and the second evaluation unit.
- the generation unit generates a plurality of A second parameter is selected from among the first parameters of , and first teacher data including the selected second parameter is generated.
- the multimedia data is image data
- the selection unit selects the evaluation execution unit based on the luminance distribution of the image data.
- the multimedia data is audio data
- the selection unit selects the evaluation execution unit based on the frequency characteristics of the audio data.
- the optimum evaluation execution unit is selected according to the multimedia data, so the quality of the multimedia data can be further improved.
- each processing in the above description in the image processing systems 1 and 2 and the sound processing systems 3 and 4 may be performed by the image processing systems 1 and 2 and the sound processing systems 3 and 4. It may also be realized by causing a processor having the For example, a program corresponding to each process described above may be stored in a memory, and the program may be read from the memory and executed by a processor. Further, the program is stored in a program server connected to the image processing systems 1, 2 and the sound processing systems 3, 4 via an arbitrary network, and is transmitted from the program server to the image processing systems 1, 2, the sound processing system 3, 4. 4, or stored in a recording medium readable by the image processing systems 1 and 2 and the audio processing systems 3 and 4, and read from the recording medium and executed.
- Examples of recording media readable by the image processing systems 1 and 2 and the audio processing systems 3 and 4 include memory cards, USB memories, SD cards, flexible disks, magneto-optical disks, CD-ROMs, DVDs, and Blu-ray discs.
- Portable storage media such as ray (registered trademark) disks are included.
- a program is a data processing method written in an arbitrary language and an arbitrary description method, and may be in any format such as source code or binary code. In addition, the program is not necessarily configured in a single unit, but may be distributed as multiple modules or multiple libraries, or cooperate with a separate program represented by the OS to achieve its function. Including things.
- the specific form of dispersion/integration of the image processing systems 1 and 2 and the sound processing systems 3 and 4 is not limited to the illustrated one, and all or part of the image processing systems 1 and 2 and the sound processing systems 3 and 4 are , according to various additions, etc., or according to functional loads, functionally or physically distributed and integrated in arbitrary units.
- the image processing device and the audio processing device excluding the acquisition units 21 and 41, the third storage units 22 and 42, and the parameter generation units 23 and 43 transmit the processing target image and the processing target voice through wireless communication or the like.
- the network server that receives the image to be processed and the audio to be processed generates an optimal image quality parameter group and an optimal sound quality parameter group, and transmits the generated optimal image quality parameter group and optimal sound quality parameter group to the image processing device and audio using wireless communication. Send to processing equipment.
- the image processing device and the audio processing device that have received the optimal image quality parameter group and the optimal sound quality parameter group process the processing target image and the processing target sound using the optimal image quality parameter group and the optimal sound quality parameter group received from the network server. Acquire a processed image and processed audio, and output the acquired processed image and processed audio.
- the above processing is repeated each time an image to be processed or a sound to be processed is input to the image processing device or the sound processing device. Therefore, in this case, the network server having the acquisition units 21 and 41, the third storage units 22 and 42, and the parameter generation units 23 and 43 functions as a parameter generation device that generates the optimal image quality parameter group and the optimal sound quality parameter group. do.
- a configuration may be adopted in which the image processing device 20 and the audio processing device 40 shown in FIGS. 3 and 16 are provided in a network server.
- a communication terminal having a display or a speaker transmits the image to be processed and the sound to be processed to the network server using wireless communication or the like.
- the network server that receives the image to be processed and the audio to be processed generates an optimal image quality parameter group and an optimal sound quality parameter group, and processes the image to be processed and the audio to be processed using the generated optimal image quality parameter group and optimal sound quality parameter group.
- the processed image and processed sound are acquired, and the acquired processed image and processed sound are transmitted to the communication terminal using wireless communication or the like.
- the communication terminal that has received the processed image and the processed sound displays the received processed image on the display and outputs the received processed sound from the speaker. The above processing is repeated each time an image to be processed or a processed voice is input to the communication terminal.
- a first evaluation unit that obtains a plurality of first evaluation results for each of the plurality of multimedia data by performing a quantitative evaluation on the plurality of multimedia data based on a predetermined viewpoint; a generation unit that selects a second parameter from among a plurality of first parameters having mutually different values based on the plurality of first evaluation results, and generates first teacher data including the selected second parameter; a first learning unit that generates a first trained model that outputs a third parameter used for processing multimedia data to be processed by performing first machine learning using the first teacher data;
- a learning device comprising: (2) the multimedia data is image data; The first evaluation unit performs the quantitative evaluation based on the luminance distribution of the image data.
- the multimedia data is image data; The first evaluation unit performs the quantitative evaluation based on the average brightness of the image data.
- the multimedia data is audio data, The first evaluation unit performs the quantitative evaluation based on the frequency characteristics of the audio data.
- the multimedia data is image data;
- the selection unit selects the evaluation execution unit based on the luminance distribution of the image data.
- the multimedia data is audio data,
- the selection unit selects the evaluation execution unit based on frequency characteristics of the audio data.
- an evaluation unit that obtains a plurality of evaluation results for each of the plurality of multimedia data by performing a quantitative evaluation on the plurality of multimedia data based on a predetermined viewpoint; a generation unit that selects a second parameter from among a plurality of first parameters having mutually different values based on the plurality of evaluation results, and generates teacher data including the selected second parameter; a learning unit that generates a trained model that outputs a third parameter used for processing multimedia data to be processed by performing machine learning using the teacher data; a generator that generates the third parameter using the trained model generated by a learning device comprising a processing unit that processes the multimedia data to be processed using the generated third parameter;
- a data processing device comprising: (9) an evaluation unit that obtains a plurality of evaluation results for each of the plurality of multimedia data by performing a quantitative evaluation on the plurality of multimedia data based on a predetermined viewpoint; a generation unit that selects a second parameter from among a plurality of first parameters having mutually different values based on the plurality of evaluation results,
- an evaluation unit that obtains a plurality of evaluation results for each of the plurality of multimedia data by performing a quantitative evaluation on the plurality of multimedia data based on a predetermined viewpoint; a generation unit that selects a second parameter from among a plurality of first parameters having mutually different values based on the plurality of evaluation results, and generates teacher data including the selected second parameter; a learning unit that generates a trained model that outputs a third parameter used for processing multimedia data to be processed by performing machine learning using the teacher data; generating the third parameter using the trained model generated by a learning device comprising processing the multimedia data to be processed using the generated third parameter; data processing method.
- an evaluation unit that obtains a plurality of evaluation results for each of the plurality of multimedia data by performing a quantitative evaluation on the plurality of multimedia data based on a predetermined viewpoint; a generation unit that selects a second parameter from among a plurality of first parameters having mutually different values based on the plurality of evaluation results, and generates teacher data including the selected second parameter; a learning unit that generates a trained model that outputs a third parameter used for processing multimedia data to be processed by performing machine learning using the teacher data; obtaining from the learning device the trained model generated by the learning device comprising generating the third parameter using the acquired learned model; Parameter generation method.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
学習装置(10)において、第一評価部(14)は、複数の画像データに対する定量的評価を行うことによって、複数の画像データのそれぞれに対する複数の第一評価結果を取得し、教師データ生成部(15)は、複数の第一評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した第二パラメータを含む第一教師データを生成し、第一機械学習部(17)は、第一教師データを用いる機械学習を行うことによって、加工対象の画像データの加工に用いられる第三パラメータを出力する学習済モデルを生成する。
Description
本開示は、学習装置、データ加工装置、パラメータ生成装置、学習方法、データ加工方法及びパラメータ生成方法に関する。
明るさ、コントラスト、彩度、トーン、精細度等を要素とする「画質」を向上させるために、画質を変化させるパラメータ(以下では「画質パラメータ」と呼ぶことがある)を用いて画像を加工することが行われている。
従来、画像の加工に用いられる画質パラメータの調整は、詳細な分析眼を有する熟練技術者によって行われている。熟練技術者は、様々に変化させた画質パラメータにより画質がどのように変化するのかを観察することにより、画像の加工に用いる最適な画質パラメータを決定している。
画質パラメータとして、明るさ、コントラスト、彩度、トーン、精細度等を変化させる種々の画質パラメータが存在する。例えば、画質パラメータとして28種類の画質パラメータが存在し、かつ、28種類の画質パラメータのそれぞれの値について255段階の調整が可能な場合、画質パラメータの組合せの総数は「2.4×1067組」と膨大な数になってしまう。このような膨大な数の画質パラメータの組合せの中から最適なものを人間の目視により決定することは、たとえ熟練技術者であっても困難である。
また、画像毎に最適な画質パラメータはそれぞれ異なるため、ある画像に対して最適な画質パラメータが他の画像に対しても最適であるとは限らない。このため、複数の画像に対して一つの画質パラメータを固定的に適用したのでは、満足のいく画質が得られないことがある。
また、動画の各フレームの画像についても、静止画像と同様に、画像毎に最適な画質パラメータはそれぞれ異なる。さらに、音声についても、「音質」を向上させるために、音質を変化させるパラメータ(以下では「音質パラメータ」と呼ぶことがある)を用いて音声を加工することが行われている。コンピュータによって扱うことが可能なマルチメディアデータは、画像データ、動画データ、及び、音声データに大別される。以下では、画質パラメータ及び音質パラメータを「品質パラメータ」と呼ぶことがある。
そこで、本開示では、好適な品質パラメータの決定にかかる労力を軽減した上でマルチメディアデータの品質を向上させることができる技術を提案する。
本開示の学習装置は、評価部と、生成部と、学習部とを有する。前記評価部は、複数のマルチメディアデータに対する定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する。生成部は、前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する。学習部は、前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する。
以下に、本開示の実施形態について図面に基づいて説明する。なお、以下の実施形態において、同一の部位または同一の処理には同一の符号を付することにより重複する説明を省略することがある。
また、以下に示す項目順序に従って本開示を説明する。
[実施形態1]
<画像処理システムの構成>
<画像学習装置の構成>
<画像加工装置の構成>
<画像処理システムにおける処理手順>
<定量的評価>
<画質評価例1>
<画質評価例2>
[実施形態2]
<画像処理システムの構成>
<画像学習装置の構成>
<画像処理システムにおける処理手順>
<選択部の動作>
[実施形態3]
<音声処理システムの構成>
<音声学習装置の構成>
<音声加工装置の構成>
<音声処理システムにおける処理手順>
<定量的評価>
[実施形態4]
<音声処理システムの構成>
<音声学習装置の構成>
<音声処理システムにおける処理手順>
<選択部の動作>
[実施形態5]
<ハードウェア構成>
[開示の技術の効果]
[実施形態1]
<画像処理システムの構成>
<画像学習装置の構成>
<画像加工装置の構成>
<画像処理システムにおける処理手順>
<定量的評価>
<画質評価例1>
<画質評価例2>
[実施形態2]
<画像処理システムの構成>
<画像学習装置の構成>
<画像処理システムにおける処理手順>
<選択部の動作>
[実施形態3]
<音声処理システムの構成>
<音声学習装置の構成>
<音声加工装置の構成>
<音声処理システムにおける処理手順>
<定量的評価>
[実施形態4]
<音声処理システムの構成>
<音声学習装置の構成>
<音声処理システムにおける処理手順>
<選択部の動作>
[実施形態5]
<ハードウェア構成>
[開示の技術の効果]
[実施形態1]
実施形態1では、マルチメディアデータの一例として画像データを挙げて本開示の技術について説明する。また、実施形態1は、動画データを構成する各フレームの画像データにも適用可能である。
実施形態1では、マルチメディアデータの一例として画像データを挙げて本開示の技術について説明する。また、実施形態1は、動画データを構成する各フレームの画像データにも適用可能である。
<画像処理システムの構成>
図1は、本開示の実施形態1に係る画像処理システムの構成例を示す図である。図1において、画像処理システム1は、画像学習装置10と、画像加工装置20とを有する。画像学習装置10は、元画像と、画質パラメータ群とを用いて機械学習を行うことにより画質パラメータ生成モデルを生成し、生成した画質パラメータ生成モデルを画像加工装置20へ出力する。画像加工装置20は、画像学習装置10から入力される画質パラメータ生成モデルを用いて加工対象画像を加工することにより加工済画像を取得する。
図1は、本開示の実施形態1に係る画像処理システムの構成例を示す図である。図1において、画像処理システム1は、画像学習装置10と、画像加工装置20とを有する。画像学習装置10は、元画像と、画質パラメータ群とを用いて機械学習を行うことにより画質パラメータ生成モデルを生成し、生成した画質パラメータ生成モデルを画像加工装置20へ出力する。画像加工装置20は、画像学習装置10から入力される画質パラメータ生成モデルを用いて加工対象画像を加工することにより加工済画像を取得する。
<画像学習装置の構成>
図2は、本開示の実施形態1に係る画像学習装置の構成例を示す図である。図2において、画像学習装置10は、第一加工部13と、第一評価部14と、教師データ生成部15と、第一記憶部16と、第一機械学習部17と、第二記憶部18と、出力部19とを有する。
図2は、本開示の実施形態1に係る画像学習装置の構成例を示す図である。図2において、画像学習装置10は、第一加工部13と、第一評価部14と、教師データ生成部15と、第一記憶部16と、第一機械学習部17と、第二記憶部18と、出力部19とを有する。
<画像加工装置の構成>
図3は、本開示の実施形態1に係る画像加工装置の構成例を示す図である。図3において、画像加工装置20は、取得部21と、第三記憶部22と、パラメータ生成部23と、第二加工部24とを有する。
図3は、本開示の実施形態1に係る画像加工装置の構成例を示す図である。図3において、画像加工装置20は、取得部21と、第三記憶部22と、パラメータ生成部23と、第二加工部24とを有する。
<画像処理システムにおける処理手順>
図4、図5及び図6は、本開示の実施形態1に係る画像処理システムにおける処理手順の一例を示す図である。
図4、図5及び図6は、本開示の実施形態1に係る画像処理システムにおける処理手順の一例を示す図である。
まず、元画像が第一加工部13及び教師データ生成部15に入力されるとともに、画質パラメータ群が第一加工部13及び教師データ生成部15に入力される。
ここで、図4に示すように、第一加工部13には、元画像と、例えば画質パラメータ群PG1~PGNのN組の画質パラメータ群とが入力される。画質パラメータ群PG1~PGNの各々は、複数の種類の画質パラメータの組合せである。例えば、画質パラメータ群PG1~PGNの各々は、明るさを変化させる画質パラメータPA、コントラストを変化させる画質パラメータPB、彩度を変化させる画質パラメータPC、及び、トーンを変化させる画質パラメータPDの4種類の画質パラメータにより形成される。また、画質パラメータ群PG1~PGNの間では、画質パラメータPA,PB,PC,PDの少なくとも一つの値が互いに異なっている。つまり、画質パラメータ群PG1~PGNは、互いに異なる値を有する画質パラメータである。第一加工部13は、画質パラメータ群PG1~PGNの各々を用いて元画像を加工することにより、互いに画質が異なる出力画像OP1~OPNを取得し、取得した出力画像OP1~OPNを第一評価部14へ出力する。出力画像OP1は画質パラメータ群PG1を用いて元画像を加工することにより得られた画像であり、出力画像OP2は画質パラメータ群PG2を用いて元画像を加工することにより得られた画像であり、出力画像OPNは画質パラメータ群PGNを用いて元画像を加工することにより得られた画像である。つまり、出力画像OP1は画質パラメータ群PG1に、出力画像OP2は画質パラメータ群PG2に、出力画像OPNは画質パラメータ群PGNにそれぞれ対応する。
第一評価部14には出力画像OP1~OPNの各々が入力される。つまり、第一評価部14へ入力される入力画像は出力画像OP1~OPNとなる。第一評価部14は、出力画像OP1~OPNの各々に対して定量的評価を行うことにより、出力画像OP1~OPNの各々の画質を評価する。第一評価部14は、画質に対する所定の観点に基づいた定量的評価を出力画像OP1~OPNの各々に対して行う。そして、第一評価部14は、出力画像OP1~OPNのそれぞれの評価結果であるスコアSC1~SCNを教師データ生成部15へ出力する。スコアSC1は出力画像OP1の、スコアSC2は出力画像OP2の、スコアSCNは出力画像OPNの各スコアを示す。
教師データ生成部15には、元画像と、画質パラメータ群PG1~PGNと、スコアSC1~SCNとが入力される。上記のように、出力画像OP1~OPNの各々は画質パラメータ群PG1~PGNの各々に対応し、スコアSC1~SCNの各々は出力画像OP1~OPNの各々に対応する。よって、スコアSC1~SCNの各々は画質パラメータ群PG1~PGNの各々に対応する。つまり、スコアSC1は画質パラメータ群PG1の評価結果、スコアSC2は画質パラメータ群PG2の評価結果、スコアSCNは画質パラメータ群PGNの評価結果であると言える。
そこで、教師データ生成部15は、入力されたスコアSC1~SCNの中から、最高の評価結果に相当するスコア(以下では「ベスト画質スコア」と呼ぶことがある)を選択する。教師データ生成部15は、例えば、スコアSC1~SCNの中の最大値をベスト画質スコアとして選択する。次いで、教師データ生成部15は、画質パラメータ群PG1~PGNの中から、ベスト画質スコアに対応する画質パラメータ群(以下では「ベスト画質パラメータ群」と呼ぶことがある)を選択する。ベスト画質パラメータ群はベスト画質スコアに対応する画質パラメータ群であるため、元画像が加工された際に最高の画質を得ることができる画質パラメータ群、つまり、元画像の加工に最適な画質パラメータ群であると言える。そして、教師データ生成部15は、元画像とベスト画質パラメータ群とを互いに対応付け、元画像及びベスト画質パラメータ群を含む教師データTDBを生成し、生成した教師データTDBを第一記憶部16へ出力する。第一記憶部16は、教師データ生成部15で生成された教師データTDBを記憶する。
よって、図4において、互いに異なるM個の複数の元画像を画像学習装置10に順次入力するだけで、互いに異なる元画像と、互いに異なるベスト画質パラメータ群とを含むM個の複数の教師データTDBを機械的に(自動的に)量産することができる。
なお、教師データ生成部15により選択されたベスト画質パラメータ群の値をオペレータが手動により調整しても良い。
また、教師データ生成部15は、元画像とベスト画質パラメータ群と含む教師データTDBを生成することに替えて、元画像の特徴量とベスト画質パラメータ群と含む教師データTDBを生成しても良い。元画像の特徴量の一例として、元画像の画素値の平均、分散、ヒストグラム等が挙げられる。
第一機械学習部17は、図5に示すように、第一記憶部16に記憶されている教師データTDB1~TDB3を含む複数の教師データTDBを用いた機械学習を行うことにより、学習済モデルとしての「画質パラメータ生成モデル」を生成する。画質パラメータ生成モデルを生成する際の機械学習として、例えば、CNN(Convolutional Neural Network)等の深層学習が用いられる。教師データTDB1~TDB3の各々には、元画像と、その元画像に対するベスト画質パラメータ群とが含まれるため、第一機械学習部17により生成される画質パラメータ生成モデルは、加工対象画像が入力された場合に、加工対象画像の加工に最適な画質パラメータ群(以下では「最適画質パラメータ群」と呼ぶことがある)を出力する学習済モデルとなる。
第一機械学習部17は、図5に示すようにして生成した画質パラメータ生成モデルを第二記憶部18へ出力し、第二記憶部18は、第一機械学習部17で生成された画質パラメータ生成モデルを記憶する。
出力部19は、第二記憶部18に記憶されている画質パラメータ生成モデルを取得し、取得した画質パラメータ生成モデルを画像加工装置20へ出力する。画像学習装置10から画像加工装置20への画質パラメータ生成モデルの出力は、例えば、画像学習装置10に対するオペレータの指示に従って行われる。
画像加工装置20において、取得部21は、画像学習装置10から出力された画質パラメータ生成モデルを取得し、取得した画質パラメータ生成モデルを第三記憶部22へ出力する。画像加工装置20での画像学習装置10からの画質パラメータ生成モデルの取得は、例えば、画像加工装置20に対するオペレータの指示に従って行われる。
第三記憶部22は、取得部21によって取得された画質パラメータ生成モデルを記憶する。
また、加工対象画像がパラメータ生成部23及び第二加工部24に入力される。
加工対象画像を入力されたパラメータ生成部23は、図6に示すように、第三記憶部22に記憶されている画質パラメータ生成モデルを用いて、最適画質パラメータ群(つまり、加工対象画像が加工された際に最高の画質を得ることができる画質パラメータ群)を生成し、生成した最適画質パラメータ群を第二加工部24へ出力する。
そして、図6に示すように、第二加工部24は、最適画質パラメータ群を用いて加工対象画像を加工することにより加工済画像を取得し、取得した加工済画像を出力する。第二加工部24において加工対象画像が加工される際に用いられる画質パラメータ群は最適画質パラメータ群であるため、加工済画像は最高の画質を得ることができる。
<定量的評価>
図7及び図8は、本開示の実施形態1に係る定量的評価の一例を示す図である。以下、第一評価部14によって行われる画質の定量的評価について、画質評価例1と画質評価例2の二つの評価例を挙げて説明する。
図7及び図8は、本開示の実施形態1に係る定量的評価の一例を示す図である。以下、第一評価部14によって行われる画質の定量的評価について、画質評価例1と画質評価例2の二つの評価例を挙げて説明する。
<画質評価例1(図7)>
画質評価例1は、「最高の画質を有する加工済画像とは、輝度分布に偏りがない画像である。」という所定の観点(以下では「第一観点」と呼ぶことがある)に基づいた評価例である。
画質評価例1は、「最高の画質を有する加工済画像とは、輝度分布に偏りがない画像である。」という所定の観点(以下では「第一観点」と呼ぶことがある)に基づいた評価例である。
図7に示すように、第一評価部14は、出力画像OP1~OPNの各々について、輝度を256段階に分割したヒストグラム(以下では「輝度ヒストグラム」と呼ぶことがある)を生成する。輝度ヒストグラムは、出力画像OP1~OPNの各々における輝度の分布を表す。次いで、第一評価部14は、輝度ヒストグラムにおける256個の各々の領域(以下では「輝度bin」と呼ぶことがある)に含まれる画素数(以下では「bin画素数」と呼ぶことがある)を、256個の各輝度binについて輝度bin毎に数える。次いで、第一評価部14は、輝度bin毎に、一つの出力画像に含まれる全画素数に対するbin画素数の占有率(以下では「画素占有率」と呼ぶことがある)を算出する。次いで、第一評価部14は、画素占有率が閾値TH1以上である輝度binの数(以下では「高占有率bin数」と呼ぶことがある)を集計する。第一評価部14は、出力画像OP1~OPNの各々について高占有率bin数を集計する。そして、第一評価部14は、出力画像OP1~OPNの各々の高占有率bin数を、出力画像OP1~OPNの各々のスコアSC1~SCNとする。高占有率bin数の最大値は「256」である。
第一観点に基づいた評価によれば、例えば、すべての輝度binに満遍なく画素が分布している場合には、高占有率bin数が多くなるため、出力画像に対するスコアは大きい値になる。逆に、一つの出力画像に含まれる全画素数のほぼすべてが、輝度ヒストグラムの中央部分の10個の輝度binに集中している場合には、出力画像に対するスコアは「10」という小さい値になる。
<画質評価例2(図8)>
画質評価例2は、「最高の画質を有する加工済画像とは、最適な明るさを有する画像である。」という所定の観点(以下では「第二観点」と呼ぶことがある)に基づいた評価例である。
画質評価例2は、「最高の画質を有する加工済画像とは、最適な明るさを有する画像である。」という所定の観点(以下では「第二観点」と呼ぶことがある)に基づいた評価例である。
画質評価例2では、元画像が第一評価部14にも入力される(図示省略)。第一評価部14は、一つの元画像に含まれる全画素の輝度の平均値(以下では「元画像平均輝度」と呼ぶことがある)を算出する。また、第一評価部14には、図8に示すような輝度テーブル141が予め設定されている。輝度テーブル141には、元画像平均輝度の複数の範囲と、一つの画像に含まれる全画素の輝度の最適な平均値(以下では「最適平均輝度」と呼ぶことがある)とが互いに対応付けて設定されている。輝度テーブル141は、詳細な分析眼を有する熟練技術者によって作成される。そこで、第一評価部14は、元画像平均輝度に基づいて輝度テーブル141を参照し、元画像平均輝度に対応する最適平均輝度を輝度テーブル141から取得する。例えば元画像平均輝度が「35」であるときは、第一評価部14は、最適平均輝度として「19」を輝度テーブル141から取得する。次いで、第一評価部14は、出力画像OP1~OPNの各々について、一つの出力画像に含まれる全画素の輝度の平均値(以下では「出力画像平均輝度」と呼ぶことがある)を算出する。そして、第一評価部14は、出力画像OP1~OPNの各々について、式(1)に従って、最適平均輝度と出力画像平均輝度との差分の絶対値をスコアSC1~SCNとして算出する。よって、画質評価例2では、スコアの値がより小さい出力画像ほど、より第二観点に沿った画像となる。
スコア=abs(最適平均輝度-出力画像平均輝度) …(1)
スコア=abs(最適平均輝度-出力画像平均輝度) …(1)
以上、実施形態1について説明した。
[実施形態2]
実施形態2では、実施形態1と同様、マルチメディアデータの一例として画像データを挙げて本開示の技術について説明する。また、実施形態2は、実施形態1と同様、動画データを構成する各フレームの画像データにも適用可能である。以下、実施形態1と異なる点について説明する。
実施形態2では、実施形態1と同様、マルチメディアデータの一例として画像データを挙げて本開示の技術について説明する。また、実施形態2は、実施形態1と同様、動画データを構成する各フレームの画像データにも適用可能である。以下、実施形態1と異なる点について説明する。
<画像処理システムの構成>
図9は、本開示の実施形態2に係る画像処理システムの構成例を示す図である。図2において、画像処理システム2は、画像学習装置30と、画像加工装置20とを有する。画像学習装置30は、教師データと、元画像と、画質パラメータ群とを用いて機械学習を行うことにより画質パラメータ生成モデルを生成し、生成した画質パラメータ生成モデルを画像加工装置20へ出力する。
図9は、本開示の実施形態2に係る画像処理システムの構成例を示す図である。図2において、画像処理システム2は、画像学習装置30と、画像加工装置20とを有する。画像学習装置30は、教師データと、元画像と、画質パラメータ群とを用いて機械学習を行うことにより画質パラメータ生成モデルを生成し、生成した画質パラメータ生成モデルを画像加工装置20へ出力する。
<画像学習装置の構成>
図10は、本開示の実施形態2に係る画像学習装置の構成例を示す図である。図10において、画像学習装置30は、第一加工部13と、第一評価部14と、第一記憶部16と、第一機械学習部17と、第二記憶部18と、出力部19とを有する。また、画像学習装置30は、第二機械学習部31と、第四記憶部32と、第二評価部33と、選択部34と、教師データ生成部35とを有する。
図10は、本開示の実施形態2に係る画像学習装置の構成例を示す図である。図10において、画像学習装置30は、第一加工部13と、第一評価部14と、第一記憶部16と、第一機械学習部17と、第二記憶部18と、出力部19とを有する。また、画像学習装置30は、第二機械学習部31と、第四記憶部32と、第二評価部33と、選択部34と、教師データ生成部35とを有する。
<画像処理システムにおける処理手順>
図11及び図12は、本開示の実施形態2に係る画像処理システムにおける処理手順の一例を示す図である。
図11及び図12は、本開示の実施形態2に係る画像処理システムにおける処理手順の一例を示す図である。
画像処理システム2において画像学習装置30が処理を行う前に、図11に示すように、人間の評価者が、基準画像と評価対象画像とを目視で見比べながら評価対象画像を評価する。
まず、評価者は、画質パラメータを手動で調整し、手動で調整した様々な画質パラメータを基準画像に適用する。手動で調整された様々な画質パラメータを用いて基準画像が加工されることにより、加工後の画像である評価対象画像が得られる。図11には、一例として、互いに異なる値の画質パラメータにより基準画像が加工された結果、評価対象画像ET01~ET13が得られた場合を示す。
そして、評価者は、基準画像のスコアを「0」とする一方で、得られたすべての評価対象画像において、画質パラメータの調整により画質が徐々に変化して最高の画質を有すると目視により判断される評価対象画像のスコアを「0.5」とする。また、評価者は、画質パラメータの過剰な調整により、基準画像に対して最も変化の度合が大きいと目視により判断される評価対象画像のスコアを「1.0」とする。このようにして、評価者は、評価者の主観によって各評価対象画像にスコアを付けることにより各評価対象画像を評価する。その結果、例えば、図11に示すように、評価対象画像ET01には「0.31」、評価対象画像ET02には「0.99」、評価対象画像ET03には「0.84」、評価対象画像ET04には「0.36」、評価対象画像ET05には「0.18」、評価対象画像ET06には「0.12」、評価対象画像ET07には「0.66」の各スコアが付けられる。また例えば、図11に示すように、評価対象画像ET08には「0.50」、評価対象画像ET09には「0.90」、評価対象画像ET10には「0.25」、評価対象画像ET11には「0.78」、評価対象画像ET12には「0.41」、評価対象画像ET13には「0.72」の各スコアが付けられる。つまり、図11に示す例では、評価者の目視による主観によって、評価対象画像ET08が最高の画質を有すると判断された一方で、評価対象画像ET08の画質を最高画質として、ET08→ET12→ET04→ET01→ET10→ET05→ET06の順に評価対象画像の画質が徐々に低下すると判断されている。また、スコアが0.5より大きい評価対象画像ET07,ET13,ET11,ET03,ET09,ET02については、過剰な画質調整が行われていると判断されている。
次いで、評価者は、基準画像と評価対象画像とスコアとを互いに対応付け、基準画像、評価対象画像及びスコアを含む教師データTDAを生成する。よって例えば、教師データTDA01には、基準画像と、評価対象画像ET01と、評価対象画像ET01のスコアである「0.31」とが互いに対応付けて含まれ、教師データTDA02には、基準画像と、評価対象画像ET02と、評価対象画像ET02のスコアである「0.99」とが互いに対応付けて含まれ、教師データTDA03には、基準画像と、評価対象画像ET03と、評価対象画像ET03のスコアである「0.84」とが互いに対応付けて含まれる。同様に、教師データTDA04~TDA13にも、基準画像と、評価対象画像ET04~ET13の各々と、評価対象画像ET04~ET13の各々のスコアとが互いに対応付けられて含まれる。
そして、このようにして生成された複数の教師データTDAが、第二機械学習部31(図10)に入力される。第二機械学習部31は、図12に示すように、複数の教師データTDAを用いた機械学習を行うことにより「画質評価モデル」を生成する。画質評価モデルを生成する際の機械学習として、例えば、CNN等の深層学習が用いられる。
第二機械学習部31は、図12に示すようにして生成した画質評価モデルを第四記憶部32へ出力し、第四記憶部32は、第二機械学習部31で生成された画質評価モデルを記憶する。
第四記憶部32への画質評価モデルの記憶が完了した後、元画像が第一加工部13、教師データ生成部35及び第二評価部33に入力されるとともに、画質パラメータ群が第一加工部13及び教師データ生成部35に入力される。
また、第一加工部13から出力された出力画像OP1~OPNが選択部34に入力される。選択部34は、第一評価部14及び第二評価部33の中から、出力画像OP1~OPNの各々の画質の評価を行う評価部(以下では「画質評価実行部」と呼ぶことがある)を出力画像毎に選択する。選択部34は、画質評価実行部として第一評価部14を選択したときは、出力画像OP1~OPNのうち第一評価部14に画質の評価を行わせる出力画像を第一評価部14へ出力する。一方で、選択部34は、画質評価実行部として第二評価部33を選択したときは、出力画像OP1~OPNのうち第二評価部33に画質の評価を行わせる出力画像を第二評価部33へ出力する。つまり、第一評価部14へ入力される入力画像は、出力画像OP1~OPNのうち選択部34によって選択された出力画像(以下では「選択画像」と呼ぶことがある)となり、第二評価部33へ入力される入力画像は、元画像及び選択画像となる。
第一評価部14は、実施形態1と同様にして各選択画像に対して定量的評価を行うことにより、各選択画像の画質を評価する。第一評価部14は、実施形態1と同様に、画質に対する所定の観点に基づいた定量的評価を各選択画像に対して行う。
一方で、第二評価部33は、第四記憶部32に記憶されている画質評価モデルを用いて各選択画像を評価する。選択画像に対する第二評価部33での評価は、上述したような、評価対象画像ET01~ET13に対する評価者による評価と同様にして行われる。
すなわち、上記のように、評価者は、基準画像に対する評価対象画像ET01~ET13の相対的な評価を行って評価対象画像ET01~ET13の各々にスコアを付けた。また、評価対象画像ET01~ET13の各々は同一の基準画像に対して互いに異なる画質パラメータが適用されることにより加工された画像であった。そして、第二機械学習部31では、基準画像と、評価対象画像と、評価対象画像のスコアとが互いに対応付けられて含まれる教師データTDAを用いて画質評価モデルが生成された。これに対し、第二評価部33には元画像と選択画像とが入力され、第二評価部33は、元画像と選択画像とに基づいて画質評価モデルを用いて選択画像を評価して、選択画像にスコアを付ける。つまり、元画像は図11における基準画像に相当し、選択画像は図11における評価対象画像ET01~ET13に相当する。よって、第二評価部33は、第二機械学習部31によって生成された画質評価モデルを用いて選択画像を評価することにより、評価者が評価対象画像ET01~ET13の各々を評価したときと同様の尺度で選択画像の評価を行うことができる。
第二評価部33は、選択画像の評価結果であるスコアを教師データ生成部35へ出力する。
教師データ生成部35には、元画像と、画質パラメータ群PG1~PGNと、選択画像のスコア(以下では「選択画像スコア」と呼ぶことがある)とが入力される。選択画像スコアは、選択部34によって選択された第一評価部14または第二評価部33の何れかから教師データ生成部35に入力される。上記のように、出力画像OP1~OPNの各々は、選択部34によって、第一評価部14と第二評価部33との何れか一方に振り分けられるため、選択画像スコアの個数の合計は、出力画像の個数の合計と同一のN個となる。以下ではN個の選択画像スコアをSSC1~SSCNと表記することがある。
教師データ生成部35は、入力された選択画像スコアSSC1~SSCNの中から、ベスト画質スコアを選択する。教師データ生成部35は、例えば、スコアSSC1~SSCNの中の最大値をベスト画質スコアとして選択する。次いで、教師データ生成部35は、画質パラメータ群PG1~PGNの中からベスト画質パラメータ群を選択する。そして、教師データ生成部35は、元画像とベスト画質パラメータ群とを互いに対応付け、元画像及びベスト画質パラメータ群を含む教師データTDBを生成し、生成した教師データTDBを第一記憶部16へ出力する。第一記憶部16は、教師データ生成部35で生成された教師データTDBを記憶する。
<選択部の動作>
図13は、本開示の実施形態2に係る選択部の動作例を示す図である。
図13は、本開示の実施形態2に係る選択部の動作例を示す図である。
図13に示すように、選択部34は、出力画像OP1~OPNの各々について輝度ヒストグラムを生成する。次いで、選択部34は、256個の各輝度binについて輝度bin毎にbin画素数を数える。次いで、選択部34は、256個の輝度binの中で、bin画素数が最大のbin(以下では「画素数ピークbin」と呼ぶことがある)を判定する。次いで、選択部34は、256段階の輝度のうち画素数ピークbinが該当する輝度(以下では「ピーク輝度」と呼ぶことがある)を判定する。次いで、選択部34は、ピーク輝度と閾値TH2とを比較する。閾値TH2は、例えば、256段階の輝度の中央値である「128」である。そして、選択部34は、ピーク輝度が閾値TH2以上であるときは、出力画像が明るくて第二評価部33での正答率が高い傾向にあるため、画質評価実行部として第二評価部33を選択する。一方で、ピーク輝度が閾値TH2未満であるときは、出力画像が暗くて第二評価部33での正答率が低い傾向にあるため、選択部34は、画質評価実行部として第一評価部14を選択する。
以上、実施形態2について説明した。
[実施形態3]
実施形態3では、マルチメディアデータの一例として音声データを挙げて本開示の技術について説明する。
実施形態3では、マルチメディアデータの一例として音声データを挙げて本開示の技術について説明する。
<音声処理システムの構成>
図14は、本開示の実施形態3に係る音声処理システムの構成例を示す図である。図14において、音声処理システム3は、音声学習装置50と、音声加工装置40とを有する。音声学習装置50は、元音声と、音質パラメータ群とを用いて機械学習を行うことにより音質パラメータ生成モデルを生成し、生成した音質パラメータ生成モデルを音声加工装置40へ出力する。音声加工装置40は、音声学習装置50から入力される音質パラメータ生成モデルを用いて加工対象音声を加工することにより加工済音声を取得する。
図14は、本開示の実施形態3に係る音声処理システムの構成例を示す図である。図14において、音声処理システム3は、音声学習装置50と、音声加工装置40とを有する。音声学習装置50は、元音声と、音質パラメータ群とを用いて機械学習を行うことにより音質パラメータ生成モデルを生成し、生成した音質パラメータ生成モデルを音声加工装置40へ出力する。音声加工装置40は、音声学習装置50から入力される音質パラメータ生成モデルを用いて加工対象音声を加工することにより加工済音声を取得する。
<音声学習装置の構成>
図15は、本開示の実施形態3に係る音声学習装置の構成例を示す図である。図15において、音声学習装置50は、第一加工部53と、第一評価部54と、教師データ生成部55と、第一記憶部56と、第一機械学習部57と、第二記憶部58と、出力部59とを有する。
図15は、本開示の実施形態3に係る音声学習装置の構成例を示す図である。図15において、音声学習装置50は、第一加工部53と、第一評価部54と、教師データ生成部55と、第一記憶部56と、第一機械学習部57と、第二記憶部58と、出力部59とを有する。
<音声加工装置の構成>
図16は、本開示の実施形態3に係る音声加工装置の構成例を示す図である。図16において、音声加工装置40は、取得部41と、第三記憶部42と、パラメータ生成部43と、第二加工部44とを有する。
図16は、本開示の実施形態3に係る音声加工装置の構成例を示す図である。図16において、音声加工装置40は、取得部41と、第三記憶部42と、パラメータ生成部43と、第二加工部44とを有する。
<音声処理システムにおける処理手順>
図17、図18及び図19は、本開示の実施形態3に係る音声処理システムにおける処理手順の一例を示す図である。
図17、図18及び図19は、本開示の実施形態3に係る音声処理システムにおける処理手順の一例を示す図である。
まず、元音声が第一加工部53及び教師データ生成部55に入力されるとともに、音質パラメータ群が第一加工部53及び教師データ生成部55に入力される。
ここで、図17に示すように、第一加工部53には、元音声と、例えば音質パラメータ群APG1~APGNのN組の音質パラメータ群とが入力される。音質パラメータ群APG1~APGNの各々は、複数の種類の音質パラメータの組合せである。例えば、音質パラメータ群APG1~APGNの各々は、周波数特性を変化させる音質パラメータAPA、歪率を変化させる音質パラメータAPB、SN比を変化させる音質パラメータAPC、及び、ダイナミックレンジを変化させる音質パラメータAPDの4種類の音質パラメータにより形成される。また、音質パラメータ群APG1~APGNの間では、音質パラメータAPA,APB,APC,APDの少なくとも一つの値が互いに異なっている。つまり、音質パラメータ群APG1~APGNは、互いに異なる値を有する音質パラメータである。第一加工部53は、音質パラメータ群APG1~APGNの各々を用いて元音声を加工することにより、互いに音質が異なる出力音声AOP1~AOPNを取得し、取得した出力音声AOP1~AOPNを第一評価部54へ出力する。出力音声AOP1は音質パラメータ群APG1を用いて元音声を加工することにより得られた音声であり、出力音声AOP2は音質パラメータ群APG2を用いて元音声を加工することにより得られた音声であり、出力音声AOPNは音質パラメータ群APGNを用いて元音声を加工することにより得られた音声である。つまり、出力音声AOP1は音質パラメータ群APG1に、出力音声AOP2は音質パラメータ群APG2に、出力音声AOPNは音質パラメータ群APGNにそれぞれ対応する。
第一評価部54には出力音声AOP1~AOPNの各々が入力される。つまり、第一評価部54へ入力される入力音声は出力音声AOP1~AOPNとなる。第一評価部54は、出力音声AOP1~AOPNの各々に対して定量的評価を行うことにより、出力音声AOP1~AOPNの各々の音質を評価する。第一評価部54は、音質に対する所定の観点に基づいた定量的評価を出力音声AOP1~AOPNの各々に対して行う。そして、第一評価部54は、出力音声AOP1~AOPNのそれぞれの評価結果であるスコアASC1~ASCNを教師データ生成部55へ出力する。スコアASC1は出力音声AOP1の、スコアASC2は出力音声AOP2の、スコアASCNは出力音声AOPNの各スコアを示す。
教師データ生成部55には、元音声と、音質パラメータ群APG1~APGNと、スコアASC1~ASCNとが入力される。上記のように、出力音声AOP1~AOPNの各々は音質パラメータ群APG1~APGNの各々に対応し、スコアASC1~ASCNの各々は出力音声AOP1~AOPNの各々に対応する。よって、スコアASC1~ASCNの各々は音質パラメータ群APG1~APGNの各々に対応する。つまり、スコアASC1は音質パラメータ群APG1の評価結果、スコアASC2は音質パラメータ群APG2の評価結果、スコアASCNは音質パラメータ群APGNの評価結果であると言える。
そこで、教師データ生成部55は、入力されたスコアASC1~ASCNの中から、最高の評価結果に相当するスコア(以下では「ベスト音質スコア」と呼ぶことがある)を選択する。教師データ生成部55は、例えば、スコアASC1~ASCNの中の最大値をベスト音質スコアとして選択する。次いで、教師データ生成部55は、音質パラメータ群APG1~APGNの中から、ベスト音質スコアに対応する音質パラメータ群(以下では「ベスト音質パラメータ群」と呼ぶことがある)を選択する。ベスト音質パラメータ群はベスト音質スコアに対応する音質パラメータ群であるため、元音声が加工された際に最高の音質を得ることができる音質パラメータ群、つまり、元音声の加工に最適な音質パラメータ群であると言える。そして、教師データ生成部55は、元音声とベスト音質パラメータ群とを互いに対応付け、元音声及びベスト音質パラメータ群を含む教師データTDDを生成し、生成した教師データTDDを第一記憶部56へ出力する。第一記憶部56は、教師データ生成部55で生成された教師データTDDを記憶する。
よって、図17において、互いに異なるM個の複数の元音声を音声学習装置50に順次入力するだけで、互いに異なる元音声と、互いに異なるベスト音質パラメータ群とを含むM個の複数の教師データTDDを機械的に(自動的に)量産することができる。
なお、教師データ生成部55により選択されたベスト音質パラメータ群の値をオペレータが手動により調整しても良い。
また、教師データ生成部55は、元音声とベスト音質パラメータ群と含む教師データTDDを生成することに替えて、元音声の特徴量とベスト音質パラメータ群と含む教師データTDDを生成しても良い。元音声の特徴量の一例として、元音声の音圧、基本周波数、フォルマント周波数、MFCC(Mel-Frequency Cepstral Coefficient)等が挙げられる。
第一機械学習部57は、図18に示すように、第一記憶部56に記憶されている教師データTDD1~TDD3を含む複数の教師データTDDを用いた機械学習を行うことにより、学習済モデルとしての「音質パラメータ生成モデル」を生成する。音質パラメータ生成モデルを生成する際の機械学習として、例えば、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)等の深層学習が用いられる。教師データTDD1~TDD3の各々には、元音声と、その元音声に対するベスト音質パラメータ群とが含まれるため、第一機械学習部57により生成される音質パラメータ生成モデルは、加工対象音声が入力された場合に、加工対象音声の加工に最適な音質パラメータ群(以下では「最適音質パラメータ群」と呼ぶことがある)を出力する学習済モデルとなる。
第一機械学習部57は、図18に示すようにして生成した音質パラメータ生成モデルを第二記憶部58へ出力し、第二記憶部58は、第一機械学習部57で生成された音質パラメータ生成モデルを記憶する。
出力部59は、第二記憶部58に記憶されている音質パラメータ生成モデルを取得し、取得した音質パラメータ生成モデルを音声加工装置40へ出力する。音声学習装置50から音声加工装置40への音質パラメータ生成モデルの出力は、例えば、音声学習装置50に対するオペレータの指示に従って行われる。
音声加工装置40において、取得部41は、音声学習装置50から出力された音質パラメータ生成モデルを取得し、取得した音質パラメータ生成モデルを第三記憶部42へ出力する。音声加工装置40での音声学習装置50からの音質パラメータ生成モデルの取得は、例えば、音声加工装置40に対するオペレータの指示に従って行われる。
第三記憶部42は、取得部41によって取得された音質パラメータ生成モデルを記憶する。
また、加工対象音声がパラメータ生成部43及び第二加工部44に入力される。
加工対象音声を入力されたパラメータ生成部43は、図19に示すように、第三記憶部42に記憶されている音質パラメータ生成モデルを用いて、最適音質パラメータ群(つまり、加工対象音声が加工された際に最高の音質を得ることができる音質パラメータ群)を生成し、生成した最適音質パラメータ群を第二加工部44へ出力する。
そして、図19に示すように、第二加工部44は、最適音質パラメータ群を用いて加工対象音声を加工することにより加工済音声を取得し、取得した加工済音声を出力する。第二加工部44において加工対象音声が加工される際に用いられる音質パラメータ群は最適音質パラメータ群であるため、加工済音声は最高の音質を得ることができる。
<定量的評価>
図20は、本開示の実施形態3に係る定量的評価の一例を示す図である。
図20は、本開示の実施形態3に係る定量的評価の一例を示す図である。
第一評価部54によって行われる音質の定量的評価は、例えば、「最高の音質を有する加工済音声とは、耳障りにならない音声である。」という所定の観点(以下では「第三観点」と呼ぶことがある)に基づいた評価である。
第一評価部54は、出力音声AOP1~AOPNの各々に対してフーリエ変換を行うことにより、出力音声AOP1~AOPNの各々について、周波数帯毎の振幅値を示すヒストグラム(以下では「周波数ヒストグラム」と呼ぶことがある)を生成する。周波数ヒストグラムは、出力音声AOP1~AOPNの各々の周波数特性を示す。次いで、第一評価部54は、周波数ヒストグラムにおける各々の領域(以下では「周波数bin」と呼ぶことがある)の振幅値と閾値TH3とを比較し、振幅値が閾値TH3以上である周波数bin(以下では「高振幅bin」と呼ぶことがある)の数(以下では「高振幅bin数」と呼ぶことがある)を数える。次いで、第一評価部54は、複数の高振幅binのうち、10kHz以上の周波数に該当する周波数binの数(以下では「高周波bin数」と呼ぶことがある)を数える。そして、第一評価部54は、出力音声AOP1~AOPNの各々について、式(2)に従って、高周波bin数を高振幅bin数で除した値をスコアASC1~ASCNとして算出する。よって、スコアの値がより小さい出力音声ほど、より第三観点に沿った音声となる。
スコア=高周波bin数/高振幅bin数 …(2)
スコア=高周波bin数/高振幅bin数 …(2)
以上、実施形態3について説明した。
[実施形態4]
実施形態4では、実施形態3と同様、マルチメディアデータの一例として音声データを挙げて本開示の技術について説明する。以下、実施形態3と異なる点について説明する。
実施形態4では、実施形態3と同様、マルチメディアデータの一例として音声データを挙げて本開示の技術について説明する。以下、実施形態3と異なる点について説明する。
<音声処理システムの構成>
図21は、本開示の実施形態4に係る音声処理システムの構成例を示す図である。図21において、音声処理システム4は、音声学習装置70と、音声加工装置40とを有する。音声学習装置70は、教師データと、元音声と、音質パラメータ群とを用いて機械学習を行うことにより音質パラメータ生成モデルを生成し、生成した音質パラメータ生成モデルを音声加工装置40へ出力する。
図21は、本開示の実施形態4に係る音声処理システムの構成例を示す図である。図21において、音声処理システム4は、音声学習装置70と、音声加工装置40とを有する。音声学習装置70は、教師データと、元音声と、音質パラメータ群とを用いて機械学習を行うことにより音質パラメータ生成モデルを生成し、生成した音質パラメータ生成モデルを音声加工装置40へ出力する。
<音声学習装置の構成>
図22は、本開示の実施形態4に係る音声学習装置の構成例を示す図である。図22において、音声学習装置70は、第一加工部53と、第一評価部54と、第一記憶部56と、第一機械学習部57と、第二記憶部58と、出力部59とを有する。また、音声学習装置70は、第二機械学習部71と、第四記憶部72と、第二評価部73と、選択部74と、教師データ生成部75とを有する。
図22は、本開示の実施形態4に係る音声学習装置の構成例を示す図である。図22において、音声学習装置70は、第一加工部53と、第一評価部54と、第一記憶部56と、第一機械学習部57と、第二記憶部58と、出力部59とを有する。また、音声学習装置70は、第二機械学習部71と、第四記憶部72と、第二評価部73と、選択部74と、教師データ生成部75とを有する。
<音声処理システムにおける処理手順>
図23及び図24は、本開示の実施形態4に係る音声処理システムにおける処理手順の一例を示す図である。
図23及び図24は、本開示の実施形態4に係る音声処理システムにおける処理手順の一例を示す図である。
音声処理システム4において音声学習装置70が処理を行う前に、図23に示すように、人間の評価者が、基準音声と評価対象音声とを実際に聞き比べながら評価対象音声を評価する。
まず、評価者は、音質パラメータを手動で調整し、手動で調整した様々な音質パラメータを基準音声に適用する。手動で調整された様々な音質パラメータを用いて基準音声が加工されることにより、加工後の音声である評価対象音声が得られる。図23には、一例として、互いに異なる値の音質パラメータにより基準音声が加工された結果、評価対象音声AET01~AET13が得られた場合を示す。
そして、評価者は、基準音声のスコアを「0」とする一方で、得られたすべての評価対象音声において、音質パラメータの調整により音質が徐々に変化して最高の音質を有すると判断される評価対象音声のスコアを「0.5」とする。また、評価者は、音質パラメータの過剰な調整により、基準音声に対して最も変化の度合が大きいと判断される評価対象音声のスコアを「1.0」とする。このようにして、評価者は、評価者の主観によって各評価対象音声にスコアを付けることにより各評価対象音声を評価する。その結果、例えば、図23に示すように、評価対象音声AET01には「0.31」、評価対象音声AET02には「0.99」、評価対象音声AET03には「0.84」、評価対象音声AET04には「0.36」、評価対象音声AET05には「0.18」、評価対象音声AET06には「0.12」、評価対象音声AET07には「0.66」の各スコアが付けられる。また例えば、図23に示すように、評価対象音声AET08には「0.50」、評価対象音声AET09には「0.90」、評価対象音声AET10には「0.25」、評価対象音声AET11には「0.78」、評価対象音声AET12には「0.41」、評価対象音声AET13には「0.72」の各スコアが付けられる。つまり、図23に示す例では、評価者の主観によって、評価対象音声AET08が最高の音質を有すると判断された一方で、評価対象音声AET08の音質を最高音質として、AET08→AET12→AET04→AET01→AET10→AET05→AET06の順に評価対象音声の音質が徐々に低下すると判断されている。また、スコアが0.5より大きい評価対象音声AET07,AET13,AET11,AET03,AET09,AET02については、過剰な音質調整が行われていると判断されている。
次いで、評価者は、基準音声と評価対象音声とスコアとを互いに対応付け、基準音声、評価対象音声及びスコアを含む教師データTDCを生成する。よって例えば、教師データTDC01には、基準音声と、評価対象音声AET01と、評価対象音声AET01のスコアである「0.31」とが互いに対応付けて含まれ、教師データTDC02には、基準音声と、評価対象音声AET02と、評価対象音声AET02のスコアである「0.99」とが互いに対応付けて含まれ、教師データTDC03には、基準音声と、評価対象音声AET03と、評価対象音声AET03のスコアである「0.84」とが互いに対応付けて含まれる。同様に、教師データTDC04~TDC13にも、基準音声と、評価対象音声AET04~AET13の各々と、評価対象音声AET04~AET13の各々のスコアとが互いに対応付けられて含まれる。
そして、このようにして生成された複数の教師データTDCが、第二機械学習部71(図22)に入力される。第二機械学習部71は、図24に示すように、複数の教師データTDCを用いた機械学習を行うことにより「音質評価モデル」を生成する。音質評価モデルを生成する際の機械学習として、例えば、CNNやRNN等の深層学習が用いられる。
第二機械学習部71は、図24に示すようにして生成した音質評価モデルを第四記憶部72へ出力し、第四記憶部72は、第二機械学習部71で生成された音質評価モデルを記憶する。
第四記憶部72への音質評価モデルの記憶が完了した後、元音声が第一加工部53、教師データ生成部75及び第二評価部73に入力されるとともに、音質パラメータ群が第一加工部53及び教師データ生成部75に入力される。
また、第一加工部53から出力された出力音声AOP1~AOPNが選択部74に入力される。選択部74は、第一評価部54及び第二評価部73の中から、出力音声AOP1~AOPNの各々の音質の評価を行う評価部(以下では「音質評価実行部」と呼ぶことがある)を出力音声毎に選択する。選択部74は、音質評価実行部として第一評価部54を選択したときは、出力音声AOP1~AOPNのうち第一評価部54に音質の評価を行わせる出力音声を第一評価部54へ出力する。一方で、選択部74は、音質評価実行部として第二評価部73を選択したときは、出力音声AOP1~AOPNのうち第二評価部73に音質の評価を行わせる出力音声を第二評価部73へ出力する。つまり、第一評価部54へ入力される入力音声は、出力音声AOP1~AOPNのうち選択部74によって選択された出力音声(以下では「選択音声」と呼ぶことがある)となり、第二評価部73へ入力される入力音声は、元音声及び選択音声となる。
第一評価部54は、実施形態3と同様にして各選択音声に対して定量的評価を行うことにより、各選択音声の音質を評価する。第一評価部54は、実施形態3と同様に、音質に対する所定の観点に基づいた定量的評価を各選択音声に対して行う。
一方で、第二評価部73は、第四記憶部72に記憶されている音質評価モデルを用いて各選択音声を評価する。選択音声に対する第二評価部73での評価は、上述したような、評価対象音声AET01~AET13に対する評価者による評価と同様にして行われる。
すなわち、上記のように、評価者は、基準音声に対する評価対象音声AET01~AET13の相対的な評価を行って評価対象音声AET01~AET13の各々にスコアを付けた。また、評価対象音声AET01~AET13の各々は同一の基準音声に対して互いに異なる音質パラメータが適用されることにより加工された音声であった。そして、第二機械学習部71では、基準音声と、評価対象音声と、評価対象音声のスコアとが互いに対応付けられて含まれる教師データTDCを用いて音質評価モデルが生成された。これに対し、第二評価部73には元音声と選択音声とが入力され、第二評価部73は、元音声と選択音声とに基づいて音質評価モデルを用いて選択音声を評価して、選択音声にスコアを付ける。つまり、元音声は図23における基準音声に相当し、選択音声は図23における評価対象音声AET01~AET13に相当する。よって、第二評価部73は、第二機械学習部71によって生成された音質評価モデルを用いて選択音声を評価することにより、評価者が評価対象音声AET01~AET13の各々を評価したときと同様の尺度で選択音声の評価を行うことができる。
第二評価部73は、選択音声の評価結果であるスコアを教師データ生成部75へ出力する。
教師データ生成部75には、元音声と、音質パラメータ群APG1~APGNと、選択音声のスコア(以下では「選択音声スコア」と呼ぶことがある)とが入力される。選択音声スコアは、選択部74によって選択された第一評価部54または第二評価部73の何れかから教師データ生成部75に入力される。上記のように、出力音声AOP1~AOPNの各々は、選択部74によって、第一評価部54と第二評価部73との何れか一方に振り分けられるため、選択音声スコアの個数の合計は、出力音声の個数の合計と同一のN個となる。以下ではN個の選択音声スコアをASSC1~ASSCNと表記することがある。
教師データ生成部75は、入力された選択音声スコアASSC1~ASSCNの中から、ベスト音質スコアを選択する。教師データ生成部75は、例えば、スコアASSC1~ASSCNの中の最大値をベスト音質スコアとして選択する。次いで、教師データ生成部75は、音質パラメータ群APG1~APGNの中からベスト音質パラメータ群を選択する。そして、教師データ生成部75は、元音声とベスト音質パラメータ群とを互いに対応付け、元音声及びベスト音質パラメータ群を含む教師データTDDを生成し、生成した教師データTDDを第一記憶部56へ出力する。第一記憶部56は、教師データ生成部75で生成された教師データTDDを記憶する。
<選択部の動作>
図25は、本開示の実施形態4に係る選択部の動作例を示す図である。
図25は、本開示の実施形態4に係る選択部の動作例を示す図である。
図25に示すように、選択部74は、出力音声AOP1~AOPNの各々に対してフーリエ変換を行うことにより、出力音声AOP1~AOPNの各々について、周波数ヒストグラムを生成する。次いで、選択部74は、複数の周波数binの中で、最大の振幅値を有するbin(以下では「振幅ピークbin」と呼ぶことがある)を判定する。次いで、選択部74は、振幅ピークbinが該当する周波数(以下では「ピーク周波数」と呼ぶことがある)を判定する。そして、選択部74は、ピーク周波数が1kHz以上であるときは、出力音声が明瞭で第二評価部73での正答率が高い傾向にあるため、音質評価実行部として第二評価部73を選択する。一方で、ピーク周波数が1kHz未満であるときは、出力音声が不明瞭で第二評価部73での正答率が低い傾向にあるため、選択部74は、音質評価実行部として第一評価部54を選択する。
以上、実施形態4について説明した。
[実施形態5]
<ハードウェア構成>
第一記憶部16,56、第二記憶部18,58、第三記憶部22,42、及び、第四記憶部32,72は、ハードウェアとして、例えば、メモリ、ストレージ等の記憶媒体により実現される。第一記憶部16,56、第二記憶部18,58、第三記憶部22,42、及び、第四記憶部32,72を実現するメモリの一例として、SDRAM(Synchronous Dynamic Random Access Memory)等のRAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等が挙げられる。また、 第一記憶部16,56、第二記憶部18,58、第三記憶部22,42、及び、第四記憶部32,72を実現するストレージの一例として、HDD(Hard Disk Drive)、SSD(Solid State Drive)等が挙げられる。
<ハードウェア構成>
第一記憶部16,56、第二記憶部18,58、第三記憶部22,42、及び、第四記憶部32,72は、ハードウェアとして、例えば、メモリ、ストレージ等の記憶媒体により実現される。第一記憶部16,56、第二記憶部18,58、第三記憶部22,42、及び、第四記憶部32,72を実現するメモリの一例として、SDRAM(Synchronous Dynamic Random Access Memory)等のRAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等が挙げられる。また、 第一記憶部16,56、第二記憶部18,58、第三記憶部22,42、及び、第四記憶部32,72を実現するストレージの一例として、HDD(Hard Disk Drive)、SSD(Solid State Drive)等が挙げられる。
第一加工部13,53、第一評価部14,54、教師データ生成部15,35,55,75、第一機械学習部17,57、パラメータ生成部23,43、第二加工部24,44、第二機械学習部31,71、第二評価部33,73、及び、選択部34,74は、ハードウェアとして、例えばプロセッサにより実現される。第一加工部13,53、第一評価部14,54、教師データ生成部15,35,55,75、第一機械学習部17,57、パラメータ生成部23,43、第二加工部24,44、第二機械学習部31,71、第二評価部33,73、及び、選択部34,74を実現するプロセッサの一例として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、NPU(Neural-network Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)等が挙げられる。
出力部19,59及び取得部21,41は、ハードウェアとして、例えば、有線のネットワークインタフェースモジュールまたは無線通信モジュールにより実現される。
画像学習装置10,30及び音声学習装置50,70は、例えば、パーソナルコンピュータやサーバ等のコンピュータとして実現される。画像加工装置20及び音声加工装置40は、例えば、スマートフォンやタブレット端末等の携帯端末として実現される。
[開示の技術の効果]
以上のように、本開示の学習装置(実施形態の画像学習装置10,音声学習装置50)は、第一評価部(実施形態の第一評価部14,54)と、生成部(実施形態の教師データ生成部15,55)と、第一学習部(実施形態の第一機械学習部17,57)とを有する。第一評価部は、複数のマルチメディアデータに対する定量的評価を行うことによって、複数のマルチメディアデータのそれぞれに対する複数の第一評価結果を取得する。生成部は、複数の第一評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した第二パラメータを含む第一教師データを生成する。第一学習部は、第一教師データを用いる第一機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する第一学習済モデル(実施形態の画質パラメータ生成モデル,音質パラメータ生成モデル)を生成する。
以上のように、本開示の学習装置(実施形態の画像学習装置10,音声学習装置50)は、第一評価部(実施形態の第一評価部14,54)と、生成部(実施形態の教師データ生成部15,55)と、第一学習部(実施形態の第一機械学習部17,57)とを有する。第一評価部は、複数のマルチメディアデータに対する定量的評価を行うことによって、複数のマルチメディアデータのそれぞれに対する複数の第一評価結果を取得する。生成部は、複数の第一評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した第二パラメータを含む第一教師データを生成する。第一学習部は、第一教師データを用いる第一機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する第一学習済モデル(実施形態の画質パラメータ生成モデル,音質パラメータ生成モデル)を生成する。
例えば、マルチメディアデータは画像データであり、第一評価部は、画像データの輝度分布に基づいて定量的評価を行う。
また例えば、マルチメディアデータは画像データであり、第一評価部は、画像データの平均輝度に基づいて定量的評価を行う。
また例えば、マルチメディアデータは音声データであり、第一評価部は、音声データの周波数特性に基づいて定量的評価を行う。
一方で、本開示のデータ加工装置(実施形態の画像加工装置20,音声加工装置40)は、生成部(実施形態のパラメータ生成部23,43)と、加工部(実施形態の第二加工部24,44)とを有する。生成部は、学習装置(実施形態の画像学習装置10,30,音声学習装置50,70)によって生成された学習済モデル(実施形態の画質パラメータ生成モデル,音質パラメータ生成モデル)を用いて第三パラメータを生成する。加工部は、生成された第三パラメータを用いて加工対象のマルチメデイアデータを加工する。
こうすることで、様々なマルチメディアデータに応じてそれぞれ好適な品質パラメータを機械的に(自動的に)生成することができるため、好適な品質パラメータの決定にかかる労力を軽減した上でマルチメディアデータの品質を向上させることができる。
また、本開示の学習装置(実施形態の画像学習装置30,音声学習装置70)は、第二学習部(実施形態の第二機械学習部31,71)と、第二評価部(実施形態の第二評価部33,73)と、選択部(実施形態の選択部34,74)とをさらに有する。第二学習部は、評価対象のマルチメディアデータに対する第二評価結果を含む第二教師データを用いる第二機械学習を行うことによって、入力マルチメディアデータに対する第三評価結果を出力する第二学習済モデル(実施形態の画質評価モデル,音質評価モデル)を生成する。第二評価部は、第二学習済モデルを用いて、複数のマルチメディアデータのそれぞれに対する複数の第三評価結果を取得する。選択部は、第一評価部及び第二評価部の中から、複数のマルチメディアデータに対する評価を行う評価実行部を選択する。生成部は、選択部によって第一評価部が選択されたときの複数の第一評価結果と、選択部によって第二評価部が選択されたときの複数の第三評価結果とに基づいて、複数の第一パラメータの中から第二パラメータを選択し、選択した第二パラメータを含む第一教師データを生成する。
例えば、マルチメディアデータは画像データであり、選択部は、画像データの輝度分布に基づいて評価実行部を選択する。
また例えば、マルチメディアデータは音声データであり、選択部は、音声データの周波数特性に基づいて評価実行部を選択する。
こうすることで、マルチメディアデータに応じた最適な評価実行部が選択されるため、マルチメディアデータの品質をさらに向上させることができる。
なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があっても良い。
また、画像処理システム1,2、音声処理システム3,4での上記説明における各処理の全部または一部は、各処理に対応するプログラムを画像処理システム1,2や音声処理システム3,4が有するプロセッサに実行させることによって実現されても良い。例えば、上記説明における各処理に対応するプログラムがメモリに記憶され、プログラムがプロセッサによってメモリから読み出されて実行されても良い。また、プログラムは、任意のネットワークを介して画像処理システム1,2や音声処理システム3,4に接続されたプログラムサーバに記憶され、そのプログラムサーバから画像処理システム1,2や音声処理システム3,4にダウンロードされて実行されたり、画像処理システム1,2や音声処理システム3,4が読み取り可能な記録媒体に記憶され、その記録媒体から読み出されて実行されても良い。画像処理システム1,2や音声処理システム3,4が読み取り可能な記録媒体には、例えば、メモリーカード、USBメモリ、SDカード、フレキシブルディスク、光磁気ディスク、CD-ROM、DVD、及び、Blu-ray(登録商標)ディスク等の可搬の記憶媒体が含まれる。また、プログラムは、任意の言語や任意の記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。また、プログラムは必ずしも単一的に構成されるものに限られず、複数のモジュールや複数のライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものも含む。
また、画像処理システム1,2や音声処理システム3,4の分散・統合の具体的形態は図示するものに限られず、画像処理システム1,2や音声処理システム3,4の全部または一部を、各種の付加等に応じて、または、機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、上記の図3,図16に示す取得部21,41、第三記憶部22,42、及び、パラメータ生成部23,43を画像加工装置20や音声加工装置40から分離してネットワークサーバ内に設ける構成を採っても良い。この場合、取得部21,41、第三記憶部22,42、及び、パラメータ生成部23,43が除かれた画像加工装置や音声加工装置が、加工対象画像や加工対象音声を無線通信等を用いてネットワークサーバへ送信する。加工対象画像や加工対象音声を受信したネットワークサーバは、最適画質パラメータ群や最適音質パラメータ群を生成し、生成した最適画質パラメータ群や最適音質パラメータ群を無線通信等を用いて画像加工装置や音声加工装置へ送信する。最適画質パラメータ群や最適音質パラメータ群を受信した画像加工装置や音声加工装置は、ネットワークサーバから受信した最適画質パラメータ群や最適音質パラメータ群を用いて加工対象画像や加工対象音声を加工することにより加工済画像や加工済音声を取得し、取得した加工済画像や加工済音声を出力する。以上の処理を、加工対象画像や加工対象音声が画像加工装置や音声加工装置に入力される度に繰り返す。よって、この場合、取得部21,41、第三記憶部22,42、及び、パラメータ生成部23,43を有するネットワークサーバは、最適画質パラメータ群や最適音質パラメータ群を生成するパラメータ生成装置として機能する。
また例えば、上記の図3,図16に示す画像加工装置20や音声加工装置40をネットワークサーバ内に設ける構成を採っても良い。この場合、ディスプレーまたはスピーカを有する通信端末が、加工対象画像や加工対象音声を無線通信等を用いてネットワークサーバへ送信する。加工対象画像や加工対象音声を受信したネットワークサーバは、最適画質パラメータ群や最適音質パラメータ群を生成し、生成した最適画質パラメータ群や最適音質パラメータ群を用いて加工対象画像や加工対象音声を加工することにより加工済画像や加工済音声を取得し、取得した加工済画像や加工済音声を無線通信等を用いて通信端末へ送信する。加工済画像や加工済音声を受信した通信端末は、受信した加工済画像をディスプレーに表示したり、受信した加工済音声をスピーカから出力したりする。以上の処理を、加工対象画像や加工済音声が通信端末に入力される度に繰り返す。
また、開示の技術は以下のような構成も採ることができる。
(1)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の第一評価結果を取得する第一評価部と、
前記複数の第一評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む第一教師データを生成する生成部と、
前記第一教師データを用いる第一機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する第一学習済モデルを生成する第一学習部と、
を具備する学習装置。
(2)
前記マルチメディアデータは画像データであり、
前記第一評価部は、前記画像データの輝度分布に基づいて前記定量的評価を行う、
前記(1)に記載の学習装置。
(3)
前記マルチメディアデータは画像データであり、
前記第一評価部は、前記画像データの平均輝度に基づいて前記定量的評価を行う、
前記(1)に記載の学習装置。
(4)
前記マルチメディアデータは音声データであり、
前記第一評価部は、前記音声データの周波数特性に基づいて前記定量的評価を行う、
前記(1)に記載の学習装置。
(5)
評価対象のマルチメディアデータに対する第二評価結果を含む第二教師データを用いる第二機械学習を行うことによって、入力マルチメディアデータに対する第三評価結果を出力する第二学習済モデルを生成する第二学習部と、
前記第二学習済モデルを用いて、前記複数のマルチメディアデータのそれぞれに対する複数の前記第三評価結果を取得する第二評価部と、
前記第一評価部及び前記第二評価部の中から、前記複数のマルチメディアデータに対する評価を行う評価実行部を選択する選択部と、
をさらに具備し、
前記生成部は、前記選択部によって前記第一評価部が選択されたときの前記複数の第一評価結果と、前記選択部によって前記第二評価部が選択されたときの前記複数の第三評価結果とに基づいて、前記複数の第一パラメータの中から前記第二パラメータを選択し、選択した前記第二パラメータを含む前記第一教師データを生成する、
前記(1)に記載の学習装置。
(6)
前記マルチメディアデータは画像データであり、
前記選択部は、前記画像データの輝度分布に基づいて前記評価実行部を選択する、
前記(5)に記載の学習装置。
(7)
前記マルチメディアデータは音声データであり、
前記選択部は、前記音声データの周波数特性に基づいて前記評価実行部を選択する、
前記(5)に記載の学習装置。
(8)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを用いて前記第三パラメータを生成する生成部と、
生成された前記第三パラメータを用いて前記加工対象のマルチメデイアデータを加工する加工部と、
を具備するデータ加工装置。
(9)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを前記学習装置から取得する取得部と、
取得された前記学習済モデルを用いて前記第三パラメータを生成する生成部と、
を具備するパラメータ生成装置。
(10)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得し、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、
選択した前記第二パラメータを含む教師データを生成し、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する、
学習方法。
(11)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを用いて前記第三パラメータを生成し、
生成した前記第三パラメータを用いて前記加工対象のマルチメデイアデータを加工する、
データ加工方法。
(12)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを前記学習装置から取得し、
取得した前記学習済モデルを用いて前記第三パラメータを生成する、
パラメータ生成方法。
(1)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の第一評価結果を取得する第一評価部と、
前記複数の第一評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む第一教師データを生成する生成部と、
前記第一教師データを用いる第一機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する第一学習済モデルを生成する第一学習部と、
を具備する学習装置。
(2)
前記マルチメディアデータは画像データであり、
前記第一評価部は、前記画像データの輝度分布に基づいて前記定量的評価を行う、
前記(1)に記載の学習装置。
(3)
前記マルチメディアデータは画像データであり、
前記第一評価部は、前記画像データの平均輝度に基づいて前記定量的評価を行う、
前記(1)に記載の学習装置。
(4)
前記マルチメディアデータは音声データであり、
前記第一評価部は、前記音声データの周波数特性に基づいて前記定量的評価を行う、
前記(1)に記載の学習装置。
(5)
評価対象のマルチメディアデータに対する第二評価結果を含む第二教師データを用いる第二機械学習を行うことによって、入力マルチメディアデータに対する第三評価結果を出力する第二学習済モデルを生成する第二学習部と、
前記第二学習済モデルを用いて、前記複数のマルチメディアデータのそれぞれに対する複数の前記第三評価結果を取得する第二評価部と、
前記第一評価部及び前記第二評価部の中から、前記複数のマルチメディアデータに対する評価を行う評価実行部を選択する選択部と、
をさらに具備し、
前記生成部は、前記選択部によって前記第一評価部が選択されたときの前記複数の第一評価結果と、前記選択部によって前記第二評価部が選択されたときの前記複数の第三評価結果とに基づいて、前記複数の第一パラメータの中から前記第二パラメータを選択し、選択した前記第二パラメータを含む前記第一教師データを生成する、
前記(1)に記載の学習装置。
(6)
前記マルチメディアデータは画像データであり、
前記選択部は、前記画像データの輝度分布に基づいて前記評価実行部を選択する、
前記(5)に記載の学習装置。
(7)
前記マルチメディアデータは音声データであり、
前記選択部は、前記音声データの周波数特性に基づいて前記評価実行部を選択する、
前記(5)に記載の学習装置。
(8)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを用いて前記第三パラメータを生成する生成部と、
生成された前記第三パラメータを用いて前記加工対象のマルチメデイアデータを加工する加工部と、
を具備するデータ加工装置。
(9)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを前記学習装置から取得する取得部と、
取得された前記学習済モデルを用いて前記第三パラメータを生成する生成部と、
を具備するパラメータ生成装置。
(10)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得し、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、
選択した前記第二パラメータを含む教師データを生成し、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する、
学習方法。
(11)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを用いて前記第三パラメータを生成し、
生成した前記第三パラメータを用いて前記加工対象のマルチメデイアデータを加工する、
データ加工方法。
(12)
複数のマルチメディアデータに対して所定の観点に基づいた定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを前記学習装置から取得し、
取得した前記学習済モデルを用いて前記第三パラメータを生成する、
パラメータ生成方法。
1,2 画像処理システム
10,30 画像学習装置
20 画像加工装置
3,4 音声処理システム
50,70 音声学習装置
40 音声加工装置
13,53 第一加工部
14,54 第一評価部
15,35,55,75 教師データ生成部
17,57 第一機械学習部
23,43 パラメータ生成部
24,44 第二加工部
31,71 第二機械学習部
33,73 第二評価部
34,74 選択部
10,30 画像学習装置
20 画像加工装置
3,4 音声処理システム
50,70 音声学習装置
40 音声加工装置
13,53 第一加工部
14,54 第一評価部
15,35,55,75 教師データ生成部
17,57 第一機械学習部
23,43 パラメータ生成部
24,44 第二加工部
31,71 第二機械学習部
33,73 第二評価部
34,74 選択部
Claims (12)
- 複数のマルチメディアデータに対する定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の第一評価結果を取得する第一評価部と、
前記複数の第一評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む第一教師データを生成する生成部と、
前記第一教師データを用いる第一機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する第一学習済モデルを生成する第一学習部と、
を具備する学習装置。 - 前記マルチメディアデータは画像データであり、
前記第一評価部は、前記画像データの輝度分布に基づいて前記定量的評価を行う、
請求項1に記載の学習装置。 - 前記マルチメディアデータは画像データであり、
前記第一評価部は、前記画像データの平均輝度に基づいて前記定量的評価を行う、
請求項1に記載の学習装置。 - 前記マルチメディアデータは音声データであり、
前記第一評価部は、前記音声データの周波数特性に基づいて前記定量的評価を行う、
請求項1に記載の学習装置。 - 評価対象のマルチメディアデータに対する第二評価結果を含む第二教師データを用いる第二機械学習を行うことによって、入力マルチメディアデータに対する第三評価結果を出力する第二学習済モデルを生成する第二学習部と、
前記第二学習済モデルを用いて、前記複数のマルチメディアデータのそれぞれに対する複数の前記第三評価結果を取得する第二評価部と、
前記第一評価部及び前記第二評価部の中から、前記複数のマルチメディアデータに対する評価を行う評価実行部を選択する選択部と、
をさらに具備し、
前記生成部は、前記選択部によって前記第一評価部が選択されたときの前記複数の第一評価結果と、前記選択部によって前記第二評価部が選択されたときの前記複数の第三評価結果とに基づいて、前記複数の第一パラメータの中から前記第二パラメータを選択し、選択した前記第二パラメータを含む前記第一教師データを生成する、
請求項1に記載の学習装置。 - 前記マルチメディアデータは画像データであり、
前記選択部は、前記画像データの輝度分布に基づいて前記評価実行部を選択する、
請求項5に記載の学習装置。 - 前記マルチメディアデータは音声データであり、
前記選択部は、前記音声データの周波数特性に基づいて前記評価実行部を選択する、
請求項5に記載の学習装置。 - 複数のマルチメディアデータに対する定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを用いて前記第三パラメータを生成する生成部と、
生成された前記第三パラメータを用いて前記加工対象のマルチメデイアデータを加工する加工部と、
を具備するデータ加工装置。 - 複数のマルチメディアデータに対する定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを前記学習装置から取得する取得部と、
取得された前記学習済モデルを用いて前記第三パラメータを生成する生成部と、
を具備するパラメータ生成装置。 - 複数のマルチメディアデータに対する定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得し、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、
選択した前記第二パラメータを含む教師データを生成し、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する、
学習方法。 - 複数のマルチメディアデータに対する定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを用いて前記第三パラメータを生成し、
生成した前記第三パラメータを用いて前記加工対象のマルチメデイアデータを加工する、
データ加工方法。 - 複数のマルチメディアデータに対する定量的評価を行うことによって、前記複数のマルチメディアデータのそれぞれに対する複数の評価結果を取得する評価部と、
前記複数の評価結果に基づいて、互いに異なる値を有する複数の第一パラメータの中から第二パラメータを選択し、選択した前記第二パラメータを含む教師データを生成する生成部と、
前記教師データを用いる機械学習を行うことによって、加工対象のマルチメデイアデータの加工に用いられる第三パラメータを出力する学習済モデルを生成する学習部と、
を具備する学習装置によって生成された前記学習済モデルを前記学習装置から取得し、
取得した前記学習済モデルを用いて前記第三パラメータを生成する、
パラメータ生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP22883430.5A EP4422163A1 (en) | 2021-10-19 | 2022-10-12 | Learning device, data processing device, parameter generation device, learning method, data processing method, and parameter generation method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021-171140 | 2021-10-19 | ||
JP2021171140 | 2021-10-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023068126A1 true WO2023068126A1 (ja) | 2023-04-27 |
Family
ID=86058110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/037996 WO2023068126A1 (ja) | 2021-10-19 | 2022-10-12 | 学習装置、データ加工装置、パラメータ生成装置、学習方法、データ加工方法及びパラメータ生成方法 |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP4422163A1 (ja) |
WO (1) | WO2023068126A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015088805A (ja) | 2013-10-29 | 2015-05-07 | ソニー株式会社 | 符号化装置、復号装置、符号化データ、符号化方法、復号方法およびプログラム |
WO2020209337A1 (ja) * | 2019-04-12 | 2020-10-15 | 日本電信電話株式会社 | 識別装置、識別方法、識別処理プログラム、生成装置、生成方法、および生成処理プログラム |
WO2020261503A1 (ja) | 2019-06-27 | 2020-12-30 | ソニー株式会社 | 学習装置、画像加工装置、パラメータ生成装置、学習方法及び画像加工方法 |
JP2021089654A (ja) * | 2019-12-05 | 2021-06-10 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
-
2022
- 2022-10-12 WO PCT/JP2022/037996 patent/WO2023068126A1/ja active Application Filing
- 2022-10-12 EP EP22883430.5A patent/EP4422163A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015088805A (ja) | 2013-10-29 | 2015-05-07 | ソニー株式会社 | 符号化装置、復号装置、符号化データ、符号化方法、復号方法およびプログラム |
WO2020209337A1 (ja) * | 2019-04-12 | 2020-10-15 | 日本電信電話株式会社 | 識別装置、識別方法、識別処理プログラム、生成装置、生成方法、および生成処理プログラム |
WO2020261503A1 (ja) | 2019-06-27 | 2020-12-30 | ソニー株式会社 | 学習装置、画像加工装置、パラメータ生成装置、学習方法及び画像加工方法 |
JP2021089654A (ja) * | 2019-12-05 | 2021-06-10 | キヤノン株式会社 | 画像処理装置、画像処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP4422163A1 (en) | 2024-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10984818B2 (en) | Devices and methods for evaluating speech quality | |
WO2018008395A1 (ja) | 音場形成装置および方法、並びにプログラム | |
CN111898881B (zh) | 一种课堂教学质量评估方法、装置、设备及存储介质 | |
US20160328501A1 (en) | Automatic AMP Matching | |
US8195453B2 (en) | Distributed intelligibility testing system | |
US10181320B2 (en) | Computer-implemented method and apparatus for generating grapheme-to-phoneme model | |
US20180190310A1 (en) | De-reverberation control method and apparatus for device equipped with microphone | |
US11508120B2 (en) | Methods and apparatus to generate a three-dimensional (3D) model for 3D scene reconstruction | |
US20170064444A1 (en) | Signal processing apparatus and method | |
JP2024528596A (ja) | 発話向上 | |
CN118230767B (zh) | 一种声音环境自适应的usb音频优化方法及系统 | |
WO2023068126A1 (ja) | 学習装置、データ加工装置、パラメータ生成装置、学習方法、データ加工方法及びパラメータ生成方法 | |
WO2020261503A1 (ja) | 学習装置、画像加工装置、パラメータ生成装置、学習方法及び画像加工方法 | |
WO2023086311A1 (en) | Control of speech preservation in speech enhancement | |
JP2019126423A (ja) | 聴覚的注意推定装置、聴覚的注意推定方法、プログラム | |
Nunes et al. | Degradation type classifier for full band speech contaminated with echo, broadband noise, and reverberation | |
EP4354899A1 (en) | Apparatus, methods and computer programs for providing signals for otoacoustic emission measurements | |
Marshall et al. | Metrics including time-varying loudness models to assess the impact of sonic booms and other transient sounds | |
CN110808066A (zh) | 教学环境安全分析方法 | |
Shirol | Speech data augmentation in the frequency domain using deep learning methods | |
KR102568994B1 (ko) | 사용자의 스피치 능력 개선을 위한 피드백 장치 및 방법 | |
US20240355348A1 (en) | Detecting environmental noise in user-generated content | |
CN113555008B (zh) | 一种针对模型的调参方法及装置 | |
US12124630B2 (en) | Information processing device | |
JP2024532759A (ja) | ユーザ生成コンテンツにおける環境ノイズの検出 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22883430 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2022883430 Country of ref document: EP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2022883430 Country of ref document: EP Effective date: 20240521 |