WO2023281606A1 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
WO2023281606A1
WO2023281606A1 PCT/JP2021/025361 JP2021025361W WO2023281606A1 WO 2023281606 A1 WO2023281606 A1 WO 2023281606A1 JP 2021025361 W JP2021025361 W JP 2021025361W WO 2023281606 A1 WO2023281606 A1 WO 2023281606A1
Authority
WO
WIPO (PCT)
Prior art keywords
age
speaker
learning
data
loss
Prior art date
Application number
PCT/JP2021/025361
Other languages
English (en)
French (fr)
Inventor
佑樹 北岸
歩相名 神山
岳至 森
厚徳 小川
直弘 俵
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/025361 priority Critical patent/WO2023281606A1/ja
Priority to JP2023532904A priority patent/JPWO2023281606A1/ja
Publication of WO2023281606A1 publication Critical patent/WO2023281606A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • the present invention relates to a learning device, a learning method, and a learning program.
  • speaker age estimation technology technology for automatically estimating age from human speech
  • the speaker age estimation technique is defined as supervised learning for estimating age from speech (or acoustic features extracted therefrom).
  • supervised learning for estimating age from speech (or acoustic features extracted therefrom).
  • the accuracy of the model depends on how well balanced a large number of speakers can be gathered across a wide range of ages.
  • age is highly private information, and depending on the data set, only low-grain information (e.g. 20s, 18-35 years old) is given instead of a specific age such as 25 years old (e.g. , Non-Patent Document 1).
  • a data set with real values of the speaker's age is required.
  • Such low-grained learning data with age information cannot be used as is.
  • a general method is to use a semi-supervised learning framework to treat the data as if it does not have age labels. cannot be used effectively.
  • a learning device acquires weakly supervised learning data including speech data of a speaker and correct labels indicating the age range of the speaker.
  • an acquisition unit an estimation unit for estimating the age of a speaker of the speech data included in the weakly supervised learning data, and a first loss function from a correct label indicating the age range and the estimated age.
  • an updating unit for updating model parameters so as to minimize the first loss.
  • a learning method is a learning method executed by a learning device, in which weakly supervised learning data including a correct label indicating a speaker's voice data and the speaker's age range is acquired. an obtaining step, an estimating step of estimating the age of a speaker of the speech data included in the weakly supervised learning data, and a correct label indicating the age range and the estimated age, a first loss function and an updating step of updating model parameters to minimize the first loss.
  • the learning program comprises: an acquiring step of acquiring weakly supervised learning data including speech data of a speaker and a correct label indicating the age range of the speaker; an estimating step of estimating the age of the speaker of the included audio data; and a calculating step of calculating a first loss using a first loss function from the correct label indicating the age range and the estimated age. and an updating step of updating the model parameters so as to minimize the first loss.
  • the age of the speaker can be estimated with higher accuracy from the voice.
  • FIG. 1 is a diagram illustrating an example of a learning system according to an embodiment.
  • FIG. 2 is a block diagram showing a configuration example of the learning device according to the embodiment.
  • 3 is a diagram illustrating an example of data stored in a supervised learning data storage unit according to the embodiment;
  • FIG. 4 is a diagram illustrating an example of data stored in a weakly supervised learning data storage unit according to the embodiment;
  • FIG. 5 is a diagram illustrating an example of loss function calculation processing according to the embodiment.
  • FIG. 6 is a diagram illustrating an example of loss function calculation processing according to the embodiment.
  • FIG. 7 is a diagram illustrating an example of loss function calculation processing according to the embodiment.
  • FIG. 8 is a diagram illustrating an example of a setting screen of a learning application according to the embodiment;
  • FIG. 8 is a diagram illustrating an example of a setting screen of a learning application according to the embodiment;
  • FIG. 8 is a diagram illustrating an example of a setting screen of a learning application according
  • FIG. 9 is a diagram illustrating an example of a setting screen of a learning application according to the embodiment.
  • FIG. 10 is a flow chart showing an example of the overall flow of learning processing according to the embodiment.
  • FIG. 11 is a diagram showing a computer executing a program.
  • FIG. 1 is a diagram illustrating an example of a learning system according to an embodiment. Below, a configuration example of the present system 100, processing of the present system 100, problems of the conventional technology, and effects of the present system 100 will be described in this order.
  • the system 100 shown in FIG. 1 has a learning device 10 .
  • the system 100 may include a plurality of learning devices 10 .
  • the data acquired by the learning apparatus 10 include supervised learning data 20, weakly supervised learning data 30, and speech data 40.
  • the supervised learning data 20 is learning data including speech data of a speaker and a correct label indicating the age of the speaker.
  • the weakly supervised learning data 30 is learning data including speech data of a speaker and a correct label indicating the age range of the speaker.
  • Voice data 40 is voice data of a speaker whose age is estimated by the learning device 10 .
  • the learning device 10 acquires learning data (step S1).
  • the learning data acquired by the learning device 10 may be learning data in which the supervised learning data 20 and the weakly supervised learning data 30 are mixed, or the supervised learning data 20 and the weakly supervised learning data 20 may be mixed.
  • the learning data 30 may be acquired individually.
  • the learning device 10 extracts the feature amount from the voice data included in the acquired learning data, and estimates the age using an LSTM (Long Short Term Memory) network or the like (step S2).
  • the speaker age estimation technique executed by the learning device 10 is not particularly limited.
  • learning device 10 calculates a loss from the estimated age using a loss function (step S3), updates the model parameters so as to minimize the calculated loss (step S4), and updates the model parameters to is used for evaluation (step S5).
  • steps S1 to S5 corresponds to the learning process and the evaluation process of the learning device 10.
  • the learning device 10 acquires the speech data 40 (step S6), and uses the updated model parameters to estimate the age of the speaker of the speech data 40 (step S7).
  • the processing of steps S6 and S7 corresponds to the age estimation process of the learning device 10.
  • the training data used in the speaker age estimation technology includes speech with age information given only to a certain extent due to privacy concerns. At this time, it is desirable to use data to which such coarse-grained age information is added for model learning that can directly estimate age with higher accuracy.
  • detailing coarse-grained age labels is (1) likely not possible for public datasets and (2) privacy and experimental ethics, even for proprietary datasets. , it is likely to be difficult from the viewpoint of cost, etc. Since the conventional technology cannot utilize the above data, there is a demand for a technology that can directly estimate age with high accuracy by utilizing data to which coarse-grained age information is added.
  • the learning device 10 acquires the supervised learning data 20 and the weakly supervised learning data 30, and estimates the age of the speaker from the voice data included in the acquired learning data. Then, the loss function is calculated from the estimated age, and the model parameters are updated to minimize the calculated loss. For this reason, the system 100 realizes higher model accuracy by making it possible to use data with coarse-grained age information, which could not be used for learning to directly estimate age, as learning data. That is, the present system 100 realizes a learning method that effectively uses resources that could not be used until now. can be utilized.
  • FIG. 2 is a block diagram showing a configuration example of the learning device according to the embodiment.
  • the learning device 10 has an input unit 11 , an output unit 12 , a communication unit 13 , a storage unit 14 and a control unit 15 .
  • the input unit 11 controls input of various information to the learning device 10 .
  • the input unit 11 is implemented by a mouse, a keyboard, or the like, and receives input such as setting information to the learning device 10 .
  • the output unit 12 controls output of various information from the learning device 10 .
  • the output unit 12 is implemented by a display or the like, and outputs setting information or the like stored in the learning device 10 .
  • the communication unit 13 manages data communication with other devices. For example, the communication unit 13 performs data communication with each communication device. Further, the communication unit 13 can perform data communication with an operator's terminal (not shown).
  • the storage unit 14 stores various information referred to when the control unit 15 operates and various information acquired when the control unit 15 operates.
  • the storage unit 14 has a supervised learning data storage unit 14a, a weakly supervised learning data storage unit 14b, and a model parameter storage unit 14c.
  • the storage unit 14 can be realized by, for example, a RAM (Random Access Memory), a semiconductor memory device such as a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 14 is installed inside the learning device 10, but it may be installed outside the learning device 10, and a plurality of storage units may be installed.
  • FIG. 3 is a diagram illustrating an example of data stored in a supervised learning data storage unit according to the embodiment; FIG. In FIG. 3, the supervised learning data storage unit 14a stores N speeches of S x persons.
  • the supervised learning data storage unit 14a stores supervised learning data 20, which is learning voice data used for model learning and to which the speaker's age (real value) is assigned as a correct label.
  • the supervised learning data storage unit 14a stores “speech ID”, “speaker ID”, “speaker age” (real value), “speaker gender”, and “speech” as learning data.
  • the supervised learning data storage unit 14a stores a voice given with a real number (eg, 25 years old) as an age for supervised learning.
  • FIG. 4 is a diagram illustrating an example of data stored in a weakly supervised learning data storage unit according to the embodiment; FIG. Note that in FIG. 4, the weakly supervised learning data storage unit 14b stores S w persons and M speeches.
  • the weakly-supervised learning data storage unit 14b stores weakly-supervised learning data 30, which is learning speech data used for model learning and to which the speaker's age (age range) is assigned as a correct label.
  • the weakly supervised learning data storage unit 14b stores “voice ID”, “speaker ID”, “speaker age” (age range), “speaker gender”, and “voice” as learning data. do.
  • the weakly-supervised learning data storage unit 14b stores speech given with an arbitrary age range (eg, twenties) for weakly-supervised learning.
  • the correct labels given as the above age ranges may all have the same granularity, or voices having different granularities may be mixed.
  • the weakly supervised learning data 30 may be expanded or divided into learning/development/evaluation sets as necessary.
  • the standard of the speech data stored in the supervised learning data storage unit 14a and weakly supervised learning data storage unit 14b is not particularly limited.
  • the audio data to be stored may be in a 1-channel linear PCM (Pulse Code Modulation) format with a frequency band of 16 kHz and a 16-bit signed integer, or in a frequency band of 8 kHz and a 16-bit signed integer with a channel of G. G.711 compression format may also be used.
  • the audio data shown in FIGS. 3 and 4 represent the audio waveform as a relationship between the passage of time and the audio signal strength, and are represented by signed 16-bit integers.
  • the model parameter storage unit 14c stores a parameter set ⁇ ′ (learned parameters) learned and optimized by an estimation unit 15b, a calculation unit 15c, and an update unit 15d of the control unit 15, which will be described later.
  • the parameter set ⁇ ' is used for estimating the age from the evaluation data and input speech during actual use.
  • the control unit 15 controls the learning device 10 as a whole. As shown in FIG. 2, the control unit 15 has an acquisition unit 15a, an estimation unit 15b, a calculation unit 15c, and an update unit 15d.
  • the control unit 15 is, for example, an electronic circuit such as a CPU (Central Processing Unit) or an MPU (Micro Processing Unit) or an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • Acquisition unit 15a acquires weakly supervised learning data 30 including speech data of a speaker and a correct label indicating the age range of the speaker. For example, the acquisition unit 15a acquires the weakly supervised learning data 30 including the voice data of the speaker, the age range of the speaker, the gender of the speaker, and the like. Further, the acquiring unit 15a acquires the supervised learning data 20 including the voice data of the speaker and the correct label indicating the age of the speaker. For example, the acquiring unit 15a acquires supervised learning data 20 including voice data of the speaker, real values of the age of the speaker, gender of the speaker, and the like.
  • the acquisition unit 15a acquires the weakly supervised learning data 30 from the weakly supervised learning data storage unit 14b. Further, the acquisition unit 15a acquires the supervised learning data 20 from the supervised learning data storage unit 14a. Furthermore, the acquisition unit 15 a may acquire the learning data via the input unit 11 or may acquire the learning data from another terminal or database via the communication unit 13 .
  • the estimation unit 15b estimates the age of the speaker of the speech data included in the weakly supervised learning data 30.
  • the estimation unit 15b also estimates the age of the speaker of the voice data included in the supervised learning data 20.
  • the estimating unit 15b inputs a speaker expression vector learned using a separately prepared data set in which a large number of speakers exist, and generates a speaker expression vector such as SVR (Support Vector Regression) or a neural network. Estimated with a model that can be projectively transformed to age.
  • SVR Serial Vector Regression
  • the estimation unit 15b can handle arbitrary time-series acoustic features such as FBANK (Log Mel-filter bank channel output) and MFCC (Mel-Frequency Cepstral Coefficient), and time-series features such as RNN and transformer.
  • FBANK Log Mel-filter bank channel output
  • MFCC Mel-Frequency Cepstral Coefficient
  • the estimation unit 15b estimates the age of the speaker by defining a learning model and model parameters for estimating the numerical value of age as a regression problem.
  • the estimation unit 15b also estimates the age of the speaker by defining a learning model and model parameters for classifying into classes corresponding to age as a classification problem.
  • the details of the learning data age estimation process will be described later in [Details of the process] (1. Learning data age estimation process).
  • the estimation unit 15b outputs the estimation result to the calculation unit 15c.
  • the estimation unit 15 b may store the estimation result in the storage unit 14 .
  • the calculator 15c calculates the first loss using the first loss function from the correct label indicating the age range and the estimated age. Further, the calculation unit 15c calculates a second loss using a second loss function from the correct label indicating age and the estimated age. Further, the calculation unit 15c determines the data including the correct label indicating the age range of the speaker as the weakly supervised learning data 30 and calculates the first loss using the first loss function. The data including the correct label indicating the age of is determined to be the supervised learning data 20, and the second loss is calculated using the second loss function. The details of the age estimation process of the learning data will be described later in [Details of the process] (2. Loss function calculation process).
  • the calculation unit 15c outputs the calculation result to the update unit 15d.
  • the calculation unit 15 d may store the calculation result in the storage unit 14 .
  • the updating unit 15d updates the model parameters so as to minimize the first loss. Also, the updating unit 15d updates the model parameters so as to minimize the second loss. For example, the updating unit 15d updates the model parameters using stochastic gradient descent so as to minimize the loss calculated by the calculating unit 15c. Further, the update unit 15d stores the updated model parameters in the model parameter storage unit 14c of the storage unit 14. FIG.
  • the estimation unit 15b of the learning device 10 estimates the speaker age using the following speaker age estimation technique. For example, the estimating unit 15b receives as an input a speaker expression vector learned using a separately prepared data set in which a large number of speakers exist. model.
  • the estimating unit 15b may estimate the speaker age by using arbitrary time-series acoustic feature values such as FBANK and MFCC as model inputs to a neural network that can handle time-series feature values such as RNN and transformer. Furthermore, the estimating unit 15b may estimate the speaker age by using any technique such as feature amount normalization, batch normalization, and L1/L2 regularization to improve accuracy.
  • the estimation unit 15b estimates the age from the input speech using, for example, appropriate random numbers or a model parameter set ⁇ pre-trained in another task. At this time, the estimation unit 15b does not specify the combination of the supervised learning data 20 and the weakly supervised learning data 30 either. For example, the estimating unit 15b may mix the supervised learning data 20 and the weakly supervised learning data 30 in the same batch at an arbitrary ratio to take a form such as multitask learning. The learning of the supervised learning data 20 and weakly supervised learning data 30 for each epoch may be switched, or any other method may be adopted. During evaluation, the estimation unit 15b also calculates an estimated age from the input speech using the learned parameter set ⁇ ′.
  • FIGS. 5 to 7 are diagrams showing an example of loss function calculation processing according to the embodiment. Below, the outline of the speaker age estimation process, the loss function calculation process for the classification problem, and the loss function calculation process for the regression problem will be described in this order.
  • the calculator 15c of the learning device 10 calculates a loss for model parameter update from the estimated speaker age.
  • the outline of the speaker age estimation process which is a prerequisite for the above calculation process, will be described below.
  • direct estimation of speaker age can be defined as either a regression problem or a classification problem.
  • the model f and the parameter set ⁇ are defined so as to directly estimate the age value, and the estimated age y ⁇ is defined as in formula (1) below.
  • x in the following formula (1) indicates input speech.
  • a model f and a parameter set ⁇ are defined as a classification problem with one class and one age, and the posterior probability shown in the following equation (2) for each age y n is estimated from the input speech x. be.
  • the estimated age y ⁇ may be the age indicated by the maximum value of the posterior probability for each age y n as the estimation result as in the following equation (3), or the expected value obtained from the posterior probability as the following ( 4) It may be an estimation result as shown in the formula.
  • the calculation unit 15c performs calculation using, for example, the cross-entropy loss shown in the following equation (5) as a loss function during model learning using voice x for supervised learning.
  • the calculation unit 15c may also use other loss functions such as KL (Kullback-Leibler) divergence loss.
  • the calculation unit 15c may set a hard target with only the correct age shown in the following formula (6) as the correct answer target, or a normal target with the correct age shown in the following formula (7) as an average.
  • a soft target that approximates the distribution may be used as the correct target.
  • T (y n ) is the target value for each age y n
  • N is the set of all ages defined as the correct answer
  • is a hyperparameter in advance. Indicates the standard deviation of the normal distribution to be set.
  • the calculation unit 15c defines a loss function such that, during model learning using the voice w for weakly supervised learning, the estimated result is correct if it falls within the age range indicated by the correct label, for example.
  • the calculation unit 15c may define a soft target represented by the following equation (8), such as the correct answer target for the cross entropy loss or the like, in which the range of age indicated by the correct answer label is equal, or the distribution
  • the loss function may be calculated from the sum of posterior probabilities without assuming .
  • the calculation unit 15c may define the entire range as correct, as in multi-label learning. Further, when using the total value of posterior probabilities, the calculation unit 15c may learn to allow some estimation error by providing a margin. Here, the calculation unit 15c may determine the margin uniquely or fluidly according to the width of the range of correct answers.
  • the following equation (9) shows an example of a loss function that sets the total value of posterior probabilities for ages indicated by correct labels to "1.0".
  • the above formula (9) uses MSE (Mean Square Error) as the loss, but MAE (Mean Absolute Error) or binary cross-entropy loss may also be used. Also, the loss function may be weighted as needed.
  • Y[w] indicates a set of ages indicated by the correct label of the voice w for weakly supervised learning. For example, in the case of the correct label "twenties”, Y[w] ⁇ (20, 21, 22, 23, 24, 25, 26, 27, 28, 29).
  • 5 and 6 are diagrams illustrating an example of loss function calculation processing according to the embodiment.
  • the calculation unit 15c calculates the MSE indicated by the following equation (10) and the MAE indicated by the following equation (11) as a loss for the data having the speaker age label as a real value. Further, the calculation unit 15c uses ⁇ -insensitive loss shown in the following equation (12), and may calculate using a method that regards an estimation error of a certain value ( ⁇ ) or less as a correct answer. good.
  • the calculation unit 15c equally regards the data having the speaker age label as a range as being correct if the estimation result falls within the range. For example, the calculation unit 15c may calculate using a loss function such that the estimated result falls within the range of correct answers, such as the following equation (13), or use any other loss function. may Moreover, the calculation unit 15c may weight the loss function as necessary.
  • FIG. 7 is a diagram illustrating an example of loss function calculation processing according to the embodiment.
  • FIG. 7 is a graph showing the numerical value of the estimated age on the horizontal axis and the numerical value of the loss on the vertical axis. Minimized.
  • FIG. 8 and 9 are diagrams showing examples of setting screens of the learning application according to the embodiment. Below, the outline of the setting screen of the study application and the details of the setting screen of the study application will be described in this order.
  • normal supervised learning data 20 is designated by the user's operation.
  • the data is specified by any method, and any format is acceptable as long as it can be read by the learning program. For example, it is possible to read a text or file in which a data path is written, or to specify a directory in which data is placed and read all the data under that directory.
  • the correct answer for each file is written in "Label data”
  • the correct answer may be written together with the file describing the data path without reading it as a separate file. , the correct answer may be included in the data name.
  • model parameters (batch size, optimization method, model structure, loss function setting, etc.) required for general neural network learning.
  • parameters for example, L1/L2 regularization, batch normalization, feature amount normalization, or other techniques may be incorporated or specified.
  • the weakly supervised training data 30 is specified by the user's operation.
  • the learning/evaluation/correct answer information is specified so that the program can read the data in the same way as the supervised learning data 20 described above.
  • the user selects a method for converting the weakly supervised learning data 30 into mini-batches.
  • the batch size is directly specified.
  • "64" is entered by default.
  • the ratio to "Mini-Batch size” is specified. For example, if the above ratio is "0.5”, the default setting is equal to "value: 32".
  • learning is alternately performed in the order of supervised learning ⁇ weakly supervised learning ⁇ supervised learning . . . every x iterations.
  • learning is alternately performed in the order of supervised learning ⁇ weakly supervised learning ⁇ supervised learning . . . every x epochs.
  • FIG. 10 is a flowchart showing the overall flow of learning processing according to this embodiment. Below, after explaining the flow of the whole process, the outline of each process will be explained.
  • step S101 the acquisition unit 15a of the learning device 10 executes learning data acquisition processing (step S101).
  • step S102 the estimation unit 15b of the learning device 10 executes learning data age estimation processing (step S102).
  • step S103 the calculation unit 15c of the learning device 10 executes loss function calculation processing (step S103).
  • step S104 the update unit 15d of the learning device 10 executes model parameter update processing (step S104), and terminates the processing.
  • steps S101 to S104 can also be performed in a different order. Also, some of the above steps S101 to S104 may be omitted.
  • the acquisition unit 15 a acquires the supervised learning data 20 and the weakly supervised learning data 30 from the storage unit 14 .
  • the acquisition unit 15 a may acquire the supervised learning data 20 and the weakly supervised learning data 30 from the storage unit 14 via the input unit 11 and the communication unit 13 without referring to the storage unit 14 .
  • the estimation unit 15b extracts a feature amount from the voice data included in the acquired learning data, and estimates the age using a learning model such as SVR or neural network. Details of the learning data age estimation process are described in the above [Details of process] (1. Learning data age estimation process).
  • the calculation unit 15c determines the supervised learning data 20 or the weakly supervised learning data 30 as the learning data, determines the classification problem or the regression problem as the estimation method, and performs the respective learning Calculate the loss using a loss function suitable for the data used and the estimation method.
  • the details of the learning data age estimation process are described in the above [Details of the process] (2. Loss function calculation process).
  • model parameter update processing by the update unit 15d will be described.
  • the update unit 15d updates the model parameters using stochastic gradient descent or the like so as to minimize the loss calculated by the calculation unit 15c.
  • the weakly supervised learning data 30 including the speech data of the speaker and the correct label indicating the age range of the speaker are acquired, and the weakly supervised learning data Estimate the age of the speaker of the speech data included in 30, calculate the first loss using the first loss function from the correct label indicating the age range and the estimated age, and calculate the first loss. Update model parameters to minimize. Therefore, in this process, the age of the speaker can be estimated with higher accuracy from the voice.
  • the supervised learning data 20 including the correct label indicating the speaker's voice data and the speaker's age is acquired, and included in the supervised learning data 20 Estimate the age of the speaker of the speech data, calculate the second loss using the second loss function from the correct label indicating the age and the estimated age, and minimize the second loss. Update parameters. Therefore, in this process, the age of the speaker can be estimated with higher accuracy from the speech by using more learning data.
  • the data including the correct label indicating the age range of the speaker is determined as the weakly supervised learning data 30, and the first loss function is used to determine the first , the data including the correct label indicating the age of the speaker is determined to be supervised learning data 20, and the second loss is calculated using the second loss function. Therefore, in this process, the age of the speaker can be estimated with higher accuracy from the voice by effectively using more data for learning.
  • the speaker's age is estimated by defining a learning model and model parameters for estimating the numerical value of age as a regression problem. Therefore, in this process, by effectively using more data for learning, the age of the speaker can be estimated with higher accuracy from the speech based on the regression model.
  • the speaker's age is estimated by defining a learning model and model parameters for classifying into classes corresponding to age as a classification problem. Therefore, in this process, by effectively using more data for learning, the age of the speaker can be estimated with higher accuracy from the speech based on the classification model.
  • each component of each device shown in the drawings according to the above embodiment is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawing.
  • the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • each processing function performed by each device may be implemented in whole or in part by a CPU and a program analyzed and executed by the CPU, or implemented as hardware based on wired logic.
  • ⁇ program ⁇ It is also possible to create a program in which the processing executed by the learning device 10 described in the above embodiment is described in a computer-executable language. In this case, the same effects as those of the above embodiments can be obtained by having the computer execute the program. Further, such a program may be recorded in a computer-readable recording medium, and the program recorded in this recording medium may be read by a computer and executed to realize processing similar to that of the above embodiments.
  • FIG. 11 is a diagram showing a computer that executes a program.
  • computer 1000 includes, for example, memory 1010, CPU 1020, hard disk drive interface 1030, disk drive interface 1040, serial port interface 1050, video adapter 1060, and network interface 1070. , and these units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012, as illustrated in FIG.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 as illustrated in FIG.
  • Disk drive interface 1040 is connected to disk drive 1100 as illustrated in FIG.
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • the serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120, as illustrated in FIG.
  • Video adapter 1060 is connected to display 1130, for example, as illustrated in FIG.
  • the hard disk drive 1090 stores an OS 1091, application programs 1092, program modules 1093, and program data 1094, for example. That is, the above program is stored in, for example, the hard disk drive 1090 as a program module in which instructions to be executed by the computer 1000 are written.
  • the various data described in the above embodiments are stored as program data in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary, and executes various processing procedures.
  • program module 1093 and program data 1094 related to the program are not limited to being stored in the hard disk drive 1090. For example, they may be stored in a removable storage medium and read by the CPU 1020 via a disk drive or the like. . Alternatively, the program module 1093 and program data 1094 related to the program are stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.), and via the network interface 1070 It may be read by CPU 1020 .
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

学習装置(10)は、話者の音声データおよび話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得部(15a)と、弱教師あり学習用データに含まれる音声データの話者の年齢を推定する推定部(15b)と、年齢の範囲を示す正解ラベルおよび推定された年齢から、第1の損失関数を用いて第1の損失を計算する計算部(15c)と、第1の損失を最小化するように、モデルパラメタを更新する更新部(15d)と、を備える。

Description

学習装置、学習方法および学習プログラム
 本発明は、学習装置、学習方法および学習プログラムに関する。
 従来、人間の音声から年齢を自動推定する技術(以下、「話者年齢推定技術」と表記)が取り組まれてきた。例えば、コールセンタでの利用として、顧客の年齢に応じて自動応対システムの合成音声再生速度を最適化する、といったことが期待される。ここで、話者年齢推定技術は、音声(もしくはそこから抽出された音響特徴量)から年齢を推定する教師あり学習と定義される。機械学習のモデルを学習するためには、年齢情報の紐づいた音声が大量に必要で、モデルの精度はどれだけ幅広い年代でバランスよく大量の話者を集められるかによる。
 しかしながら、上述した従来技術では、音声から話者の年齢をより高い精度で推定することができない。なぜならば、上述した従来技術には、以下のような課題があるからである。
 まず、年齢はプライバシ性が強い情報で、データセットによっては25歳といった具体的な年齢ではなく、低粒度(例:20代、18~35歳)の情報しか付与されていないことがある(例えば、非特許文献1参照)。また、近年盛んに取り組まれている話者年齢を直接推定するようなタスク(例えば、非特許文献2、3参照)では、話者年齢の実数値が付与されたデータセットが必要で、上記の例のような低粒度で年齢情報が付与された学習データはそのまま利用できない。このようなデータを有効活用するためには、一般的な手法としては半教師あり学習の枠組みとして年齢ラベルが存在しないデータとして扱う手法が考えられるが、それでは低粒度ながらも付与された年齢情報を有効活用することはできない。
 上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得部と、前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定部と、前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第1の損失関数を用いて第1の損失を計算する計算部と、前記第1の損失を最小化するように、モデルパラメタを更新する更新部と、を備えることを特徴とする。
 また、本発明に係る学習方法は、学習装置によって実行される学習方法であって、話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得工程と、前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定工程と、前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第1の損失関数を用いて第1の損失を計算する計算工程と、前記第1の損失を最小化するように、モデルパラメタを更新する更新工程と、を含むことを特徴とする。
 また、本発明に係る学習プログラムは、話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得ステップと、前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定ステップと、前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第1の損失関数を用いて第1の損失を計算する計算ステップと、前記第1の損失を最小化するように、モデルパラメタを更新する更新ステップと、をコンピュータに実行させることを特徴とする。
 本発明では、音声から話者の年齢をより高い精度で推定することができる。
図1は、実施形態に係る学習システムの一例を示す図である。 図2は、実施形態に係る学習装置の構成例を示すブロック図である。 図3は、実施形態に係る教師あり学習用データ記憶部に記憶されるデータの一例を示す図である。 図4は、実施形態に係る弱教師あり学習用データ記憶部に記憶されるデータの一例を示す図である。 図5は、実施形態に係る損失関数計算処理の一例を示す図である。 図6は、実施形態に係る損失関数計算処理の一例を示す図である。 図7は、実施形態に係る損失関数計算処理の一例を示す図である。 図8は、実施形態に係る学習アプリケーションの設定画面の一例を示す図である。 図9は、実施形態に係る学習アプリケーションの設定画面の一例を示す図である。 図10は、実施形態に係る学習処理全体の流れの一例を示すフローチャートである。 図11は、プログラムを実行するコンピュータを示す図である。
 以下に、本発明に係る学習装置、学習方法および学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
〔実施形態〕
 以下に、実施形態(適宜、本実施形態)に係る学習システム100の処理、学習装置10の構成、処理の詳細、処理の流れを順に説明し、最後に本実施形態の効果を説明する。
[学習システム100の処理]
 以下に、本実施形態に係る学習システム(適宜、本システム)100の処理を説明する。図1は、実施形態に係る学習システムの一例を示す図である。以下では、本システム100の構成例、本システム100の処理、従来技術の課題、本システム100の効果の順に説明する。
(1.システム100の構成例)
 図1に示した本システム100は、学習装置10を有する。なお、本システム100には、複数台の学習装置10が含まれてもよい。また、本システム100では、学習装置10が取得するデータとして、教師あり学習用データ20、弱教師あり学習用データ30および音声データ40が関与する。ここで、教師あり学習用データ20は、話者の音声データと当該話者の年齢を示す正解ラベルとを含む学習用データである。また、弱教師あり学習用データ30は、話者の音声データと当該話者の年齢の範囲を示す正解ラベルとを含む学習用データである。また、音声データ40は、学習装置10によって年齢を推定する話者の音声データである。
(2.システム100の処理)
 本システム100において、まず、学習装置10は、学習用データを取得する(ステップS1)。ここで、学習装置10が取得する学習用データは、教師あり学習用データ20および弱教師あり学習用データ30を混在させた学習データであってもよいし、教師あり学習用データ20、弱教師あり学習用データ30をそれぞれ個別に取得してもよい。
 次に、学習装置10は、取得した学習用データに含まれる音声データから特徴量を抽出し、LSTM(Long Short Term Memory)ネットワーク等を利用して年齢を推定する(ステップS2)。このとき、学習装置10によって実行される話者年齢推定技術は、特に限定されない。
 続いて、学習装置10は、推定した年齢から損失関数を用いて損失を計算し(ステップS3)、計算した損失を最小化するようにモデルパラメタを更新し(ステップS4)、更新したモデルパラメタを用いて評価する(ステップS5)。上記ステップS1~S5の処理は、学習装置10の学習過程、評価過程に該当する。
 そして、学習装置10は、音声データ40を取得し(ステップS6)、更新したモデルパラメタを用いて音声データ40の話者の年齢を推定する(ステップS7)。上記ステップS6、S7の処理は、学習装置10の年齢推定過程に該当する。
(3.従来技術の課題)
 ここで、従来の話者年齢推定技術の課題について説明する。話者年齢推定技術で使用する学習用データには、プライバシの問題からある程度の範囲での年齢情報しか付与されていない音声が存在する。このとき、より高精度に年齢を直接推定可能なモデル学習には、このような粒度の荒い年齢情報が付与されたデータも活用できるとよい。しかし、粒度の荒い年齢ラベルを詳細にするには、(1)公開データセットの場合は不可能である可能性が高い、(2)独自に収録したデータセットであっても、プライバシ、実験倫理、コスト等の観点から困難である可能性が高い。従来技術では、上記のようなデータを活用することができないことより、粒度の荒い年齢情報が付与されたデータも活用し、高精度に年齢を直接推定可能な技術が求められている。
(4.システム100の効果)
 上述したように、本システム100では、学習装置10は、教師あり学習用データ20および弱教師あり学習用データ30を取得し、取得した学習用データに含まれる音声データから話者の年齢を推定し、推定した年齢から損失関数を計算し、計算した損失を最小化するようにモデルパラメタを更新する。このため、本システム100は、これまで年齢を直接推定する学習には使えなかった粒度の荒い年齢情報をもつデータを学習用データとして使えるようにすることで、より高いモデル精度を実現する。すなわち、本システム100は、これまで用いることができなかったリソースを効果的に用いる学習手法を実現し、特に、年齢というプライバシ問題の高い情報がゆえに曖昧なラベルしか付与されてこなかったデータを有効活用することができる。
[学習装置10の構成]
 図2を用いて、本実施形態に係る学習装置10の構成を詳細に説明する。図2は、実施形態に係る学習装置の構成例を示すブロック図である。学習装置10は、入力部11、出力部12、通信部13、記憶部14および制御部15を有する。
(1.入力部11)
 入力部11は、当該学習装置10への各種情報の入力を司る。例えば、入力部11は、マウスやキーボード等で実現され、当該学習装置10への設定情報等の入力を受け付ける。
(2.出力部12)
 出力部12は、当該学習装置10からの各種情報の出力を司る。例えば、出力部12は、ディスプレイ等で実現され、当該学習装置10に記憶された設定情報等を出力する。
(3.通信部13)
 通信部13は、他の装置との間でのデータ通信を司る。例えば、通信部13は、各通信装置との間でデータ通信を行う。また、通信部13は、図示しないオペレータの端末との間でデータ通信を行うことができる。
(4.記憶部14)
 記憶部14は、制御部15が動作する際に参照する各種情報や、制御部15が動作した際に取得した各種情報を記憶する。記憶部14は、教師あり学習用データ記憶部14a、弱教師あり学習用データ記憶部14bおよびモデルパラメタ記憶部14cを有する。ここで、記憶部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等で実現され得る。なお、図2の例では、記憶部14は、学習装置10の内部に設置されているが、学習装置10の外部に設置されてもよいし、複数の記憶部が設置されていてもよい。
(4-1.教師あり学習用データ記憶部14a)
 図3を用いて、教師あり学習用データ記憶部14aに記憶される学習用データの例を説明する。図3は、実施形態に係る教師あり学習用データ記憶部に記憶されるデータの一例を示す図である。なお、図3では、教師あり学習用データ記憶部14aは、S人、N個の音声を記憶している。
 教師あり学習用データ記憶部14aは、モデル学習に用いる学習用音声データであって、話者年齢(実数値)が正解ラベルとして付与されている教師あり学習用データ20を記憶する。例えば、教師あり学習用データ記憶部14aは、学習用データとして、「音声ID」、「話者ID」、「話者年齢」(実数値)、「話者性別」、「音声」を記憶する。図3では、教師あり学習用データ記憶部14aは、教師あり学習のための年齢が実数値(例:25歳)で付与された音声を記憶する。
(4-2.弱教師あり学習用データ記憶部14b)
 図4を用いて、弱教師あり学習用データ記憶部14bに記憶される学習用データの例を説明する。図4は、実施形態に係る弱教師あり学習用データ記憶部に記憶されるデータの一例を示す図である。なお、図4では、弱教師あり学習用データ記憶部14bは、S人、M個の音声を記憶している。
 弱教師あり学習用データ記憶部14bは、モデル学習に用いる学習用音声データであって、話者年齢(年齢範囲)が正解ラベルとして付与されている弱教師あり学習用データ30を記憶する。例えば、弱教師あり学習用データ記憶部14bは、学習用データとして、「音声ID」、「話者ID」、「話者年齢」(年齢範囲)、「話者性別」、「音声」を記憶する。図4では、弱教師あり学習用データ記憶部14bは、弱教師あり学習のための年齢が任意の範囲(例:20代)で付与された音声を記憶する。
 ここで、弱教師あり学習用データ記憶部14bにおいて、上記の年齢範囲として付与された正解ラベルは、すべて同じ粒度でもよいし、異なる粒度の音声が混在していてもよい。また、上記の弱教師あり学習用データ30は、必要に応じてデータ拡張や、学習・開発・評価セットへの分割を行われたものであってもよい。
(4-3.データの規格)
 上記の教師あり学習用データ記憶部14a、弱教師あり学習用データ記憶部14bにおいて、記憶される音声データの規格は、特に限定されない。例えば、記憶される音声データは、周波数帯域16kHz・16bit符号付整数、1チャンネルのリニア(linear)PCM(Pulse Code Modulation)形式でもよいし、周波数帯域8kHz・16bit符号付整数、1チャンネルのG.711圧縮形式でもよい。なお、図3および図4に示した音声データは、音声波形を時間経過と音声信号強度との関係として表したものであり、符号あり16bit整数で表現されている。
(4-4.モデルパラメタ記憶部14c)
 モデルパラメタ記憶部14cは、後述する制御部15の推定部15b、計算部15cおよび更新部15dによって、学習、最適化されたパラメタ集合Θ'(学習済みパラメタ)を記憶する。ここで、パラメタ集合Θ'は、評価データや実利用時において入力された音声から年齢を推定するために用いられる。
(5.制御部15)
 制御部15は、当該学習装置10全体の制御を司る。制御部15は、図2に示すように、取得部15a、推定部15b、計算部15cおよび更新部15dを有する。ここで、制御部15は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等の電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路である。
(5-1.取得部15a)
 取得部15aは、話者の音声データおよび話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データ30を取得する。例えば、取得部15aは、話者の音声データ、話者の年齢範囲、話者の性別等を含む弱教師あり学習用データ30を取得する。また、取得部15aは、話者の音声データおよび話者の年齢を示す正解ラベルを含む教師あり学習用データ20を取得する。例えば、取得部15aは、話者の音声データ、話者の年齢の実数値、話者の性別等を含む教師あり学習用データ20を取得する。
 一方、取得部15aは、弱教師あり学習用データ30を弱教師あり学習用データ記憶部14bから取得する。また、取得部15aは、教師あり学習用データ20を教師あり学習用データ記憶部14aから取得する。さらに、取得部15aは、学習用データを入力部11経由で取得してもよいし、学習用データを通信部13経由で他の端末やデータベースから取得してもよい。
(5-2.推定部15b)
 推定部15bは、弱教師あり学習用データ30に含まれる音声データの話者の年齢を推定する。また、推定部15bは、教師あり学習用データ20に含まれる音声データの話者の年齢を推定する。例えば、推定部15bは、別途用意された大量の話者の存在するデータセットを用いて学習された話者表現ベクトルを入力として、SVR(Support Vector Regression)やニューラルネットワークといった、話者表現ベクトルを年齢に射影変換可能なモデルで推定する。
 また、推定部15bは、FBANK(Log Mel-filter bank channel output)やMFCC(Mel-Frequency Cepstral Coefficient)といった任意の時系列音響特徴量を、RNNやトランスフォーマー(transformer)といった時系列特徴量を取り扱うことができるニューラルネットワークへのモデル入力として話者年齢を推定する。さらに、推定部15bは、特徴量の正規化、バッチ正規化、L1/L2正則化等の任意の技術を用いて精度を向上させ、話者年齢を推定する。
 推定部15bは、回帰問題として年齢の数値を推定する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する。また、推定部15bは、分類問題として年齢に対応するクラスに分類する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する。なお、学習用データの年齢推定処理の詳細については、[処理の詳細](1.学習用データ年齢推定処理)にて後述する。
 一方、推定部15bは、推定結果を計算部15cに出力する。なお、推定部15bは、推定結果を記憶部14に格納してもよい。
(5-3.計算部15c)
 計算部15cは、年齢の範囲を示す正解ラベルおよび推定された年齢から、第1の損失関数を用いて第1の損失を計算する。また、計算部15cは、年齢を示す正解ラベルおよび推定された年齢から、第2の損失関数を用いて第2の損失を計算する。さらに、計算部15cは、話者の年齢の範囲を示す正解ラベルを含むデータを弱教師あり学習用データ30と判定するとともに第1の損失関数を用いて第1の損失を計算し、話者の年齢を示す正解ラベルを含むデータを教師あり学習用データ20と判定するとともに第2の損失関数を用いて第2の損失を計算する。なお、学習用データの年齢推定処理の詳細については、[処理の詳細](2.損失関数計算処理)にて後述する。
 一方、計算部15cは、計算結果を更新部15dに出力する。なお、計算部15dは、計算結果を記憶部14に格納してもよい。
(5-4.更新部15d)
 更新部15dは、第1の損失を最小化するように、モデルパラメタを更新する。また、更新部15dは、第2の損失を最小化するように、モデルパラメタを更新する。例えば、更新部15dは、計算部15cによって計算された損失を最小化するように、確率的勾配降下法を用いてモデルパラメタを更新する。また、更新部15dは、更新したモデルパラメタを記憶部14のモデルパラメタ記憶部14cに格納する。
[処理の詳細]
 図5~図9や数式等を用いて、本実施形態に係る処理の詳細を説明する。以下では、学習用データ年齢推定処理、損失関数計算処理、学習アプリケーションの処理について詳細に説明する。
(1.学習用データ年齢推定処理)
 以下では、学習用データ年齢推定処理について詳細に説明する。学習装置10の推定部15bは、以下の話者年齢推定技術を用いて話者年齢を推定する。例えば、推定部15bは、別途用意された大量の話者の存在するデータセットを用いて学習された話者表現ベクトルを入力として、SVRやニューラルネットワークといった、話者表現ベクトルを年齢に射影変換可能なモデルで推定する。
 また、推定部15bは、FBANKやMFCCといった任意の時系列音響特徴量を、RNNやトランスフォーマーといった時系列特徴量を取り扱うことができるニューラルネットワークへのモデル入力として話者年齢を推定してもよい。さらに、推定部15bは、特徴量の正規化、バッチ正規化、L1/L2正則化等の任意の技術を用いて精度を向上させる取り組みを導入し、話者年齢を推定してもよい。
 推定部15bは、学習時には、例えば適切な乱数や別タスクにて事前学習されたモデルパラメタ集合Θを用いて入力音声から年齢を推定する。このとき、推定部15bは、教師あり学習用データ20と弱教師あり学習用データ30との組み合わせについても指定はしない。例えば、推定部15bは、同じバッチの中に教師あり学習用データ20と弱教師あり学習用データ30を任意の比率で混在させてマルチタスク学習のような形式をとってもよいし、任意のイテレーション/エポックごとの教師あり学習用データ20と弱教師あり学習用データ30の学習を切り替えてもよいし、その他任意の方法を取ってもよい。また、推定部15bは、評価時には、学習済みのパラメタ集合Θ'を用いて入力音声から推定年齢を計算する。
(2.損失関数計算処理)
 図5~図7や数式等を用いて、本実施形態に係る損失関数計算処理の詳細を説明する。図5~図7は、実施形態に係る損失関数計算処理の一例を示す図である。以下では、話者年齢推定処理の概要、分類問題の損失関数計算処理、回帰問題の損失関数計算処理の順に説明する。
(2-1.概要)
 学習装置10の計算部15cは、推定された話者年齢からモデルパラメタ更新のために損失を計算する。以下では、上記の計算処理の前提となる話者年齢推定処理の概要について説明する。ここで、話者年齢の直接推定は、回帰問題もしくは分類問題のどちらでも定義できる。
 回帰問題であれば、年齢値を直接推定するようにモデルfおよびパラメタ集合Θが定義され、推定年齢y^は、下記(1)式のように定義される。ここで、下記(1)式中のxは、入力音声を示す。
Figure JPOXMLDOC01-appb-M000001
 分類問題であれば、1クラス1年齢となるような分類問題としてモデルfおよびパラメタ集合Θが定義され、入力音声xから各年齢yに対する、下記(2)式に示される事後確率が推定される。
Figure JPOXMLDOC01-appb-M000002
 ここで、推定年齢y^は、各年齢yに対する事後確率の最大値が示す年齢を、下記(3)式のように推定結果としてもよいし、事後確率から求められる期待値を、下記(4)式のように推定結果としてもよい。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
(2-2.分類問題)
 以下では、分類問題の損失関数計算処理について、教師あり学習用データ20の損失関数(第2の損失関数)による損失(第2の損失)の計算処理、弱教師あり学習用データ30の損失関数(第1の損失関数)による損失(第1の損失)の計算処理の順に説明する。
(2-2-1.教師あり学習用データ20)
 計算部15cは、教師あり学習用の音声xによるモデル学習時は、損失関数として例えば下記(5)式に示すクロスエントロピー損失を用いて計算する。また、計算部15cは、KL(Kullback-Leibler)ダイバージェンス損失等の他の損失関数を用いてもよい。
Figure JPOXMLDOC01-appb-M000005
 このとき、計算部15cは、下記(6)式に示す正解年齢のみを正解とするハードターゲット(hard target)を正解ターゲットとしてもよいし、下記(7)式に示す正解年齢を平均とする正規分布を近似したソフトターゲット(soft target)を正解ターゲットとしてもよい。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 なお、上記(5)式~(7)式において、T(y)は各年齢yに対するターゲットの値を、Nは正解として定義された全年齢の集合を、σは事前にハイパーパラメタとして設定する正規分布の標準偏差を示す。
(2-2-2.弱教師あり学習用データ30)
 計算部15cは、弱教師あり学習用の音声wによるモデル学習時は、例えば正解ラベルが示す年齢の範囲の中に推定結果が入れば正解とするように損失関数を定義する。このとき、計算部15cは、クロスエントロピー損失等の正解ターゲットとして正解ラベルが示す年齢の範囲が等しく正解である、といったような下記(8)式に示すソフトターゲットを定義してもよいし、分布を仮定せずに事後確率の合計値から損失関数を計算してもよい。
Figure JPOXMLDOC01-appb-M000008
 また、計算部15cは、マルチラベル学習のようにその範囲すべてを正解と定義してもよい。また、計算部15cは、事後確率の合計値を用いる場合はマージンを設けて多少の推定誤りを許容するように学習させてもよい。ここで、計算部15cは、マージンは一意に決定してもよいし、正解の範囲の幅に合わせて流動的に決定してもよい。下記(9)式に、正解ラベルが示す年齢に対する事後確率の合計値を「1.0」とするような損失関数の一例を示す。
Figure JPOXMLDOC01-appb-M000009
 ここでは、上記(9)式は、MSE(Mean Square Error)を損失として用いたが、MAE(Mean Absolute Error)やバイナリクロスエントロピー損失を用いてもよい。また、必要に応じて損失関数に重みを掛けてもよい。
 なお、上記(8)式および(9)式において、Y[w]は弱教師あり学習用の音声wの正解ラベルが示す年齢の集合を示す。例えば、「20代」という正解ラベルの場合、Y[w]∈(20,21,22,23,24,25,26,27,28,29)となる。
 ここで、図5および図6を用いて、正解ラベルが「30代」の場合に、上記(8)式および(9)式によって与えられる損失について説明する。図5および図6は、実施形態に係る損失関数計算処理の一例を示す図である。
 図5(1)は、「w:正解年齢ラベル=30代」の場合の、各年齢に対する予測事後確率を示す。また、図5(2)は、30~39歳を等しく正解とする確率分布を示す。そして、上記(8)式に基づき、事後確率と正解の確率分布でクロスエントロピー損失を計算すると、L=4.41と算出される。
 図6(1)は、「w:正解年齢ラベル=30代」の場合の、各年齢に対する予測事後確率を示す。そして、上記(9)式に基づき、図6(2)の破線で囲んだ事後確率の合計値とマージンの和が1.0となるように損失を計算する。このとき、m=0.2とすると、L=0.41と算出される。
(2-3.回帰問題)
 以下では、回帰問題としての損失関数計算処理について、教師あり学習用データ20の損失関数による計算処理、弱教師あり学習用データ30の損失関数による計算処理の順に説明する。
(2-3-1.教師あり学習用データ)
 計算部15cは、実数値としての話者年齢ラベルをもつデータについては、下記(10)式で示すMSEや、下記(11)式で示すMAEを損失として計算する。また、計算部15cは、下記(12)式で示すε感度損失(ε-insensitive loss)を用いて、一定値(ε)以下の推定誤差を正解とみなすような手法を用いて計算してもよい。
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
(2-3-2.弱教師あり学習用データ)
 計算部15cは、範囲としての話者年齢ラベルをもつデータについては、その範囲の中に推定結果が入れば等しく正解とみなすようにする。例えば、計算部15cは、下記(13)式のように正解の範囲の中に推定結果が入るような損失関数を用いて計算してもよいし、他の任意の損失関数を用いて計算してもよい。また、計算部15cは、必要に応じて、損失関数に重みをかけてもよい。
Figure JPOXMLDOC01-appb-M000013
 ここで、図7を用いて、正解ラベルが「30代」の場合に、上記(13)式によって与えられる損失について説明する。図7は、実施形態に係る損失関数計算処理の一例を示す図である。図7は、横軸に推定年齢の数値を、縦軸に損失の数値を示したグラフであり、上記(13)式によって与えられる損失が、推定年齢「30代」(30~39歳)において最小化されている。
(3.学習アプリケーションの処理)
 図8および図9を用いて、本実施形態に係る学習アプリケーションの処理の詳細を説明する。図8および図9は、実施形態に係る学習アプリケーションの設定画面の一例を示す図である。以下では、学習アプリケーションの設定画面の概要、学習アプリケーションの設定画面の詳細の順に説明する。
(3-1.設定画面の概要)
 図8を用いて、学習アプリケーションの設定画面の概要について説明する。図8(1)で示す入力欄には、例えば、ユーザの操作により任意の値(文字、数値)を記入する。また、上記入力欄には、デフォルト値が入っていることもある。図8(2)で示す入力欄には、ユーザの操作により事前に定められた選択肢からプルダウン等で選択して入力する。図8(3)で示すボタンは、ファイルを探す際に用い、ユーザの操作により「Browse」ボタンでファイル管理アプリケーション等を用いて検索する。
(3-2.設定画面の詳細)
 図9を用いて、学習アプリケーションの設定画面の詳細について説明する。以下では、教師あり学習用データ20の指定、モデルパラメタの指定、弱教師あり学習用データ30の指定、ミニバッチ化の手法の指定、損失関数の指定、マージンの指定、学習のタイミングの指定の順に説明する。
(3-2-1.教師あり学習用データ20の指定)
 図9(1)では、ユーザの操作により通常の教師あり学習用データ20を指定する。ここで、データは任意の方法で指定し、学習プログラムが読み込めるのであれば形式は問わない。例えば、データのパスが記入されたテキストやファイルを読み込んでもいいし、データが配置されたディレクトリを指定して、その配下のデータすべて読み込むようにしてもよい。また、「Label data」には各ファイルの正解が記入されているものとしているが、別のファイルとして読み込まなくても、データパスが記載されたファイルに一緒に正解が記載されていてもよいし、データ名に正解が含まれていてもよい。
(3-2-2.モデルパラメタの指定)
 図9(2)では、ユーザの操作により一般的なニューラルネットワークの学習に必要なパラメタ(バッチサイズ、最適化手法、モデル構造、損失関数の設定等)を指定する。ここでは、通常の教師ありラベルによる学習に必要なパラメタ(損失関数の設計)も指定する。この他にも、例えばL1/L2正則化や、バッチノーマライゼーション(batch normalization)、特徴量の正規化等の技術を取り入れるか指定してもよい。
(3-2-3.弱教師あり学習用データ30の指定)
 図9(3)では、ユーザの操作により弱教師あり教師用データ30を指定する。ここで、学習用・評価用・正解情報について、上述した教師あり学習用データ20と同様にプログラムがデータを読み込めるように指定する。
(3-2-4.ミニバッチ化の手法の指定)
 図9(4)では、ユーザの操作により弱教師あり学習用データ30をミニバッチ化する際の手法を選択する。例えば、プルダウン「value」の場合、バッチサイズを直接指定する。図9(4)では、デフォルトで「64」が入力されている。また、プルダウン「rate」の場合、「Mini-Batch size」に対する割合を指定する。例えば、上記の割合を「0.5」とすると、デフォルト設定なら「value:32」と等しい。さらに、その他、自由な形式でバッチサイズを指定することもできる。
(3-2-5.損失関数の指定)
 図9(5)では、ユーザの操作により弱教師あり学習のための損失関数およびその重み係数を指定する。例えば、{CE,MSE,BCE,MAE,ML}を選択可能とする。なお、上記の「CE」はクロスエントロピー損失、「BCE」はバイナリクロスエントロピー損失、「ML」はマルチラベル学習のためのBCEを表わす。また、損失関数計算処理では、損失関数にはここで指定した重み係数を掛けてから誤差逆伝搬に移行する。図9(5)の例では、MSEを損失として、重み係数=1.0で誤差逆伝搬する。
(3-2-6.マージンの指定)
 図9(6)では、ユーザの操作により損失計算時のマージンを指定する。例えば、「order」の場合、データの年齢幅に関係なく定数として指定する。また、「chance rate」の場合、年齢の範囲に応じて変動させ、倍率を指定する。
(3-2-7.学習のタイミングの指定)
 図9(7)では、ユーザの操作により弱教師あり学習用データ30の学習時のタイミングを指定する。例えば、「same」の場合、通常の教師あり学習用データ20と弱教師あり学習用データ30のミニバッチを結合する。図9(7)の例では、64+64=128となる。また、「iter」の場合、xイテレーションごとに、教師ありの学習→弱教師ありの学習→教師ありの学習・・・と交互に学習する。また、「epoch」の場合、xエポックごとに、教師ありの学習→弱教師ありの学習→教師ありの学習・・・と交互に学習する。さらに、「iter」と「epoch」の場合には,「x」は任意の数を指定するとよい。なお、図9(7)の例では、デフォルト=1としている。
[処理の流れ]
 図10を用いて、学習処理全体の流れを説明する。図10は、本実施形態に係る学習処理全体の流れを示すフローチャートである。以下では、処理全体の流れを説明した上で、各処理の概要を説明する。
(1.処理全体の流れ)
 まず、学習装置10の取得部15aは、学習用データ取得処理を実行する(ステップS101)。次に、学習装置10の推定部15bは、学習用データ年齢推定処理を実行する(ステップS102)。そして、学習装置10の計算部15cは、損失関数計算処理を実行する(ステップS103)。最後に、学習装置10の更新部15dは、モデルパラメタ更新処理を実行し(ステップS104)、処理を終了する。なお、上記のステップS101~S104は、異なる順序で実行することもできる。また、上記のステップS101~S104のうち、省略される処理があってもよい。
(2.各処理の流れ)
 第1に、取得部15aによる学習用データ取得処理について説明する。学習用データ取得処理では、取得部15aは、記憶部14から教師あり学習用データ20や弱教師あり学習用データ30を取得する。このとき、取得部15aは、記憶部14から教師あり学習用データ20や弱教師あり学習用データ30を、記憶部14を参照せず入力部11や通信部13経由で取得してもよい。
 第2に、推定部15bによる学習用データ年齢推定処理について説明する。学習用データ年齢推定処理では、推定部15bは、取得した学習用データに含まれる音声データから特徴量を抽出し、SVRやニューラルネットワーク等の学習モデルを用いて年齢を推定する。なお、学習用データ年齢推定処理の詳細については、上述の[処理の詳細](1.学習用データ年齢推定処理)において説明している。
 第3に、計算部15cによる損失関数計算処理について説明する。損失関数計算処理では、計算部15cは、学習用データとして、教師あり学習用データ20または弱教師あり学習用データ30を判定し、推定手法として、分類問題または回帰問題を判定し、それぞれの学習用データ、推定手法に適した損失関数を用いて損失を計算する。なお、学習用データ年齢推定処理の詳細については、上述の[処理の詳細](2.損失関数計算処理)において説明している。
 第4に、更新部15dによるモデルパラメタ更新処理について説明する。モデルパラメタ更新処理では、更新部15dは、計算部15cによって計算された損失を最小化するように、確率的勾配降下法等を用いてモデルパラメタを更新する。
[実施形態の効果]
 第1に、上述した本実施形態に係る学習処理では、話者の音声データおよび話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データ30を取得し、弱教師あり学習用データ30に含まれる音声データの話者の年齢を推定し、年齢の範囲を示す正解ラベルおよび推定された年齢から、第1の損失関数を用いて第1の損失を計算し、第1の損失を最小化するように、モデルパラメタを更新する。このため、本処理では、音声から話者の年齢をより高い精度で推定することができる。
 第2に、上述した本実施形態に係る学習処理では、話者の音声データおよび話者の年齢を示す正解ラベルを含む教師あり学習用データ20を取得し、教師あり学習用データ20に含まれる音声データの話者の年齢を推定し、年齢を示す正解ラベルおよび推定した年齢から、第2の損失関数を用いて第2の損失を計算し、第2の損失を最小化するように、モデルパラメタを更新する。このため、本処理では、より多くの学習用データを利用することにより、音声から話者の年齢をより高い精度で推定することができる。
 第3に、上述した本実施形態に係る学習処理では、話者の年齢の範囲を示す正解ラベルを含むデータを弱教師あり学習用データ30と判定するとともに第1の損失関数を用いて第1の損失を計算し、話者の年齢を示す正解ラベルを含むデータを教師あり学習用データ20と判定するとともに第2の損失関数を用いて第2の損失を計算する。このため、本処理では、より多くの学習用データを効果的に利用することにより、音声から話者の年齢をより高い精度で推定することができる。
 第4に、上述した本実施形態に係る学習処理では、回帰問題として年齢の数値を推定する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する。このため、本処理では、より多くの学習用データを効果的に利用することにより、回帰モデルに基づいて音声から話者の年齢をより高い精度で推定することができる。
 第5に、上述した本実施形態に係る学習処理では、分類問題として年齢に対応するクラスに分類する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する。このため、本処理では、より多くの学習用データを効果的に利用することにより、分類モデルに基づいて音声から話者の年齢をより高い精度で推定することができる。
〔システム構成等〕
 上記実施形態に係る図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のごとく構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメタを含む情報については、特記する場合を除いて任意に変更することができる。
〔プログラム〕
 また、上記実施形態において説明した学習装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
 図11は、プログラムを実行するコンピュータを示す図である。図11に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
 メモリ1010は、図11に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図11に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図11に例示するように、ディスクドライブ1100に接続される。例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、図11に例示するように、例えば、マウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図11に例示するように、例えばディスプレイ1130に接続される。
 ここで、図11に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えば、ハードディスクドライブ1090に記憶される。
 また、上記実施形態で説明した各種データは、プログラムデータとして、例えば、メモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
 なお、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、請求の範囲に記載された発明とその均等の範囲に含まれるものである。
 10 学習装置
 11 入力部
 12 出力部
 13 通信部
 14 記憶部
 14a 教師あり学習用データ記憶部
 14b 弱教師あり学習用データ記憶部
 15 制御部
 15a 取得部
 15b 推定部
 15c 計算部
 15d 更新部
 20 教師あり学習用データ
 30 弱教師あり学習用データ
 40 音声データ
 100 学習システム

Claims (7)

  1.  話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得部と、
     前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定部と、
     前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第1の損失関数を用いて第1の損失を計算する計算部と、
     前記第1の損失を最小化するように、モデルパラメタを更新する更新部と、
     を備えることを特徴とする学習装置。
  2.  前記取得部は、話者の音声データおよび前記話者の年齢を示す正解ラベルを含む教師あり学習用データを取得し、
     前記推定部は、前記教師あり学習用データに含まれる前記音声データの話者の年齢を推定し、
     前記計算部は、前記年齢を示す正解ラベルおよび推定された前記年齢から、第2の損失関数を用いて第2の損失を計算し、
     前記更新部は、前記第2の損失を最小化するように、前記モデルパラメタを更新する、
     ことを特徴とする請求項1に記載の学習装置。
  3.  前記計算部は、前記話者の年齢の範囲を示す正解ラベルを含むデータを弱教師あり学習用データと判定するとともに前記第1の損失関数を用いて前記第1の損失を計算し、前記話者の年齢を示す正解ラベルを含むデータを教師あり学習用データと判定するとともに前記第2の損失関数を用いて前記第2の損失を計算する、
     ことを特徴とする請求項2に記載の学習装置。
  4.  前記推定部は、回帰問題として年齢の数値を推定する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する、
     ことを特徴とする請求項3に記載の学習装置。
  5.  前記推定部は、分類問題として年齢に対応するクラスに分類する学習モデルおよびモデルパラメタを定義することによって、話者の年齢を推定する、
     ことを特徴とする請求項3に記載の学習装置。
  6.  学習装置によって実行される学習方法であって、
     話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得工程と、
     前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定工程と、
     前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第1の損失関数を用いて第1の損失を計算する計算工程と、
     前記第1の損失を最小化するように、モデルパラメタを更新する更新工程と、
     を含むことを特徴とする学習方法。
  7.  話者の音声データおよび前記話者の年齢の範囲を示す正解ラベルを含む弱教師あり学習用データを取得する取得ステップと、
     前記弱教師あり学習用データに含まれる前記音声データの話者の年齢を推定する推定ステップと、
     前記年齢の範囲を示す正解ラベルおよび推定された前記年齢から、第1の損失関数を用いて第1の損失を計算する計算ステップと、
     前記第1の損失を最小化するように、モデルパラメタを更新する更新ステップと、
     をコンピュータに実行させることを特徴とする学習プログラム。
PCT/JP2021/025361 2021-07-05 2021-07-05 学習装置、学習方法および学習プログラム WO2023281606A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/025361 WO2023281606A1 (ja) 2021-07-05 2021-07-05 学習装置、学習方法および学習プログラム
JP2023532904A JPWO2023281606A1 (ja) 2021-07-05 2021-07-05

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/025361 WO2023281606A1 (ja) 2021-07-05 2021-07-05 学習装置、学習方法および学習プログラム

Publications (1)

Publication Number Publication Date
WO2023281606A1 true WO2023281606A1 (ja) 2023-01-12

Family

ID=84800444

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/025361 WO2023281606A1 (ja) 2021-07-05 2021-07-05 学習装置、学習方法および学習プログラム

Country Status (2)

Country Link
JP (1) JPWO2023281606A1 (ja)
WO (1) WO2023281606A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128235A (zh) * 2019-12-05 2020-05-08 厦门快商通科技股份有限公司 一种基于语音的年龄预测方法和装置以及设备
CN111210840A (zh) * 2020-01-02 2020-05-29 厦门快商通科技股份有限公司 一种年龄预测方法和装置以及设备
CN111261196A (zh) * 2020-01-17 2020-06-09 厦门快商通科技股份有限公司 一种年龄预估方法和装置以及设备
CN111274882A (zh) * 2020-01-11 2020-06-12 上海悠络客电子科技股份有限公司 基于弱监督的人脸年龄自动估计方法
CN112786029A (zh) * 2020-12-25 2021-05-11 苏州思必驰信息科技有限公司 使用弱监督数据训练vad的方法及装置
CN112829705A (zh) * 2021-01-22 2021-05-25 的卢技术有限公司 一种基于车内遗留人员特征的车辆控制管理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128235A (zh) * 2019-12-05 2020-05-08 厦门快商通科技股份有限公司 一种基于语音的年龄预测方法和装置以及设备
CN111210840A (zh) * 2020-01-02 2020-05-29 厦门快商通科技股份有限公司 一种年龄预测方法和装置以及设备
CN111274882A (zh) * 2020-01-11 2020-06-12 上海悠络客电子科技股份有限公司 基于弱监督的人脸年龄自动估计方法
CN111261196A (zh) * 2020-01-17 2020-06-09 厦门快商通科技股份有限公司 一种年龄预估方法和装置以及设备
CN112786029A (zh) * 2020-12-25 2021-05-11 苏州思必驰信息科技有限公司 使用弱监督数据训练vad的方法及装置
CN112829705A (zh) * 2021-01-22 2021-05-25 的卢技术有限公司 一种基于车内遗留人员特征的车辆控制管理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KITAGISHI, YUKI ET AL.: "Speaker age estimation by multi-task learning of gender estimation", PROCEEDINGS OF THE 2020 AUTUMN MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN; SEPTEMBER 9-11, 2020, ACOUSTICAL SOCIETY OF JAPAN, JP, 26 August 2020 (2020-08-26) - 11 September 2020 (2020-09-11), JP, pages 909 - 910, XP009542772 *
KRITIKA SINGH; VIMAL MANOHAR; ALEX XIAO; SERGEY EDUNOV; ROSS GIRSHICK; VITALIY LIPTCHINSKY; CHRISTIAN FUEGEN; YATHARTH SARAF; GEOF: "Large scale weakly and semi-supervised learning for low-resource video ASR", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 7 August 2020 (2020-08-07), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081735404 *
TAWARA, NAOHIRO ET AL.: "Evaluation of the use of multi-modal data to estimate speaker's age", PROCEEDINGS OF THE 2020 AUTUMN MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN; SEPTEMBER 9-11, 2020, 26 August 2020 (2020-08-26) - 11 September 2020 (2020-09-11), pages 905 - 906, XP009542771 *

Also Published As

Publication number Publication date
JPWO2023281606A1 (ja) 2023-01-12

Similar Documents

Publication Publication Date Title
US10475442B2 (en) Method and device for recognition and method and device for constructing recognition model
US9728183B2 (en) System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification
US10580432B2 (en) Speech recognition using connectionist temporal classification
EP3640934B1 (en) Speech recognition method and apparatus
US10720174B2 (en) Sound source separation method and sound source separation apparatus
JP2020056982A (ja) 音声評価方法、装置、機器及び読み取り可能な記憶媒体
WO2017218465A1 (en) Neural network-based voiceprint information extraction method and apparatus
JP2019528476A (ja) 音声認識方法及び装置
US20160241346A1 (en) Source separation using nonnegative matrix factorization with an automatically determined number of bases
RU2720359C1 (ru) Способ и оборудование распознавания эмоций в речи
JP6927419B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
US20190385628A1 (en) Voice conversion / voice identity conversion device, voice conversion / voice identity conversion method and program
Keren et al. Calibrated prediction intervals for neural network regressors
JP2019197203A (ja) 音声認識モデルを個人化する方法及び装置
CN111326136A (zh) 语音处理方法、装置、电子设备及存储介质
CN111653274B (zh) 唤醒词识别的方法、装置及存储介质
CN110459242A (zh) 变声检测方法、终端及计算机可读存储介质
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
CN109817222A (zh) 一种年龄识别方法、装置及终端设备
US20190051314A1 (en) Voice quality conversion device, voice quality conversion method and program
KR20190136578A (ko) 음성 인식 방법 및 장치
WO2020098107A1 (zh) 基于检测模型的情绪分析方法、装置及终端设备
WO2020216286A1 (zh) 教师风格预测模型的训练方法及计算机存储介质
WO2023281606A1 (ja) 学習装置、学習方法および学習プログラム
JP7112348B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21949242

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023532904

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE