WO2024038560A1 - 学習装置、推定装置、学習方法、及びプログラム - Google Patents

学習装置、推定装置、学習方法、及びプログラム Download PDF

Info

Publication number
WO2024038560A1
WO2024038560A1 PCT/JP2022/031263 JP2022031263W WO2024038560A1 WO 2024038560 A1 WO2024038560 A1 WO 2024038560A1 JP 2022031263 W JP2022031263 W JP 2022031263W WO 2024038560 A1 WO2024038560 A1 WO 2024038560A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
learning
conversion
age
model
Prior art date
Application number
PCT/JP2022/031263
Other languages
English (en)
French (fr)
Inventor
佑樹 北岸
健一 森本
厚徳 小川
直弘 俵
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/031263 priority Critical patent/WO2024038560A1/ja
Publication of WO2024038560A1 publication Critical patent/WO2024038560A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • the present invention relates to a technology for automatically estimating age from voice.
  • DNN Deep Neural Network
  • Data expansion may be performed during DNN model learning. Data expansion is expected to play a role in achieving estimation independent of the recording environment by pseudo-reproducing various recording environments, and inflating the amount of training data in DNN model training, which requires a large amount of training data. ing. For example, in the case of audio, data is augmented by simulating a wide variety of recording environments by adding noise and adding reverberation, with the hope that the model will operate robustly in a wide variety of environments.
  • Non-Patent Document 1 In speech recognition, which transcribes linguistic information spoken by a speaker from audio, it is necessary to recognize the same characters for the same utterance content, regardless of the characteristics of the speaker (speaker characteristics) or the recording environment. In addition to the aforementioned data expansion using noise and reverberation, speech speed may be changed (Non-Patent Document 1).
  • Non-Patent Document 3 the speaker's age is related to various acoustic features such as speaking speed and pitch (Non-Patent Document 3), and it is unclear how the age will change when such speech conversion is performed (i.e., It is not certain how old the voice is. Therefore, in the speaker age estimation technique, it is difficult to use the data expansion method disclosed in Non-Patent Document 2.
  • the present invention has been made in view of the above points, and it is an object of the present invention to provide a technology for realizing data expansion of voice data used for learning a model that estimates age from voice.
  • a learning device that learns a model for estimating age from voice, a conversion unit that obtains converted audio by performing audio conversion processing on the unconverted audio; an extraction unit that extracts a feature amount of the pre-conversion voice and a feature amount of the post-conversion voice;
  • a learning device comprising: a learning unit that learns parameters of the model using feature amounts of the pre-conversion speech and feature amounts of the post-conversion speech by setting a correct age for the post-conversion speech.
  • FIG. 1 is a diagram showing a configuration example of an estimation device 100.
  • FIG. 3 is a flowchart for explaining an example of the operation of the estimation device 100.
  • 5 is a diagram showing an example of learning data stored in the database unit 110.
  • FIG. It is a diagram showing the flow of learning. It is a diagram showing the flow of learning. It is a figure which shows the example of the value of a loss function in contrastive learning. It is a diagram showing the flow of learning.
  • 2 is a diagram illustrating an example configuration of a learning device 200.
  • FIG. 3 is a diagram showing a configuration example of an estimation device 300.
  • FIG. It is a diagram showing an example of the hardware configuration of the device.
  • Non-Patent Document 3 It is generally known that the pitch and speed of speech change with age (Non-Patent Document 3).
  • voice conversion is performed to change the age characteristics, and the correct age associated with the voice is also changed at the same time, thereby achieving data expansion.
  • learning based on data expansion is performed using "contrastive learning” or “learning by self-labeling,” which will be described later. This can be expected to improve model accuracy.
  • FIG. 1 shows a configuration example of an estimation device 100 in this embodiment.
  • the estimation device 100 includes a database section 110, an age/gender conversion section 120, a feature extraction section 130, a parameter learning section 140, a parameter holding section 150, and a voice evaluation section 160.
  • the age conversion unit 120, the feature extraction unit 130, and the parameter learning unit 140 may be referred to as a conversion unit, an extraction unit, and a learning unit, respectively.
  • the estimation device 100 shown in FIG. 1 is also a device that learns a model, it may also be called a "learning device.”
  • the database unit 110 may be located outside the estimation device 100.
  • S101 Preparation of learning audio data>
  • learning data used for model learning is stored in the database unit 110.
  • FIG. 3 shows an example of learning data stored in the database unit 110.
  • the learning data must be given a data ID (voice ID) and a correct age (label) as minimum information.
  • voice ID voice ID
  • label correct age
  • the voice ID, speaker age (correct age), and voice data are stored in the database unit 110 as learning data.
  • the database unit 110 may also hold speaker IDs and other linguistic or non-linguistic information. Furthermore, data expansion (noise superimposition, reverberation, etc.) that does not impair age characteristics may be implemented as necessary.
  • each audio s i has An index number i is assigned as a data ID.
  • Each voice is given the actual age y i of the speaker of that voice as a real value.
  • S102 Data expansion>
  • the age conversion unit 120 performs data expansion by converting each of the voices and their correct ages held in the database unit 110.
  • voice conversion Any commercially available technology may be used for voice conversion. For example, by directly manipulating the audio waveform, conversion of the average and variance of sound pressure, conversion of time length (including pitch adjustment), etc. are performed. Furthermore, the pitch average and standard deviation may be converted using speech synthesis technology. Note that the voice conversion method is not limited to these.
  • the label of the voice after voice conversion (that is, the correct age)
  • the label of the voice after voice conversion is younger than the label of the voice before conversion or not. If you want to determine only whether the voice is old, you can add/subtract 1 to the label of the original voice, or you can go to extremes such as 0 years old or 100 years old, or if it indicates whether the voice is young or old. It may be other than these.
  • the determination (assuming) of whether the label of the converted voice is younger/older than the label of the voice before conversion may be performed manually or automatically using a trained model.
  • the label may have no value here.
  • s' i be a voice obtained by performing arbitrary conversion on the voice s i
  • y ' i be its label.
  • the feature extraction unit 130 acquires an arbitrary acoustic feature amount from the voice held in the database unit 110 and the voice generated by the age conversion unit 120 using commercially available technology. For example, time-series acoustic features such as log-mel spectrogram, mel-frequency cepstrum coefficient (MFCC), and fundamental frequency may be acquired, or any combination of multiple acoustic features may be acquired. Furthermore, a feature amount that can be used for age estimation and is compressed time-series information, such as a speaker recognition vector, may be obtained, or the speech waveform itself may be used as the feature amount.
  • time-series acoustic features such as log-mel spectrogram, mel-frequency cepstrum coefficient (MFCC), and fundamental frequency may be acquired, or any combination of multiple acoustic features may be acquired.
  • MFCC mel-frequency cepstrum coefficient
  • a feature amount that can be used for age estimation and is compressed time-series information, such as a speaker recognition vector may be obtained, or the
  • an 80-dimensional log-mel spectrogram is extracted from the speech s i and standardized using the average and variance of the entire training data, and the feature quantity x i is defined as the feature quantity x i. Further, the feature quantity x ' i is extracted from the voice s' i converted by the age conversion unit 120 in the same procedure as x i.
  • Model learning> In S104, the parameter learning unit 140 performs learning of a model for age estimation. Model learning will be explained in three parts: (1) basic part, (2) model learning for age-converted speech, (2-1) contrastive learning, and (2-2) learning by self-labeling. do. (2-1) and (2-2) are specific examples of (2).
  • the parameter learning unit 140 uses the feature quantities extracted from the voice originally stored in the database unit 110 and the feature quantities extracted from the voice generated by the age/gender conversion unit 120 to create a model. Learn.
  • a neural network model eg, DNN model
  • a model for age estimation also called an age estimator
  • the model for age estimation is not limited to a neural network model.
  • a DNN model when using time series features such as log-mel spectrogram, in addition to a model structure that can handle time series features such as recurrent neural network (RNN), time delay neural network (TDNN), and transformer. , using pooling such as averaging and fully connected layers. Further, when using a feature amount such as a speaker expression vector in which information in the temporal direction has already been reduced, a fully connected layer or the like is used as the model structure.
  • RNN recurrent neural network
  • TDNN time delay neural network
  • transformer using pooling such as averaging and fully connected layers.
  • a feature amount such as a speaker expression vector in which information in the temporal direction has already been reduced
  • a fully connected layer or the like is used as the model structure.
  • DNNs with model structures other than these may be used.
  • the output of the model can be used as a regression problem to directly estimate age, or as a classification problem with one class per year (e.g., a classification problem with 101 classes from 0 to 100 years old), where the posterior probability is maximized.
  • a method may be used in which the class (age) or the expected value of the posterior probability is used as the estimated age.
  • the model is trained using an arbitrary loss function such as cross entropy or KL divergence so that the predicted posterior probability and the correct probability become close.
  • the correct answer label may be set by using a 1-hot target, which is generally used in classification problems, so that only a certain 1 year old is the correct answer, or by using the standard deviation of an arbitrary value with the average value as the correct answer age.
  • the generated normal distribution may be used as the correct target.
  • the model is trained to measure the error between the correct age and the predicted age using an arbitrary loss function such as an L1 loss function or an L2 loss function.
  • the age based on the maximum value or expected value of the posterior probability, rather than the posterior probability distribution is directly compared with the correct age, and L1 and L2 losses are calculated as in the case of regression problems.
  • the model may be trained using
  • model parameters are optimized for each mini-batch of arbitrary size using these loss functions by a general learning method, such as stochastic gradient descent.
  • model learning may be performed using techniques that are considered effective in commercial learning (for example, batch normalization, L1/L2 regularization, dropout, etc.).
  • the output of the model is defined as a classification problem of 101 classes with one classification from 0 to 100 years old, and the expected value of the posterior probability is assumed to be the estimated age.
  • the parameter learning unit 140 generates a correct target N (y m , ⁇ 2 ) that approximates a normal distribution with an arbitrary standard deviation ⁇ with the correct age y m as the average, and cross-entropy L shown in the following formula.
  • CE is used as a loss function.
  • M is the mini-batch size
  • m is the index number within the mini-batch
  • C is the maximum age value (100)
  • c is the index number of the class
  • P(x m , ⁇ ) is the posterior probability
  • is the DNN is a set of parameters.
  • FIG. 4 shows the flow of learning performed by the parameter learning unit 140.
  • the parametric learning unit 120 obtains the posterior probability P (x m , ⁇ ) from the model by inputting the feature quantity x m into the model (DNN), and obtains the correct target N generated from y m .
  • (y m , ⁇ 2 ) is used to calculate the loss, and the parameters are updated so that the loss becomes smaller.
  • the predicted age ⁇ y is not the age to which the maximum value of the posterior probability corresponds, but is determined as the expected value of the posterior probability as follows.
  • the symbol written at the beginning of a letter is written before the letter. " ⁇ y" is an example.
  • the correct age is newly redefined by the parameter learning unit 140 in consideration of the change in age. That is, the parameter learning unit 140 newly sets the correct age.
  • first method and second method each of the following two types of methods (first method and second method) will be explained.
  • the description is limited to speaker age estimation, but multi-task learning may be performed with arbitrary tasks such as speaker personality (speaker recognition), gender, height, and voice recognition. Note that “/" means “or”.
  • First method A method that sets an assumption that the voice has been converted to a younger/older voice than the original voice, and performs learning so that estimation (learning) is performed according to that assumption.
  • Second method A method that newly defines the correct answer using learned model parameters for speech whose age has changed.
  • the parameter conversion unit 140 always provides a combination of two or more of the feature quantities of the pre-conversion speech and the feature quantities of the post-conversion speech to the model to be learned, and Estimate the age of each. For example, when it is assumed that the post-conversion speech is younger/older than the pre-conversion speech, the following loss function L ctr that satisfies that assumption is used. As shown below, margin is used to indicate the age range.
  • L ctr 0 when ⁇ y m and ⁇ y' m have the same value, and it is not possible to make an assumption that the converted voice is younger/older than the original voice.
  • a restriction is set that the original voice is changed by at least ⁇ margin according to the margin (margin>0).
  • FIG. 5 shows a learning flow using L ctr
  • the feature x m and the feature x ' m of the converted voice are input to the model, and the respective posterior probabilities output from the model, the age y m of the pre-converted voice, and The loss is calculated using the above formula using the assumed age y'm of the converted speech, and the parameters are updated so that the loss becomes smaller.
  • the loss becomes large when the predicted age of the converted voice is smaller than y m +0.5, and the predicted age of the converted voice is smaller than y m +0.5.
  • the loss becomes 0 when is larger than y m +0.5.
  • the loss becomes large if the predicted age of the converted voice is greater than y m -0.5, and the predicted age of the converted voice is y m -0. If it is smaller than 5, the loss becomes 0.
  • the age in the range that matches the assumption that the converted voice is younger or older than the pre-converted voice is newly set as the correct age of the converted voice. This means that it has been set (defined).
  • the absolute error in age is used as a loss, but instead of the absolute error, a squared error or the like may be used as the loss.
  • a squared error or the like may be used as the loss.
  • only one converted voice is prepared, but two or more converted voices may be prepared.
  • the margin may be fixed or may be varied.
  • the parameter learning unit 140 executes such contrastive learning and normal age estimation learning in any combination. For example, like multi-task learning, learning may be performed using a weighted sum ( ⁇ L CE + (1- ⁇ )L ctr1 ) using arbitrary weighting coefficients (0 ⁇ 1), or every epoch or once One-sided loss may be used at every arbitrary interval, such as every iteration. Further, this contrastive learning may be used as preliminary learning.
  • loss functions are just examples; it can be assumed that the voice is estimated to be younger/older before and after voice conversion, and if the loss is reduced when estimation is performed according to that assumption, then what is the loss function?
  • a loss function may also be used.
  • the parameter learning unit 140 uses a model parameter set ⁇ that has been trained using any commercially available technology in order to label the acoustic features of the converted speech.
  • the parameter learning unit 140 calculates a loss function L slf shown below.
  • L slf for the acoustic feature x m of the voice before conversion, the target using the correct age y m is set as the correct target, and for the acoustic feature x' m of the voice after conversion, ⁇
  • FIG. 7 shows a learning flow when only the converted speech is used.
  • the learning flow for the pre-conversion speech is the same as in FIG. 4.
  • the estimation result from x′ m by the model using the trained model parameter set ⁇ is set as the correct target, and the loss is calculated using the correct target and the posterior probability obtained by the model to be learned.
  • the parameters of the model to be trained are updated to reduce the loss.
  • the above learning method is an example, and any method may be used as long as it can generate reliable correct labels and learn the model.
  • the parameter learning unit 120 stores the learned parameter set ⁇ ′ in the model parameter holding unit 150.
  • the speech evaluation section 160 estimates the age of the speaker of the unknown speech using the model to which ⁇ ′ stored in the model parameter holding section 150 is applied.
  • the unknown voice is first input to the feature extraction section 130, and the feature extraction section 130 outputs an acoustic feature amount, which is input to the voice evaluation section 160.
  • the voice evaluation unit 160 can estimate the age from the acoustic feature x unk of the voice of the unknown speaker unk using the following formula using a model to which the learned parameter ⁇ ' is applied.
  • estimation device 100 shown in FIG. 1 includes both a learning function and an estimation function, such a configuration is only an example.
  • a learning device 200 that learns a model and an estimation device 300 that estimates age from voice using the model learned by the learning device 200 may be provided separately.
  • FIG. 8 shows a configuration example of the learning device 200.
  • the learning device 200 includes a database section 110, an age conversion section 120, a feature extraction section 130, and a parameter learning section 140.
  • the database unit 110 may be located outside the learning device 200.
  • FIG. 9 shows a configuration example of the estimation device 300.
  • the estimation device 300 includes a feature extraction section 130, a parameter holding section 150, and a speech evaluation section 160.
  • the functions of each part in FIGS. 8 and 9 are as already explained.
  • the parameters learned by the learning device 200 are stored in the parameter holding unit 150 of the estimation device 300.
  • the voice evaluation unit 160 of the estimation device 300 estimates the age from the voice using a model to which the parameters are applied.
  • Any of the devices (estimation device, learning device) described in this embodiment can be realized, for example, by causing a computer to execute a program.
  • This computer may be a physical computer or a virtual machine on the cloud.
  • the device can be realized by using hardware resources such as a CPU and memory built into a computer to execute a program corresponding to the processing performed by the device.
  • the above program can be recorded on a computer-readable recording medium (such as a portable memory) and can be stored or distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
  • FIG. 10 is a diagram showing an example of the hardware configuration of the computer.
  • the computer in FIG. 10 includes a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, an output device 1008, etc., which are interconnected by a bus BS.
  • the computer may further include a GPU.
  • a program that realizes processing on the computer is provided, for example, on a recording medium 1001 such as a CD-ROM or a memory card.
  • a recording medium 1001 such as a CD-ROM or a memory card.
  • the program is installed from the recording medium 1001 to the auxiliary storage device 1002 via the drive device 1000.
  • the program does not necessarily need to be installed from the recording medium 1001, and may be downloaded from another computer via a network.
  • the auxiliary storage device 1002 stores installed programs as well as necessary files, data, and the like.
  • the memory device 1003 reads and stores the program from the auxiliary storage device 1002 when there is an instruction to start the program.
  • the CPU 1004 implements functions related to the device according to programs stored in the memory device 1003.
  • the interface device 1005 is used as an interface for connecting to a network or the like.
  • a display device 1006 displays a GUI (Graphical User Interface) and the like based on a program.
  • the input device 1007 includes a keyboard, a mouse, buttons, a touch panel, or the like, and is used to input various operation instructions.
  • An output device 1008 outputs the calculation result.
  • the technology described in this embodiment can realize data expansion of voice data used for learning a model that estimates age from voice.
  • voice conversion is performed to change the age, and the correct age associated with the voice is also changed in accordance with the conversion.
  • data expansion methods that could not be used in the prior art for data expansion in speaker age estimation due to age changes can be used by redefining the correct label.
  • the amount of training data increases, making it possible to improve the accuracy of the model.
  • a learning device that learns a model for estimating age from voice, memory and at least one processor connected to the memory; including; The processor includes: Obtain the converted audio by performing audio conversion processing on the pre-converted audio, extracting the feature amount of the pre-conversion voice and the feature amount of the post-conversion voice; A learning device that learns parameters of the model using feature amounts of the pre-conversion speech and feature amounts of the post-conversion speech by setting a correct age for the post-conversion speech. (Additional note 2) An assumption is made that the converted voice is younger or older than the pre-conversion voice, and the processor learns the parameters of the model so that estimation is performed according to that assumption. learning device.
  • the processor learns the parameters of the model by estimating the age of the converted voice using the trained model and using the estimation result as the correct age of the converted voice.
  • learning device An estimation device that estimates age from voice using a model learned by the learning device according to any one of Additional Items 1 to 3.
  • a computer-implemented learning method for learning a model for estimating age from speech comprising: a conversion step of obtaining post-conversion speech by performing speech conversion processing on the pre-conversion speech; an extraction step of extracting a feature amount of the pre-conversion voice and a feature amount of the post-conversion voice;
  • a learning method comprising: a learning step of learning parameters of the model using feature quantities of the pre-conversion speech and feature quantities of the post-conversion speech by setting a correct age for the post-conversion speech.
  • a non-temporary storage medium storing a program for causing a computer to function as a learning device according to any one of Supplementary Notes 1 to 3.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

音声から年齢を推定するためのモデルを学習する学習装置において、変換前音声に対して音声変換処理を施すことにより変換後音声を取得する変換部と、前記変換前音声の特徴量と前記変換後音声の特徴量を抽出する抽出部と、前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する学習部とを備える。

Description

学習装置、推定装置、学習方法、及びプログラム
 本発明は、音声から年齢を自動的に推定する技術に関するものである。
 従来から、人間の音声から性別や年齢などの身体的な非言語情報を自動推定しようとする技術の研究開発が行われてきた。年齢の自動推定には例えばDNN(Deep Neural Network)が使用される。
 DNNのモデル学習時にはデータ拡張が行われることがある。データ拡張により、様々な収録環境を疑似的に再現することで収録環境に依存しない推定を実現する、大量の学習データが必要なDNNのモデル学習において学習データ数を水増しする、といった役割が期待されている。例えば音声では雑音の重畳や残響の付与によって多種多様な収録環境をシミュレーションし、モデルが多種多様な環境で頑健に動作することを期待してデータ拡張が行われる。
 音声から話者が話した言語情報を文字起こしする音声認識においては、話者の特徴(話者性)や収録環境に関係なく、同じ発話内容に対しては同じ文字を認識する必要があるため、前述の雑音や残響を用いたデータ拡張に加えて話速などを変化させることがある(非特許文献1)。
 しかし、話者認識技術や話者年齢推定技術においては、このようなデータ拡張は"誰(どんな人)が話したのか"という情報(話者性・年齢性)を変化させる可能性があるために、データ拡張時に正解ラベル(話者IDや話者年齢)をそのままで用いることはできない。
 話者認識技術ではDNNの学習において話者を分類するようなモデル学習を行うために、音声変換により話者性をあえて変化させて別の話者による音声としてデータ拡張する方法がある(非特許文献2)。
"Audio Augmentation for Speech Recognition" by T. Ko, V. Peddinti, D. Povey and S. Khudanpur, in INTERSPEECH (2015). doi: 10.21437/Interspeech.2015-711 "Speaker Augmentation and Bandwidth Extension for Deep Speaker Embedding" by H. Yamamoto, K. A. Lee, K. Okabe and T. Koshinaka, in INTERSPEECH (2019). doi: 10.21437/Interspeech.2019-1508 "音声は何を伝えているか - 感情・パラ言語情報・個人性の音声科学 -",日本音響学会(編),2014.
 話者年齢推定技術において、非特許文献2に開示された音声変換の方法でデータ拡張を行うことが考えられる。しかし、話者年齢は話速やピッチといった様々な音響特徴量が関与し(非特許文献3)、かつ、このような音声変換を実施した場合に年齢性がどのように変化するのか(つまり、何歳の音声となるのか)は定かではない。よって、話者年齢推定技術において、非特許文献2に開示されたデータ拡張法を用いることは難しい。
 本発明は上記の点に鑑みてなされたものであり、音声から年齢を推定するモデルの学習に使用する音声データのデータ拡張を実現するための技術を提供することを目的とする。
 開示の技術によれば、音声から年齢を推定するためのモデルを学習する学習装置であって、
 変換前音声に対して音声変換処理を施すことにより変換後音声を取得する変換部と、
 前記変換前音声の特徴量と前記変換後音声の特徴量を抽出する抽出部と、
 前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する学習部と
 を備える学習装置が提供される。
 開示の技術によれば、音声から年齢を推定するモデルの学習に使用する音声データのデータ拡張を実現できる。
推定装置100の構成例を示す図である。 推定装置100の動作例を説明するためのフローチャートである。 データベース部110に格納される学習用データの例を示す図である。 学習のフローを示す図である。 学習のフローを示す図である。 対照的な学習における損失関数の値の例を示す図である。 学習のフローを示す図である。 学習装置200の構成例を示す図である。 推定装置300の構成例を示す図である。 装置のハードウェア構成例を示す図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 (実施の形態の概要)
 本実施の形態では、音声から年齢を推定するモデルの学習において、年齢性が変化するような音声変換を実施し、新たに正解年齢を再定義すること(つまり、正解年齢を設定すること)でデータ拡張を行う。
 一般的には加齢によって音声の高さや話速が変化することが知られている(非特許文献3)。本実施の形態ではデータ拡張としてこういった年齢性を変化させる音声変換を実施し、その音声に紐づく正解年齢も同時に変化させることでデータ拡張を実現する。具体的には、後述する「対照的な学習」あるいは「自己ラベル付与による学習」により、データ拡張に基づく学習を行う。これによりモデル精度を向上させることが期待できる。
 (装置構成)
 図1に、本実施の形態における推定装置100の構成例を示す。図1に示すように、推定装置100は、データベース部110、年齢性変換部120、特徴抽出部130、パラメタ学習部140、パラメタ保持部150、及び音声評価部160を備える。
 なお、年齢性変換部120、特徴抽出部130、パラメタ学習部140をそれぞれ、変換部、抽出部、学習部と呼んでもよい。また、図1に示す推定装置100は、モデルを学習する装置でもあるので、「学習装置」と呼んでもよい。また、データベース部110は推定装置100の外部にあってもよい。
 (推定装置100の動作)
 上記構成を備える推定装置100の動作例を図2のフローチャートの手順に沿って説明する。
 <S101:学習用音声データの準備>
 S101において、データベース部110に、モデル学習に用いる学習用データを格納する。図3に、データベース部110に格納される学習用データの例を示す。
 学習用データには最低限の情報として、データID(音声ID)と正解年齢(ラベル)が付与されている必要がある。図3の例では、学習用データとして、音声ID、話者年齢(正解年齢)、及び音声のデータが、データベース部110に格納される。
 上記の他にも、話者IDやその他の言語情報あるいは非言語情報がデータベース部110に保持されていてもよい。また、必要に応じて年齢性を損なわないデータ拡張(雑音重畳、残響付与など)を実施してもよい。
 より具体的には、図3に示す例において、I個の音声データ(サンプリング周波数16kHz、16bit量子化、1chのlinear PCMのI名の話者による発話音声)があり、各音声sにはデータIDとしてインデックス番号iが付与されている。各音声にはその音声の話者の実年齢yが実数値として付与されている。
 <S102:データ拡張>
 S102において、年齢性変換部120が、データベース部110に保持された音声とその正解年齢それぞれに対して変換を行うことによりデータ拡張を実施する。
 音声変換には市中の任意の技術を用いることとしてよい。例えば、音声波形の直接操作により、音圧の平均や分散の変換、時間長(ピッチ調整有/無も含めて)の変換、などを実施する。また、音声合成技術を用いてピッチの平均や標準偏差の変換を実施してもよい。なお、音声変換の方法についてはこれらに限定されない。
 音声変換後の音声のラベル(つまり、正解年齢)については、例えば後述する「対照的な学習」において説明するように、変換後の音声のラベルが変換前の音声のラベルと比べて若いか/老いたかだけを判定する場合、元の音声のラベルに1を加算/減算することとしてもよいし、極端に0歳もしくは100歳などとしてもよいし、若いか/老いたかを示すものであればこれら以外であってもよい。
 変換後の音声のラベルが変換前の音声のラベルと比べて若いか/老いたかの判定(仮定)については、人が行ってもよいし、学習済みモデルを用いて自動的に行ってもよい。
 また、後述する「自己ラベル付与による学習」において説明するように、学習済モデルを用いて新たにラベルを付けなおす場合は、ここではラベルは値無しとしてもよい。
 ここでは、例として、音声sに対して任意の変換を実施した音声をs´とし、そのラベルをy´とする。
 <S103:特徴抽出>
 S103において、特徴抽出部130は、データベース部110に保持された音声及び年齢性変換部120で生成された音声から、市中技術により任意の音響特徴量を取得する。例えばlog-mel spectrogramやmel-frequency cepstrum coefficient(MFCC)、基本周波数といった時系列の音響特徴量を取得してもよいし、複数の音響特徴量の任意の組み合わせを取得してもよい。また、話者認識ベクトルなどの、年齢推定に用いることが可能、かつ、時系列情報を圧縮した特徴量を取得してもよいし、音声波形そのものを特徴量として利用してもよい。
 ここでは、例として、音声sから80次元のlog-mel spectrogramを抽出し、学習データ全体の平均および分散を用いて標準化されたものを特徴量xとする。また、年齢性変換部120にて変換された音声s´からxと同様の手順で抽出したものを特徴量x´とする。
 <S104:モデル学習>
 S104において、パラメタ学習部140が、年齢推定のためのモデルの学習を行う。モデル学習については、(1)基礎部分、(2)年齢性変換済音声に対するモデル学習、(2-1)対照的な学習、及び、(2-2)自己ラベル付与による学習、に分けて説明する。(2-1)と(2-2)は(2)の具体例である。
 (1)基礎部分
 パラメタ学習部140では、データベース部110にもともと保持されている音声から抽出された特徴量、及び、年齢性変換部120で生成された音声から抽出された特徴量を用いてモデルを学習する。
 例えば、年齢推定のためのモデル(年齢推定器と呼んでもよい)としてニューラルネットワークのモデル(例:DNNモデル)を使用することができる。ただし、年齢推定のためのモデルはニューラルネットワークのモデルに限定されない。
 DNNモデルを用いる場合において、log-mel spectrogramのような時系列特徴量を用いる場合はrecurrent neural network(RNN)やtime delay neural network(TDNN)、transformerといった時系列特徴量を扱えるモデル構造に加えて、平均などによるPoolingと全結合層を用いる。また、話者表現ベクトルのような既に時間方向の情報が削減された特徴量を用いる場合には、モデル構造として全結合層などを用いる。ただし、これらは例であり、これら以外のモデル構造のDNNを使用してもよい。
 モデルの出力は回帰問題として年齢を直接推定する方法としてもよいし、1歳1クラスとする分類問題(例:0-100歳までの101クラスの分類問題)として、事後確率が最大となったクラス(年齢)や事後確率の期待値を推定年齢とする方法を用いてもよい。
 分類問題としてモデルを定義する場合、例えば、予測事後確率と正解確率を近づけるように、交差エントロピーやKLダイバージェンスなどの任意の損失関数を用いてモデルを学習する。この時、正解ラベルは一般的に分類問題で用いられる1-hotターゲットを用いて、ある1歳のみを正解とするようにしてもよいし、平均値を正解年齢として任意の値の標準偏差によって生成される正規分布を正解ターゲットとしてもよい。
 また、回帰問題としてモデルを定義する場合、例えば、正解年齢と予測年齢の誤差をL1損失関数やL2損失関数などの任意の損失関数を用いてモデルを学習する。
 なお、分類問題としてモデルを定義する場合でも、事後確率分布ではなくて事後確率の最大値や期待値に基づく年齢を直接正解年齢と比較して、回帰問題の場合と同様にL1、L2損失を用いてモデルを学習してもよい。
 モデルパラメタについては、これら損失関数を用いて一般的な学習法、例えば確率的勾配降下法によって、例えば任意の大きさのミニバッチごとに最適化する。その他、市中の学習において有効とされている技術(例えばバッチノーマライゼーション、L1/L2正則化、ドロップアウトなど)を用いたモデル学習を実施してもよい。
 ここでは、例として、0歳から100歳の1クラス1分類の101クラスの分類問題としてモデルの出力を定義し、事後確率の期待値を推定年齢とする。パラメタ学習部140は、学習時には正解年齢yを平均とした、任意の標準偏差σによる正規分布を近似した正解ターゲットN(y,σ)を生成し、下記の式に示す交差エントロピーLCEを損失関数として用いる。
Figure JPOXMLDOC01-appb-M000001
 上記の式において、Mはミニバッチサイズ、mはミニバッチ内のインデックス番号、Cは年齢の最大値(100)、cはクラスのインデックス番号、P(x,Ω)は事後確率、ΩはDNNのパラメタ集合である。
 図4に、パラメタ学習部140が実行する学習のフローを示す。図4に示すとおり、パラタ学習部120は、特徴量xをモデル(DNN)に入力することで、モデルから事後確率P(x,Ω)を取得し、yから生成した正解ターゲットN(y,σ)を用いて損失を計算し、損失が小さくなるようにパラメタを更新する。
 正解ターゲットの合計
Figure JPOXMLDOC01-appb-M000002
および事後確率の合計
Figure JPOXMLDOC01-appb-M000003
は1.0となるようにsoftmax関数など任意の手法で正規化されている。また、予測年齢^yは事後確率の最大値が対応する年齢ではなく、事後確率の期待値として以下のように求めるものとする。なお、明細書のテキストでは、文字の頭に記載する記号を文字の前に記載している。「^y」はその例である。
Figure JPOXMLDOC01-appb-M000004
 (2)年齢性変換済音声に対するモデル学習
 年齢性変換部120で年齢性(話者性)が変化するような音声変換を受けた音声から抽出された特徴量に対しては、年齢性の変化により元の音声に対応する正解年齢がそのまま使えないという課題がある。
 それに対して本実施の形態では年齢性が変化したことを踏まえて、パラメタ学習部140により、正解年齢を新たに再定義する。つまり、パラメタ学習部140により、正解年齢を新たに設定する。
 ここでは具体例として、下記の2種類の手法(第1手法、第2手法)のそれぞれについて説明する。本実施の形態では話者年齢推定に限って記載するが、話者の個人性(話者認識)・性別・身長や音声認識など任意のタスクとのマルチタスク学習としてもよい。なお、「/」は、「又は」を意味する。
 第1手法:元の音声より若い/老いた音声に変換したという仮定を設定し、その仮定通りの推定(学習)が行われるように学習を行う手法。
 第2手法:年齢性が変化した音声に対して学習済のモデルパラメタを用いて正解を新たに定義する手法。
 以下、第1手法を「(2-1)対照的な学習」として説明し、第2手法を「(2-2)自己ラベル付与による学習」として説明する。
 (2-1)対照的な学習
 パラメタ変換部140は、学習対象のモデルに対して常に変換前音声の特徴量と変換後音声の特徴量の2つ以上1組の組み合わせを与え、当該モデルによりそれぞれの年齢を推定する。例えば、変換前音声と比べて変換後音声の年齢が若い/老いたと仮定される場合に、その仮定を満たすような以下の損失関数Lctrを用いる。以下に示すように、年齢幅を示すmarginを使用する。
 marginを設けなかった場合、^yと^y´が同一値となった時にLctr=0となり、元の音声より変換後の音声を若く/老いて推定するような仮定をおけない。
 したがって、marginによって最低でも±margin歳は元の音声から変化させる、という制約を設ける(ただし、margin>0とする)。
Figure JPOXMLDOC01-appb-M000005
 図5にLctrを用いた学習フローを示し、図6にy=20、margin=0.5とした時の損失関数の値を示す。
 図5に示すように、特徴量x、及び、変換後音声の特徴量x´がモデルに入力され、モデルから出力されるそれぞれの事後確率と、変換前音声の年齢y、及び、変換後音声の仮定年齢y´を用いて上述の式で損失を計算し、損失が小さくなるようにパラメタを更新する。
 図6に示すように、変換後音声の仮定年齢がyよりも大きい場合は、変換後音声の予測年齢がy+0.5よりも小さい場合に損失が大きくなり、変換後音声の予測年齢がy+0.5よりも大きい場合に損失が0になる。
 変換後音声の仮定年齢がyよりも小さい場合は、変換後音声の予測年齢がy-0.5よりも大きい場合に損失が大きくなり、変換後音声の予測年齢がy-0.5よりも小さい場合に損失が0になる。
 すなわち、「対照的な学習」においては、変換前音声に対して変換後音声が若いか老いたかの仮定に合致する範囲の年齢(marginを加味した年齢)が、変換後音声の正解年齢として新たに設定(定義)されたことになる。
 上述したLctrでは年齢の絶対誤差を損失としているが、絶対誤差に代えて二乗誤差などを損失としてもよい。また、上記の例では変換後の音声を1つのみ用意したが、変換後の音声を2つ以上用意してもよい。例えば、2つの変換後音声を用いる場合に、2つの変換後音声を、変換後音声1、変換後音声2とすると、変換前音声と変換後音声1との間、変換前音声と変換後音声2との間、及び、変換後音声1と変換後音声2との間でそれぞれ、上述した損失を求めて学習を行ってもよい。この時、marginは固定でもよいし、変動させてもよい。
 パラメタ学習部140は、このような対照的な学習と通常の年齢推定学習を任意の組み合わせで実行する。例えばマルチタスク学習のように任意の重み係数(0<λ<1)を用いた加重和(λLCE+(1-λ)Lctr1)を用いて学習してもよいし、1エポックごとあるいは1イテレーションごとなど任意の間隔ごとに片方ずつの損失を用いてもよい。また、この対照的な学習を事前学習として用いてもよい。
 これらの損失関数はあくまでも一例であり、音声変換前後で、音声が若く/老いて推定されると仮定でき、その仮定に従った推定が行われると損失が下がるような損失関数であればどのような損失関数を用いてもよい。
 (2-2)自己ラベル付与による学習
 自己ラベル付与による学習では、「対照的な学習」とは異なり、自由な組み合わせで学習のための音声が与えられることとしてよい。パラメタ学習部140は、変換後の音声の音響特徴量にラベルを付与するため、市中の任意の技術で学習済みのモデルパラメタ集合Θを利用する。
 パラメタ学習部140は、例えば、以下に示す損失関数Lslfを計算する。この損失関数Lslfでは、変換前の音声の音響特徴量xに対しては正解年齢yを用いたターゲットを正解ターゲットとし、変換後の音声の音響特徴量x´に対してはΘを適用したモデルによる推定結果P(c|x´,Θ)を正解ターゲットとしている。
Figure JPOXMLDOC01-appb-M000006
 図7に変換後の音声のみを用いる場合の学習フローを示す。変換前音声の学習フローについては図4と同一である。図7に示すとおり、学習済みのモデルパラメタ集合Θを使用したモデルによるx´からの推定結果を正解ターゲットとし、当該正解ターゲットと、学習対象のモデルにより得られる事後確率とを用いて損失を計算し、損失が小さくなるように学習対象のモデルのパラメタを更新する。
 上記の学習方法は一例であり、任意の手法で信頼性のおける正解ラベルを生成してモデルを学習できればどのような手法を用いてもよい。
 <S105:パラメタ格納>
 パラメタ学習部120は、学習済パラメタ集合Ω´をモデルパラメタ保持部150に格納する。
 <S106:年齢推定>
 音声評価部160は、モデルパラメタ保持部150にて保存されているΩ´を適用したモデルを用いて、未知の音声についての話者の年齢を推定する。年齢推定の際には、未知の音声はまず特徴抽出部130に入力され、特徴抽出部130から音響特徴量が出力され、それが音声評価部160に入力される。
 一例として、音声評価部160は、未知話者unkの音声の音響特徴量xunkから、学習済パラメタΩ´を適用したモデルを用いて、下記の式により年齢を推定することができる。
Figure JPOXMLDOC01-appb-M000007
 (その他の装置構成例)
 図1に示した推定装置100は、学習機能と推定機能の両方を含むものであるが、このような構成は一例である。モデルを学習する学習装置200と、学習装置200により学習されたモデルを利用して音声から年齢を推定する推定装置300とが別々に備えられてもよい。
 図8に、学習装置200の構成例を示す。図8に示すように、学習装置200は、データベース部110、年齢性変換部120、特徴抽出部130、パラメタ学習部140を有する。データベース部110は学習装置200の外部にあってもよい。
 図9に、推定装置300の構成例を示す。図9に示すように、推定装置300は、特徴抽出部130、パラメタ保持部150、音声評価部160を有する。
 図8,図9における各部の機能は既に説明したとおりである。学習装置200により学習されたパラメタが、推定装置300のパラメタ保持部150に格納される。推定装置300の音声評価部160は、当該パラメタを適用したモデルを用いて音声から年齢を推定する。
 (ハードウェア構成例)
 本実施の形態で説明したいずれの装置(推定装置、学習装置)も、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。
 すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図10は、上記コンピュータのハードウェア構成例を示す図である。図10のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。なお、当該コンピュータは、更にGPUを備えてもよい。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
 (実施の形態のまとめ、効果等)
 以上説明したとおり、本実施の形態で説明した技術により、音声から年齢を推定するモデルの学習に使用する音声データのデータ拡張を実現できる。
 具体的には、年齢性を変化させる音声変換を実施し、音声に紐づく正解年齢も変換に応じて変化させる。これにより、年齢性が変化するために話者年齢推定におけるデータ拡張として従来技術では使えなかったデータ拡張法でも、正解ラベルを再定義することで利用可能となる。結果として、学習データ量が増え、モデルの精度向上を図ることができる。
 以上の実施形態に関し、更に以下の付記を開示する。
 <付記>
(付記項1)
 音声から年齢を推定するためのモデルを学習する学習装置であって、
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 変換前音声に対して音声変換処理を施すことにより変換後音声を取得し、
 前記変換前音声の特徴量と前記変換後音声の特徴量を抽出し、
 前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する
 学習装置。
(付記項2)
 前記変換後音声は前記変換前音声よりも若い又は老いているという仮定がなされており、前記プロセッサは、その仮定に従った推定が行われるように前記モデルのパラメタを学習する
 付記項1に記載の学習装置。
(付記項3)
 前記プロセッサは、学習済みモデルを用いて前記変換後音声の年齢を推定し、その推定結果を前記変換後音声の正解年齢として使用することにより、前記モデルのパラメタを学習する
 付記項1に記載の学習装置。
(付記項4)
 付記項1ないし3のうちいずれか1項に記載の前記学習装置により学習されたモデルを用いて、音声から年齢を推定する推定装置。
(付記項5)
 音声から年齢を推定するためのモデルを学習するコンピュータが実行する学習方法であって、
 変換前音声に対して音声変換処理を施すことにより変換後音声を取得する変換ステップと、
 前記変換前音声の特徴量と前記変換後音声の特徴量を抽出する抽出ステップと、
 前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する学習ステップと
 を備える学習方法。
(付記項6)
 コンピュータを、付記項1ないし3のうちいずれか1項に記載の学習装置として機能させるためのプログラムを記憶した非一時的記憶媒体。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100、300 推定装置
110 データベース部
120 年齢性変換部
130 特徴抽出部
140 パラメタ学習部
150 パラメタ保持部
160 音声評価部
200 学習装置
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置

Claims (6)

  1.  音声から年齢を推定するためのモデルを学習する学習装置であって、
     変換前音声に対して音声変換処理を施すことにより変換後音声を取得する変換部と、
     前記変換前音声の特徴量と前記変換後音声の特徴量を抽出する抽出部と、
     前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する学習部と
     を備える学習装置。
  2.  前記変換後音声は前記変換前音声よりも若い又は老いているという仮定がなされており、前記学習部は、その仮定に従った推定が行われるように前記モデルのパラメタを学習する
     請求項1に記載の学習装置。
  3.  前記学習部は、学習済みモデルを用いて前記変換後音声の年齢を推定し、その推定結果を前記変換後音声の正解年齢として使用することにより、前記モデルのパラメタを学習する
     請求項1に記載の学習装置。
  4.  請求項1ないし3のうちいずれか1項に記載の前記学習装置により学習されたモデルを用いて、音声から年齢を推定する音声評価部を備える推定装置。
  5.  音声から年齢を推定するためのモデルを学習する学習装置が実行する学習方法であって、
     変換前音声に対して音声変換処理を施すことにより変換後音声を取得する変換ステップと、
     前記変換前音声の特徴量と前記変換後音声の特徴量を抽出する抽出ステップと、
     前記変換後音声に対する正解年齢を設定することにより、前記変換前音声の特徴量と、前記変換後音声の特徴量を用いて前記モデルのパラメタを学習する学習ステップと
     を備える学習方法。
  6.  コンピュータを、請求項1ないし3のうちいずれか1項に記載の学習装置における各部として機能させるためのプログラム。
PCT/JP2022/031263 2022-08-18 2022-08-18 学習装置、推定装置、学習方法、及びプログラム WO2024038560A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/031263 WO2024038560A1 (ja) 2022-08-18 2022-08-18 学習装置、推定装置、学習方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/031263 WO2024038560A1 (ja) 2022-08-18 2022-08-18 学習装置、推定装置、学習方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2024038560A1 true WO2024038560A1 (ja) 2024-02-22

Family

ID=89941597

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/031263 WO2024038560A1 (ja) 2022-08-18 2022-08-18 学習装置、推定装置、学習方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024038560A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210065733A1 (en) * 2019-08-29 2021-03-04 Mentor Graphics Corporation Audio data augmentation for machine learning object classification
US20220101112A1 (en) * 2020-09-25 2022-03-31 Nvidia Corporation Neural network training using robust temporal ensembling

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210065733A1 (en) * 2019-08-29 2021-03-04 Mentor Graphics Corporation Audio data augmentation for machine learning object classification
US20220101112A1 (en) * 2020-09-25 2022-03-31 Nvidia Corporation Neural network training using robust temporal ensembling

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KITAGISHI YUKI, KENICHI MORIMOTO,. TAKESHI MORI: "Introduction to speaker age estimation technology and its application to contact centers", BUSINESS COMMUNICATION, vol. 59, no. 8, 5 August 2022 (2022-08-05), pages 15 - 16, XP093140277 *
岡田慎太郎 他, 発話感情認識における音素事後確率を利用した表現学習とデータ拡張の評価, 電子情報通信学会技術研究報告, 29 November 2019, vol. 119, no. 321, pages 91-96, (OKADA, Shintaro et al. An evaluation of representation learning using phoneme posteriorgrams and data augmentation in speech emotion recognition. IEICE Technical Report.) *
張宇涛 他, 環境音分類のための GAN による少数のラベル付きデータの拡張, 日本音響学会 2022年春季研究発表会 講演論文集 CD-ROM, 23 February 2022, pages 255-256, (ZHANG, Yutao et al. Data augmentation of few labeled samples using GAN for environmental sound classification. Reports of the 2022 spring meeting the Acoustical Society of Japan.) *
犬塚雅也 他, 環境音波形の教師なしモデリング及び環境音識別のためのデータ拡張への応用, 日本音響学会 2022年春季研究発表会 講演論文集 CD-ROM, 23 February 2022, pages 297-298, (Reports of the 2022 Spring Meeting the Acoustical Society of Japan), non-official translation (INUZUKA, Masaya et al. Unsupervised modeling of environmental sound waveforms and application to data augmentation for environmental sound identification.) *

Similar Documents

Publication Publication Date Title
WO2020215666A1 (zh) 语音合成方法、装置、计算机设备及存储介质
Helander et al. Voice conversion using partial least squares regression
US9536525B2 (en) Speaker indexing device and speaker indexing method
Yamagishi et al. Average-voice-based speech synthesis using HSMM-based speaker adaptation and adaptive training
JP7018659B2 (ja) 声質変換装置、声質変換方法およびプログラム
CN107615376B (zh) 声音识别装置及计算机程序记录介质
Sinha et al. Assessment of pitch-adaptive front-end signal processing for children’s speech recognition
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Sheikhan et al. Using DTW neural–based MFCC warping to improve emotional speech recognition
JP2002014692A (ja) 音響モデル作成装置及びその方法
JP6783475B2 (ja) 声質変換装置、声質変換方法およびプログラム
WO2018147193A1 (ja) モデル学習装置、推定装置、それらの方法、およびプログラム
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
Kannadaguli et al. A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
Wu et al. Speaker identification based on the frame linear predictive coding spectrum technique
WO2024038560A1 (ja) 学習装置、推定装置、学習方法、及びプログラム
Kannadaguli et al. Comparison of hidden markov model and artificial neural network based machine learning techniques using DDMFCC vectors for emotion recognition in Kannada
Kłosowski et al. Speech recognition based on open source speech processing software
JP2017151224A (ja) 基本周波数パターン予測装置、方法、及びプログラム
JP2734828B2 (ja) 確率演算装置及び確率演算方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22955734

Country of ref document: EP

Kind code of ref document: A1