WO2021106047A1 - 検知装置、その方法、およびプログラム - Google Patents

検知装置、その方法、およびプログラム Download PDF

Info

Publication number
WO2021106047A1
WO2021106047A1 PCT/JP2019/046016 JP2019046016W WO2021106047A1 WO 2021106047 A1 WO2021106047 A1 WO 2021106047A1 JP 2019046016 W JP2019046016 W JP 2019046016W WO 2021106047 A1 WO2021106047 A1 WO 2021106047A1
Authority
WO
WIPO (PCT)
Prior art keywords
time information
labeling
acoustic feature
acoustic
label
Prior art date
Application number
PCT/JP2019/046016
Other languages
English (en)
French (fr)
Inventor
裕紀 金川
勇祐 井島
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/046016 priority Critical patent/WO2021106047A1/ja
Priority to JP2021560780A priority patent/JP7259988B2/ja
Priority to US17/779,172 priority patent/US20220406289A1/en
Publication of WO2021106047A1 publication Critical patent/WO2021106047A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Definitions

  • the present invention relates to a detection device for detecting a labeling error that occurs when time information is given to a phoneme label corresponding to voice data, a method thereof, and a program.
  • speech data and corresponding phoneme labels (hereinafter, also simply referred to as "labels") are required.
  • labels In speech synthesis based on deep learning, which is the mainstream in statistical parametric speech synthesis in recent years, time information is accurately given in order to make frame-level linguistic features and acoustic features correspond between the input and output of the model. There is a need.
  • the work of assigning time information corresponding to phonemes is called phoneme labeling, and in order to do this manually, it takes a huge amount of time and cost because it is necessary to compare the voice data with the label and listen to the voice data many times. ..
  • HMM hidden Markov model
  • the posterior probability p that the state ID of the HMM becomes j when the acoustic feature o t is given by the forward propagation calculation of DNN.
  • j) p (j
  • the label with time information can be estimated by the Viterbi algorithm.
  • the prior probability p (j) can be calculated from the frequency of state IDs that appear in the training data.
  • labels with time information obtained by automatic labeling including the above-mentioned framework may result in phoneme boundaries that are far from those manually attached.
  • a label with time information that is far from the manually attached label is used for learning an acoustic model used in speech synthesis, a sentence corresponding to the label with time information that is far from the manually attached label is voice-synthesized. Voices that utter different phonemes at unintended timings are synthesized. In order to prevent this, it is preferable to manually correct the phoneme boundary position of the automatic labeling result, but as described above, it takes a huge amount of time and cost to perform this work manually.
  • An object of the present invention is to provide a detection device, a method, and a program for automatically detecting an erroneous phoneme automatic labeling.
  • the detection device includes a labeling acoustic feature amount calculation unit that calculates a labeling acoustic feature amount from voice data, and time information.
  • a labeling acoustic feature amount calculation unit that calculates a labeling acoustic feature amount from voice data, and time information.
  • the labeling acoustic model that inputs the unlabeled label and the labeling acoustic feature amount and outputs the label with time information
  • the label without the time information corresponding to the audio data From the labeling acoustic feature amount, the time information acquisition unit that acquires the label with time information corresponding to the voice data and the label with time information are input, and the acoustic feature amount is output.
  • An acoustic feature amount prediction unit that predicts the acoustic feature amount corresponding to the label with time information and acquires the predicted value using an acoustic model, an acoustic feature amount calculation unit that calculates the acoustic feature amount from the audio data, and an acoustic feature. It includes a difference calculation unit that obtains an acoustic difference between a quantity and a predicted value, and a detection unit that detects a labeling error based on the magnitude relationship between the difference and a predetermined threshold value.
  • the automatic phoneme labeling can automatically detect an erroneous one.
  • the phoneme label obtained by automatic phoneme labeling may contain incorrect labeling errors, so manually check the phoneme boundaries in all utterances and manually correct any labeling errors. Is common. According to the present invention, only those detected as labeling errors need to be manually corrected, so that the time and cost required for phoneme labeling can be reduced.
  • the functional block diagram of the detection device which concerns on 1st Embodiment The figure which shows the example of the processing flow of the detection apparatus which concerns on 1st Embodiment. The figure which shows the example of the processing flow of the detection part which concerns on 1st Embodiment. The figure which shows the example of the processing flow of the detection part which concerns on 1st Embodiment. The functional block diagram of the detection device which concerns on 2nd Embodiment. The figure which shows the example of the processing flow of the detection apparatus which concerns on 2nd Embodiment. The functional block diagram of the detection device which concerns on 3rd Embodiment. The figure which shows the example of the processing flow of the detection apparatus which concerns on 3rd Embodiment. The figure which shows the configuration example of the computer to which this method is applied.
  • the detection device of the present embodiment automatically detects a labeling error that is fatal to speech synthesis when constructing a model for speech synthesis from the result of automatic phoneme labeling.
  • the model for speech synthesis referred to here is an acoustic model in which a phoneme label with time information is input and an acoustic feature amount or speech data corresponding to the phoneme label is output. Speech synthesis can be performed from the output acoustic features or speech data.
  • the model for speech synthesis can be learned by using, for example, an acoustic feature amount obtained from speech data for learning and a corresponding phoneme label with time information for learning.
  • the device detects this labeling error.
  • the time information includes, for example, (i) information consisting of the start time and end time of a certain phoneme, (ii) information consisting of the start time and duration of a certain phoneme, and (iii) phoneme information attached to each frame. Etc. are conceivable. In the case of (iii), the start time, end time, continuation length, etc. of the phoneme can be known from the frame number, frame length, shift length, etc.
  • FIG. 1 shows a functional block diagram of the detection device according to the present embodiment
  • FIG. 2 shows a processing flow thereof.
  • the detection device includes an automatic labeling unit 110, a voice synthesis unit 120, and a labeling error detection unit 130.
  • the detection device inputs voice data for learning and a phoneme label (hereinafter, also referred to as "label without time information") corresponding to the voice data for learning to which time information is not added, and the time is added to the phoneme label.
  • Automatic labeling that adds information is performed, labeling errors included in the automatic labeling results are detected, and the detection results are output.
  • the detection result is information indicating that the label has time information that requires manual addition of time information, or a label with time information that does not require manual addition of time information.
  • a label with time information that requires manual addition of time information is, in other words, a label with time information that includes labeling errors, and a label with time information that does not require manual addition of time information, in other words.
  • a label with time information that does not include labeling errors It is desirable that the detection result be output in an appropriate unit when manually adding time information. For example, it is output in utterance units, sentence units, and predetermined time units.
  • This embodiment is different from the conventional automatic labeling configuration, and newly includes a speech synthesis unit 120 and a labeling error detection unit 130.
  • the sound for voice synthesis obtained when voice synthesis is performed by the voice synthesis unit 120 from the label with time information acquired by the automatic labeling unit 110. It is possible to predict the feature quantity and detect speech data including labeling errors from the viewpoint of speech synthesis error.
  • the detection device is, for example, a special device configured by loading a special program into a known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. Is.
  • the detection device executes each process under the control of the central processing unit, for example.
  • the data input to the detection device and the data obtained by each process are stored in the main storage device, for example, and the data stored in the main storage device is read out to the central processing unit as needed and used for other processing devices. Used for processing.
  • At least a part of each processing unit of the detection device may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the detection device can be configured by, for example, a main storage device such as RAM (RandomAccessMemory) or middleware such as a relational database or a key-value store.
  • a main storage device such as RAM (RandomAccessMemory) or middleware such as a relational database or a key-value store.
  • middleware such as a relational database or a key-value store.
  • each storage unit does not necessarily have to be provided inside the detection device, and is configured by an auxiliary storage device composed of semiconductor memory elements such as a hard disk, an optical disk, or a flash memory, and is outside the detection device. It may be configured to prepare for.
  • the automatic labeling unit 110 inputs voice data for learning and a label without time information, adds time information to the label without time information (S110), and outputs a label with time information.
  • the automatic labeling unit 110 includes a labeling acoustic feature amount calculation unit 111 and a time information acquisition unit 112, and performs processing as follows.
  • the labeling acoustic feature amount calculation unit 111 takes the learning voice data as an input, calculates the labeling acoustic feature amount from the learning voice data (S111), and outputs it.
  • acoustic features for labeling mel frequency cepstrum coefficient (MFCC) and mel filter bank, which indicate the frequency characteristics of speech, are used, but other bottleneck features obtained from spectrograms and DNNs for speech recognition, etc. May be used.
  • MFCC mel frequency cepstrum coefficient
  • mel filter bank which indicate the frequency characteristics of speech
  • it may be an acoustic feature amount used by the time information acquisition unit 112, which will be described later, to add time information to a label without time information.
  • the time information acquisition unit 112 inputs the label without time information and the acoustic feature amount for labeling, and uses the labeling acoustic model to obtain the label without time information and the acoustic feature amount for labeling.
  • Acquires (S112) a phonetic label with time information (hereinafter, also referred to as “label with time information”) corresponding to the audio data for learning, and outputs the label.
  • the labeling acoustic model is an acoustic model that inputs a label without time information and an acoustic feature quantity for labeling and outputs a label with time information. For example, it is learned as follows. is there.
  • a phoneme label (hereinafter, also referred to as "learning labeling phoneme feature”) with time information that clearly assigns phoneme boundaries of voice data by calculating the labeling sound feature from the voice data (hereinafter, also referred to as “learning labeling sound feature”).
  • a label with learning time information will be prepared.
  • the label with learning time information may be provided by using an existing database or the like, or by manually preparing the label.
  • the labeling acoustic model is learned by an existing acoustic model learning method using, for example, a learning labeling acoustic feature quantity and a label with learning time information.
  • GMM-HMM or DNN-HMM can be used as the labeling acoustic model, and the time information acquisition unit 112 can obtain a label with time information by performing forced alignment by a Viterbi algorithm or the like.
  • Connectionist Temporal Classification CTC is also available for labeling acoustic models.
  • the voice synthesis unit 120 receives a label with time information as an input, predicts an acoustic feature amount for voice synthesis obtained when voice synthesis is performed from the label with time information (S120), and outputs a predicted value.
  • the voice synthesis unit 120 includes an acoustic feature amount prediction unit 121 for voice synthesis, and performs processing as follows.
  • the voice synthesis acoustic feature amount prediction unit 121 receives a label with time information as an input, predicts the voice synthesis acoustic feature amount corresponding to the label with time information using the voice synthesis acoustic model (S120), and predicts the predicted value. Is acquired and output.
  • the acoustic model for speech synthesis is a model in which a label with time information is input and an acoustic feature amount for speech synthesis is output. For example, as the acoustic model for speech synthesis, the one learned as follows is used.
  • a phoneme label (hereinafter, learning voice synthesis) with time information that calculates the voice synthesis sound feature amount (hereinafter, learning voice synthesis sound feature amount) from the voice data and clearly assigns the phoneme boundary of the voice data.
  • the phoneme label with this time information may use an existing database or the like, or may be manually prepared.
  • the speech synthesis acoustic model is learned by an existing acoustic model learning method using, for example, a learning speech synthesis acoustic feature quantity and a label with learning time information.
  • the voice synthesis acoustic feature amount prediction unit 121 predicts the voice synthesis acoustic feature amount of a voice (average voice) having an average speaker property.
  • the acoustic model for speech synthesis is DNN or HMM
  • the mel cepstrum or fundamental frequency (F0) is used as the acoustic feature quantity for speech synthesis, but the aperiodicity that is an index of the voicelessness judgment flag and the degree of rubbing of the voice. An index or the like may be used.
  • the difference calculation unit 132 in the latter stage calculates the difference between the average voice and the voice data for learning, and detects the labeling error based on the magnitude of the difference. It is desirable that it is an acoustic model.
  • the labeling error detection unit 130 inputs the learning voice data and the predicted value, detects the labeling error from the acoustic difference (S130), and outputs the detection result.
  • the labeling error detection unit 130 includes an acoustic feature amount calculation unit 131 for voice synthesis, a difference calculation unit 132, and a detection unit 133.
  • the difference calculation unit 132 includes the F0 error calculation unit 132A and the spectral distance calculation unit 132B, and performs processing as follows.
  • the voice synthesis acoustic feature calculation unit 131 receives the learning voice data as input, calculates the voice synthesis acoustic feature from the learning voice data (S131), and outputs the voice data.
  • the acoustic feature amount for voice synthesis the same acoustic feature amount as that predicted by the acoustic feature amount prediction unit 121 for voice synthesis may be used.
  • the difference calculation unit 132 receives the acoustic feature amount for speech synthesis and the predicted value as inputs, obtains an acoustic difference (S132), and outputs the difference. For example, at least one of the F0 error and the spectral distance is used as the acoustic difference.
  • the difference calculation unit 132 includes the F0 error calculation unit 132A and the spectral distance calculation unit 132B, and performs the following processing.
  • the F0 error calculation unit 132A receives the voice synthesis acoustic feature amount and the predicted value as inputs, and calculates F0 from the voice synthesis acoustic feature amount and the predicted value, respectively, or uses the voice synthesis acoustic feature amount and the predicted value as the predicted value. Get the included F0.
  • the F0 error calculation unit 132A calculates (S132A) the error of the predicted value F0 (hereinafter, also referred to as F0 error) with respect to F0 of the acoustic feature amount for speech synthesis, and outputs it. This error corresponds to the difference between the F0 of the acoustic feature for speech synthesis and the F0 of the predicted value. For example, the F0 error is calculated for each frame.
  • the spectrum distance calculation unit 132B takes the voice synthesis acoustic feature amount and the predicted value as input, calculates the spectrum distance from the voice synthesis acoustic feature amount and the predicted value (S132B), and outputs the spectrum distance.
  • the spectral distance corresponds to the difference between the acoustic features for speech synthesis and the predicted value. For example, the spectral distance is obtained in frame units.
  • the detection unit 133 takes an acoustic difference as an input, detects a labeling error based on the magnitude relationship between the difference and a predetermined threshold value (S133), and outputs the detection result as an output value of the detection device. If the time information of the label with time information is incorrect, it will try to synthesize a voice corresponding to a phoneme different from the acoustic feature quantity for voice synthesis of the voice data for learning, so a frame in the vicinity where a labeling error exists. It is known that the acoustic difference (for example, F0 error and spectral distance) becomes large. Utilizing this event, the present embodiment detects a labeling error.
  • FIG. 3 shows an example of the flowchart of the detection unit 133 when the F0 error is used as the acoustic difference
  • FIG. 4 shows an example of the flowchart of the detection unit 133 when the spectral distance is used as the acoustic difference.
  • the detection unit 133 takes the F0 error in frame units as an input, and first determines whether there is a frame in which the F0 error in frame units is equal to or greater than the threshold value x (S133A in FIG. 3). -1). If there is no frame, it is determined that there is no labeling error, and the corresponding audio data is used as a label with time information that does not require manual addition of time information (S133A-4).
  • the number of frames of the threshold x or more is y or more (S133A-2).
  • the number of frames is less than y, even if a labeling error occurs, the effect is considered to be small, and the corresponding audio data is used as a label with time information that does not require manual addition of time information (S133A-4).
  • the label with time information needs to be manually added (S133A-3).
  • the detection unit 133 takes the spectral distance in frame units as an input, and first determines whether or not there is a frame in which the spectral distance in frame units is equal to or greater than the threshold value a (S133B in FIG. 4). -1). If there is no frame, it is determined that there is no labeling error, and the corresponding audio data is used as a label with time information that does not require manual addition of time information (S133B-4).
  • the number of frames of the threshold value a or more is b or more (S133B-2).
  • the number of frames is less than b, even if a labeling error occurs, the effect is considered to be small, and the corresponding audio data is used as a label with time information that does not require manual addition of time information (S133B-4).
  • the label has time information that needs to be manually added (S133B-3).
  • the detection unit 133 may use either one of the F0 error and the spectral distance as the acoustic difference, or uses both of them to take the or condition or the and condition, and finally manually add the time information. It is possible to detect labels with time information that need to be done.
  • the average and variance of the F0 error by calculating the average and variance of the F0 error and setting the threshold value x as having the average + ⁇ ⁇ standard deviation or more, it is possible to detect a frame having a statistically clearly large error.
  • the average and variance of the spectral distances can be calculated and the threshold value y can be determined.
  • the thresholds y and b determine the number of frames when it is known that the wrong phoneme boundary has a fatal effect on speech synthesis.
  • ⁇ Modification example> it is described as detecting a labeling error of a label with time information used when learning an acoustic model for speech synthesis, but even if a labeling error of another application is detected, it is described. Good. For example, labeling errors of labels with time information used when learning an acoustic model for speech recognition can be detected in the same manner.
  • FIG. 5 shows a functional block diagram of the detection device according to the present embodiment
  • FIG. 6 shows a processing flow thereof.
  • the configuration of the labeling error detection unit 130 is different from that of the first embodiment.
  • the labeling error detection unit 130 includes an acoustic feature amount calculation unit 131 for speech synthesis, a difference calculation unit 132, a detection unit 133, and further includes a normalization unit 234.
  • the threshold values a, x There is a problem that must be determined for each speaker. In this configuration, by normalizing the acoustic features for speech synthesis for each speaker in advance, it is not necessary to set the threshold values a and x for each speaker.
  • the normalization unit 234 of the labeling error detection unit 130 takes the predicted value and the acoustic feature amount for voice synthesis as inputs, normalizes the predicted value, normalizes the acoustic feature amount for voice synthesis (S234), and normalizes the predicted value. And the acoustic features for speech synthesis are output.
  • the normalization unit 234 obtains the average / variance of the input for each speaker and normalizes it by the cepstrum average variance normalization method.
  • the processing unit of the voice data input to the detection device may be set to each voice data emitted by the same speaker and normalized.
  • the difference calculation unit 132 obtains the acoustic difference between the normalized acoustic feature amount for speech synthesis and the normalized predicted value. For example, by inputting the normalized predicted value and the acoustic feature amount for speech synthesis into the F0 error calculation unit 132A and the spectral distance calculation unit 132B, respectively, the average / variance is normalized among the speakers, so that the determination is made. It is not necessary to obtain the threshold values a and x for each speaker.
  • FIG. 7 shows a functional block diagram of the detection device according to the present embodiment
  • FIG. 8 shows a processing flow thereof.
  • the configuration of the labeling error detection unit 130 is different from that of the first embodiment.
  • the labeling error detection unit 130 includes an acoustic feature amount calculation unit 131 for voice synthesis, a difference calculation unit 132, and a detection unit 133, and further includes a moving average calculation unit 335.
  • the labeling error detection unit 130 can further improve the detection accuracy.
  • the determination is made based on the criteria that the portion exceeding the threshold x is the threshold y frame or more in the F0 error and the portion exceeding the threshold a is the b frame or more in the spectral distance.
  • the F0 error and the spectral distance may fluctuate unsteadily at each frame and may not continuously exceed the thresholds x and a. In this case, labeling errors cannot be detected.
  • by smoothing the locus of the F0 error and the spectral distance that swings unsteadily it becomes easy to detect using the threshold value.
  • the moving average calculation unit 335 of the labeling error detection unit 130 takes the difference, which is the output value of the difference calculation unit 132, as an input, calculates the moving average (S335), and outputs the difference.
  • the difference is, for example, at least one of the F0 error and the spectral distance, and the moving average corresponds to the averaged F0 error and the averaged spectral distance with a smooth trajectory.
  • the detection unit 133 takes the moving average of the acoustic difference as an input, detects the labeling error based on the magnitude relationship between the moving average of the difference and the predetermined threshold value (S133), and outputs the detection result to the output value of the detection device. Output as.
  • This embodiment can be combined with the second embodiment to provide a detection device that does not require a threshold value for each speaker while improving the continuity of the spectral distance and the F0 error, which are features for detection. It can be constructed.
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
  • the distribution of this program is carried out, for example, by selling, transferring, renting, etc., a portable recording medium such as a DVD or CD-ROM on which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be executed sequentially. In addition, the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be.
  • the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

検知装置は、音声データからラべリング用音響特徴量を計算するラべリング用音響特徴量計算部と、時間情報が付いていないラベルとラべリング用音響特徴量とを入力とし、時間情報が付いているラベルを出力とするラべリング用音響モデルを用いて、音声データに対応する時間情報が付いていないラベルと、ラべリング用音響特徴量とから、音声データに対応する、時間情報が付いているラベルを取得する時間情報取得部と、時間情報が付いているラベルを入力とし、音響特徴量を出力する音響モデルを用いて、時間情報付きラベルに対応する音響特徴量を予測し、予測値を取得する音響特徴量予測部と、音声データから音響特徴量を計算する音響特徴量計算部と、音響特徴量と予測値との音響的な差異を求める差異計算部と、差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知する検知部とを含む。

Description

検知装置、その方法、およびプログラム
 本発明は、音声データに対応する音素ラベルに対して時間情報を付与する際に生じるラべリング誤りを検知する検知装置、その方法、およびプログラムに関する。
 音声合成の音響モデル構築には、音声データおよびそれに対応する音素ラベル(以下、単に「ラベル」ともいう)が必要である。近年の統計的パラメトリック音声合成で主流である深層学習に基づく音声合成では、モデルの入出力間でフレームレベルの言語特徴量と音響特徴量とを対応させるため、時間情報が正確に与えられている必要がある。音素に対応する時間情報の付与作業を音素ラベリングと呼び、これを人手で行うには音声データとラベルとを照らし合わせて何度も音声データを聴かなければならないため、膨大な時間とコストを要する。
 この音素ラベリングを自動で行う方法として、隠れマルコフモデル(HMM)を用いる手法がよく用いられる(特許文献1,非特許文献1参照)。音響特徴量と音素ラベルをHMMに与えることで、探索アルゴリズムを通じて時間情報付きラベルを得ることができる。従来は音響尤度計算に混合ガウス分布(GMM)を用いるのが主流であったが、近年ではGMMより高い弁別性を持つDeep Neural Network(DNN)を用いる方法が主流となっている(非特許文献2,3参照)。
 いま、DNNとHMMを併用したアプローチ(DNN-HMM)で自動ラベリングモデルを学習する場合を考える。ある発話において、音声データから抽出した音響特徴量系列をo=[o1,…,oT]とし、音響特徴量系列oに対応するHMMの状態ID系列をs=[s1,…,sT]とするとき、DNNは一般的に次式の交差エントロピーを最小化するように学習される。
Loss(o,s)=-xent(o,s)
ここで、時刻tにおけるHMMの状態IDであるstはj=1,…,Nのいずれかの値を取る。ただし、t=1,2,…,Tであり、NはHMMに含まれる状態の種類の総数を表す。音響特徴量系列と音素ラベルとから時間情報付き音素ラベルを予測するには、まずDNNの順伝搬演算により、音響特徴量otが与えられたときにHMMの状態IDがjとなる事後確率p(j|ot)を得る。これを事前確率p(j)で除算することで音響尤度p(ot|j)=p(j|ot)/p(j)を得る。これらをj=1,…,Nの全状態、t=1,2,…,Tの全時刻にわたって計算した事後確率系列をHMMに入力することで、ビタビアルゴリズムにより時間情報付きラベルを推定できる。なお、事前確率p(j)は、学習データ中で出現する状態IDの頻度から計算できる。
特開2004-077901号公報
河井恒, 戸田智基, "波形接続型音声合成のための自動音素セグメンテーションの評価", 信学技報, SP2002-170, pp5-10, 2003 G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition," IEEE Signal Processing Magazine, Vol.29 (6), pp. 82-97, 2012. David Ayllon, Fernando Villavicencio, Pierre Lanchantin , "A Strategy for Improved Phone-Level Lyrics-to-Audio Alignment for Speech-to-Singing Synthesis", Proc. Interspeech, pp. 2603--2607
 しかしながら、前述の枠組みを含む自動ラベリングにより得られる時間情報付きラベルは、音素境界が、人手で付けたものとかけ離れた結果となることがある。このような人手で付けたものとかけ離れた時間情報付きラベルを音声合成で用いる音響モデルの学習に用いた場合、人手で付けたものとかけ離れた時間情報付きラベルに対応する文章を音声合成し、意図しないタイミングに異なる音素を発話する音声が合成されてしまう。これを防ぐために、自動ラベリング結果の音素境界位置を人手で修正することが好ましいが、この作業を人手行うのは前述の通り、膨大な時間とコストがかかる。
 本発明は、音素自動ラベリングが誤っているものを自動で検知する検知装置、その方法、およびプログラムを提供することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、検知装置は、音声データからラべリング用音響特徴量を計算するラべリング用音響特徴量計算部と、時間情報が付いていないラベルとラべリング用音響特徴量とを入力とし、時間情報が付いているラベルを出力とするラべリング用音響モデルを用いて、音声データに対応する時間情報が付いていないラベルと、ラべリング用音響特徴量とから、音声データに対応する、時間情報が付いているラベルを取得する時間情報取得部と、時間情報が付いているラベルを入力とし、音響特徴量を出力する音響モデルを用いて、時間情報付きラベルに対応する音響特徴量を予測し、予測値を取得する音響特徴量予測部と、音声データから音響特徴量を計算する音響特徴量計算部と、音響特徴量と予測値との音響的な差異を求める差異計算部と、差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知する検知部とを含む。
 本発明によれば、音素自動ラベリングが誤っているものを自動で検知することができるという効果を奏する。
 前述の通り、音素自動ラベリングにより得られる音素ラベルには誤りであるラべリング誤りが含まれることがあるため、全発話において人手で音素境界を確認し、ラべリング誤りがあれば手修正するのが一般的である。本発明により、ラべリング誤りと検知されたものだけを手修正すればよいため、音素ラベリングにかかる時間とコストを削減できる。
第一実施形態に係る検知装置の機能ブロック図。 第一実施形態に係る検知装置の処理フローの例を示す図。 第一実施形態に係る検知部の処理フローの例を示す図。 第一実施形態に係る検知部の処理フローの例を示す図。 第二実施形態に係る検知装置の機能ブロック図。 第二実施形態に係る検知装置の処理フローの例を示す図。 第三実施形態に係る検知装置の機能ブロック図。 第三実施形態に係る検知装置の処理フローの例を示す図。 本手法を適用するコンピュータの構成例を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態のポイント>
 本実施形態の検知装置は、音素自動ラベリングの結果から音声合成用のモデルを構築するにあたって、音声合成にとって致命的なラベリング誤りを自動で検知する。ここでいう音声合成用のモデルとは、時間情報付き音素ラベルを入力とし、音素ラベルに対応する音響特徴量または音声データを出力する音響モデルである。出力された音響特徴量または音声データから音声合成を行うことができる。音声合成用のモデルは、例えば、学習用の音声データから得られる音響特徴量と、対応する学習用の時間情報付き音素ラベルを用いて、学習することができる。学習用の音声データに対して音素自動ラべリングを行って学習用の時間情報付き音素ラベルを取得しようとする場合、前述の通り、ラべリング誤りが生じることがあるが、実施形態の検知装置はこのラべリング誤りを検知する。なお、時間情報は、例えば、(i)ある音素の開始時間と終了時間とからなる情報、(ii)ある音素の開始時間と継続時間とからなる情報、(iii)フレーム毎につけられた音素情報等が考えられる。(iii)の場合には、フレーム番号、フレーム長、シフト長等から音素の開始時間、終了時間、継続長等が分かる。
 具体的には、フレームワイズなDNN音声合成を音声合成部に用いる場合、音素境界を明確に付与した音素ラベルを用いて学習された音声合成用の音響モデルに時間情報付きラベルを入力することで音声合成用の音響特徴量を予測する。ここで予測された音響特徴量と、ラベリング対象となっている音声データから計算される音響特徴量間の音響的な差異(スペクトル距離やF0誤差等)を計算する。なお、ラベリング対象となっている音声データは、別の言い方をすると、音声合成用の音響モデルを学習する際に用いる学習用の音声データである。音声合成にとって致命的なラベリング誤りが存在する場合、合成音声と原音声の間の音響的な差異が大きくなる傾向があるため、この知見をもとに致命的なラベリング誤りを検知する。
<第一実施形態>
 図1は本実施形態に係る検知装置の機能ブロック図を、図2はその処理フローを示す。
 検知装置は、自動ラベリング部110と、音声合成部120と、ラべリング誤り検知部130とを含む。
 検知装置は、学習用の音声データと、時間情報が付加されていない、学習用の音声データに対応する音素ラベル(以下、「時間情報無しラベル」ともいう)とを入力とし、音素ラベルに時間情報を付加する自動ラべリングを行い、自動ラべリングの結果に含まれるラべリング誤りを検知し、検知結果を出力する。本実施形態では、検知結果として、人手で時間情報を付加する必要がある時間情報付きラベルであることを示す情報、または、人手で時間情報を付加する必要がない時間情報付きラベルであることを示す情報を出力する。人手で時間情報を付加する必要がある時間情報付きラベルは、言い換えると、ラべリング誤りを含む時間情報付きラベルであり、人手で時間情報を付加する必要がない時間情報付きラベルは、言い換えると、ラべリング誤りを含まない時間情報付きラベルである。なお、検知結果は、人手で時間情報を付加する際に適切な単位で出力されることが望ましい。例えば、発話単位、文単位、所定の時間単位で出力される。
 本実施形態は、従来の自動ラベリングの構成とは異なり、新たに音声合成部120と、ラべリング誤り検知部130とを含む。
 自動ラベリングの結果には、音声合成に致命的となるものも含まれているため、自動ラベリング部110で取得した時間情報付きラベルから音声合成部120で音声合成した際に得られる音声合成用音響特徴量を予測し、音声合成の誤差の観点から、ラベリング誤りを含む音声データを検知できる。
 検知装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。検知装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。検知装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。検知装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。検知装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも検知装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、検知装置の外部に備える構成としてもよい。
 以下、各部の処理を説明する。
<自動ラベリング部110>
 自動ラベリング部110は、学習用の音声データと時間情報無しラベルとを入力とし、時間情報無しラベルに対して時間情報を付加して(S110)、時間情報付きラベルを出力する。
 例えば、自動ラベリング部110は、ラべリング用音響特徴量計算部111と、時間情報取得部112とを含み、以下のように処理を行う。
<ラべリング用音響特徴量計算部111>
 ラべリング用音響特徴量計算部111は、学習用の音声データを入力とし、学習用の音声データからラべリング用音響特徴量を計算し(S111)、出力する。例えば、ラべリング用音響特徴量として、音声の周波数特性を示すメル周波数ケプストラム係数(MFCC)やメルフィルタバンクなどが用いられるが、その他スペクトログラムや音声認識用のDNNから得たボトルネック特徴量などを用いてもよい。要は、後述する時間情報取得部112において、時間情報が付いていないラベルに時間情報を付加するために用いる音響特徴量であればよい。
<時間情報取得部112>
 時間情報取得部112は、時間情報無しラベルとラべリング用音響特徴量とを入力とし、ラべリング用音響モデルを用いて、時間情報無しラベルと、ラべリング用音響特徴量とから、学習用の音声データに対応する、時間情報が付いている音素ラベル(以下「時間情報付きラベル」ともいう)を取得し(S112)、出力する。
 なお、ラべリング用音響モデルは、時間情報無しラベルとラべリング用音響特徴量とを入力とし、時間情報付きラベルを出力とする音響モデルであり、例えば、以下のように学習したものである。
 音声データからラべリング用音響特徴量(以下、「学習用ラべリング用音響特徴量」ともいう)を計算し、音声データの音素境界を明確に付与した時間情報が付いている音素ラベル(以下、学習用時間情報付きラベルともいう)を用意する。なお、この学習用時間情報付きラベルは、既存のデータベース等を利用してもよいし、人手により用意してもよい。ラべリング用音響モデルは、例えば、学習用ラべリング用音響特徴量と、学習用時間情報付きラベルとを用いて、既存の音響モデル学習方法により、学習される。ラベリング用音響モデルには、例えば、GMM-HMMやDNN-HMMを用いることができ、時間情報取得部112では、ビタビアルゴリズム等により強制アラインメントを取ることで時間情報付きラベルを得ることができる。またラベリング用音響モデルにはConnectionist Temporal Classification(CTC)も利用可能である。
<音声合成部120>
 音声合成部120は、時間情報付きラベルを入力とし、時間情報付きラベルから音声合成した場合に得られる音声合成用音響特徴量を予測し(S120)、予測値を出力する。
 例えば、音声合成部120は、音声合成用音響特徴量予測部121を含み、以下のように処理を行う。
<音声合成用音響特徴量予測部121>
 音声合成用音響特徴量予測部121は、時間情報付きラベルを入力とし、音声合成用音響モデルを用いて、時間情報付きラベルに対応する音声合成用音響特徴量を予測し(S120)、予測値を取得し、出力する。なお、音声合成用音響モデルは、時間情報付きラベルを入力とし、音声合成用音響特徴量を出力とするモデルである。例えば、音声合成用音響モデルは、以下のように学習したものを利用する。
 音声データから音声合成用音響特徴量(以下、学習用音声合成用音響特徴量)を計算し、音声データの音素境界を明確に付与した時間情報が付いている音素ラベル(以下、学習用音声合成用時間情報付きラベルともいう)を用意する。なお、この時間情報が付いている音素ラベルは、既存のデータベース等を利用してもよいし、人手により用意してもよい。音声合成用音響モデルは、例えば、学習用音声合成用音響特徴量と、学習用時間情報付きラベルとを用いて、既存の音響モデル学習方法により、学習される。
 例えば、音声合成用音響特徴量予測部121は、平均的な話者性を持つ音声(平均声)の音声合成用音響特徴量を予測する。音声合成用音響モデルがDNNやHMMの場合、音声合成用音響特徴量にはメルケプストラムや基本周波数(F0)などが用いられるが、有声無声判定フラグや声の擦れ具合の指標となる非周期性指標などが用いられてもよい。
 後段の差異計算部132にて、平均声と学習用の音声データとの差異を計算し、差異の大きさに基づきラベリング誤りを検知するため、性別依存の平均声を合成できるような音声合成用音響モデルであることが望ましい。
<ラべリング誤り検知部130>
 ラべリング誤り検知部130は、学習用の音声データと予測値とを入力とし、音響的な差異からラべリング誤りを検知し(S130)、検知結果を出力する。
 例えば、ラべリング誤り検知部130は、音声合成用音響特徴量計算部131と、差異計算部132と、検知部133とを含む。差異計算部132は、F0誤差計算部132Aとスペクトル距離計算部132Bとを含み、以下のように処理を行う。
<音声合成用音響特徴量計算部131>
 音声合成用音響特徴量計算部131は、学習用の音声データを入力とし、学習用の音声データから音声合成用音響特徴量を計算し(S131)、出力する。音声合成用音響特徴量としては、音声合成用音響特徴量予測部121で予測したものと同様の音響特徴量を用いればよい。
<差異計算部132>
 差異計算部132は、音声合成用音響特徴量と予測値とを入力とし、音響的な差異を求め(S132)、出力する。例えば、音響的な差異として、F0誤差とスペクトル距離との少なくとも何れかを利用する。例えば、差異計算部132は、F0誤差計算部132Aと、スペクトル距離計算部132Bとを含み、以下の処理を行う。
(F0誤差計算部132A)
 F0誤差計算部132Aは、音声合成用音響特徴量と予測値とを入力とし、音声合成用音響特徴量および予測値からそれぞれF0を計算するか、または、音声合成用音響特徴量および予測値に含まれるF0を取得する。F0誤差計算部132Aは、音声合成用音響特徴量のF0に対する予測値のF0の誤差(以下、F0誤差ともいう)を計算し(S132A)、出力する。この誤差は、音声合成用音響特徴量のF0と予測値のF0との差分に相当する。例えば、F0誤差はフレーム単位で求めておく。
(スペクトル距離計算部132B)
 スペクトル距離計算部132Bは、音声合成用音響特徴量と予測値とを入力とし、音声合成用音響特徴量および予測値からスペクトル距離を計算し(S132B)、出力する。スペクトル距離は、音声合成用音響特徴量と予測値との差分に相当する。例えば、スペクトル距離はフレーム単位で求めておく。
<検知部133>
 検知部133は、音響的な差異を入力とし、差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知し(S133)、検知結果を検出装置の出力値として出力する。時間情報付きラベルの時間情報が間違っていると、学習用の音声データの音声合成用音響特徴量とは異なる音素に対応する音声を合成しようとするため、ラベリング誤りが存在している近辺のフレームで音響的な差異(例えばF0誤差やスペクトル距離)が大きくなることが分かっている。この事象を利用し、本実施形態はラベリング誤りを検知する。
 図3は音響的な差異としてF0誤差を利用した場合の検知部133のフローチャートの例を示し、図4は音響的な差異としてスペクトル距離を利用した場合の検知部133のフローチャートの例を示す。このような構成により、ラベリング誤りに起因する韻律面の判定を行う。
 音響的な差異としてF0誤差を利用した場合、検知部133は、フレーム単位のF0誤差を入力とし、まず、フレーム単位のF0誤差が閾値x以上のフレームがあるかを判定する(図3のS133A-1)。フレームがない場合、ラベリング誤りが存在していないと判定し、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(S133A-4)。
 フレームがあった場合、さらに、閾値x以上のフレームのフレーム数がy以上であるかを判定する(S133A-2)。フレーム数がy未満の場合、ラベリング誤りが起きていてもその影響は小さいとみなし、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(S133A-4)。フレーム数がy以上の場合、人手で時間情報を付加する必要がある時間情報付きラベルとする(S133A-3)。
 音響的な差異としてスペクトル距離を利用した場合、検知部133は、フレーム単位のスペクトル距離を入力とし、まず、フレーム単位のスペクトル距離が閾値a以上のフレームがあるかを判定する(図4のS133B-1)。フレームがない場合、ラベリング誤りが存在していないと判定し、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(S133B-4)。
 フレームがあった場合、さらに、閾値a以上のフレームのフレーム数がb以上であるかを判定する(S133B-2)。フレーム数がb未満の場合、ラベリング誤りが起きていてもその影響は小さいとみなし、対応する音声データを人手で時間情報を付加する必要がない時間情報付きラベルとする(S133B-4)。フレーム数がb以上の場合、人手で時間情報を付加する必要がある時間情報付きラベルとする(S133B-3)。
 検知部133は、音響的な差異としてF0誤差とスペクトル距離との何れか一方を利用してもよいし、両方を利用してor条件もしくはand条件を取り、最終的に人手で時間情報を付加する必要がある時間情報付きラベルを検知することができる。
 また、図3について、F0誤差の平均、分散を算出し、平均+α×標準偏差以上のものとして閾値xを定めることで、統計的に明らかに誤差が大きいフレームを検知できる。図4についても同様にスペクトル距離の平均、分散を算出し、閾値yを定めることができる。
 また、閾値y,bは、音素の境界を誤ることで、音声合成に致命的な影響を与えるとわかっているときのフレーム数を定める。
<効果>
 このような構成により、音素自動ラベリングが誤っているものを自動で検知することができる。
<変形例>
 本実施形態では、音声合成用の音響モデルを学習する際に用いる時間情報付きラベルのラべリング誤りを検知するものとして記載しているが、他の用途のラべリング誤りを検知してもよい。例えば、音声認識用の音響モデルを学習する際に用いる時間情報付きラベルのラべリング誤りも同様に検知することができる。
<第二実施形態>
 第一実施形態と異なる部分を中心に説明する。
 図5は本実施形態に係る検知装置の機能ブロック図を、図6はその処理フローを示す。
 ラべリング誤り検知部130の構成が第一実施形態とは異なる。
 ラべリング誤り検知部130は、音声合成用音響特徴量計算部131と、差異計算部132と、検知部133とを含み、さらに、正規化部234を含む。
 第一実施形態では、ラベリング誤り検知部130において、ラベリングの対象となる話者によって、音声合成部120から得られる平均声と似ている話者とそうでない話者がいるため、閾値a, xを話者ごとに定めなければならないという課題がある。本構成では、事前に話者ごとに、音声合成用の音響特徴量を正規化しておくことで、話者ごとに閾値a, xを定める必要がなくなる。
 自動ラベリング部110と音声合成部120の処理については、第一実施形態と同じであるため、ラベリング誤り検知部130についてのみ言及する。
<正規化部234>
 ラベリング誤り検知部130の正規化部234は、予測値と音声合成用音響特徴量とを入力とし、予測値を正規化し、音声合成用音響特徴量を正規化し(S234)、正規化した予測値と音声合成用音響特徴量とを出力する。
 例えば、正規化部234は、話者ごとに入力の平均・分散を求めて、ケプストラム平均分散正規化法により正規化する。例えば、検知装置に入力される音声データの処理単位を同一話者が発した音声データ毎とし、正規化すればよい。
 さらに、差異計算部132では、正規化した音声合成用音響特徴量と正規化した予測値との音響的な差異を求める。例えば、正規化した予測値と音声合成用音響特徴量をそれぞれF0誤差計算部132A、スペクトル距離計算部132Bに入力することで、話者間で平均・分散が正規化されているため、判定のための閾値a,xを話者ごとに求めなくてもよくなる。
<第三実施形態>
 第一実施形態と異なる部分を中心に説明する。
 図7は本実施形態に係る検知装置の機能ブロック図を、図8はその処理フローを示す。
 ラべリング誤り検知部130の構成が第一実施形態とは異なる。
 ラべリング誤り検知部130は、音声合成用音響特徴量計算部131と、差異計算部132と、検知部133とを含み、さらに、移動平均算出部335を含む。
 このような構成により、ラベリング誤り検知部130において、より検知精度を上げることができる。第一実施形態では、F0誤差では閾値xを超える箇所が閾値yフレーム以上、スペクトル距離では閾値aを超える箇所がbフレーム以上という基準で判定をしていた。しかし実際にはラベリング誤りが大きくても、F0誤差やスペクトル距離が各フレームで非定常に大きく振れ、連続して閾値x, aを超えないことがある。このケースでは、ラベリング誤りを検知できない。本実施形態では、非定常に振れるF0誤差やスペクトル距離の軌跡を滑らかにすることで、閾値を用いた検知にかかりやすくする。
 自動ラベリング部110と音声合成部120の処理については、第一実施形態と同じであるため、ラベリング誤り検知部130についてのみ言及する。
<移動平均算出部335>
 ラベリング誤り検知部130の移動平均算出部335は、差異計算部132の出力値である差異を入力とし、移動平均を算出し(S335)、出力する。差異は、例えば、F0誤差とスペクトル距離との少なくとも何れかであり、移動平均は、軌跡が滑らかな平均化F0誤差、平均化スペクトル距離に相当する。
 検知部133は、音響的な差異の移動平均を入力とし、差異の移動平均と所定の閾値との大小関係に基づき、ラべリング誤りを検知し(S133)、検知結果を検出装置の出力値として出力する。
 第一実施形態とは異なり、滑らかに平均化したF0誤差とスペクトル距離との少なくとも何れかを使うことで、閾値を連続して超える箇所が多くなり、ラベリング誤りを検知しやすくなる。
<変形例>
 本実施形態は、第二実施形態と組み合わせることもでき、検知のための特徴量である、スペクトル距離やF0誤差の連続性を向上させつつ、話者ごとに閾値を設けなくてよい検知装置を構築可能である。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 上述の各種の処理は、図9に示すコンピュータの記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1.  音声データからラべリング用音響特徴量を計算するラべリング用音響特徴量計算部と、
     時間情報が付いていないラベルとラべリング用音響特徴量とを入力とし、時間情報が付いているラベルを出力とするラべリング用音響モデルを用いて、前記音声データに対応する時間情報が付いていないラベルと、前記ラべリング用音響特徴量とから、前記音声データに対応する、時間情報が付いているラベルを取得する時間情報取得部と、
     時間情報が付いているラベルを入力とし、音響特徴量を出力する音響モデルを用いて、前記時間情報付きラベルに対応する音響特徴量を予測し、予測値を取得する音響特徴量予測部と、
     前記音声データから音響特徴量を計算する音響特徴量計算部と、
     前記音響特徴量と前記予測値との音響的な差異を求める差異計算部と、
     前記差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知する検知部とを含む、
     検知装置。
  2.  請求項1の検知装置であって、
     前記差異は、基本周波数の差とスペクトル距離との少なくとも何れかからなる、
     検知装置。
  3.  請求項1または請求項2の検知装置であって、
     前記予測値を正規化し、前記音響特徴量を正規化する正規化部を含み、
     前記差異計算部は、正規化した前記音響特徴量と正規化した前記予測値との音響的な差異を求める、
     検知装置。
  4.  請求項1から請求項3の何れかの検知装置であって、
     前記差異の移動平均を算出する移動平均算出部を含み、
     前記検知部は、前記差異の移動平均と所定の閾値との大小関係に基づき、ラべリング誤りを検知する、
     検知装置。
  5.  音声データからラべリング用音響特徴量を計算するラべリング用音響特徴量計算ステップと、
     時間情報が付いていないラベルとラべリング用音響特徴量とを入力とし、時間情報が付いているラベルを出力とするラべリング用音響モデルを用いて、前記音声データに対応する時間情報が付いていないラベルと、前記ラべリング用音響特徴量とから、前記音声データに対応する、時間情報が付いているラベルを取得する時間情報取得ステップと、
     時間情報が付いているラベルを入力とし、音響特徴量を出力する音響モデルを用いて、前記時間情報付きラベルに対応する音響特徴量を予測し、予測値を取得する音響特徴量予測ステップと、
     前記音声データから音響特徴量を計算する音響特徴量計算ステップと、
     前記音響特徴量と前記予測値との音響的な差異を求める差異計算ステップと、
     前記差異と所定の閾値との大小関係に基づき、ラべリング誤りを検知する検知ステップとを含む、
     検知方法。
  6.  請求項5の検知方法であって、
     前記予測値を正規化し、前記音響特徴量を正規化する正規化ステップを含み、
     前記差異計算ステップは、正規化した前記音響特徴量と正規化した前記予測値との音響的な差異を求める、
     検知方法。
  7.  請求項5または請求項6の検知方法であって、
     前記差異の移動平均を算出する移動平均算出ステップを含み、
     前記検知ステップは、前記差異の移動平均と所定の閾値との大小関係に基づき、ラべリング誤りを検知する、
     検知方法。
  8.  請求項1から請求項4の何れかの検知装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/046016 2019-11-25 2019-11-25 検知装置、その方法、およびプログラム WO2021106047A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/046016 WO2021106047A1 (ja) 2019-11-25 2019-11-25 検知装置、その方法、およびプログラム
JP2021560780A JP7259988B2 (ja) 2019-11-25 2019-11-25 検知装置、その方法、およびプログラム
US17/779,172 US20220406289A1 (en) 2019-11-25 2019-11-25 Detection apparatus, method and program for the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/046016 WO2021106047A1 (ja) 2019-11-25 2019-11-25 検知装置、その方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2021106047A1 true WO2021106047A1 (ja) 2021-06-03

Family

ID=76130093

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/046016 WO2021106047A1 (ja) 2019-11-25 2019-11-25 検知装置、その方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220406289A1 (ja)
JP (1) JP7259988B2 (ja)
WO (1) WO2021106047A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070604A (ja) * 2003-08-27 2005-03-17 Kenwood Corp 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005070604A (ja) * 2003-08-27 2005-03-17 Kenwood Corp 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム

Also Published As

Publication number Publication date
US20220406289A1 (en) 2022-12-22
JP7259988B2 (ja) 2023-04-18
JPWO2021106047A1 (ja) 2021-06-03

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US20080077404A1 (en) Speech recognition device, speech recognition method, and computer program product
US20090119103A1 (en) Speaker recognition system
US20140207457A1 (en) False alarm reduction in speech recognition systems using contextual information
US20090083036A1 (en) Unnatural prosody detection in speech synthesis
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
JP2006510933A (ja) センサ・ベース音声認識装置の選択、適応、および組合せ
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
US7617104B2 (en) Method of speech recognition using hidden trajectory Hidden Markov Models
US20120245919A1 (en) Probabilistic Representation of Acoustic Segments
JP2018081169A (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
Xiong et al. A tree-based kernel selection approach to efficient Gaussian mixture model–universal background model based speaker identification
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
WO2021106047A1 (ja) 検知装置、その方法、およびプログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
KR101892736B1 (ko) 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
JPH08241096A (ja) 音声認識方法
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
Herbig et al. Adaptive systems for unsupervised speaker tracking and speech recognition
JP5235849B2 (ja) 音声認識装置とその方法と、プログラム
George et al. AMRITATCS-IITGUWAHATI combined system for the Speakers in the Wild (SITW) speaker recognition challenge

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19954595

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021560780

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19954595

Country of ref document: EP

Kind code of ref document: A1