WO2021240780A1 - ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム - Google Patents

ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム Download PDF

Info

Publication number
WO2021240780A1
WO2021240780A1 PCT/JP2020/021342 JP2020021342W WO2021240780A1 WO 2021240780 A1 WO2021240780 A1 WO 2021240780A1 JP 2020021342 W JP2020021342 W JP 2020021342W WO 2021240780 A1 WO2021240780 A1 WO 2021240780A1
Authority
WO
WIPO (PCT)
Prior art keywords
phoneme
labeling
time information
series
error
Prior art date
Application number
PCT/JP2020/021342
Other languages
English (en)
French (fr)
Inventor
裕紀 金川
勇祐 井島
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022527441A priority Critical patent/JP7364068B2/ja
Priority to PCT/JP2020/021342 priority patent/WO2021240780A1/ja
Publication of WO2021240780A1 publication Critical patent/WO2021240780A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Definitions

  • the present invention relates to an automatic voice labeling technique, and particularly to an error detection technique for a phoneme label with time information.
  • HMM Hidden Markov Model
  • Loss (o, s) -xent (o, s)
  • T is the frame number corresponding to the discrete time
  • T is the maximum value of t.
  • the discrete time corresponding to the frame number t is expressed as the time t.
  • o t ) ( ⁇ t ⁇ [1, T]) where the state ID of the HMM is j.
  • j) (for example, b j (o t ) in the equation (1.27) of Non-Patent Document 2) is obtained.
  • the prior probability p (j) can be calculated from the appearance frequency of the state ID in the training data.
  • the present invention has been made in view of such a point, and an object thereof is to automatically detect an error in phoneme labeling.
  • the phoneme label series with the first time information is obtained by performing the forward phoneme labeling that associates the phoneme label series with the forward time information.
  • Inverted acoustic feature quantity series in which the time order of the series is reversed and inverted phoneme label series in which the time order of the phoneme label series is reversed are used to perform reverse phoneme labeling in which the time information in the reverse direction is associated with the inverted phoneme label series.
  • phoneme labeling errors can be detected automatically.
  • FIG. 1 is a block diagram illustrating a functional configuration of the labeling error detection device of the embodiment.
  • FIG. 2 is a block diagram illustrating the functional configuration of the forward labeling unit of the embodiment.
  • FIG. 3 is a block diagram illustrating the functional configuration of the reverse labeling portion of the embodiment.
  • FIG. 4 is a block diagram illustrating the functional configuration of the labeling error detection unit of the first embodiment.
  • FIG. 5 shows a phoneme label series A with time information obtained by forward phoneme labeling and a phoneme label with time information obtained by reversing the time order of the inverted phoneme label series with time information obtained by phoneme labeling in the reverse direction. It is a figure which illustrated the phoneme boundary error with the sequence B.
  • FIG. 5 shows a phoneme label series A with time information obtained by forward phoneme labeling and a phoneme label with time information obtained by reversing the time order of the inverted phoneme label series with time information obtained by phoneme labeling in the reverse direction. It is a figure which illustrated the phone
  • FIG. 6 is a flow chart for exemplifying the processing contents of the labeling error detection unit.
  • FIG. 7 is a block diagram illustrating the functional configuration of the labeling error detection unit of the second embodiment.
  • FIG. 8 is a block diagram illustrating the hardware configuration of the embodiment.
  • a phoneme having a large phoneme labeling error to be preferentially corrected is automatically detected from the result of the phoneme labeling performed automatically.
  • the phoneme label series is associated with the time information in the forward direction (normal time series), and the phoneme labeling in the forward direction is performed.
  • the phoneme boundary error in is calculated, and the phoneme labeling error is detected based on the phoneme boundary error.
  • Forward phoneme labeling is performed by, for example, using the Viterbi algorithm to perform forced alignment between the acoustic likelihood and the phoneme label sequence to determine the maximum likelihood path.
  • forward phoneme labeling is performed in one direction (forward direction) in chronological order (see, for example, Equation (1.27) of Non-Patent Document 2), and a large error in phoneme labeling occurs at a certain time. In that case, the effect adversely affects the subsequent time-series phoneme labeling.
  • the preceding phoneme is often associated with a time that should be silent at the end of the sentence.
  • the phoneme boundary error with the second time-information phoneme label series in which the time order of the time-information inversion phoneme label is reversed is calculated, and the phoneme labeling error is detected based on the phoneme boundary error. For example, based on the phoneme boundary error, a phoneme label with incorrect phoneme labeling is detected from the phoneme label series. For example, a phoneme label with time information corresponding to a phoneme boundary whose phoneme boundary error exceeds a threshold value is detected.
  • the labeling error detection device 1 of the present embodiment has a forward labeling unit 11, a reverse labeling unit 12, and a labeling error detection unit 13.
  • the forward labeling unit 11 includes a forward labeling model 110, an acoustic feature amount calculation unit 111, and a time information calculation unit 112.
  • the reverse labeling unit 12 includes a reverse labeling model 120, an acoustic feature amount calculation unit 121, an acoustic feature amount time inversion unit 122, a label inversion unit 123, a time information calculation unit 124, and a label. It has an inversion part 125. As illustrated in FIG.
  • the labeling error detection unit 13 includes a phoneme boundary error calculation unit 131 and an error detection unit 132.
  • the forward labeling model 110 may be incorporated in the forward labeling unit 11 in advance, or may be input to the forward labeling unit 11 from the outside and stored in a storage unit (not shown).
  • the reverse-direction labeling model 120 may be incorporated in the reverse-direction labeling unit 12 in advance, or may be input to the reverse-direction labeling unit 12 from the outside and stored in a storage unit (not shown).
  • the labeling error detection device 1 executes each process under a control unit (not shown). Information used for each process is stored in a storage unit (not shown), and is read out and used as needed.
  • the time-series voice data (voice signal) to be labeled and the phoneme label series without time information (phoneme label series) corresponding to the voice data are input to the labeling error detection device 1.
  • the voice data and the phoneme label series without time information may be stored in a database (not shown) or may be transmitted by a communication means such as the Internet.
  • the audio data is digital data, and may be time-series data in the time domain or time-series data in the time frequency domain.
  • the phoneme label series without time information is a phoneme label series (a series of labels representing phonemes) representing a phoneme sequence constituting a voice represented by voice data.
  • Examples of phonemes are consonants, vowels, semivowels, long vowels, special mora and silence.
  • the order of the phoneme labels constituting the phoneme label series without time information is determined according to the sound represented by the voice data, but the time corresponding to each phoneme label (that is, the time information of the voice data) is not given.
  • voice data is input to the acoustic feature amount calculation unit 111 of the forward labeling unit 11.
  • the acoustic feature amount calculation unit 111 obtains an acoustic feature amount for phoneme labeling from the voice data, and outputs a time series of the acoustic feature amount as an acoustic feature amount series.
  • Mel-Frequency Cepstrum Coefficients (MFCC) and Mel-filter banks which indicate the frequency characteristics of speech, are used as acoustic features, but other bottleneck features obtained from spectrograms and DNNs for speech recognition. And the like may be used (step S111).
  • the acoustic feature amount sequence output from the acoustic feature amount calculation unit 111, the above-mentioned phoneme label series without time information, and the forward labeling model 110 are input to the time information calculation unit 112.
  • the time information calculation unit 112 uses the acoustic feature quantity sequence and the phoneme label sequence to perform forward phoneme labeling that associates forward time information with the phoneme label sequence, and performs phoneme label sequence A with time information (with first time information). Phoneme label series) is obtained and output.
  • the forward labeling model 110 is applied to the acoustic feature sequence and the phoneme label sequence.
  • forward phoneme labeling means a process of performing phoneme labeling in the time direction (direction from the past to the future) of voice data. That is, in forward phoneme labeling, for the acoustic feature quantity o t ( ⁇ t ⁇ [1, T]), the score at each time t (for example, ⁇ j (t) in the equation (1.27) of Non-Patent Document 2). )) Performs phoneme labeling based on a recurrence formula that depends on the score up to the past time t-1 (for example, ⁇ j (t-1) in the formula (1.27) of Non-Patent Document 2).
  • the time information calculation unit 112 applies the Viterbi algorithm to the acoustic feature quantity series and the phoneme label series without time information, and obtains the phoneme label series A with time information by performing forced alignment (step). S112).
  • voice data is input to the acoustic feature amount calculation unit 121 of the reverse direction labeling unit 12.
  • the acoustic feature amount calculation unit 121 obtains an acoustic feature amount for phoneme labeling from the voice data, and outputs a time series of the acoustic feature amount as an acoustic feature amount series.
  • the acoustic feature amount generated by the acoustic feature amount calculation unit 121 is the same as the acoustic feature amount generated by the acoustic feature amount calculation unit 111 of the forward labeling unit 11 (step S121).
  • the acoustic feature amount series output from the acoustic feature amount calculation unit 121 is input to the acoustic feature amount time inversion unit 122.
  • the acoustic feature time inversion unit 122 obtains and outputs an inverted acoustic feature sequence in which the time order of the input acoustic feature sequence is inverted (time inversion) (step S122).
  • the label inversion unit 123 obtains and outputs an inverted phoneme label sequence without time information (inverted phoneme label sequence) in which the time order of the input time information-less phoneme label sequence is inverted. For example, when "oh a y o o", which is a phoneme of "good morning" as a phoneme label series without time information, is input to the label inversion unit 123, the label inversion unit 123 is "o" as a phoneme label series without time information. o y a h o ”is output (step S123).
  • the inverted acoustic feature amount series output from the acoustic feature amount time inversion unit 122, the inverted sound element label series without time information output from the label inversion unit 123, and the above-mentioned reverse labeling model 120 are the time information calculation unit. It is input to 124.
  • the time information calculation unit 124 uses the inverted phoneme feature sequence and the inverted phoneme label sequence to perform reverse phoneme labeling that associates the inverted phoneme label sequence with the reverse phoneme label sequence to obtain an inverted phoneme label sequence with time information.
  • the phoneme labeling in the reverse direction means a process of performing phoneme labeling in the direction opposite to the time direction of the voice data (direction from the future to the past).
  • the reverse phoneme labeling model 120 is applied to the inverted acoustic feature sequence and the inverted phoneme label sequence.
  • the reverse labeling model 120 is machine-learned by inverting the input / output sequence of the forward labeling model 110 with respect to the time series.
  • the machine learning is performed by assigning time-inverted acoustic feature sequence and time-inverted phoneme label sequence with time information to input / output as learning data (step S124).
  • the inverted phoneme label series with time information output from the time information calculation unit 124 is input to the label inversion unit 125.
  • the label inversion unit 125 obtains and outputs a phoneme label series B with time information (a second phoneme label series with time information) in which the time order of the input inverted phoneme label series with time information is reversed.
  • the label inversion unit 125 inverts the time order not only of the phoneme label series of the inverted phoneme label series with time information but also of the time information.
  • the phoneme boundary error calculation unit 131 of the labeling error detection unit 13 has a phoneme label series A with time information output from the forward labeling unit 11 and a phoneme label series A with time information and a reverse direction labeling unit 12.
  • the output phoneme label series B with time information is input.
  • the phoneme boundary error calculation unit 131 calculates and outputs each phoneme boundary error between the phoneme label sequence A with time information and the phoneme label sequence B with time information.
  • the phoneme boundary error is the time information ⁇ Am corresponding to the mth phoneme boundary from the beginning of the phoneme label series A with time information, and the time information corresponding to the mth phoneme boundary from the beginning of the phoneme label series B with time information.
  • FIG. 5 An example of calculating the phoneme boundary error is shown according to FIG.
  • the horizontal axis of FIG. 5 is time, A represents a phoneme label series A with time information, and B represents a phoneme label series B with time information.
  • the phoneme label series of the phoneme label series A with time information and the phoneme label series of the phoneme label series B with time information are equal to each other, and in the example of FIG. 5, they are both "sil o h a y o o sil".
  • "sil" is a phoneme indicating silence.
  • , do ⁇ h
  • , d h ⁇ a
  • the phoneme boundary error output from the phoneme boundary error calculation unit 131 is input to the error detection unit 132.
  • the error detection unit 132 detects an error in phoneme labeling based on the input phoneme boundary error. For example, the error detection unit 132 detects a phoneme label with time information that has incorrect phoneme labeling from the phoneme label series A with time information or the phoneme label series B with time information based on the phoneme boundary error. That is, the error detection unit 132 determines that the phoneme labeling of the phoneme label with time information having a phoneme boundary having a large phoneme boundary error is incorrect, and it is necessary to reconfirm the phoneme label with time information. For this determination, for example, a threshold value determination can be used.
  • the error detection unit 132 can detect the phoneme label corresponding to the phoneme boundary whose phoneme boundary error exceeds the threshold value as the phoneme label whose phoneme labeling is erroneous.
  • the threshold is not limited, for example, observe the relationship between the phoneme boundary error obtained from the correct answer label and the phoneme label series A with time information, and the phoneme label series A with time information and the phoneme label series B with time information. The threshold is set. This detection process is illustrated with reference to FIG. The error detection unit 132 selects the m-th phoneme boundary for which the phoneme boundary error has not yet been determined.
  • the error detection unit 132 determines whether or not the m-th phoneme boundary error
  • the error detection unit 132 has an error in the phoneme labeling of the phoneme label with time information having the m-th phoneme boundary, and the time is concerned.
  • step S1323 It is determined that reconfirmation (manual recheck) of the phoneme label with information is necessary (step S1323). If this is not the case, the error detection unit 132 determines that the phoneme labeling of the phoneme label with time information having the mth phoneme boundary is appropriate and that reconfirmation of the phoneme label with time information is unnecessary (step S1324). .. As described above, the phoneme label with time information to be determined may be that of the phoneme label series A with time information or that of the phoneme label series B with time information. The error detection unit 132 determines whether or not the determination of all phoneme boundary errors has been completed (step S1325). If the determination of all phoneme boundary errors is not completed, the process returns to step S1321.
  • the error detection unit 132 separately outputs the phoneme label with time information determined to require reconfirmation and the phoneme label with time information determined to not require reconfirmation (step S132).
  • the result of automatic labeling may include phoneme labeling errors that are significantly large enough to be fatal to speech synthesis.
  • the phoneme label series A with time information obtained by performing phoneme labeling in the forward direction and the inverted phoneme label series with time information obtained by performing phoneme labeling in the reverse direction are inverted with time information.
  • An error in phoneme labeling is automatically detected from the phoneme boundary error with the phoneme label sequence B. Therefore, it is only necessary to manually recheck only the phoneme label with time information (the phoneme label with time information that needs to be reconfirmed) that has an error in phoneme labeling, and the time and effort of phoneme labeling can be significantly reduced.
  • the second embodiment is a modification of the first embodiment, and is different from the first embodiment in that only a part of the obtained phoneme boundary error is used for error detection of phoneme labeling.
  • the differences from the first embodiment will be mainly described, and the matters already described will be simplified by using the same reference numbers as those of the first embodiment.
  • the phoneme boundary error obtained by the phoneme boundary error calculation unit 131 (FIG. 4) of the labeling error detection unit 13 is input to the error detection unit 132 as it is.
  • a specific phoneme boundary error which is an error of a specific phoneme boundary, is extracted from the phoneme boundary error, and an error in phoneme labeling is detected based on the specific phoneme boundary error. For example, at the phoneme boundaries before and after silence, the phoneme boundary error between the phoneme label series with time information obtained by forward phoneme labeling and the correct phoneme label series, and the phoneme with time information obtained by forward phoneme labeling.
  • the labeling error detection device 2 of the present embodiment has a forward labeling unit 11, a reverse labeling unit 12, and a labeling error detection unit 23.
  • the labeling error detection unit 23 includes a phoneme boundary error calculation unit 131, a filtering unit 233, and an error detection unit 232.
  • the labeling error detection device 2 executes each process under a control unit (not shown). Information used for each process is stored in a storage unit (not shown), and is read out and used as needed.
  • the forward labeling unit 11 and the reverse labeling unit 12 of the second embodiment are the same as those described in the first embodiment.
  • the processing of the labeling error detection unit 23, which is a difference from the first embodiment, will be described.
  • the phoneme boundary error calculation unit 131 of the labeling error detection unit 23 has a phoneme label series A with time information output from the forward labeling unit 11 and a phoneme label series A with time information and a reverse direction labeling unit 12.
  • the phoneme label series B with time information to be output is input.
  • the phoneme boundary error calculation unit 131 calculates and outputs the phoneme boundary error as described in the first embodiment (step S131).
  • the phoneme boundary error output from the phoneme boundary error calculation unit 131 and the information representing a specific phoneme boundary are input to the filtering unit 233.
  • the filtering unit 233 extracts and outputs a specific phoneme boundary error (filtered phoneme boundary error) corresponding to a specific phoneme boundary from the phoneme boundary error. For example, if detection is performed specifically for phoneme labeling errors related to silence, the filtering unit 233 extracts and outputs a phoneme boundary error at a phoneme boundary including before and after silence as a specific phoneme boundary error (step S233).
  • the specific phoneme boundary error output from the filtering unit 233 is input to the error detection unit 232.
  • the error detection unit 232 detects an error in phoneme labeling based on the input specific phoneme boundary error.
  • the error detection unit 232 determines that the phoneme labeling of the phoneme label with time information having a phoneme boundary having a large specific phoneme boundary error is incorrect, and it is necessary to reconfirm the phoneme label with time information.
  • a threshold value determination can also be used for this determination.
  • the error detection unit 232 since the error detection target of phoneme labeling is limited to a specific phoneme boundary, the error detection unit 232 has an error in phoneme labeling based on a determination criterion specialized for the specific phoneme boundary. Can be detected.
  • the error detection unit 232 can perform threshold determination using a threshold specialized for the specific phoneme boundary, and the specific phoneme boundary error exceeds the threshold specialized for the specific phoneme boundary at the phoneme boundary.
  • the corresponding phoneme label with time information can detect phoneme labeling as an erroneous phoneme label.
  • the specific threshold specific to this specific phoneme boundary is obtained from, for example, the correct answer label and the phoneme label series A with time information, and the phoneme label series A with time information and the phoneme label series B with time information, respectively. It is determined by observing the relationship between phoneme boundary errors at phoneme boundaries (for example, phoneme boundaries including phoneme boundaries before and after silence). As a result, more accurate error detection can be expected than when a threshold set for the whole phoneme boundary is used.
  • the error detection unit 232 distinguishes between a phoneme label with time information that is determined to require reconfirmation due to an error in phoneme labeling and a phoneme label with time information that is determined to require other reconfirmation (step). S232).
  • the filtering unit 233 extracts the specific phoneme boundary error corresponding to the specific phoneme boundary from the phoneme boundary error, and the error detection unit 232 determines the determination criterion specialized for the specific phoneme boundary (for example, the said). Whether or not the threshold value specific to a specific phoneme boundary is exceeded) detects phoneme labeling errors. Therefore, it is possible to detect a phoneme label with time information that has an error in phoneme labeling with higher accuracy.
  • the labeling error detection devices 1 and 2 in each embodiment are, for example, a processor (hardware processor) such as a CPU (central processing unit), a memory such as a RAM (random-access memory), a ROM (read-only memory), or the like. It is a device configured by executing a predetermined program by a general-purpose or dedicated computer. This computer may have one processor and memory, or may have a plurality of processors and memory. This program may be installed in a computer or may be recorded in a ROM or the like in advance.
  • a processor hardware processor
  • CPU central processing unit
  • a memory such as a RAM (random-access memory), a ROM (read-only memory), or the like.
  • This computer may have one processor and memory, or may have a plurality of processors and memory. This program may be installed in a computer or may be recorded in a ROM or the like in advance.
  • a part or all of the processing units may be configured by using an electronic circuit that realizes a processing function independently, instead of an electronic circuit (circuitry) that realizes a function configuration by reading a program like a CPU. ..
  • the electronic circuit constituting one device may include a plurality of CPUs.
  • FIG. 8 is a block diagram illustrating the hardware configurations of the labeling error detection devices 1 and 2 in each embodiment.
  • the labeling error detection devices 1 and 2 of this example include a CPU (Central Processing Unit) 10a, an input unit 10b, an output unit 10c, a RAM (RandomAccessMemory) 10d, and a ROM (ReadOnlyMemory). It has 10e, an auxiliary storage device 10f, and a bus 10g.
  • the CPU 10a of this example has a control unit 10aa, an arithmetic unit 10ab, and a register 10ac, and executes various arithmetic processes according to various programs read in the register 10ac.
  • the input unit 10b is an input terminal, a keyboard, a mouse, a touch panel, or the like into which data is input.
  • the output unit 10c is an output terminal from which data is output, a display, a LAN card controlled by a CPU 10a in which a predetermined program is read, and the like.
  • the RAM 10d is a SRAM (Static Random Access Memory), a DRAM (Dynamic Random Access Memory), or the like, and has a program area 10da in which a predetermined program is stored and a data area 10db in which various data are stored.
  • the auxiliary storage device 10f is, for example, a hard disk, MO (Magneto-Optical disc), a semiconductor memory, or the like, and has a program area 10fa for storing a predetermined program and a data area 10fb for storing various data.
  • the bus 10g connects the CPU 10a, the input unit 10b, the output unit 10c, the RAM 10d, the ROM 10e, and the auxiliary storage device 10f so that information can be exchanged.
  • the CPU 10a writes the program stored in the program area 10fa of the auxiliary storage device 10f to the program area 10da of the RAM 10d according to the read OS (Operating System) program.
  • OS Operating System
  • the CPU 10a writes various data stored in the data area 10fb of the auxiliary storage device 10f to the data area 10db of the RAM 10d. Then, the address on the RAM 10d in which this program or data is written is stored in the register 10ac of the CPU 10a.
  • the control unit 10aa of the CPU 10a sequentially reads out these addresses stored in the register 10ac, reads a program or data from the area on the RAM 10d indicated by the read address, causes the arithmetic unit 10ab to sequentially execute the operations indicated by the program.
  • the calculation result is stored in the register 10ac. With such a configuration, the functional configuration of the labeling error detection devices 1 and 2 is realized.
  • the above program can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, and the like.
  • the distribution of this program is carried out, for example, by selling, transferring, renting, etc. a portable recording medium such as a DVD or CD-ROM in which the program is recorded.
  • the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via the network.
  • the computer that executes such a program first temporarily stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program.
  • a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. You may execute the process according to the received program one by one each time.
  • the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and the result acquisition without transferring the program from the server computer to this computer. May be.
  • the program in this embodiment includes information used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be realized by hardware.
  • the present invention is not limited to the above-described embodiment.
  • voice data is input to the labeling error detection devices 1 and 2
  • the acoustic feature quantity series of the voice data may be input to the detection devices 1 and 2 and given to the time information calculation units 112 and 124.
  • the acoustic feature calculation units 111 and 121 can be omitted.
  • an inverted acoustic feature amount sequence in which the time order of the acoustic feature amount sequence is reversed is input to the reverse direction labeling unit 12, and may be given to the time information calculation unit 124.
  • the acoustic feature time inversion unit 122 can be omitted.
  • the time-information-less inverted phone label series in which the time order of the time-information-less phonetic label series is reversed is input to the reverse-direction labeling unit 12, and is given to the time information calculation unit 124. You may.
  • the label inversion unit 123 can be omitted.
  • the reverse direction labeling unit 12 may output the inverted phoneme label series with time information without inverting it.
  • the inverted phoneme label series with time information output from the reverse direction labeling unit 12 is input to the phoneme boundary error calculation unit 131 of the labeling error detection units 13 and 23.
  • the phoneme boundary error calculation unit 131 obtains a phoneme label series B with time information in which the time order of the inverted phoneme label series with time information is reversed, and the phoneme label series A with time information output from the forward labeling unit 11. Obtain the phoneme boundary error.
  • the phoneme boundary error calculation unit 131 substantially refers to the time of the inverted phoneme label series with time information in the opposite direction, and substantially the phoneme boundary error between the phoneme label series A with time information and the phoneme label series B with time information. May be obtained.
  • the labeling error detection units 13 and 23 separately output the phoneme label with time information determined to require reconfirmation and the phoneme label with time information determined to not require reconfirmation. ..
  • the labeling error detection units 13 and 23 may output only the phoneme label with time information determined to require reconfirmation, or may output only the phoneme label with time information determined to not require reconfirmation. good.
  • phoneme labeling of learning data used for machine learning of a speech synthesis model can be exemplified.
  • phoneme labeling is performed in the conventional framework, the phoneme boundaries of the obtained phoneme label series with time information may deviate significantly from those manually labeled. If such a phoneme label with time information is used for machine learning of a speech synthesis model, the speech synthesis model becomes inappropriate.
  • an attempt is made to synthesize a sentence containing a phoneme having a large error in phoneme labeling, a voice that utters a different phoneme at an unintended timing is synthesized.
  • a phoneme having a large error in phoneme labeling can be automatically detected, and as a result, a phoneme having a large error in phoneme labeling can be efficiently corrected. As a result, it becomes possible to learn an appropriate speech synthesis model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

音声信号の音響特徴量系列および音声信号の音素ラベル系列を用い、音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って第1時間情報付き音素ラベル系列を得、音響特徴量系列の時間順序を反転させた反転音響特徴量系列および音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得、第1時間情報付き音素ラベル系列と、時間情報付き反転音素ラベル系列の時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差に基づき、音素ラベリングの誤りを検出する。

Description

ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム
 本発明は、音声の自動ラベリング技術に関し、特に時間情報付き音素ラベルの誤り検知技術に関する。
 音声合成の音響モデル構築には、音声およびそれに対応する音素ラベルが必要である。近年の統計的パラメトリック音声合成で主流である深層学習(DNN: Deep Neural Network)に基づく音声合成では、モデルの入出力間でフレームレベルの言語特徴量と音響特徴量を対応させるため、音素ラベルに時間情報が正確に与えられている必要がある。音声の各音素に対応する時間情報を音素ラベルに付与する作業を音素ラベリングと呼ぶ。音素ラベリングを人手で行うには、音声と音素ラベルを照らし合わせて何度も聴かなければならないため、膨大な時間とコストを要する。
 この音素ラベリングを自動で行う方法として、隠れマルコフモデル(HMM: Hidden Markov Model)を用いる手法がよく用いられる(例えば、特許文献1および非特許文献1,2等参照)。この手法では、音響特徴量の時系列(音響特徴量系列)と音素ラベルの時系列(音素ラベル系列)をHMMに与え、ビタビアルゴリズムなどの探索アルゴリズムを通じて時間情報付き音素ラベルの時系列(時間情報付き音素ラベル系列)を得ることができる。
 従来はHMMの状態遷移系列の音響尤度(例えば、非特許文献2の式(1.27)のbj(ot))の計算に、混合ガウス分布(GMM)を用いるのが主流であったが、近年ではGMMより高い弁別性を持つ深層学習(DNN)を用いる方法が主流となっている(例えば、非特許文献3,4等参照)。
 いま、DNNとHMMを併用したアプローチ(DNN-HMM)で音素ラベリングを行う自動ラベリング用モデルを考える。ある発話において、音声から抽出した音響特徴量系列、それに対応するHMMの状態ID系列をそれぞれo=[o1,...,oT]、s=[s1,...,sT]とするとき、DNNは次式のLoss(o,s)を最小化するように学習される。
Loss(o,s)=-xent(o,s)
ここで、xent(o,s)はoとsの交差エントロピーであり、t=1,...,Tが離散時間に対応するフレーム番号であり、Tがtの最大値である。フレーム番号tに対応する離散時間を時刻tと表現する。時刻tにおけるHMMの状態IDはj=1,...,Nのいずれかの値を取る。ただし、Nはjの最大値である。音響特徴量系列と音素ラベル系列から時間情報付き音素ラベル系列を予測するには、まずDNNの順伝搬演算により、音響特徴量系列o(∀t∈[1,T])が与えられた時にHMMの状態IDがjとなる事後確率p(j|ot) (∀t∈[1,T])を得る。これを事前確率p(j)で除算することで音響尤度p(ot|j)(例えば、非特許文献2の式(1.27)のbj(ot))を得る。事前確率p(j)は、学習データ中の状態IDの出現頻度から計算できる。これらをj=1,...,Nの全状態にわたって計算した音響尤度系列p(ot|j) (∀t∈[1,T], ∀j∈[1,N])をHMMに入力し、ビタビアルゴリズムを実行することで時間情報付きラベルを推定できる。
特許第3866171号公報
河井恒, 戸田智基, "波形接続型音声合成のための自動音素セグメンテーションの評価", 信学技報, SP2002-170, pp. 5 - 10, 2003. Steve Young, et al., "The HTK Book (for HTK Version 3.5a)," Cambridge University EngineeringDepartment, 2015 G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition," IEEE Signal Processing Magazine, Vol.29 (6), pp. 82 - 97, 2012. David Ayllon, Fernando Villavicencio, Pierre Lanchantin, "A Strategy for Improved Phone-Level Lyrics-to-Audio Alignment for Speech-to-Singing Synthesis", Proc. Interspeech, pp. 2603 - 2607.
 しかし、前述の枠組みを含む自動ラベリングによって時間情報付き音素ラベル系列を得た場合、その音素境界が、人手で音素ラベリングした場合とかけ離れたものになることがある。これを防ぐために、自動ラベリング結果の音素境界位置をすべて人手で修正することが好ましいが、この作業を人手行うのは先述の通り、膨大なコストがかかる。仮に修正箇所がなかったとしても、修正箇所の有無を判定するためには、全ラベリング対象の音声を一度は聞かなくてはならならず、多大な時間を要する。
 本発明はこのような点に鑑みてなされたものであり、音素ラベリングの誤りを自動で検出することを目的とする。
 音声信号の音響特徴量系列および音声信号の音素ラベル系列を用い、音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って第1時間情報付き音素ラベル系列を得、音響特徴量系列の時間順序を反転させた反転音響特徴量系列および音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得、第1時間情報付き音素ラベル系列と、時間情報付き反転音素ラベル系列の時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差に基づき、音素ラベリングの誤りを検出する。
 以上のように、音素ラベリングの誤りを自動で検出できる。
図1は実施形態のラベリング誤り検出装置の機能構成を例示したブロック図である。 図2は実施形態の順方向ラベリング部の機能構成を例示したブロック図である。 図3は実施形態の逆方向ラベリング部の機能構成を例示したブロック図である。 図4は第1実施形態のラベリング誤り検出部の機能構成を例示したブロック図である。 図5は、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列Aと、逆方向の音素ラベリングで得られた時間情報付き反転音素ラベル系列の時間順序を反転させた時間情報付き音素ラベル系列Bとの間での音素境界誤差を例示した図である。 図6はラベリング誤り検出部の処理内容を例示するためのフロー図である。 図7は第2実施形態のラベリング誤り検出部の機能構成を例示したブロック図である。 図8は実施形態のハードウェア構成を例示したブロック図である。
 以下、図面を参照して本発明の実施の形態を説明する。
 [第1実施形態]
 まず、本発明の第1実施形態を説明する。
 第1実施形態では、自動で行われた音素ラベリングの結果から、優先的に修正すべき音素ラベリング誤りの大きな音素を自動検出する。具体的には、音声信号の音響特徴量系列および当該音声信号の音素ラベル系列を用い、音素ラベル系列に順方向(通常の時系列)の時間情報を対応付ける順方向の音素ラベリングを行って第1時間情報付き音素ラベル系列を得る順方向のシステムと、音響特徴量系列の時間順序を反転させた反転音響特徴量系列および音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得る逆方向のシステムとを用意する。順方向のシステムで得られた第1時間情報付き音素ラベル系列と、逆方向のシステムで得られた時間情報付き反転音素ラベルの時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差を算出し、当該音素境界誤差に基づいて音素ラベリングの誤りを検出する。
 順方向の音素ラベリングは、例えばビタビアルゴリズムによって、音響尤度と音素ラベル系列との強制アラインメントを行い最尤な経路を決定することで行われる。しかし、このような順方向の音素ラベリングは時系列に沿って一方向(順方向)で行われ(例えば、非特許文献2の式(1.27)参照)、とある時刻で音素ラベリングの誤りが大きい場合、その影響が後続の時系列の音素ラベリングに悪影響を与えてしまう。例えば、文末の無音であるべき時刻に先行音素が対応付けられるということがよくある。このことから、無音や長母音などを含む少なくとも一部の音素の音素境界において、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と正解の音素ラベル系列との音素境界誤差と、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と逆方向の音素ラベリングに基づいた時間情報付き音素ラベル系列との音素境界誤差との間に、正の相関を持つ。この原理に基づき、本実施形態では、順方向の音素ラベリングに加え、逆方向の音素ラベリングも行い、順方向のシステムで得られた第1時間情報付き音素ラベル系列と、逆方向のシステムで得られた時間情報付き反転音素ラベルの時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差を計算し、音素境界誤差に基づいて音素ラベリングの誤りを検出する。例えば、音素境界誤差に基づき、音素ラベル系列から音素ラベリングを誤った音素ラベルを検出する。例えば、音素境界誤差が閾値を超える音素境界に対応する時間情報付き音素ラベルを検出する。
 これにより、音素ラベリングの誤りを自動で検出することが可能になる。自動音素ラベリングにより得られる音素ラベルには誤りが含まれるため、これまでは全発話において人手で音素境界を手修正する必要があった。本実施形態では、音素ラベリングの誤りを自動で検出できるため、誤りと検出された部分の音素ラベリングのみを手修正すればよく、ラベリングにかかる時間とコストを削減できる。以下、本実施形態について詳細に説明する。
 <詳細>
 図1に例示するように、本実施形態のラベリング誤り検出装置1は、順方向ラベリング部11、逆方向ラベリング部12、およびラベリング誤り検出部13を有する。図2に例示するように、順方向ラベリング部11は、順方向ラベリング用モデル110、音響特徴量計算部111、および時間情報計算部112を有する。図3に例示するように、逆方向ラベリング部12は、逆方向ラベリング用モデル120、音響特徴量計算部121、音響特徴量時間反転部122、ラベル反転部123、時間情報計算部124、およびラベル反転部125を有する。図4に例示するように、ラベリング誤り検出部13は、音素境界誤差算出部131、および誤り検出部132を有する。順方向ラベリング用モデル110は予め順方向ラベリング部11に組み込まれていてもよいし、外部から順方向ラベリング部11に入力されて図示していない記憶部に格納されていてもよい。同様に、逆方向ラベリング用モデル120は予め逆方向ラベリング部12に組み込まれていてもよいし、外部から逆方向ラベリング部12に入力されて図示していない記憶部に格納されていてもよい。またラベリング誤り検出装置1は、図示していない制御部の下で各処理を実行する。各処理に用いられる情報は図示していない記憶部に格納され、必要に応じて読み出されて使用される。
 まず、図1から図4を用い、ラベリング誤り検出装置1の処理の全体を説明する。ラベリング誤り検出装置1には、ラベリング対象である時系列の音声データ(音声信号)および当該音声データに対応する時間情報無し音素ラベル系列(音素ラベル系列)が入力される。音声データおよび時間情報無し音素ラベル系列は、図示していないデータベースに格納されたものであってもよいし、インターネットなどの通信手段で送信されたものであってもよい。音声データはデジタルデータであり、時間領域の時系列データであってもよいし、時間周波数領域の時系列データであってもよい。時間情報無し音素ラベル系列は、音声データで示される音声を構成する音素列を表す音素ラベル系列(音素を表すラベルの系列)である。音素の例は、子音、母音、半母音、長母音、特殊モーラおよび無音などである。時間情報無し音素ラベル系列を構成する音素ラベルの順序は音声データが表す音声に応じて決められているが、各音素ラベルに対応する時刻(すなわち、音声データの時間情報)は付与されていない。
 <順方向ラベリング部11>
 図1および図2に例示するように、順方向ラベリング部11の音響特徴量計算部111には音声データが入力される。音響特徴量計算部111は、音声データから音素ラベリング用の音響特徴量を得、当該音響特徴量の時系列を音響特徴量系列として出力する。音響特徴量には、音声の周波数特性を示すメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficients)やメルフィルタバンクなどが用いられるが、その他スペクトログラムや音声認識用のDNNから得たボトルネック特徴量などを用いてもよい(ステップS111)。
 次に、音響特徴量計算部111から出力された音響特徴量系列、前述の時間情報無し音素ラベル系列、および順方向ラベリング用モデル110は時間情報計算部112に入力される。時間情報計算部112は、音響特徴量系列および音素ラベル系列を用い、音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って時間情報付き音素ラベル系列A(第1時間情報付き音素ラベル系列)を得て出力する。この順方向の音素ラベリングでは、音響特徴量系列および音素ラベル系列に順方向ラベリング用モデル110を適用する。なお順方向の音素ラベリングとは、音声データの時間方向(過去から未来へ向かう方向)に音素ラベリングを行う処理を意味する。すなわち、順方向の音素ラベリングでは、音響特徴量ot (∀t∈[1,T])に対して、各時刻tのスコア(例えば、非特許文献2の式(1.27)のφj(t))が過去の時刻t-1までのスコア(例えば、非特許文献2の式(1.27)のφj(t-1))に依存する漸化式に基づく音素ラベリングを行う。順方向ラベリング用モデル110には、例えばGMM-HMMやDNN-HMMを用いることができる(例えば、特許文献1,非特許文献1~4等参照)。これらの例の場合、時間情報計算部112は、音響特徴量系列および時間情報無し音素ラベル系列に対してビタビアルゴリズムを適用し、強制アラインメントを取ることで時間情報付き音素ラベル系列Aを得る(ステップS112)。
 <逆方向ラベリング部12>
 図1および図3に例示するように、逆方向ラベリング部12の音響特徴量計算部121には音声データが入力される。音響特徴量計算部121は、音声データから音素ラベリング用の音響特徴量を得、当該音響特徴量の時系列を音響特徴量系列として出力する。音響特徴量計算部121が生成する音響特徴量は、前述の順方向ラベリング部11の音響特徴量計算部111が生成する音響特徴量と同一である(ステップS121)。
 音響特徴量計算部121から出力された音響特徴量系列は音響特徴量時間反転部122に入力される。音響特徴量時間反転部122は、入力された音響特徴量系列の時間順序を反転(時間反転)させた反転音響特徴量系列を得て出力する(ステップS122)。
 また、前述の時間情報無し音素ラベル系列がラベル反転部123に入力される。ラベル反転部123は、入力された時間情報無し音素ラベル系列の時間順序を反転させた時間情報無し反転音素ラベル系列(反転音素ラベル系列)を得て出力する。例えば、時間情報無し音素ラベル系列として「おはよう」を音素化した「o h a y o o」がラベル反転部123に入力された場合、ラベル反転部123は時間情報無し反転音素ラベル系列として「o o y a h o」を出力する(ステップS123)。
 次に、音響特徴量時間反転部122から出力された反転音響特徴量系列、ラベル反転部123から出力された時間情報無し反転音素ラベル系列、および前述の逆方向ラベリング用モデル120が時間情報計算部124に入力される。時間情報計算部124は、反転音響特徴量系列および反転音素ラベル系列を用い、反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得て出力する。逆方向の音素ラベリングとは、音声データの時間方向とは逆方向(未来から過去へ向かう方向)に音素ラベリングを行う処理を意味する。この逆方向の音素ラベリングでは、反転音響特徴量系列および反転音素ラベル系列に逆方向ラベリング用モデル120を適用する。ここで逆方向ラベリング用モデル120とは、順方向ラベリング用モデル110の入出力系列を時系列について反転して機械学習されたものである。その機械学習は、学習データとして、時間反転した音響特徴量系列と時間情報付き音素ラベル系列を時間反転したものとを、それぞれ入出力に割り当てて行われる(ステップS124)。
 時間情報計算部124から出力された時間情報付き反転音素ラベル系列はラベル反転部125に入力される。ラベル反転部125は、入力された時間情報付き反転音素ラベル系列の時間順序を反転させた時間情報付き音素ラベル系列B(第2時間情報付き音素ラベル系列)を得て出力する。ラベル反転部125では、先述のラベル反転部123とは異なり、時間情報付き反転音素ラベル系列の音素ラベル系列だけではなく、時間情報についても時間順序を反転させる。これにより、順方向ラベリング部11から出力される時間情報付き音素ラベル系列Aの時系列の順序と、逆方向ラベリング部12から出力される時間情報付き音素ラベル系列Bの時系列の順序とが揃うので、これらの音素境界誤差を求めることができるようになる(ステップS125)。
 <ラベリング誤り検出部13>
 図1および図4に例示するように、ラベリング誤り検出部13の音素境界誤差算出部131には、順方向ラベリング部11から出力された時間情報付き音素ラベル系列Aと、逆方向ラベリング部12から出力された時間情報付き音素ラベル系列Bが入力される。音素境界誤差算出部131は、時間情報付き音素ラベル系列Aと時間情報付き音素ラベル系列Bとの間での各音素境界誤差を計算して出力する。音素境界誤差とは、時間情報付き音素ラベル系列Aの先頭からm番目の音素境界に対応する時間情報τAmと、時間情報付き音素ラベル系列Bの先頭からm番目の音素境界に対応する時間情報τBmとの差分|τAmBm|を意味する。ただし、m=1,…,Mであり、Mは正の整数である。図5に従って音素境界誤差の算出例を示す。図5の横軸は時間であり、Aは時間情報付き音素ラベル系列Aを表し、Bは時間情報付き音素ラベル系列Bを表す。前述のように、時間情報付き音素ラベル系列Aの音素ラベル系列と時間情報付き音素ラベル系列Bの音素ラベル系列とは等しく、図5の例ではいずれも「sil o h a y o o sil」である。なお、「sil」は無音を示す音素である。この例の場合、時間情報付き音素ラベル系列AおよびBの1番目,2番目,3番目の音素境界誤差は、それぞれdsil→o=|τA1B1|,do→h=|τA2B2|,dh→a=|τA3B3|となる(ステップS131)。
 音素境界誤差算出部131から出力された音素境界誤差は誤り検出部132に入力される。誤り検出部132は、入力された音素境界誤差に基づいて音素ラベリングの誤りを検出する。例えば誤り検出部132は、音素境界誤差に基づき、時間情報付き音素ラベル系列Aまたは時間情報付き音素ラベル系列Bから音素ラベリングを誤った時間情報付き音素ラベルを検出する。すなわち、誤り検出部132は、音素境界誤差が大きな音素境界を持つ時間情報付き音素ラベルの音素ラベリングが誤りであり、この時間情報付き音素ラベルの再確認が必要であると判定する。この判定には、例えば閾値判定を用いることができる。つまり、誤り検出部132は、音素境界誤差が閾値を超える音素境界に対応する音素ラベルを、音素ラベリングを誤った音素ラベルとして検出することができる。閾値に限定は無いが、例えば、正解ラベルと時間情報付き音素ラベル系列A、および時間情報付き音素ラベル系列Aと時間情報付き音素ラベル系列Bとからそれぞれ求めた音素境界誤差の関係性を観察して閾値が定められる。図6を用いて、この検出処理を例示する。誤り検出部132は、まだ音素境界誤差の判定を行っていないm番目の音素境界を選択する。例えば、誤り検出部132は、直前に音素境界誤差の判定を行ったm-1番目の音素境界の次のm番目の音素境界を選択し、まだ音素境界誤差の判定が行われていない場合にはm=1とする(ステップS1321)。次に誤り検出部132は、m番目の音素境界誤差|τAmBm|が事前に定義された閾値を超えるか否かを判定する(ステップS1322)。ここで、m番目の音素境界誤差|τAmBm|が閾値を超える場合、誤り検出部132は、m番目の音素境界を持つ時間情報付き音素ラベルの音素ラベリングが誤りであり、当該時間情報付き音素ラベルの再確認(人手での再チェック)が必要であると判定する(ステップS1323)。そうでない場合、誤り検出部132は、m番目の音素境界を持つ時間情報付き音素ラベルの音素ラベリングが適切であり、当該時間情報付き音素ラベルの再確認が不要であると判定する(ステップS1324)。前述のように、判定対象の時間情報付き音素ラベルは、時間情報付き音素ラベル系列Aのものであってもよいし、時間情報付き音素ラベル系列Bのものであってもよい。誤り検出部132は、すべての音素境界誤差の判定が終了したか否かを判定する(ステップS1325)。すべての音素境界誤差の判定が終了していない場合にはステップS1321に戻る。すべての音素境界誤差の判定が終了した場合には音素境界誤差算出部131の処理を終了する。誤り検出部132は、再確認が必要と判定した時間情報付き音素ラベルと、再確認が不要と判定した時間情報付き音素ラベルとを区別して出力する(ステップS132)。
 <本実施形態の特徴>
 自動ラベリングの結果には、音声合成に致命的となるほど著しく大きい音素ラベリング誤りが発生する場合がある。本実施形態では、順方向の音素ラベリングを行って得られた時間情報付き音素ラベル系列Aと、逆方向の音素ラベリングを行って得られた時間情報付き反転音素ラベル系列を反転させた時間情報付き音素ラベル系列Bとの音素境界誤差から、音素ラベリングの誤りを自動検出する。そのため、音素ラベリングに誤りのある時間情報付き音素ラベル(再確認が必要な時間情報付き音素ラベル)のみを人手で再チェックすればよく、音素ラベリングの手間と時間を大幅に削減できる。
 [第2実施形態]
 第2実施形態は第1実施形態の変形例であり、得られた音素境界誤差の一部のみを音素ラベリングの誤り検出に用いる点で第1実施形態と相違する。以下では第1実施形態との相違点を中心に説明し、既に説明した事項については第1実施形態と同じ参照番号を用いて説明を簡略化する。
 第1実施形態では、ラベリング誤り検出部13の音素境界誤差算出部131(図4)で得られた音素境界誤差をそのまま誤り検出部132に入力していた。これに対し、第2実施形態では、音素境界誤差から特定の音素境界の誤差である特定音素境界誤差を抽出し、当該特定音素境界誤差に基づいて音素ラベリングの誤りを検出する。例えば、無音前後の音素境界では、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と正解の音素ラベル系列との音素境界誤差と、順方向の音素ラベリングで得られた時間情報付き音素ラベル系列と逆方向の音素ラベリングに基づいた時間情報付き音素ラベル系列との音素境界誤差との間に、強い正の相関がみられる。そのため、無音前後の音素境界(特定の音素境界)での音素境界誤差を特定音素境界誤差とすることで、音素ラベリングの誤りを高精度で検出できる。また汎用的な閾値ではなく、特定音素境界誤差に対応する特定の音素境界に特化した閾値が用いられてもよい。すなわち、特定音素境界誤差がその音素境界に特化した閾値を超える当該音素境界に対応する時間情報付き音素ラベルを検出してもよい。これによって音素ラベリングの誤りをより高精度に検出できる。本実施形態では、音素境界誤差に対して音素境界フィルタリングを行い、特定の音素境界の誤差である特定音素境界誤差を抽出する例を示す。
 <詳細>
 図1に例示するように、本実施形態のラベリング誤り検出装置2は、順方向ラベリング部11、逆方向ラベリング部12、およびラベリング誤り検出部23を有する。図7に例示するように、ラベリング誤り検出部23は、音素境界誤差算出部131、フィルタリング部233、および誤り検出部232を有する。ラベリング誤り検出装置2は、図示していない制御部の下で各処理を実行する。各処理に用いられる情報は図示していない記憶部に格納され、必要に応じて読み出されて使用される。
 第2実施形態の順方向ラベリング部11および逆方向ラベリング部12は第1実施形態で説明したものと同じである。以下では、第1実施形態との相違点であるラベリング誤り検出部23の処理のみを説明する。
 <ラベリング誤り検出部23>
 図1及び図7に例示するように、ラベリング誤り検出部23の音素境界誤差算出部131には、順方向ラベリング部11から出力された時間情報付き音素ラベル系列Aと、逆方向ラベリング部12から出力される時間情報付き音素ラベル系列Bが入力される。音素境界誤差算出部131は、第1実施形態で説明したように音素境界誤差を計算して出力する(ステップS131)。
 音素境界誤差算出部131から出力された音素境界誤差、および特定の音素境界を表す情報は、フィルタリング部233に入力される。例えば、無音に関する音素ラベリング誤りに特化して検出したいときには、無音前後の音素境界を含む音素境界を特定の音素境界としてセットする。フィルタリング部233は、音素境界誤差から特定の音素境界に対応する特定音素境界誤差(フィルタリングされた音素境界誤差)を抽出して出力する。例えば、無音に関する音素ラベリング誤りに特化して検出するのであれば、フィルタリング部233は、無音前後を含む音素境界での音素境界誤差を特定音素境界誤差として抽出して出力する(ステップS233)。
 フィルタリング部233から出力された特定音素境界誤差は誤り検出部232に入力される。誤り検出部232は、入力された特定音素境界誤差に基づいて音素ラベリングの誤りを検出する。誤り検出部232は、特定音素境界誤差が大きな音素境界を持つ時間情報付き音素ラベルの音素ラベリングが誤りであり、この時間情報付き音素ラベルの再確認が必要であると判定する。この判定にも閾値判定を用いることができる。ただし、第2実施形態では、音素ラベリングの誤り検出対象を特定の音素境界に限定しているため、誤り検出部232は、当該特定の音素境界に特化した判断基準に基づいて音素ラベリングの誤りを検出することができる。例えば、誤り検出部232は、当該特定の音素境界に特化した閾値を用いて閾値判定を行うことができ、特定音素境界誤差が当該特定の音素境界に特化した閾値を超える当該音素境界に対応する時間情報付き音素ラベルを、音素ラベリングを誤った音素ラベルとして検出できる。この特定の音素境界に特化した閾値は、例えば、正解ラベルと時間情報付き音素ラベル系列A、および時間情報付き音素ラベル系列Aと時間情報付き音素ラベル系列Bとからそれぞれ求めた、この特定の音素境界(例えば、無音前後の音素境界を含む音素境界)での音素境界誤差の関係性を観察して定められる。これにより、全音素境界に対して汎用的に設定された閾値を用いる場合よりも高精度な誤り検出が期待できる。誤り検出部232は、音素ラベリングが誤りであり、再確認が必要と判定した時間情報付き音素ラベルと、それ以外の再確認が不要と判定した時間情報付き音素ラベルとを区別して出力する(ステップS232)。
 <本実施形態の特徴>
 本実施形態でも音素ラベリングの誤りを自動検出できるので、音素ラベリングに誤りのある時間情報付き音素ラベルのみを人手で再チェックすればよく、音素ラベリングの手間と時間を大幅に削減できる。さらに、本実施形態では、フィルタリング部233で音素境界誤差から特定の音素境界に対応する特定音素境界誤差を抽出し、誤り検出部232で当該特定の音素境界に特化した判断基準(例えば、当該特定の音素境界に特化した閾値を超えるか否か)で音素ラベリングの誤りを検出する。そのため、より高精度に音素ラベリングに誤りのある時間情報付き音素ラベルを検出できる。
 [ハードウェア構成]
 各実施形態におけるラベリング誤り検出装置1,2は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
 図8は、各実施形態におけるラベリング誤り検出装置1,2のハードウェア構成を例示したブロック図である。図8に例示するように、この例のラベリング誤り検出装置1,2は、CPU(Central Processing Unit)10a、入力部10b、出力部10c、RAM(Random Access Memory)10d、ROM(Read Only Memory)10e、補助記憶装置10f及びバス10gを有している。この例のCPU10aは、制御部10aa、演算部10ab及びレジスタ10acを有し、レジスタ10acに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部10bは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部10cは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだCPU10aによって制御されるLANカード等である。また、RAM10dは、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域10da及び各種データが格納されるデータ領域10dbを有している。また、補助記憶装置10fは、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域10fa及び各種データが格納されるデータ領域10fbを有している。また、バス10gは、CPU10a、入力部10b、出力部10c、RAM10d、ROM10e及び補助記憶装置10fを、情報のやり取りが可能なように接続する。CPU10aは、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置10fのプログラム領域10faに格納されているプログラムをRAM10dのプログラム領域10daに書き込む。同様にCPU10aは、補助記憶装置10fのデータ領域10fbに格納されている各種データを、RAM10dのデータ領域10dbに書き込む。そして、このプログラムやデータが書き込まれたRAM10d上のアドレスがCPU10aのレジスタ10acに格納される。CPU10aの制御部10aaは、レジスタ10acに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM10d上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部10abに順次実行させ、その演算結果をレジスタ10acに格納していく。このような構成により、ラベリング誤り検出装置1,2の機能構成が実現される。
 上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
 このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 [その他の変形例]
 なお、本発明は上述の実施形態に限定されるものではない。例えば、第1,2実施形態では、音声データがラベリング誤り検出装置1,2に入力される例を示した。しかし、音声データに代えて当該音声データの音響特徴量系列が検出装置1,2に入力され、時間情報計算部112,124に与えられてもよい。この場合には音響特徴量計算部111,121を省略することができる。また、逆方向ラベリング部12に音響特徴量系列の時間順序を反転させた反転音響特徴量系列が入力され、時間情報計算部124に与えられてもよい。この場合には音響特徴量時間反転部122を省略できる。また、逆方向ラベリング部12に時間情報無し音素ラベル系列に代えて、時間情報無し音素ラベル系列の時間順序を反転させた時間情報無し反転音素ラベル系列が入力され、時間情報計算部124に与えられてもよい。この場合にはラベル反転部123を省略できる。
 また、逆方向ラベリング部12が時間情報付き反転音素ラベル系列を反転させることなく出力してもよい。この場合、ラベリング誤り検出部13,23の音素境界誤差算出部131に、逆方向ラベリング部12から出力された時間情報付き反転音素ラベル系列が入力される。音素境界誤差算出部131は、時間情報付き反転音素ラベル系列の時間順序を反転させた時間情報付き音素ラベル系列Bを得、順方向ラベリング部11から出力された時間情報付き音素ラベル系列Aとの音素境界誤差を得る。あるいは、音素境界誤差算出部131が、時間情報付き反転音素ラベル系列の時間を逆方向に参照しながら、実質的に時間情報付き音素ラベル系列Aと時間情報付き音素ラベル系列Bとの音素境界誤差を得てもよい。
 また第1,2実施形態では、ラベリング誤り検出部13,23が、再確認が必要と判定した時間情報付き音素ラベルと、再確認が不要と判定した時間情報付き音素ラベルとを区別して出力した。しかし、ラベリング誤り検出部13,23が、再確認が必要と判定した時間情報付き音素ラベルのみを出力してもよいし、再確認が不要と判定した時間情報付き音素ラベルのみを出力してもよい。
 また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
 本発明の産業上の利用分野としては、例えば、音声合成モデルの機械学習に用いられる学習データの音素ラベリングを例示できる。従来の枠組みで音素ラベリングを行った場合、得られた時間情報付き音素ラベル系列の音素境界が人手で音素ラベリングしたものと大きく乖離する場合がある。このような時間情報付き音素ラベルを音声合成モデルの機械学習に用いると音声合成モデルが不適切なものとなる。その結果、音素ラベリングの誤りの大きな音素を含む文章を音声合成しようとしたときに、意図しないタイミングで異なる音素を発話する音声が合成されてしまう。これを防ぐために、自動ラベリング結果の音素境界位置をすべて人手で修正するためには膨大なコストがかかる。本発明を用いることで、音素ラベリングの誤りが大きな音素を自動で検出でき、その結果、音素ラベリングの誤りが大きな音素を効率的に修正できる。その結果、適切な音声合成モデルを学習することが可能になる。
1,2 ラベリング誤り検出装置

Claims (8)

  1.  音声信号の音響特徴量系列および前記音声信号の音素ラベル系列を用い、前記音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って第1時間情報付き音素ラベル系列を得、
     前記音響特徴量系列の時間順序を反転させた反転音響特徴量系列および前記音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、前記反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得、
     前記第1時間情報付き音素ラベル系列と、前記時間情報付き反転音素ラベル系列の時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差に基づき、音素ラベリングの誤りを検出する、ラベリング誤り検出装置。
  2.  請求項1のラベリング誤り検出装置であって、
     前記音素境界誤差に基づき、前記第1時間情報付き音素ラベル系列または前記第2時間情報付き音素ラベル系列から音素ラベリングを誤った時間情報付き音素ラベルを検出する、ラベリング誤り検出装置。
  3.  請求項2のラベリング誤り検出装置であって、
     前記音素境界誤差が閾値を超える音素境界に対応する前記時間情報付き音素ラベルを検出する、ラベリング誤り検出装置。
  4.  請求項1または2のラベリング誤り検出装置であって、
     前記音素境界誤差から特定の音素境界に対応する特定音素境界誤差を抽出し、前記特定音素境界誤差に基づいて前記音素ラベリングの誤りを検出する、ラベリング誤り検出装置。
  5.  請求項4のラベリング誤り検出装置であって、
     前記特定音素境界誤差が前記特定の音素境界に特化した閾値を超える当該音素境界に対応する時間情報付き音素ラベルを検出する、ラベリング誤り検出装置。
  6.  請求項1から5の何れかのラベリング誤り検出装置であって、
     前記順方向の音素ラベリングは、前記音響特徴量系列および前記音素ラベル系列に順方向ラベリング用モデルを適用する処理であり、
     前記逆方向の音素ラベリングは、前記反転音響特徴量系列および前記反転音素ラベル系列に逆方向ラベリング用モデルを適用する処理である、ラベリング誤り検出装置。
  7.  音声信号の音響特徴量系列および前記音声信号の音素ラベル系列を用い、前記音素ラベル系列に順方向の時間情報を対応付ける順方向の音素ラベリングを行って第1時間情報付き音素ラベル系列を得、
     前記音響特徴量系列の時間順序を反転させた反転音響特徴量系列および前記音素ラベル系列の時間順序を反転させた反転音素ラベル系列を用い、前記反転音素ラベル系列に逆方向の時間情報を対応付ける逆方向の音素ラベリングを行って時間情報付き反転音素ラベル系列を得、
     前記第1時間情報付き音素ラベル系列と、前記時間情報付き反転音素ラベル系列の時間順序を反転させた第2時間情報付き音素ラベル系列との間での音素境界誤差に基づき、音素ラベリングの誤りを検出する、ラベリング誤り検出方法。
  8.  請求項1から6の何れかのラベリング誤り検出装置としてコンピュータを機能させるためのプログラム。
PCT/JP2020/021342 2020-05-29 2020-05-29 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム WO2021240780A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022527441A JP7364068B2 (ja) 2020-05-29 2020-05-29 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム
PCT/JP2020/021342 WO2021240780A1 (ja) 2020-05-29 2020-05-29 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/021342 WO2021240780A1 (ja) 2020-05-29 2020-05-29 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2021240780A1 true WO2021240780A1 (ja) 2021-12-02

Family

ID=78723169

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/021342 WO2021240780A1 (ja) 2020-05-29 2020-05-29 ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP7364068B2 (ja)
WO (1) WO2021240780A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004077901A (ja) * 2002-08-20 2004-03-11 Nippon Telegr & Teleph Corp <Ntt> 音素決定方法、その装置及びプログラム
JP2018072697A (ja) * 2016-11-02 2018-05-10 日本電信電話株式会社 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004077901A (ja) * 2002-08-20 2004-03-11 Nippon Telegr & Teleph Corp <Ntt> 音素決定方法、その装置及びプログラム
JP2018072697A (ja) * 2016-11-02 2018-05-10 日本電信電話株式会社 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Also Published As

Publication number Publication date
JP7364068B2 (ja) 2023-10-18
JPWO2021240780A1 (ja) 2021-12-02

Similar Documents

Publication Publication Date Title
Saon et al. Large-vocabulary continuous speech recognition systems: A look at some recent advances
US9460711B1 (en) Multilingual, acoustic deep neural networks
OCKPH Fundamental technologies in modern speech recognition
US11955119B2 (en) Speech recognition method and apparatus
JP5982297B2 (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
Tsuchiya et al. Speaker invariant feature extraction for zero-resource languages with adversarial learning
Yu et al. Deep neural network-hidden markov model hybrid systems
CN110895928A (zh) 语音识别方法和设备
Bharali et al. Speech recognition with reference to Assamese language using novel fusion technique
Pironkov et al. Hybrid-task learning for robust automatic speech recognition
US8639510B1 (en) Acoustic scoring unit implemented on a single FPGA or ASIC
JP6244297B2 (ja) 音響スコア算出装置、その方法及びプログラム
WO2021240780A1 (ja) ラベリング誤り検出装置、ラベリング誤り検出方法、およびプログラム
Long et al. Domain adaptation of lattice-free MMI based TDNN models for speech recognition
JP6716513B2 (ja) 音声区間検出装置、その方法、及びプログラム
Benisty et al. Discriminative Keyword Spotting for limited-data applications
JP2006201265A (ja) 音声認識装置
Minh et al. The system for detecting Vietnamese mispronunciation
Tomashenko et al. Exploring GMM-derived features for unsupervised adaptation of deep neural network acoustic models
JP4537970B2 (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP6699945B2 (ja) 音響モデル学習装置、その方法、及びプログラム
Siniscalchi et al. An attribute detection based approach to automatic speech processing
JP7259988B2 (ja) 検知装置、その方法、およびプログラム
Tao et al. The NLPR Speech Synthesis entry for Blizzard Challenge 2017

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20937579

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022527441

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20937579

Country of ref document: EP

Kind code of ref document: A1