WO2021215352A1 - 音声データ作成装置 - Google Patents

音声データ作成装置 Download PDF

Info

Publication number
WO2021215352A1
WO2021215352A1 PCT/JP2021/015637 JP2021015637W WO2021215352A1 WO 2021215352 A1 WO2021215352 A1 WO 2021215352A1 JP 2021015637 W JP2021015637 W JP 2021015637W WO 2021215352 A1 WO2021215352 A1 WO 2021215352A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence example
sentence
voice
text corpus
additional word
Prior art date
Application number
PCT/JP2021/015637
Other languages
English (en)
French (fr)
Inventor
加藤 拓
悠輔 中島
太一 浅見
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to JP2022517014A priority Critical patent/JP7326596B2/ja
Priority to US17/995,518 priority patent/US20230223005A1/en
Publication of WO2021215352A1 publication Critical patent/WO2021215352A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Definitions

  • the present invention relates to a voice data creation device.
  • a voice recognition system that recognizes voice and outputs text
  • voice data corresponding to the word is required.
  • the voice recognition system can recognize the word with high accuracy by referring to or learning the voice data.
  • a technique for creating learning data that can be used for learning in a speech recognition system is known (see, for example, Patent Document 1).
  • the conversion function from the standard speaker data space to the learning speaker data space is created by using the speech data of at least one speaker in the database as the standard speaker data and the other speech data as the learning speaker data.
  • the learning data is created by converting the data spoken by the standard speaker about the new word into the learning speaker data space using the created conversion function.
  • the voice in which only the additional words to be added to the voice recognition system as the recognition target are uttered does not include the context information, sufficient recognition accuracy cannot be obtained even if the voice data of only the words is learned. Further, when a person generates voice data by generating additional words, the cost and labor are very high.
  • the present invention has been made in view of the above problems, and is voice data relating to an additional word to be added as a recognition target in the voice recognition system, and appropriately includes information on the context in which the word appears.
  • the purpose is to acquire voice data at low cost.
  • the voice data creation device is a voice data creation device that creates voice data including additional words that are words to be added to the recognition target in the voice recognition system.
  • a sentence of a sentence example extraction unit that extracts one or more text corpora including additional words from a text corpus group that includes a plurality of text corpora consisting of sentence examples containing a plurality of words, and a text corpus extracted by the sentence example extraction unit.
  • the text corpus with the highest measure of the likelihood of occurrence of It is equipped with a voice creation unit that outputs as data.
  • a text corpus that includes additional words and is likely to occur as a sentence is selected as the optimal sentence example. Therefore, the selected text corpus contains information on the context of additional words. Further, since the synthesized voice of the optimum sentence example generated by the voice synthesis system is output as voice data, the cost for creating the voice data is reduced.
  • Realized a voice data creation device that can acquire voice data related to additional words to be added as recognition targets in a voice recognition system and appropriately includes information on the context in which the word appears at low cost. Will be done.
  • Sentence example It is a figure which shows the English example of the optimal sentence example selected for each additional word.
  • Sentence example It is a flowchart which shows the processing content of the template generation processing. It is a figure which shows the category associated with the additional word. It is a figure which shows the example of the category dictionary stored in the category dictionary storage part. It is a figure which shows the example of English of the category associated with the additional word. It is a figure which shows the example of English of the category dictionary stored in the category dictionary storage part. It is a figure which shows an example of the generated sentence example template. It is a figure which shows the example of English of the generated sentence example template. It is a figure which shows an example of the optimum sentence example generated based on the sentence example template.
  • the voice data creating device of the present embodiment is a device that creates voice data including additional words that are words to be added to the recognition target in the voice recognition system.
  • the voice recognition system performs voice recognition by using the created voice data for learning or referring to it.
  • FIG. 1 is a diagram showing a functional configuration of the voice data creation device according to the present embodiment.
  • the voice data creation device 10 functionally has a sentence example extraction unit 11, a sentence example selection unit 12, a synthetic voice selection unit 13, a voice creation unit 14, a sentence example template generation unit 15, and a sentence example generation unit. 16.
  • Each of these functional units 11 to 16 may be configured in one device, or may be distributed and configured in a plurality of devices.
  • the voice data creation device 10 is configured to be accessible to computer-readable recording media such as the additional word storage unit 21, the text corpus storage unit 22, and the category dictionary storage unit 23.
  • the additional word storage unit 21, the text corpus storage unit 22, and the category dictionary storage unit 23 may be configured in the voice data creation device 10, or may be separately located outside the voice data creation device 10 as shown in FIG. It may be configured as a device of.
  • the additional word storage unit 21 is a storage medium that stores an additional word list including additional words that are words to be added to the recognition target in the voice recognition system, for example.
  • the text corpus storage unit 22 is a storage medium that stores a text corpus group including a plurality of text corpora composed of sentence examples including a plurality of words.
  • the text corpus group may include a related corpus group consisting of related corpora which is a text corpus related to a specific preset item.
  • the category dictionary storage unit 23 is a storage medium that stores a category dictionary that associates a word with a category to which the word belongs.
  • each functional block is realized by any combination of at least one of hardware and software. Further, the method of realizing each functional block is not particularly limited. That is, each functional block may be realized by using one physically or logically connected device, or directly or indirectly (for example, two or more physically or logically separated devices). , Wired, wireless, etc.) and may be realized using these plurality of devices. The functional block may be realized by combining the software with the one device or the plurality of devices.
  • Functions include judgment, decision, judgment, calculation, calculation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, solution, selection, selection, establishment, comparison, assumption, expectation, and assumption. Broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, etc., but limited to these I can't.
  • a functional block that makes transmission function is called a transmitting unit (transmitting unit) or a transmitter (transmitter).
  • transmitting unit transmitting unit
  • transmitter transmitter
  • the voice data creation device 10 may function as a computer.
  • FIG. 2 is a diagram showing an example of the hardware configuration of the voice data creation device 10 according to the present embodiment.
  • Each of the voice data creating devices 10 may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.
  • the word “device” can be read as a circuit, device, unit, etc.
  • the hardware configuration of the audio data creation device 10 may be configured to include one or more of the devices shown in FIG. 2, or may be configured not to include some of the devices.
  • Each function of the voice data creating device 10 is performed by loading predetermined software (program) on hardware such as the processor 1001 and the memory 1002, so that the processor 1001 performs a calculation, and communication by the communication device 1004, the memory 1002, and the memory 1002. It is realized by controlling the reading and / or writing of data in the storage 1003.
  • Processor 1001 operates, for example, an operating system to control the entire computer.
  • the processor 1001 may be composed of a central processing unit (CPU: Central Processing Unit) including an interface with a peripheral device, a control device, an arithmetic unit, a register, and the like.
  • CPU Central Processing Unit
  • each of the functional units 11 to 16 shown in FIG. 1 may be realized by the processor 1001.
  • the processor 1001 reads a program (program code), a software module, and data from the storage 1003 and / or the communication device 1004 into the memory 1002, and executes various processes according to these.
  • a program program that causes a computer to execute at least a part of the operations described in the above-described embodiment is used.
  • the voice data creating device 10 and the functional units 11 to 16 may be realized by a control program stored in the memory 1002 and operated by the processor 1001.
  • Processor 1001 may be mounted on one or more chips.
  • the program may be transmitted from the network via a telecommunication line.
  • the memory 1002 is a computer-readable recording medium, and is composed of at least one such as a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (Electrically Erasable Programmable ROM), and a RAM (Random Access Memory). May be done.
  • the memory 1002 may be referred to as a register, a cache, a main memory (main storage device), or the like.
  • the memory 1002 can store a program (program code), a software module, or the like that can be executed to carry out the voice data creation method and the determination method according to the embodiment of the present invention.
  • the storage 1003 is a computer-readable recording medium, and is, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, an optical magnetic disk (for example, a compact disk, a digital versatile disk, or a Blu-ray). It may consist of at least one (registered trademark) disk), smart card, flash memory (eg, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, and the like.
  • the storage 1003 may be referred to as an auxiliary storage device.
  • the storage medium described above may be, for example, a database, server or other suitable medium containing memory 1002 and / or storage 1003.
  • the communication device 1004 is hardware (transmission / reception device) for communicating between computers via a wired and / or wireless network, and is also referred to as, for example, a network device, a network controller, a network card, a communication module, or the like.
  • the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that receives an input from the outside.
  • the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that outputs to the outside.
  • the input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).
  • Bus 1007 may be composed of a single bus, or may be composed of different buses between devices.
  • the audio data creation device 10 uses hardware such as a microprocessor, a digital signal processor (DSP: Digital Signal Processor), ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), and FPGA (Field Programmable Gate Array). It may be configured to include, and a part or all of each functional block may be realized by the hardware. For example, processor 1001 may be implemented on at least one of these hardware.
  • the sentence example extraction unit 11 extracts one or more text corpora including additional words from a text corpus group including a plurality of text corpora composed of sentence examples including a plurality of words.
  • the sentence example extraction unit 11 acquires additional words from the additional word list stored in the additional word storage unit 21.
  • FIG. 3 is a diagram showing an example of an additional word list stored in the additional word storage unit 21.
  • the additional word list contains the notation and reading of the additional word in association with each other.
  • the additional word list includes additional words consisting of the notation "Company D” and the reading "Disha”.
  • the additional word list includes an additional word consisting of the notation "Chiyoda-ku” and the reading "Chiyodaku” and an additional word consisting of the notation "N company” and the reading "Nusha”.
  • the sentence example extraction unit 11 refers to the text corpus storage unit 22 and extracts a text corpus including additional words from the text corpus group.
  • FIG. 4 is a diagram showing an example of a text corpus including additional words extracted from the text corpus group. As shown in FIG. 4, when the sentence example extraction unit 11 acquires the additional word "Company D", it includes the notation "Company D” and "will be implemented by Company D in the future.” A text corpus such as "I will introduce it from Company D today.” Is extracted from the text corpus group.
  • sentence example extraction unit 11 acquires the additional word "Chiyoda Ward", it includes the notation “Chiyoda Ward” and “belongs to Chiyoda Ward, Tokyo.” And “Chiyoda Ward is Tokyo 23 Ward.”
  • a text corpus such as "is one of the above.” Is extracted from the text corpus group.
  • sentence example extraction unit 11 may extract all of the text corpus including additional words from the text corpus included in the text corpus group. Further, the sentence example extraction unit 11 may extract a predetermined number of preset text corpora including additional words from the text corpora included in the text corpus group.
  • FIG. 5 is a diagram showing an English example of the additional word list stored in the additional word storage unit 21.
  • the additional word list includes the notation (Word) and reading (Reading) of the additional word in association with each other.
  • the additional word list includes additional words consisting of Word “Company D” and Reading "k vum p vu n i di”.
  • the list of additional words includes additional words consisting of Word “Chiyoda-ku” and Reading "t_su i j o uu d au ku", as well as Word “Shinjuku-ku” and Reading “sinjuku”. Contains additional words consisting of.
  • FIG. 6 is a diagram showing an English example of a text corpus including additional words extracted from a text corpus group.
  • the sentence example extraction unit 11 acquires the additional word "Company D”
  • the sentence example extraction unit 11 includes "This is the result of research at Company D.” and "I” including the notation "Company D”.
  • Extract a text corpus such as "am an employee of Company D.” from the text corpus group.
  • the sentence example extraction unit 11 acquires the additional word "Chiyoda-ku”
  • the sentence example extraction unit 11 includes "It is located in Chiyoda-ku, Tokyo.” And “Have you ever been to” including the notation "Chiyoda-ku”. Extract a text corpus such as "Chiyoda-ku?” From the text corpus group.
  • the sentence example selection unit 12 selects, among the text corpora extracted by the sentence example extraction unit 11, the text corpus with the highest measure of susceptibility as a sentence as the optimum sentence example for the additional word. Specifically, the sentence example selection unit 12 may calculate the scale of each text corpus extracted by the sentence example extraction unit 11 using the language model.
  • the language model is a probability model that outputs the probability of occurrence of each word based on the arrangement of words in a sentence. By summing up the occurrence probabilities of each word included in a sentence (addition, integration, etc.), a measure of the ease of occurrence as a sentence can be calculated.
  • n-gram language model is a probability model that calculates the appearance probability of a word to be calculated based on (n-1) words that appear immediately before the word to be calculated.
  • a 3-gram language model and a 4-gram language model are often used.
  • the sentence example selection unit 12 calculates the perplexity indicating the difficulty of occurrence as a sentence of each text corpus extracted by the sentence example extraction unit 11 using the language model, and the calculated text with the lowest perplexity.
  • the corpus may be selected as the optimal sentence example for the additional word.
  • Perplexity is a measure of the difficulty of selecting a sentence based on the language model, and the smaller the value of perplexity, the better the sentence matches the language model.
  • the perplexity of the sentence s based on the language model M is expressed by the equation (1).
  • M Language model
  • s Input sentence with N words
  • w i i-th word in the input sentence s
  • M) the probability of occurrence of word w i in the language model M
  • the sentence example selection unit 12 may select a text corpus having a scale larger than a predetermined threshold value and the highest scale as the optimum sentence example.
  • a text corpus whose scale is larger than a predetermined threshold value as the optimum sentence example, it becomes possible to select a text corpus containing information on the context of additional words to a certain extent or more as the optimum sentence example. Further, if the text corpus whose scale exceeds a predetermined threshold value does not exist in the text corpus extracted by the sentence example extraction unit 11, the optimum sentence example is not selected, so that the quality of the voice data is maintained at a certain level or higher.
  • the sentence example selection unit 12 optimally selects a text corpus whose perplexity is smaller than a predetermined threshold value and whose perplexity is the smallest. Select as a sentence example.
  • FIG. 7 is a flowchart showing the processing content of the sentence example selection process for selecting the optimum sentence example.
  • the flowchart shown in FIG. 7 is a selection process of the optimum sentence example performed for one additional word.
  • step S11 the sentence example selection unit 12 determines whether or not the text corpus including the additional word has been extracted by the sentence example extraction unit 11. If it is determined that the text corpus containing the additional word has been extracted, the process proceeds to step S12. On the other hand, if it is not determined that the text corpus containing the additional word has been extracted, the process proceeds to step S16.
  • step S12 the sentence example selection unit 12 calculates the perplexity (PPL) of each text corpus. Then, in step S13, the sentence example selection unit 12 selects the text corpus s having the lowest PPL.
  • PPL perplexity
  • step S14 the sentence example selection unit 12 determines whether or not the perplexity PPL (s) of the text corpus s is smaller than the predetermined threshold value T. If it is determined that the PPL (s) is smaller than the predetermined threshold value T, the process proceeds to step S15. On the other hand, if it is not determined that PPL (s) is smaller than the predetermined threshold value T, the process proceeds to step S16.
  • step S15 the sentence example selection unit 12 outputs the text corpus s as the optimum sentence example.
  • step S16 the sentence example selection unit 12 outputs an empty character string as the optimum sentence example of the additional word.
  • FIG. 8 is a diagram showing an example of the optimum sentence example selected for each additional word.
  • the sentence example selection unit 12 outputs the optimum sentence example “Today, company D will introduce” for the additional word “company D”.
  • the sentence example selection unit 12 may also output the calculated perplexity “120”.
  • the sentence example selection unit 12 outputs the optimum sentence example "belongs to Chiyoda-ku, Tokyo” and its perplexity "230" for the additional word "Chiyoda-ku”. In addition, the sentence example selection unit 12 outputs the optimum sentence example "This product will be released by N company” and its perplexity "130" for the additional word "N company”.
  • FIG. 9 is a diagram showing an English example of the optimum sentence example selected for each additional word.
  • the sentence example selection unit 12 outputs the optimum sentence example “This is the result of research at Company D.” for the additional word “Company D”.
  • the sentence example selection unit 12 may also output the calculated perplexity “120”.
  • the sentence example selection unit 12 outputs the optimum sentence example "It is located in Chiyoda-ku, Tokyo.” For the additional word “Chiyoda-ku” and its perplexity "230". Further, the sentence example selection unit 12 outputs the optimum sentence example "He founded Company N.” for the additional word “Company N” and its perplexity "130".
  • the sentence example extraction unit 11 uses the text corpus.
  • a text corpus containing additional words may be extracted from at least the related corpus group of the group.
  • the text corpus related to the field to which the voice recognition system is applied is used as the related corpus, and the sentence example extraction unit 11 extracts the text corpus from the related corpus group, so that the voice suitable for recognition of the voice acquired in the field is recognized.
  • Voice data for configuring the recognition system can be acquired.
  • the voice data created by the voice data creation device of the present embodiment is based on the minutes of the past meeting and explanatory materials. It may form a related corpus group.
  • the sentence example selection unit 12 selects the optimum sentence example by using the language model generated (learned) based on the related corpus. May be carried out.
  • a language model generated using a related corpus related to the field to which the speech recognition system is applied a text corpus that easily occurs as a sentence in the field of application can be selected as an optimum sentence example.
  • the synthetic voice selection unit 13 has the highest accuracy of the result of a predetermined voice recognition process among the synthetic voices generated by each of the plurality of parameter values for at least one or more parameters for generating the synthetic voice.
  • the parameter value of is selected as the parameter value for the generation of synthetic speech in the speech synthesis system.
  • the synthetic voice selection unit 13 generates a plurality of synthetic voices for the optimum sentence example selected by the sentence example selection unit 12 by the voice synthesis system with different parameters for generating the synthetic voice. For example, when a certain parameter is set by one of the continuous values, the synthetic speech selection unit 13 has a range of preset values and all of the preset number of patterns. Synthetic speech may be generated according to each of the parameter values of. For example, when a certain parameter is set by a continuous value centered on "1.0" and it is preset to generate 5 patterns of synthetic speech with a width of 0.2, it is synthesized. The voice selection unit 13 sets the parameter values of the parameters to "0.6, 0.8, 1.0, 1.2, 1.4", respectively, and generates five patterns of synthetic voice. When there are a plurality of parameters to be set, the synthetic voice selection unit 13 generates synthetic voices for all combinations of setting patterns of each parameter.
  • the parameters are, for example, speaking speed and speaker, but are not limited.
  • the synthetic voice selection unit 13 causes the voice recognition system to recognize the synthetic voice of each generated pattern, compares the optimum sentence example used for the synthesis with the recognition result of each pattern, and calculates the recognition accuracy of each pattern.
  • the calculation of the recognition accuracy may be based on either the character recognition accuracy, the word recognition accuracy, or the like. Then, the synthetic speech selection unit 13 selects the pattern of the parameter value having the highest recognition accuracy as the parameter value for generating the synthetic speech in the speech synthesis system.
  • voice data consisting of the synthetic voice of the optimum sentence example is created by the parameter value that can output the synthetic voice that is easier to recognize in the voice recognition process. Therefore, voice data suitable for learning in the voice recognition system can be obtained.
  • the voice creation unit 14 outputs the synthesized voice of the optimum sentence example generated by the predetermined voice synthesis system as voice data corresponding to the additional word.
  • the speech synthesis system is a system that receives an input of a character string consisting of text and outputs speech, and may be configured to include a general algorithm such as statistical speech synthesis.
  • the parameters of the speech synthesis system are generally the speaker and the speaking speed.
  • text is converted into phonemes, part of speech and words, and speech waveforms are generated using an acoustic model for speech synthesis.
  • the additional words exemplified in FIGS. 3 and 5 are each associated with one reading, but the additional words may be associated with a plurality of readings.
  • the voice creation unit 14 may generate a synthetic voice of the optimum sentence example using each of all the readings of the additional word for each reading. For example, for the additional word "5G", the sentence example selection unit 12 selects the optimum sentence example "Today is the introduction of 5G.” When "" is associated, the voice creation unit 14 generates synthetic voices of the text "Today is the introduction of Five Gee" and the text "Today is the introduction of Goji", and the additional word "5G” is generated. Is output as audio data corresponding to.
  • the voice creation unit 14 may output the voice data in any mode, and for example, the voice data may be stored in a predetermined storage medium for storing the voice data in association with the voice data additional word.
  • the voice creation unit 14 applies the parameter value selected by the synthetic voice selection unit 13 to the voice synthesis system to generate a synthetic voice of the optimum sentence example.
  • the sentence example selection unit 12 determines the optimum sentence example when the text corpus whose scale indicating the ease of occurrence as a sentence is larger than a predetermined threshold value does not exist in the text corpus extracted by the sentence example extraction unit 11. You do not have to select the text corpus as. In the voice data creation device 10 of the present embodiment, even if a sentence example template consisting of a sentence example in which the part where the additional word is inserted is blank is generated for the additional word for which the text corpus as the optimum sentence example is not selected. good.
  • the sentence example template generation unit 15 generates a sentence example template for each word category.
  • FIG. 10 is a flowchart showing the processing contents of the sentence example template generation process for one category of the sentence example model generation target.
  • the sentence example template generation unit 15 associates a category with each additional word.
  • the sentence example template generation unit 15 may refer to the category dictionary and associate the category with the additional word.
  • a category dictionary is a dictionary that associates words with categories.
  • FIG. 11 is a diagram showing an example of additional words associated with categories.
  • FIG. 12 is a diagram showing an example of a category dictionary stored in the category dictionary storage unit 23.
  • the category dictionary contains words associated with each category.
  • the sentence example template generation unit 15 refers to the category dictionary to acquire the category "company name” of the additional word "company D", and as shown in FIG. 11, the category "company name” is added to the additional word "company D". To associate. Similarly, the sentence example template generation unit 15 associates the category "place name” with the additional word “Chiyoda-ku” and the category "company name” with the additional word "N company”.
  • the sentence example template generator 15 acquires the category input by the user as the category to be associated with the additional word, and sets the acquired category as the additional word. It may be associated.
  • FIG. 13 is a diagram showing an English example of additional words associated with categories.
  • FIG. 14 is a diagram showing an English example of the category dictionary stored in the category dictionary storage unit 23. As shown in FIG. 14, the category dictionary contains words to which each category is associated.
  • the sentence example template generation unit 15 refers to the category dictionary, acquires the category "Company” of the additional word "Company D", and associates the category "Company” with the additional word “Company D" as shown in FIG. .. Similarly, the sentence example template generation unit 15 associates the category "Place” with the additional word “Chiyoda-ku” and the category "Company” with the additional word "Company N".
  • step S22 the sentence example template generation unit 15 determines whether or not the sentence example selection unit 12 of at least one optimal sentence example is associated with any additional word included in the category of the sentence example template generation target. judge.
  • the category for which the sentence example template is generated is the category “company name”
  • the sentence example template generation unit 15 refers to the association of the optimum sentence example with the additional words exemplified in FIGS. 8 and 9, and the category to which the optimum sentence example is associated is "Company”. Determine if there is an additional word that is. If it is determined that there is an association of the optimum sentence example, the process proceeds to step S23. On the other hand, if it is not determined that the optimum sentence example is associated, the process proceeds to step S25.
  • step S23 the sentence example template generation unit 15 selects the sentence example having the lowest perplexity among the optimum sentence examples associated with the additional words included in the category of the sentence example template generation target.
  • the sentence example template generation unit 15 has the highest perplexity among the optimum sentence examples associated with the additional words "Company D" and "Company N" whose category is "company name”. Select the low sentence example "Today, we will introduce you from Company D.”
  • the sentence example template generation unit 15 has a perplexity among the optimum sentence examples associated with the additional words "Company D" and "Company N" whose category is “Company”. Select the lowest sentence example "This is the result of research at Company D.”.
  • step S24 the sentence example template generation unit 15 generates a sentence example template in which the additional word part is removed from the sentence example selected in step S23.
  • FIG. 15 is a diagram showing an example of the generated sentence example template. As shown in FIG. 15, the sentence example template generation unit 15 is based on the sentence example "Today, we will introduce from company D" selected for the additional word "company D” whose category is "company name”. Generate a sentence example template "Today, I will introduce from ⁇ >", which is blank except for the additional word "Company D".
  • FIG. 16 is a diagram showing an English example of the generated sentence example template.
  • the sentence example template generation unit 15 is based on the sentence example "This is the result of research at Company D.” selected for the additional word "Company D" whose category is “Company”. Generate a sentence example template "This is the result of research at ⁇ >.” That is blank except for the additional word "Company D”.
  • the sentence example template generation unit 15 refers to the category dictionary and refers to the sentence example template. Select other words in the category for which you want to generate shapes.
  • step S26 the sentence example template generation unit 15 extracts a text corpus including the word selected in step S25 from the text corpus group.
  • step S27 the sentence example template generation unit 15 determines whether or not the perplexity of the text corpus extracted in step S26 is less than a predetermined threshold value T. If it is determined that the perplexity is less than the threshold value T, the process proceeds to step S28. On the other hand, if it is not determined that the perplexity is less than the threshold value T, the process proceeds to step S29.
  • step S28 the sentence example template generation unit 15 generates a sentence example template that is blank by removing the part of the word selected in step S25 from the text corpus extracted in step S26.
  • step S29 the sentence example template generation unit 15 attempts to further extract the text corpus including the word selected in step S25 from the text corpus group. If the text corpus group can be further extracted, the process returns to step S26, and the sentence example template generation unit 15 extracts the text corpus. On the other hand, if the text corpus group cannot be further extracted, the process proceeds to step S30.
  • step S30 the sentence example template generation unit 15 refers to the category dictionary and attempts to further select another word in the same category different from the word selected in step S25. If another word can be further selected, the process returns to step S25, and the sentence example template generation unit 15 selects another word. If no other word can be further selected, the process proceeds to step S31.
  • step S31 the sentence example template generator 15 removes the part of the word selected in step S25 from the text corpus with the lowest perplexity extracted in step S26, and blanks the sentence example template. To generate.
  • step S32 the sentence example template generation unit 15 outputs the sentence example template generated in any one of steps S24, S28, and S31. Specifically, the sentence example template generation unit 15 may send the sentence example template generated to the sentence example generation unit 16. Further, the sentence example model generation unit 15 may store the generated sentence example model in a predetermined storage medium for storing the sentence example model.
  • the sentence example generation unit 16 inserts an additional word for which the optimum sentence example has not been selected by the sentence example selection unit 12 into a blank of the sentence example template generated for the category to which the additional word belongs, and generates an optimum sentence example for the additional word. do.
  • FIG. 17 is a diagram showing an example of an optimum sentence example generated based on the sentence example template.
  • the sentence example generation unit 16 acquires the sentence example template "Today will be introduced from ⁇ >" generated for the category "company name” (see Fig. 15), and the additional word "Company Z". Is inserted into the blank " ⁇ >" of the sentence example template to generate the optimum sentence example "Today, we will introduce from company Z" for the additional word "company Z".
  • FIG. 18 is a diagram showing an English example of the optimum sentence example generated based on the sentence example template.
  • the sentence example generation unit 16 acquires the sentence example template "This is the result of research at ⁇ >.” Generated for the category "Company” (see FIG. 16), and the additional word "Company Z". Is inserted into the blank " ⁇ >" of the sentence example template to generate the optimum sentence example "This is the result of research at Company Z.” for the additional word "Company Z".
  • the sentence example is based on the text corpus with the highest scale from the text corpus selected as the optimum sentence example for each additional word belonging to the same category. Since the template is generated, it is possible to generate a sentence example that easily occurs as a sentence by inserting another word belonging to the category in the blank. Then, by using the sentence example template generated in this way, it is possible to generate the optimum sentence example even for the additional word for which the optimum sentence example is not selected.
  • FIG. 19 is a flowchart showing the processing contents of the voice data creation method in the voice data creation device 10.
  • step S1 the sentence example extraction unit 11 extracts all the text corpus including the additional words from the text corpus group.
  • step S2 the sentence example selection unit 12 selects, among the text corpora extracted by the sentence example extraction unit 11, the text corpus with the highest measure of susceptibility as a sentence as the optimum sentence example for the additional word. .. In the present embodiment, the sentence example selection unit 12 selects the text corpus with the lowest perplexity as the optimum sentence example.
  • step S3 the synthetic voice selection unit 13 selects a parameter value for outputting the synthetic voice.
  • the process of step S3 is not essential in the voice data creation method of the present embodiment.
  • step S4 the voice creation unit 14 outputs the synthesized voice of the optimum sentence example synthesized by the voice synthesis system as voice data corresponding to the additional word.
  • the voice data creation program P1 is a main module m10, a sentence example extraction module m11, a sentence example selection module m12, a synthetic voice selection module m13, a voice creation module m14, and a sentence example hina that collectively control the voice data creation process in the voice data creation device 10. It is configured to include a shape generation module m15 and a sentence example generation module m16. Then, each module m11 to m16 realizes each function for the sentence example extraction unit 11, the sentence example selection unit 12, the synthetic voice selection unit 13, the voice creation unit 14, the sentence example template generation unit 15, and the sentence example generation unit 16. ..
  • the voice data creation program P1 may be transmitted via a transmission medium such as a communication line, or may be stored in the recording medium M1 as shown in FIG. 20. ..
  • the voice data creation device 10 the voice data creation method, and the voice data creation program P1 of the present embodiment described above, a text corpus that includes additional words and is likely to occur as a sentence is selected as the optimum sentence example. Therefore, the selected text corpus contains information on the context of additional words. Further, since the synthesized voice of the optimum sentence example generated by the voice synthesis system is output as voice data, the cost for creating the voice data is reduced.
  • the sentence example selection unit uses a language model that outputs the occurrence probability of each word based on the arrangement of words in the sentence, and each text corpus extracted by the sentence example extraction unit. May be calculated.
  • a scale indicating the ease of occurrence of a text corpus as a sentence can be easily calculated.
  • the sentence example selection unit calculates the perplexity indicating the difficulty of occurrence as a sentence of each text corpus extracted by the sentence example extraction unit using the language model. Then, the text corpus with the lowest calculated perplexity may be selected as the optimal sentence example for the additional word.
  • the text corpus with the lowest perplexity calculated using the language model is selected as the optimum sentence example. Therefore, a text corpus that contains additional words and is likely to occur as a sentence is selected.
  • the text corpus group includes a related corpus group consisting of a related corpus which is a text corpus related to a specific item set in advance
  • the sentence example extraction unit is a text corpus group.
  • a text corpus containing additional words may be extracted from at least the related corpus group, and the sentence example selection unit may select the optimum sentence example using the language model generated based on the related corpus.
  • the related corpus by configuring the related corpus with, for example, a text corpus related to the field to which the voice recognition system is applied, a text corpus suitable for the field of application is extracted. Further, since the language model generated by using the text corpus related to the application field is used, the text corpus that easily occurs as a sentence in the application field can be selected as the optimum sentence example.
  • the voice data creation device has a voice recognition process by the voice recognition system among the synthetic voices generated by each of the plurality of parameter values for at least one or more parameters for generating the synthetic voice.
  • a synthetic speech selection unit may be further provided to select the parameter value of the synthetic speech having the highest accuracy of the result as the parameter value for generating the synthetic speech in the speech synthesis system.
  • voice data consisting of the synthetic voice of the optimum sentence example is created by the parameter value capable of outputting the synthetic voice that is easier to recognize in the voice recognition process. Therefore, voice data suitable for learning in the voice recognition system can be obtained.
  • the sentence example selection unit may select a text corpus whose scale is larger than a predetermined threshold value and which is the highest as the optimum sentence example.
  • a text corpus whose scale is larger than a predetermined threshold is selected as the optimum sentence example, so that it is possible to select a text corpus containing information on the context of additional words to a certain extent or more as the optimum sentence example.
  • the optimum sentence example is not selected, so that the quality of the voice data is maintained above a certain level.
  • each additional word is associated with the category to which the word belongs, and the voice data creation device is the additional word for which the optimum sentence example is selected by the sentence example selection unit and the optimum sentence example.
  • the additional word and the text corpus with the highest scale of the text corpus selected as the optimum sentence example for each additional word belonging to the same category are acquired, and added based on the acquired text corpus.
  • a sentence example template that generates a sentence example template with the word part blank for each category, and an additional word for which the optimum sentence example was not selected by the sentence example selection unit were generated for the category to which the additional word belongs.
  • a sentence example generation unit which is inserted into a blank of the sentence example template to generate an optimum sentence example for the additional word, may be further provided.
  • a sentence example template is generated based on the text corpus with the highest scale from the text corpus selected as the optimum sentence example for each additional word belonging to the same category.
  • each additional word is associated with one or more readings of the word, and the voice creation unit uses each of all the readings of the additional word for the optimum sentence example. Synthetic speech may be generated for each reading.
  • Each aspect / embodiment described in the present specification includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA. (Registered Trademarks), GSM (Registered Trademarks), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-WideBand), It may be applied to systems utilizing Bluetooth®, other suitable systems and / or next-generation systems extended based on them.
  • the input / output information and the like may be saved in a specific location (for example, memory) or may be managed by a management table. Input / output information and the like can be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
  • the determination may be made by a value represented by 1 bit (0 or 1), by a true / false value (Boolean: true or false), or by comparing numerical values (for example, a predetermined value). It may be done by comparison with the value).
  • the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit one, but is performed implicitly (for example, the notification of the predetermined information is not performed). May be good.
  • Software whether referred to as software, firmware, middleware, microcode, hardware description language, or other names, is an instruction, instruction set, code, code segment, program code, program, subprogram, software module.
  • Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, functions, etc. should be broadly interpreted.
  • software, instructions, etc. may be transmitted and received via a transmission medium.
  • the software uses wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to websites, servers, or other When transmitted from a remote source, these wired and / or wireless technologies are included within the definition of transmission medium.
  • the information, signals, etc. described in this disclosure may be represented using any of a variety of different techniques.
  • data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
  • system and "network” used herein are used interchangeably.
  • information, parameters, etc. described in the present specification may be represented by an absolute value, a relative value from a predetermined value, or another corresponding information. ..
  • determining and “determining” used in this disclosure may include a wide variety of actions.
  • “Judgment” and “decision” are, for example, judgment (judging), calculation (calculating), calculation (computing), processing (processing), derivation (deriving), investigation (investigating), search (looking up, search, inquiry). (For example, searching in a table, database or another data structure), ascertaining may be regarded as “judgment” or “decision”.
  • judgment and “decision” are receiving (for example, receiving information), transmitting (for example, transmitting information), input (input), output (output), and access.
  • Accessing (for example, accessing data in memory) may be regarded as "judgment” or “decision”.
  • judgment and “decision” mean that the things such as solving, selecting, choosing, establishing, and comparing are regarded as “judgment” and “decision”. Can include. That is, “judgment” and “decision” may include considering some action as “judgment” and “decision”. Further, “judgment (decision)” may be read as “assuming”, “expecting”, “considering” and the like.
  • any reference to that element does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted there, or that the first element must somehow precede the second element.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

音声データ作成装置は、音声認識システムにおける認識対象に追加させる単語である追加単語を含む音声データを作成する装置であって、複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群から、追加単語を含む1以上のテキストコーパスを抽出する文例抽出部と、文例抽出部11により抽出された前記テキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、追加単語に対する最適文例として選択する文例選択部と、所定の音声合成システムにより生成された最適文例の合成音声を、追加単語に対応する音声データとして出力する音声作成部と、を備える。

Description

音声データ作成装置
 本発明は、音声データ作成装置に関する。
 音声を認識してテキストを出力する音声認識システムでは、ある単語を認識対象とさせるために、当該単語に対応する音声データが必要である。音声認識システムは、音声データを参照したり、学習したりすることにより、その単語を精度良く認識することが可能となる。音声認識システムにおける学習に用いることができる学習データを作成する技術が知られている(例えば、特許文献1参照)。この技術では、データベース中の少なくとも一人の話者の発話データを標準話者データとし、その他の発話データを学習話者データとして、標準話者データ空間から学習話者データ空間への変換関数を作成し、新たな単語について標準話者が発話したデータを、作成した変換関数を用いて学習話者データ空間にデータ変換することで学習データを作成する。
特開平10-274992号公報
 音声認識システムに認識対象として追加させるための追加単語のみが発話された音声は、文脈の情報を含まないため、単語のみの音声データを学習させても、十分な認識精度を得ることができない。また、人が追加単語を発生することにより音声データを生成する場合には、非常にコスト及び手間が嵩む。
 そこで、本発明は、上記問題点に鑑みてなされたものであり、音声認識システムにおける認識対象として追加させる追加単語に関する音声データであって、当該単語が出現する文脈の情報が適切に含まれた音声データを低コストで取得することを目的とする。
 上記課題を解決するために、本発明の一形態に係る音声データ作成装置は、音声認識システムにおける認識対象に追加させる単語である追加単語を含む音声データを作成する音声データ作成装置であって、複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群から、追加単語を含む1以上のテキストコーパスを抽出する文例抽出部と、文例抽出部により抽出されたテキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、追加単語に対する最適文例として選択する文例選択部と、所定の音声合成システムにより生成された最適文例の合成音声を、追加単語に対応する音声データとして出力する音声作成部と、を備える。
 上記の形態によれば、追加単語を含み、文として生起しやすいテキストコーパスが最適文例として選択される。従って、選択されたテキストコーパスは、追加単語の文脈の情報を含む。また、音声合成システムにより生成された最適文例の合成音声が、音声データとして出力されるので、音声データの作成に係るコストが低減される。
 音声認識システムにおける認識対象として追加させる追加単語に関する音声データであって、当該単語が出現する文脈の情報が適切に含まれた音声データを低コストで取得することが可能な音声データ作成装置が実現される。
本実施形態の音声データ作成装置の機能的構成を示すブロック図である。 音声データ作成装置及び判定装置のハードブロック図である。 追加単語記憶部に記憶されている追加単語リストの例を示す図である。 テキストコーパス群から抽出された、追加単語を含むテキストコーパスの例を示す図である。 追加単語記憶部に記憶されている追加単語リストの英語の例を示す図である。 テキストコーパス群から抽出された、追加単語を含むテキストコーパスの英語の例を示す図である。 最適文例を選択する文例選択処理の処理内容を示すフローチャートである。 各追加単語に対して選択された最適文例の例を示す図である。 各追加単語に対して選択された最適文例の英語の例を示す図である。 文例ひな形生成処理の処理内容を示すフローチャートである。 追加単語に対応付けられたカテゴリを示す図である。 カテゴリ辞書記憶部に記憶されているカテゴリ辞書の例を示す図である。 追加単語に対応付けられたカテゴリの英語の例を示す図である。 カテゴリ辞書記憶部に記憶されているカテゴリ辞書の英語の例を示す図である。 生成された文例ひな形の一例を示す図である。 生成された文例ひな形の英語の例を示す図である。 文例ひな形に基づいて生成された最適文例の一例を示す図である。 文例ひな形に基づいて生成された最適文例の英語の例を示す図である。 音声データ作成装置における音声データ作成方法の処理内容を示すフローチャートである。 音声データ作成プログラムの構成を示す図である。
 本発明に係る音声データ作成装置の実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
 音声を認識してテキストを出力する音声認識システムでは、ある単語を認識対象とさせるために、当該単語に対応する音声データが必要である。本実施形態の音声データ作成装置は、音声認識システムにおける認識対象に追加させる単語である追加単語を含む音声データを作成する装置である。音声認識システムは、作成された音声データを学習に用いたり、参照したりすることにより、音声認識を実施する。
 図1は、本実施形態に係る音声データ作成装置の機能的構成を示す図である。音声データ作成装置10は、図1に示すように、機能的には、文例抽出部11、文例選択部12、合成音声選択部13、音声作成部14、文例ひな形生成部15及び文例生成部16を備える。これらの各機能部11~16は、一つの装置に構成されてもよいし、複数の装置に分散されて構成されてもよい。
 また、音声データ作成装置10は、追加単語記憶部21、テキストコーパス記憶部22及びカテゴリ辞書記憶部23といったコンピュータ読み取り可能な記録媒体にアクセス可能に構成されている。追加単語記憶部21、テキストコーパス記憶部22及びカテゴリ辞書記憶部23は、音声データ作成装置10内に構成されてもよいし、図1に示されるように、音声データ作成装置10の外部に別の装置として構成されてもよい。
 追加単語記憶部21は、例えば音声認識システムにおける認識対象に追加させる単語である追加単語を含む追加単語リストを記憶している記憶媒体である。テキストコーパス記憶部22は、複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群を記憶している記憶媒体である。テキストコーパス群は、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含んでもよい。カテゴリ辞書記憶部23は、単語と当該単語が属するカテゴリとを関連付けたカテゴリ辞書を記憶している記憶媒体である。
 なお、図1に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
 機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
 例えば、本発明の一実施の形態における音声データ作成装置10は、コンピュータとして機能してもよい。図2は、本実施形態に係る音声データ作成装置10のハードウェア構成の一例を示す図である。音声データ作成装置10はそれぞれ、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。音声データ作成装置10のハードウェア構成は、図2に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 音声データ作成装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、図1に示した各機能部11~16などは、プロセッサ1001で実現されてもよい。
 また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールやデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、音声データ作成装置10及びの各機能部11~16は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施の形態に係る音声データ作成方法及び判定方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
 通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
 また、音声データ作成装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
 次に、音声データ作成装置10の各機能部について説明する。文例抽出部11は、複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群から、追加単語を含む1以上のテキストコーパスを抽出する。
 本実施形態では、文例抽出部11は、追加単語記憶部21に記憶されている追加単語リストから追加単語を取得する。図3は、追加単語記憶部21に記憶されている追加単語リストの例を示す図である。追加単語リストは、追加単語の表記及び読みを関連付けて含んでいる。図3に例示されるように、追加単語リストは、表記「D社」及び読み「ディーシャ」からなる追加単語を含む。また、追加単語リストは、表記「千代田区」及び読み「チヨダク」からなる追加単語並びに表記「N社」及び読み「エヌシャ」からなる追加単語を含む。
 文例抽出部11は、テキストコーパス記憶部22を参照して、追加単語を含むテキストコーパスをテキストコーパス群から抽出する。図4は、テキストコーパス群から抽出された、追加単語を含むテキストコーパスの例を示す図である。図4に示されるように、文例抽出部11は、追加単語「D社」を取得した場合には、その表記「D社」を含む「今後はD社で実施していきます。」及び「本日はD社より紹介いたします。」等のテキストコーパスをテキストコーパス群から抽出する。また、文例抽出部11は、追加単語「千代田区」を取得した場合には、その表記「千代田区」を含む「東京都千代田区に所属しております。」及び「千代田区は東京23区の一つである。」等のテキストコーパスをテキストコーパス群から抽出する。
 なお、文例抽出部11は、テキストコーパス群に含まれるテキストコーパスから、追加単語を含むテキストコーパスの全てを抽出してもよい。また、文例抽出部11は、テキストコーパス群に含まれるテキストコーパスから、予め設定された所定数の、追加単語を含むテキストコーパスを抽出してもよい。
 図5は、追加単語記憶部21に記憶されている追加単語リストの英語の例を示す図である。追加単語リストは、追加単語の表記(Word)及び読み(Reading)を関連付けて含んでいる。図5に例示されるように、追加単語リストは、Word ”Company D”及びReading ”k vu m p vu n i d i”からなる追加単語を含む。また、追加単語リストは、Word ”Chiyoda-ku”及びReading ”t_su i j o uu d au k u”からなる追加単語並びにWord ”Shinjuku-ku”及びReading ”s i n j u k u k u”からなる追加単語を含む。
 図6は、テキストコーパス群から抽出された、追加単語を含むテキストコーパスの英語の例を示す図である。図6に示されるように、文例抽出部11は、追加単語”Company D”を取得した場合には、その表記”Company D”を含む”This is the result of research at Company D.”及び”I am an employee of Company D.”等のテキストコーパスをテキストコーパス群から抽出する。また、文例抽出部11は、追加単語”Chiyoda-ku”を取得した場合には、その表記”Chiyoda-ku”を含む”It is located in Chiyoda-ku, Tokyo.”及び”Have you ever been to Chiyoda-ku?”等のテキストコーパスをテキストコーパス群から抽出する。
 文例選択部12は、文例抽出部11により抽出されたテキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、当該追加単語に対する最適文例として選択する。具体的には、文例選択部12は、言語モデルを用いて、文例抽出部11により抽出された各テキストコーパスの尺度を算出してもよい。言語モデルは、文における単語の配列に基づいて各単語の生起確率を出力する確率モデルである。文に含まれる各単語の生起確率を集計(加算及び積算等)することにより、文としての生起しやすさの尺度が算出できる。
 本実施形態で用いられる言語モデルには、各種の周知のモデルを適用してもよいが、その一例として、n-gram言語モデルであってもよい。n-gram言語モデルは、確率の計算対象の単語の直前に現れた(n-1)個の単語に基づいて、計算対象の単語の出現確率を計算する確率モデルである。音声認識の分野では、3-gram言語モデル及び4-gram言語モデルが用いられる場合が多い。
 以下に、3-gram言語モデルによる、文「音声認識の紹介です」の生起確率の算出の例を説明する。以下の説明において、Pを確率、<s>を文頭記号、</s>を文末記号とすると、文「音声認識の紹介です」の生起確率は、以下のように表される。
P(<s> 音声 認識 の 紹介 です </s>)
=P(音声|<s>)P(認識│<s> 音声)P(の│音声 認識)P(紹介│認識 の)P(です│の 紹介)P(</s>|紹介 です)
なお、n-gram言語モデルの学習には、既知の如何なる手法が用いられてもよいが、例えば、最尤推定法及び線形補間等の手法であってもよい。
 また、3-gram言語モデルによる、英語の文”Have you ever been to Chiyoda-ku ?”の生起確率は、以下のように表される。
P (<s>Have you ever been to Chiyoda-ku ? </s> )
= P (Have|<s>) P (you | <s> Have) P (ever | Have you) P (been | you ever) P (to | ever been) P (Chiyoda-ku | been to) P (? | to Chiyoda-ku)
 このように、言語モデルを用いることにより、テキストコーパスの文としての生起しやすさを示す尺度が容易に算出される。
 文例選択部12は、言語モデルを用いて、文例抽出部11により抽出された各テキストコーパスの文としての生起し難さを示すパープレキシティを算出し、算出されたパープレキシティが最も低いテキストコーパスを、当該追加単語に対する最適文例として選択してもよい。
 パープレキシティは、言語モデルに基づいて、ある文が選択される難しさを表す尺度であって、パープレキシティの値が小さいほど、文と言語モデルとが適合していることを表す。言語モデルMに基づく文sのパープレキシティは、式(1)により表される。
Figure JPOXMLDOC01-appb-M000001
M:言語モデル、
s:単語数がNである入力文、
:入力文sにおいてi番目の単語、
P(w|M):言語モデルMにおける単語wの生起確率
 文例選択部12は、尺度が所定の閾値より大きく、且つ、尺度が最も高いテキストコーパスを最適文例として選択してもよい。尺度が所定の閾値より大きいテキストコーパスが最適文例として選択されることにより、追加単語の文脈の情報が一定程度以上に含まれるテキストコーパスを最適文例として選択することが可能となる。また、尺度が所定の閾値を超えるテキストコーパスが、文例抽出部11により抽出されたテキストコーパスに存在しなければ、最適文例が選択されないので、音声データの品質が一定程度以上に維持される。
 なお、文としての生起しやすさを示す尺度がパープレキシティである場合には、文例選択部12は、パープレキシティが所定の閾値より小さく、且つ、パープレキシティが最も小さいテキストコーパスを最適文例として選択する。
 図7は、最適文例を選択する文例選択処理の処理内容を示すフローチャートである。図7に示されるフローチャートは、一つの追加単語に対して行われる最適文例の選択処理である。
 ステップS11において、文例選択部12は、文例抽出部11により、追加単語を含むテキストコーパスが抽出されたか否かを判定する。追加単語を含むテキストコーパスが抽出されたと判定された場合には、処理はステップS12に進む。一方、追加単語を含むテキストコーパスが抽出されたと判定されなかった場合には、処理はステップS16に進む。
 ステップS12において、文例選択部12は、各テキストコーパスのパープレキシティ(PPL)を算出する。そして、ステップS13において、文例選択部12は、最も低いPPLを有するテキストコーパスsを選択する。
 ステップS14において、文例選択部12は、テキストコーパスsのパープレキシティPPL(s)が所定の閾値Tより小さいか否かを判定する。PPL(s)が所定の閾値Tより小さいと判定された場合には、処理はステップS15に進む。一方、PPL(s)が所定の閾値Tより小さいと判定されなかった場合には、処理はステップS16に進む。
 ステップS15において、文例選択部12は、テキストコーパスsを最適文例として出力する。一方、ステップS16において、文例選択部12は、空の文字列を当該追加単語の最適文例として出力する。
 図8は、各追加単語に対して選択された最適文例の例を示す図である。図8に示されるように、文例選択部12は、追加単語「D社」に対する最適文例「本日はD社より紹介いたします。」を出力する。なお、文例選択部12は、算出されたパープレキシティ「120」を併せて出力してもよい。
 また、文例選択部12は、追加単語「千代田区」に対する最適文例「東京都千代田区に所属しております。」及びそのパープレキシティ「230」を出力する。また、文例選択部12は、追加単語「N社」に対する最適文例「この商品はN社から発売されます。」及びそのパープレキシティ「130」を出力する。
 図9は、各追加単語に対して選択された最適文例の英語の例を示す図である。図9に示されるように、文例選択部12は、追加単語”Company D”に対する最適文例”This is the result of research at Company D.”を出力する。なお、文例選択部12は、算出されたパープレキシティ「120」を併せて出力してもよい。
 また、文例選択部12は、追加単語”Chiyoda-ku”に対する最適文例”It is located in Chiyoda-ku, Tokyo.”及びそのパープレキシティ「230」を出力する。また、文例選択部12は、追加単語”Company N”に対する最適文例”He founded Company N.”及びそのパープレキシティ「130」を出力する。
 テキストコーパス記憶部22に記憶されているテキストコーパス群が、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含む場合には、文例抽出部11は、テキストコーパス群のうちの、少なくとも関連コーパス群から、追加単語を含むテキストコーパスを抽出してもよい。
 即ち、音声認識システムが適用される分野に関連するテキストコーパスを関連コーパスとして、文例抽出部11が関連コーパス群からテキストコーパスを抽出することにより、当該分野において取得された音声の認識に適した音声認識システムを構成するための音声データを取得できる。
 例えば、ある会議の音声を認識するための音声認識システムに、本実施形態の音声データ作成装置により作成された音声データを適用する場合には、過去の会議の議事録及び説明資料等に基づいて関連コーパス群を構成することとしてもよい。
 また、特定の事項に関連する関連コーパス群からのテキストコーパスの抽出が行われる場合に、文例選択部12は、関連コーパスに基づいて生成(学習)された言語モデルを用いて、最適文例の選択を実施してもよい。音声認識システムが適用される分野に関連する関連コーパスを用いて生成された言語モデルが用いられることにより、当該適用分野において文として生起しやすいテキストコーパスを最適文例として選択できる。
 合成音声選択部13は、合成音声の生成のための少なくとも1以上のパラメタについて、複数のパラメタ値のそれぞれにより生成された合成音声のうち、所定の音声認識処理の結果の精度が最も高い合成音声のパラメタ値を、音声合成システムにおける合成音声の生成のためのパラメタ値として選択する。
 具体的には、合成音声選択部13は、文例選択部12により選択された最適文例に対する合成音声を、音声合成システムにより、合成音声の生成のためのパラメタを異ならせて複数生成する。例えば、あるパラメタが、連続値のうちの一の値により設定されるものである場合には、合成音声選択部13は、予め設定された値の幅で、予め設定された数のパターンの全てのパラメタ値のそれぞれにより、合成音声を生成してもよい。例えば、あるパラメタが「1.0」を中心値とする連続値により設定されるものであり、幅0.2で5パターンの合成音声を生成することが予め設定されている場合には、合成音声選択部13は、そのパラメタのパラメタ値を「0.6,0.8,1.0,1.2,1.4」のそれぞれに設定して、5パターンの合成音声を生成する。なお、設定されるパラメタが複数である場合には、合成音声選択部13は、各パラメタの設定パターンの全ての組み合わせについての合成音声を生成する。なお、パラメタは、例えば、話速及び話者であるが、限定されない。
 合成音声選択部13は、生成された各パターンの合成音声を音声認識システムにより認識させ、合成に用いた最適文例と各パターンの認識結果とを比較して、各パターンの認識精度を算出する。認識精度の算出は、文字認識精度及び単語認識精度等のいずれに基づいてもよい。そして、合成音声選択部13は、最も認識精度が高いパラメタ値のパターンを、音声合成システムにおける合成音声の生成のためのパラメタ値として選択する。
 このようにパラメタ値の選択が行われることにより、音声認識処理においてより認識しやすい合成音声を出力可能なパラメタ値により、最適文例の合成音声からなる音声データが作成される。従って、音声認識システムにおける学習に供するのに好適な音声データが得られる。
 音声作成部14は、所定の音声合成システムにより生成された最適文例の合成音声を、追加単語に対応する音声データとして出力する。音声合成システムは、テキストからなる文字列の入力を受けて、音声を出力するシステムであって、例えば統計的音声合成等の一般的なアルゴリズムを含んで構成されてもよい。音声合成システムのパラメタは、一般的に、話者及び話速などである。統計的音声合成では、テキストを音素、品詞及び単語に変換し、音声合成用の音響モデルを用いて、音声波形が生成される。
 図3及び図5に例示された追加単語は、それぞれ一つの読みに関連付けられているが、追加単語が、複数の読みに関連付けられていてもよい。かかる場合には、音声作成部14は、追加単語の全ての読みのそれぞれを用いた最適文例の合成音声を、読みごとに生成してもよい。例えば、追加単語「5G」に対して、文例選択部12により、最適文例「本日は5Gの紹介です。」が選択され、追加単語リストにおいて、表記「5G」に対して読み「ファイブジー、ゴジー」が関連付けられていた場合には、音声作成部14は、テキスト「本日はファイブジーの紹介です」及びテキスト「本日はゴジーの紹介です」のそれぞれの合成音声を生成して、追加単語「5G」に対応する音声データとして出力する。
 音声作成部14は、いかなる態様で音声データを出力してもよいが、例えば、音声データを記憶させるための所定の記憶媒体に音声データ追加単語と関連付けて記憶させてもよい。
 また、音声作成部14は、合成音声選択部13により選択されたパラメタ値を音声合成システムに適用して、最適文例の合成音声を生成する。
 前述のとおり、文例選択部12は、文としての生起しやすさを示す尺度が所定の閾値より大きいテキストコーパスが文例抽出部11により抽出されたテキストコーパスの中に存在しない場合には、最適文例としてのテキストコーパスを選択しなくてもよい。本実施形態の音声データ作成装置10では、最適文例としてのテキストコーパスが選択されなかった追加単語のために、追加単語を挿入する部分がブランクとされた文例からなる文例ひな形が生成されてもよい。
 文例ひな形生成部15は、単語のカテゴリごとに文例ひな形を生成する。図10は、文例ひな形の生成対象の一のカテゴリについての、文例ひな形の生成処理の処理内容を示すフローチャートである。
 ステップS21において、文例ひな形生成部15は、各追加単語にカテゴリを関連付ける。なお、文例ひな形生成部15は、カテゴリ辞書を参照して追加単語に対するカテゴリの関連付けを実施してもよい。カテゴリ辞書は、単語とカテゴリとを関連付けた辞書である。図11は、カテゴリが関連付けられた追加単語の例を示す図である。図12は、カテゴリ辞書記憶部23に記憶されているカテゴリ辞書の例を示す図である。
 図12に示されるように、カテゴリ辞書は、カテゴリがそれぞれ関連付けられた単語を含んでいる。文例ひな形生成部15は、カテゴリ辞書を参照して、追加単語「D社」のカテゴリ「企業名」を取得し、図11に示すように、追加単語「D社」にカテゴリ「企業名」を関連付ける。同様に、文例ひな形生成部15は、追加単語「千代田区」にカテゴリ「地名」を関連付け、追加単語「N社」にカテゴリ「企業名」を関連付ける。
 なお、追加単語がカテゴリ辞書に含まれていない場合には、文例ひな形生成部15は、当該追加単語に関連付けるべきカテゴリとしてユーザにより入力されたカテゴリを取得し、取得したカテゴリを当該追加単語に関連付けてもよい。
 図13は、カテゴリが関連付けられた追加単語の英語の例を示す図である。図14は、カテゴリ辞書記憶部23に記憶されているカテゴリ辞書の英語の例を示す図である。図14に示されるように、カテゴリ辞書は、カテゴリがそれぞれ関連付けられた単語を含んでいる。文例ひな形生成部15は、カテゴリ辞書を参照して、追加単語”Company D”のカテゴリ”Company”を取得し、図13に示すように、追加単語”Company D”にカテゴリ”Company”を関連付ける。同様に、文例ひな形生成部15は、追加単語”Chiyoda-ku”にカテゴリ”Place”を関連付け、追加単語”Company N”にカテゴリ”Company”を関連付ける。
 ステップS22において、文例ひな形生成部15は、文例ひな形の生成対象のカテゴリに含まれるいずれかの追加単語に対して、少なくとも一つの最適文例の文例選択部12による関連付けはあるか否かを判定する。なお、以下において、文例ひな形の生成対象のカテゴリが、カテゴリ「企業名」である例を説明する。具体的には、文例ひな形生成部15は、図8及び図9に例示される追加単語に対する最適文例の関連付けを参照して、最適文例が関連付けられた、カテゴリが「企業名」(Company)である追加単語が存在するか否かを判定する。最適文例の関連付けがあると判定された場合には、処理はステップS23に進む。一方、最適文例の関連付けがあると判定されなかった場合には、処理はステップS25に進む。
 ステップS23において、文例ひな形生成部15は、文例ひな形の生成対象のカテゴリに含まれる追加単語に関連付けられた最適文例のうち、最も低いパープレキシティを有する文例を選択する。図8に示す例では、文例ひな形生成部15は、カテゴリが「企業名」である追加単語「D社」及び「N社」のそれぞれに関連付けられた最適文例のうち、パープレキシティが最も低い文例「本日はD社より紹介いたします。」を選択する。
 また、図9に示す例では、文例ひな形生成部15は、カテゴリが”Company”である追加単語”Company D”及び”Company N”のそれぞれに関連付けられた最適文例のうち、パープレキシティが最も低い文例”This is the result of research at Company D.”を選択する。
 ステップS24において、文例ひな形生成部15は、ステップS23において選択した文例から、追加単語の部分を除いてブランクとした文例ひな形を生成する。図15は、生成された文例ひな形の一例を示す図である。図15に示されるように、文例ひな形生成部15は、カテゴリが「企業名」である追加単語「D社」に対して選択された文例「本日はD社より紹介いたします。」から、追加単語「D社」の部分を除いてブランクとした文例ひな形「本日は<>より紹介いたします。」を生成する。
 図16は、生成された文例ひな形の英語の例を示す図である。図16に示されるように、文例ひな形生成部15は、カテゴリが”Company”である追加単語”Company D”に対して選択された文例”This is the result of research at Company D.”から、追加単語”Company D”の部分を除いてブランクとした文例ひな形”This is the result of research at < >.”を生成する。
 一方、文例ひな形の生成対象のカテゴリの追加単語に対して最適文例の関連付けがない場合には(S22)、ステップS25において、文例ひな形生成部15は、カテゴリ辞書を参照して、文例ひな形の生成対象のカテゴリの他の単語を選択する。
 ステップS26において、文例ひな形生成部15は、ステップS25において選択した単語を含むテキストコーパスを、テキストコーパス群から抽出する。
 ステップS27において、文例ひな形生成部15は、ステップS26において抽出したテキストコーパスのパープレキシティが所定の閾値T未満であるか否かを判定する。パープレキシティが閾値T未満であると判定された場合には、処理はステップS28に進む。一方、パープレキシティが閾値T未満であると判定されなかった場合には、処理はステップS29に進む。
 ステップS28において、文例ひな形生成部15は、ステップS26において抽出したテキストコーパスから、ステップS25において選択した単語の部分を除いてブランクとした文例ひな形を生成する。
 ステップS29において、文例ひな形生成部15は、ステップS25において選択した単語を含むテキストコーパスのテキストコーパス群からの更なる抽出を試みる。テキストコーパス群を更に抽出可能である場合には、処理はステップS26に戻り、文例ひな形生成部15は、テキストコーパスを抽出する。一方、テキストコーパス群を更に抽出可能ではない場合には、処理はステップS30に進む。
 ステップS30において、文例ひな形生成部15は、カテゴリ辞書を参照して、ステップS25において選択した単語とは異なる同カテゴリの他の単語の更なる選択を試みる。他の単語を更に選択可能である場合には、処理はステップS25に戻り、文例ひな形生成部15は、他の単語を選択する。他の単語を更に選択可能ではない場合には、処理はステップS31に進む。
 ステップS31において、文例ひな形生成部15は、ステップS26において抽出されたテキストコーパスの中で最もパープレキシティが低いテキストコーパスから、ステップS25において選択した単語の部分を除いてブランクとした文例ひな形を生成する。
 ステップS32において、文例ひな形生成部15は、ステップS24,S28,S31のいずれかにおいて生成した文例ひな形を出力する。具体的には、文例ひな形生成部15は、文例生成部16に生成した文例ひな形を送出してもよい。また、文例ひな形生成部15は、文例ひな形を記憶させるための所定の記憶媒体に、生成した文例ひな形を記憶させてもよい。
 文例生成部16は、文例選択部12により最適文例が選択されなかった追加単語を、当該追加単語が属するカテゴリについて生成された文例ひな形のブランクに挿入して、当該追加単語に対する最適文例を生成する。図17は、文例ひな形に基づいて生成された最適文例の一例を示す図である。図17に示される例では、カテゴリが「企業名」である追加単語「Z社」に対して、文例選択部12により最適文例が選択されなかったこととする。かかる場合には、文例生成部16は、カテゴリ「企業名」に対して生成された文例ひな形「本日は<>より紹介いたします。」を取得し(図15参照)、追加単語「Z社」を文例ひな形のブランク「<>」に挿入して、追加単語「Z社」に対する最適文例「本日はZ社より紹介いたします。」を生成する。
 図18は、文例ひな形に基づいて生成された最適文例の英語の例を示す図である。図18に示される例では、カテゴリが”Company”である追加単語”Company Z”に対して、文例選択部12により最適文例が選択されなかったこととする。かかる場合には、文例生成部16は、カテゴリ”Company”に対して生成された文例ひな形”This is the result of research at < >.”を取得し(図16参照)、追加単語”Company Z”を文例ひな形のブランク”< >”に挿入して、追加単語”Company Z”に対する最適文例”This is the result of research at Company Z.”を生成する。
 図10を参照して説明した文例ひな形の生成によれば、同一のカテゴリに属する各追加単語に対して最適文例として選択されたテキストコーパスの中から、尺度が最も高いテキストコーパスに基づいて文例ひな形が生成されるので、当該カテゴリに属する他の単語をブランクに挿入することにより、文として生起しやすい文例を生成できる。そして、このように生成された文例ひな形を用いることにより、最適文例が選択されなかった追加単語に対しても、最適文例を生成することが可能となる。
 図19は、音声データ作成装置10における音声データ作成方法の処理内容を示すフローチャートである。
 ステップS1において、文例抽出部11は、テキストコーパス群から追加単語を含むテキストコーパスを全て抽出する。
 ステップS2において、文例選択部12は、文例抽出部11により抽出されたテキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、当該追加単語に対する最適文例として選択する。本実施形態では、文例選択部12は、パープレキシティが最も低いテキストコーパスを最適文例として選択する。
 ステップS3において、合成音声選択部13は、合成音声の出力のためのパラメタ値を選択する。なお、ステップS3の処理は、本実施形態の音声データ作成方法において必須ではない。
 ステップS4において、音声作成部14は、音声合成システムにより合成された最適文例の合成音声を、追加単語に対応する音声データとして出力する。
 次に、図20を参照して、コンピュータを、本実施形態の音声データ作成装置10として機能させるための音声データ作成プログラムについて説明する。
 音声データ作成プログラムP1は、音声データ作成装置10における音声データ作成処理を統括的に制御するメインモジュールm10、文例抽出モジュールm11、文例選択モジュールm12、合成音声選択モジュールm13、音声作成モジュールm14、文例ひな形生成モジュールm15及び文例生成モジュールm16を備えて構成される。そして、各モジュールm11~m16により、文例抽出部11、文例選択部12、合成音声選択部13、音声作成部14、文例ひな形生成部15及び文例生成部16のための各機能が実現される。
 なお、音声データ作成プログラムP1は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図20に示されるように、記録媒体M1に記憶される態様であってもよい。
 以上説明した本実施形態の音声データ作成装置10、音声データ作成方法、音声データ作成プログラムP1によれば、追加単語を含み、文として生起しやすいテキストコーパスが最適文例として選択される。従って、選択されたテキストコーパスは、追加単語の文脈の情報を含む。また、音声合成システムにより生成された最適文例の合成音声が、音声データとして出力されるので、音声データの作成に係るコストが低減される。
 また、別の形態に係る音声データ作成装置では、文例選択部は、文における単語の配列に基づいて各単語の生起確率を出力する言語モデルを用いて、文例抽出部により抽出された各テキストコーパスの尺度を算出してもよい。
 上記の形態によれば、テキストコーパスの文としての生起しやすさを示す尺度が容易に算出される。
 また、別の形態に係る音声データ作成装置では、文例選択部は、言語モデルを用いて、文例抽出部により抽出された各テキストコーパスの、文としての生起し難さを示すパープレキシティを算出し、算出されたパープレキシティが最も低いテキストコーパスを、追加単語に対する最適文例として選択してもよい。
 上記の形態によれば、言語モデルを用いて算出されたパープレキシティが最も低いテキストコーパスが最適文例として選択される。従って、追加単語を含むと共に文として生起しやすいテキストコーパスが選択される。
 また、別の形態に係る音声データ作成装置では、テキストコーパス群は、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含み、文例抽出部は、テキストコーパス群のうちの、少なくとも関連コーパス群から、追加単語を含むテキストコーパスを抽出し、文例選択部は、関連コーパスに基づいて生成された言語モデルを用いて最適文例を選択してもよい。
 上記の形態によれば、関連コーパスを、例えば音声認識システムが適用される分野に関連するテキストコーパスにより構成することにより、適用分野に適したテキストコーパスが抽出される。また、適用分野に関連するテキストコーパスを用いて生成された言語モデルが用いられるので、当該適用分野において文として生起しやすいテキストコーパスを最適文例として選択できる。
 また、別の形態に係る音声データ作成装置は、合成音声の生成のための少なくとも1以上のパラメタについて、複数のパラメタ値のそれぞれにより生成された合成音声のうち、音声認識システムによる音声認識処理の結果の精度が最も高い合成音声のパラメタ値を、音声合成システムにおける合成音声の生成のためのパラメタ値として選択する合成音声選択部を更に備えてもよい。
 上記の形態によれば、音声認識処理においてより認識しやすい合成音声を出力可能なパラメタ値により、最適文例の合成音声からなる音声データが作成される。従って、音声認識システムにおける学習に供するのに好適な音声データが得られる。
 また、別の形態に係る音声データ作成装置では、文例選択部は、尺度が所定の閾値より大きく、且つ、最も高いテキストコーパスを最適文例として選択してもよい。
 上記の形態によれば、尺度が所定の閾値より大きいテキストコーパスが最適文例として選択されるので、追加単語の文脈の情報が一定程度以上に含まれるテキストコーパスを最適文例として選択することが可能となる。また、尺度が所定の閾値を超えるテキストコーパスが、抽出されたテキストコーパスに存在しなければ、最適文例が選択されないので、音声データの品質が一定程度以上に維持される。
 また、別の形態に係る音声データ作成装置では、各追加単語は、当該単語が属するカテゴリに関連付けられており、音声データ作成装置は、文例選択部により最適文例が選択された追加単語及び当該最適文例としてのテキストコーパスのうち、同一のカテゴリに属する各追加単語に対して最適文例として選択されたテキストコーパスの尺度が最も高い追加単語及びテキストコーパスを取得し、取得したテキストコーパスに基づいて、追加単語の部分をブランクとした文例ひな形を、カテゴリごとに生成する、文例ひな形生成部と、文例選択部により最適文例が選択されなかった追加単語を、当該追加単語が属するカテゴリについて生成された文例ひな形のブランクに挿入して、当該追加単語に対する最適文例を生成する、文例生成部、を更に備えてもよい。
 上記の形態によれば、同一のカテゴリに属する各追加単語に対して最適文例として選択されたテキストコーパスの中から、尺度が最も高いテキストコーパスに基づいて文例ひな形が生成されるので、当該カテゴリに属する他の単語をブランクに挿入することにより、文として生起しやすい文例を生成できる。そして、このように生成された文例ひな形を用いることにより、最適文例が選択されなかった追加単語に対しても、最適文例を生成することが可能となる。
 また、別の形態に係る音声データ作成装置では、各追加単語は、当該単語の1以上の読みに関連付けられており、音声作成部は、追加単語の全ての読みのそれぞれを用いた最適文例の合成音声を、読みごとに生成してもよい。
 上記の形態によれば、追加単語に複数の読みが想定される場合には、複数の読みの全ていついての音声データを網羅的に生成できる。
 以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
 本明細書で説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
 本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
 以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
 本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
 なお、本開示において説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
 本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。
 また、本明細書で説明した情報、パラメタなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
 本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
 本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
 本明細書で「第1の」、「第2の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1および第2の要素への参照は、2つの要素のみがそこで採用され得ること、または何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
 「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
 本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。
 本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
 10…音声データ作成装置、11…文例抽出部、12…文例選択部、13…合成音声選択部、14…音声作成部、15…文例ひな形生成部、16…文例生成部、21…追加単語記憶部、22…テキストコーパス記憶部、23…カテゴリ辞書記憶部、23…カテゴリ辞書記憶部、M1…記録媒体、m10…メインモジュール、m11…文例抽出モジュール、m12…文例選択モジュール、m13…合成音声選択モジュール、m14…音声作成モジュール、m15…文例ひな形生成モジュール、m16…文例生成モジュール、P1…音声データ作成プログラム。

Claims (8)

  1.  音声認識システムにおける認識対象に追加させる単語である追加単語を含む音声データを作成する音声データ作成装置であって、
     複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群から、前記追加単語を含む1以上のテキストコーパスを抽出する文例抽出部と、
     前記文例抽出部により抽出された前記テキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、前記追加単語に対する最適文例として選択する文例選択部と、
     所定の音声合成システムにより生成された前記最適文例の合成音声を、前記追加単語に対応する音声データとして出力する音声作成部と、
     を備える音声データ作成装置。
  2.  前記文例選択部は、文における単語の配列に基づいて各単語の生起確率を出力する言語モデルを用いて、前記文例抽出部により抽出された各テキストコーパスの前記尺度を算出する、
     請求項1に記載の音声データ作成装置。
  3.  前記文例選択部は、前記言語モデルを用いて、前記文例抽出部により抽出された各テキストコーパスの、文としての生起し難さを示すパープレキシティを算出し、算出されたパープレキシティが最も低いテキストコーパスを、前記追加単語に対する最適文例として選択する、
     請求項2に記載の音声データ作成装置。
  4.  前記テキストコーパス群は、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含み、
     前記文例抽出部は、前記テキストコーパス群のうちの、少なくとも前記関連コーパス群から、前記追加単語を含むテキストコーパスを抽出し、
     前記文例選択部は、前記関連コーパスに基づいて生成された前記言語モデルを用いて前記最適文例を選択する、
     請求項2または3に記載の音声データ作成装置。
  5.  前記合成音声の生成のための少なくとも1以上のパラメタについて、複数のパラメタ値のそれぞれにより生成された合成音声のうち、前記音声認識システムによる音声認識処理の結果の精度が最も高い合成音声のパラメタ値を、前記音声合成システムにおける合成音声の生成のためのパラメタ値として選択する合成音声選択部、を更に備える、
     請求項1~4のいずれか一項に記載の音声データ作成装置。
  6.  前記文例選択部は、前記尺度が所定の閾値より大きく、且つ、最も高いテキストコーパスを最適文例として選択する、
     請求項1~5のいずれか一項に記載の音声データ作成装置。
  7.  各追加単語は、当該単語が属するカテゴリに関連付けられており、
     前記音声データ作成装置は、
     前記文例選択部により最適文例が選択された前記追加単語及び当該最適文例としての前記テキストコーパスのうち、同一のカテゴリに属する各追加単語に対して最適文例として選択された前記テキストコーパスの前記尺度が最も高い前記追加単語及び前記テキストコーパスを取得し、取得した前記テキストコーパスに基づいて、前記追加単語の部分をブランクとした文例ひな形を、前記カテゴリごとに生成する、文例ひな形生成部と、
     前記文例選択部により前記最適文例が選択されなかった前記追加単語を、当該追加単語が属するカテゴリについて生成された前記文例ひな形の前記ブランクに挿入して、当該追加単語に対する前記最適文例を生成する、文例生成部、
     を更に備える、
     請求項6に記載の音声データ作成装置。
  8.  各追加単語は、当該単語の1以上の読みに関連付けられており、
     前記音声作成部は、前記追加単語の全ての読みのそれぞれを用いた前記最適文例の合成音声を、前記読みごとに生成する、
     請求項1~7のいずれか一項に記載の音声データ作成装置。
     
PCT/JP2021/015637 2020-04-21 2021-04-15 音声データ作成装置 WO2021215352A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022517014A JP7326596B2 (ja) 2020-04-21 2021-04-15 音声データ作成装置
US17/995,518 US20230223005A1 (en) 2020-04-21 2021-04-15 Voice data creation device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020075414 2020-04-21
JP2020-075414 2020-04-21

Publications (1)

Publication Number Publication Date
WO2021215352A1 true WO2021215352A1 (ja) 2021-10-28

Family

ID=78269282

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/015637 WO2021215352A1 (ja) 2020-04-21 2021-04-15 音声データ作成装置

Country Status (3)

Country Link
US (1) US20230223005A1 (ja)
JP (1) JP7326596B2 (ja)
WO (1) WO2021215352A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024009890A1 (ja) * 2022-07-04 2024-01-11 日本電気株式会社 学習データ生成装置、音声認識モデル生成装置、学習データ生成方法、音声認識モデル生成方法、および記録媒体

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003029776A (ja) * 2001-07-12 2003-01-31 Matsushita Electric Ind Co Ltd 音声認識装置
JP2011248001A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル学習用ラベル作成装置、その方法及びプログラム
JP2012037619A (ja) * 2010-08-04 2012-02-23 Nec Corp 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP2014235345A (ja) * 2013-06-03 2014-12-15 株式会社東芝 音声処理装置、方法およびプログラム
WO2017061027A1 (ja) * 2015-10-09 2017-04-13 三菱電機株式会社 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
JP2019120841A (ja) * 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003029776A (ja) * 2001-07-12 2003-01-31 Matsushita Electric Ind Co Ltd 音声認識装置
JP2011248001A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル学習用ラベル作成装置、その方法及びプログラム
JP2012037619A (ja) * 2010-08-04 2012-02-23 Nec Corp 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP2014235345A (ja) * 2013-06-03 2014-12-15 株式会社東芝 音声処理装置、方法およびプログラム
WO2017061027A1 (ja) * 2015-10-09 2017-04-13 三菱電機株式会社 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
JP2019120841A (ja) * 2018-01-09 2019-07-22 国立大学法人 奈良先端科学技術大学院大学 スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024009890A1 (ja) * 2022-07-04 2024-01-11 日本電気株式会社 学習データ生成装置、音声認識モデル生成装置、学習データ生成方法、音声認識モデル生成方法、および記録媒体

Also Published As

Publication number Publication date
US20230223005A1 (en) 2023-07-13
JPWO2021215352A1 (ja) 2021-10-28
JP7326596B2 (ja) 2023-08-15

Similar Documents

Publication Publication Date Title
US11676585B1 (en) Hybrid decoding using hardware and software for automatic speech recognition systems
US8423351B2 (en) Speech correction for typed input
US10553206B2 (en) Voice keyword detection apparatus and voice keyword detection method
US9886947B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
WO2021070819A1 (ja) 採点モデル学習装置、採点モデル及び判定装置
WO2020230658A1 (ja) 特徴抽出装置及び状態推定システム
WO2021215352A1 (ja) 音声データ作成装置
CN110211576B (zh) 一种语音识别的方法、装置和系统
JP6782329B1 (ja) 感情推定装置、感情推定システム、及び感情推定方法
WO2021215262A1 (ja) 句点削除モデル学習装置、句点削除モデル及び判定装置
WO2020166125A1 (ja) 翻訳用データ生成システム
CN113869046B (zh) 一种自然语言文本的处理方法、装置、设备及存储介质
WO2009078665A1 (en) Method and apparatus for lexical decoding
WO2021199654A1 (ja) 分割装置
JP7429194B2 (ja) 対話装置及び対話プログラム
JP2022029273A (ja) 文類似度算出装置、学習済モデル生成装置及び分散表現モデル
WO2019098185A1 (ja) 発話文生成システム及び発話文生成プログラム
US20210097241A1 (en) Text matching system
US20210012067A1 (en) Sentence matching system
WO2014049998A1 (ja) 情報検索システム、情報検索方法およびプログラム
WO2021024613A1 (ja) 単語重み計算システム
US11862167B2 (en) Voice dialogue system, model generation device, barge-in speech determination model, and voice dialogue program
JP7429193B2 (ja) 対話装置及び対話プログラム
US20230009949A1 (en) Translation device
JP2022134537A (ja) 音声認識装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21792718

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022517014

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21792718

Country of ref document: EP

Kind code of ref document: A1