WO2021157052A1 - 補聴器用合成音声セットの修正方法 - Google Patents

補聴器用合成音声セットの修正方法 Download PDF

Info

Publication number
WO2021157052A1
WO2021157052A1 PCT/JP2020/004766 JP2020004766W WO2021157052A1 WO 2021157052 A1 WO2021157052 A1 WO 2021157052A1 JP 2020004766 W JP2020004766 W JP 2020004766W WO 2021157052 A1 WO2021157052 A1 WO 2021157052A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
inspection
synthetic
processing
phoneme
Prior art date
Application number
PCT/JP2020/004766
Other languages
English (en)
French (fr)
Inventor
博 小野
Original Assignee
株式会社テクノリンク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社テクノリンク filed Critical 株式会社テクノリンク
Priority to CN202080099498.5A priority Critical patent/CN115380326A/zh
Priority to US17/760,256 priority patent/US20230038118A1/en
Priority to JP2020536900A priority patent/JP6807491B1/ja
Priority to PCT/JP2020/004766 priority patent/WO2021157052A1/ja
Publication of WO2021157052A1 publication Critical patent/WO2021157052A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/70Adaptation of deaf aid to hearing loss, e.g. initial electronic fitting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • the present invention relates to a method for modifying a synthetic speech set for hearing aids.
  • Speech synthesis technology has been used to artificially create speech by synthesizing predetermined synthetic speech data after text-analyzing the input human speech.
  • Speech synthesis technology is used, for example, in the field of hearing aids for assisting the hearing of a deaf person.
  • a language processing means for analyzing a text, a piece database for storing speech in a desired synthetic unit such as a chain of vowels / consonants / vowels, and a language processing means are input.
  • a speech processing device including a speech synthesizer that synthesizes speech stored in a fragment database based on reading information and the like is described.
  • the voice processing device further includes a phonological enhancement processing means for enhancing the synthetic unit stored in the element database, an auditory measurement means for measuring the auditory characteristics of the user, and the measured auditory characteristics. It is provided with a voice quality control means for determining the setting of the emphasis processing based on the above.
  • the voice processing device can output synthetic voice according to the auditory characteristics of the user.
  • an object of the present invention is to provide a hearing aid method that can be correctly recognized by the user and has a reduced degree of discomfort.
  • the method of modifying the synthetic speech set for a hearing device is based on the synthetic speech set for inspection to which the synthetic speech data for inspection for outputting the synthetic speech for inspection is associated with each of the plurality of phonetic labels.
  • This is a method of modifying a synthetic speech set for a hearing device to which synthetic speech data for a hearing device for outputting a synthetic speech for a hearing device is associated with each of a plurality of phonetic labels.
  • a step of accepting the first answer selected by The step of accepting the second answer selected by the user as being the phonetic label that the output second synthetic speech for inspection seems to represent, and the first answer that matches the second phonetic label and the second answer. Does not match the second phonetic label, in the synthetic speech set for the hearing aid, the synthetic speech data for the first hearing aid associated with the first phonetic label instead of the synthetic speech data for the second hearing device associated with the second phonetic label. Includes a step of associating speech data with a second phonetic label.
  • the phoneme indicated by the second phoneme label represents the first synthetic speech output based on the first synthetic speech data associated with the other first phoneme label in the synthetic speech set for inspection. If it can be recognized, the synthetic speech data for the second hearing device associated with the second phoneme label in the synthetic speech set for the hearing device can be newly associated with the first phoneme label. This makes it possible to modify the hearing aid synthetic voice data so that the user can hear it correctly without having to process the hearing aid synthetic voice data for the hearing aid synthetic voice set. Therefore, it is possible to output a synthetic voice that can be correctly recognized by the user and has a reduced degree of discomfort.
  • FIG. 1 is a diagram showing an example of the configuration of the voice processing device 1 according to the embodiment of the present invention.
  • the voice processing device 1 is a device that outputs voice based on input voice (for example, spoken voice of a speaker) by a synthetic voice method or an input voice processing method.
  • the synthetic voice method is a method of performing voice synthesis based on predetermined synthetic voice data.
  • the input voice processing method is a method in which a predetermined processing process is performed on the input voice itself and the voice generated by the processing process is output.
  • the voice processing device 1 can modify the synthetic voice set for hearing aids used in the synthetic voice method, which will be described later, according to the result of the user's speech sound test based on the synthetic voice set for inspection. Similarly, the voice processing device 1 can modify the processing method set described later used in the input voice processing method according to the result of the user's speech sound inspection based on the synthetic voice set for inspection.
  • the voice processing device 1 will be described as being composed of one information processing device, but the voice processing device 1 may be configured as a system by a plurality of information processing devices.
  • the information processing device may be any information processing device as long as it can realize the functions and methods described in the present disclosure, and is, for example, a smartphone, a mobile phone (feature phone), or a computer.
  • a server device e.g, a handheld computer device, a wearable terminal (eg, a glasses-type device, a clock-type device, etc.), or any other computer.
  • the information processing device includes, for example, a processor connected to each other via a bus, a memory, a storage, an input / output interface (input device and output device), and a communication interface.
  • the voice processing device 1 includes, for example, an operation unit 2, a voice input unit 3, a display unit 5, a voice output unit 4, a storage unit 6, and a processing unit 7.
  • the operation unit 2 is composed of, for example, an input device such as a touch panel or a key button, receives an operation of inputting characters, numbers, symbols, etc. by a user, and supplies a signal corresponding to the operation to the processing unit 7.
  • the voice input unit 3 is composed of, for example, a microphone or the like, converts the user's voice or the like into a voice waveform based on an electric signal, and supplies the voice to the processing unit 7.
  • the voice output unit 4 is composed of, for example, a speaker or the like, and outputs voice based on synthetic voice data (synthetic voice data for inspection, synthetic voice data for hearing aid, etc.).
  • synthetic voice data synthetic voice data for inspection, synthetic voice data for hearing aid, etc.
  • the voice output unit 4 outputs the synthetic voice for inspection based on the synthetic voice data for inspection, and outputs the synthetic voice for processing inspection based on the synthetic voice data for processing inspection.
  • the voice output unit 4 outputs the synthetic voice for the hearing aid based on the synthetic voice data for the hearing aid.
  • the display unit 5 is composed of an output device such as a liquid crystal display or an organic EL (Electro-Luminescence) display, and displays an image or the like based on the display data supplied from the processing unit 7.
  • an output device such as a liquid crystal display or an organic EL (Electro-Luminescence) display, and displays an image or the like based on the display data supplied from the processing unit 7.
  • the storage unit 6 includes storage such as a magnetic tape device, a magnetic disk device, and an optical disk device, and stores computer programs, data, and the like used for processing in the processing unit 7.
  • the storage unit 6 stores a synthetic voice set for inspection, a synthetic voice set for hearing aids, and a processing method set, which will be described later.
  • the program of each embodiment of the present disclosure may be provided in a state of being stored in a storage medium readable by a computer.
  • the storage medium can store the program in a "non-temporary tangible medium".
  • Programs include, but are not limited to, software programs and computer programs as examples.
  • FIG. 2A is a conceptual diagram showing an example of the data structure of the synthetic speech set for inspection.
  • synthetic speech data for inspection which is the basis of speech synthesis for inspection, is associated with each phoneme label.
  • the phoneme label is shown in the left column
  • the synthetic speech data for inspection associated with the phoneme label is shown in the right column.
  • the phoneme label is a label for identifying a phoneme.
  • a phoneme is a sound that is a unit (not necessarily the minimum unit) that constitutes speech, and may be a consonant, a vowel, a combination of a consonant and a vowel, or the like.
  • the phoneme label is not limited to these, but may be, for example, a phoneme character (for example, a Japanese kana character) or a phonetic symbol.
  • the phoneme label is represented as "[ka]” or the like
  • the synthetic speech data for inspection is represented as "S [ka]” or the like.
  • Synthetic speech data is associated with each phoneme label.
  • FIG. 2B is a conceptual diagram showing an example of the data structure of the synthetic voice set for hearing aids.
  • synthetic speech data for hearing aids which is a source of speech synthesis for hearing aids, is associated with each phoneme label.
  • the phoneme label is shown in the left column
  • the synthetic voice data for the hearing aid associated with the phoneme label is shown in the right column.
  • at least a part of the phoneme labels of the synthetic speech set for hearing aids matches at least a part of the phoneme labels of the synthetic speech set for examination.
  • the phoneme label of the synthetic speech set for hearing aids may exactly match the phoneme label of the synthetic speech set for examination.
  • the phoneme label is represented as "[ka]” or the like
  • the synthetic voice data for the hearing aid is represented as "H [ka]” or the like.
  • a hearing aid for a user having normal hearing (healthy person) to output synthetic voice for hearing aid that can be sufficiently recognized as the sound indicated by the phoneme label Synthetic speech data is associated with each phoneme label.
  • FIG. 2C is a conceptual diagram showing an example of the data structure of the processing method set for each phoneme label.
  • a processing method performed on the input voice for example, the voice of the speaker
  • the phoneme label is shown in the left column
  • the processing method associated with the phoneme label is shown in the right column.
  • Each processing method included in the processing method set may be a minimum processing process (including a processing process that outputs the input voice as it is) without emphasizing or the like in the initial setting or the like.
  • at least a part of the phoneme labels of the processing method set matches at least a part of the phoneme labels of the synthetic speech set for inspection.
  • the phoneme label of the processing method set may completely match the phoneme label of the synthetic speech set for inspection.
  • the phoneme label is represented as "[ka]” or the like
  • the processing method is represented as "F [ka]” or the like.
  • the minimum processing method for outputting the input voice as it is (faithfully) is associated with each phoneme label.
  • the processing methods for all phoneme labels may be the same.
  • FIG. 2D is a conceptual diagram showing an example of the data structure of the processing method set for each consonant group.
  • the processing method performed on the input voice (for example, the voice of the speaker) is associated with each consonant group.
  • the consonant group is shown in the left column, and the processing method associated with the consonant group is shown in the right column.
  • the consonant group may include "(1) unvoiced consonant", "(2) voiced consonant", and "(3) dakuon head consonant" as a major classification.
  • the processing methods F (1), F (2), and F (3) are associated with each of these consonant groups.
  • the processing according to the processing method F (1) can be performed.
  • "(1) unvoiced consonant” is a subcategory of "(1-1) the first consonant of Kiyone in a narrow sense” and "(1-2) unvoiced burst sound / k, ky, t, p, py /”.
  • "(3) voiced consonant” is classified into “(3-1) voiced burst / voiced fricative / d, b, by /” and "(3-2) voiced burst / voiced fricative”. It may be subdivided into “/ g, gy /” and "(3-3) voiced fricative / voiced fricative / z, j /”. In the processing method set, the processing method F (1-1) or the like may be provided for each of these subdivided consonant groups.
  • processing processing method F (1-1) can be performed on the corresponding partial voice.
  • the above-mentioned method and fineness of classifying consonant groups in the processing method set is an example, and the processing method set may be set by another method or fineness.
  • the processing unit 7 includes one or a plurality of processors and peripheral circuits thereof.
  • the processing unit 7 is, for example, a CPU, and controls the overall operation of the voice processing device 1 in an integrated manner.
  • the processing unit 7 controls the operation of the operation unit 2 and the like so that various processes of the voice processing device 1 are executed in an appropriate procedure based on the program and the like stored in the storage unit 6.
  • the processing unit 7 executes processing based on the computer program stored in the storage unit 6.
  • the processing unit 7 includes, for example, an inspection unit 71, a correction unit 72, a hearing aid processing unit 73, and a display control unit 74.
  • the inspection unit 71 includes a phoneme label selection unit 71a, a synthetic voice output unit 71b, a response reception unit 71c, a determination unit 71d, and a processing processing unit 71e.
  • the correction unit 72 includes a synthetic voice set correction unit 72a for hearing aids and a processing method set correction unit 72b.
  • the hearing aid processing unit 73 includes an input audio processing unit 73a and an output audio processing unit 73b.
  • the input voice processing unit 73a includes a text recognition processing unit 73a1 and an acoustic recognition processing unit 73a2.
  • the output voice processing unit 73b includes a voice synthesis unit 73b1, an input voice processing unit, and 73b2.
  • the phoneme label selection unit 71a selects, for example, a phoneme label whose test has not been completed from the synthetic speech set for inspection in the speech sound inspection process.
  • the synthetic voice output unit 71b controls the voice output unit 4 to control synthetic voice data (synthetic voice data for inspection, synthetic voice data for hearing aids, etc.) and synthetic voice based on synthetic voice data for processing inspection (synthetic voice for inspection and synthetic voice for inspection). (Synthetic voice for hearing aids, etc.) and synthetic voice for processing inspection are output.
  • the answer reception unit 71c receives the answer input by the user by operating the operation unit 2. The answer includes, for example, selection of a phoneme label corresponding to the output voice and an answer that the output voice is unpleasant.
  • the determination unit 71d makes various determinations in the speech sound inspection process.
  • the processing unit 71e generates the synthetic voice data for processing inspection by processing the combined voice data for inspection under a predetermined condition.
  • the hearing aid synthetic voice set correction unit 72a performs a replacement process and / or a processing process of the hearing aid synthetic voice data associated with the phoneme label under a predetermined condition in the hearing aid synthetic voice set.
  • the processing method set correction unit 72b corrects the processing method set according to the result of the speech sound inspection.
  • the text recognition processing unit 73a1 analyzes the input voice and generates a text corresponding to the voice.
  • the sound recognition processing unit 73a2 performs sound recognition processing on the input voice.
  • the acoustic recognition process is performed by referring to, for example, an acoustic feature (which may be stored in the storage unit 6 or the like) defined in advance for each consonant group or vowel, so that the input voice has an acoustic sound.
  • the target feature is determined, and the consonant group, vowel, etc. corresponding to the voice are determined.
  • the consonant group may be, for example, the consonant group described with reference to FIG. 2D.
  • the voice synthesis unit 73b1 uses the hearing aid synthetic voice set to output the synthetic voice corresponding to the generated text from the voice output unit 4.
  • the input voice processing unit 73b2 processes the voice input by using the processing method set, and then outputs the voice from the voice output unit 4.
  • the display control unit 74 causes the display unit 5 to display various screens and the like based on predetermined display data.
  • the voice analysis unit 7i analyzes the voice input to the voice input unit 3 and generates text data representing the voice.
  • the voice synthesis unit 7j synthesizes a voice representing the text data generated by the voice analysis unit 7i or the like based on the synthetic voice set for the hearing aid, and causes the voice output unit 4 to output the voice.
  • FIG. 3 is an example of an operation flow diagram for explaining a speech inspection process by the voice processing device 1.
  • the voice processing device 1 receives a response from the user after outputting the synthetic voice for inspection and the synthetic voice for processing inspection based on the synthetic voice set for inspection.
  • the phoneme label selection unit 71a selects an arbitrary phoneme label (phoneme label under test) for which the test has not been completed from the phoneme labels included in the synthetic speech set for inspection stored in the storage unit 6. ..
  • the synthetic voice output unit 7b outputs the synthetic voice for inspection via the voice output unit 4 based on the synthetic voice data for inspection associated with the phoneme label during the test in the synthetic voice set for inspection. do.
  • the determination unit 7d determines whether or not the answer received in S3 is the correct answer. Specifically, the determination unit 7d determines that the answer is correct if the phoneme label related to the answer received in S3 and the phoneme label during the test are the same, and determines that the answer is incorrect if they are different.
  • the processing may be performed by one processing method selected in advance from a plurality of processing methods.
  • the plurality of processing methods are not limited to these, for example, increasing the sound pressure of a consonant phoneme, extending the duration of a consonant, inserting a silent time between a consonant and a vowel, and talking. It may include speed conversion and the like.
  • the processing method used for the processing to be performed may be changed.
  • the order of changing the plurality of processing methods can be arbitrarily set. For example, the sound pressure of the phoneme of the consonant described later is expanded, the duration of the consonant is extended, and the time between the consonant and the vowel is increased. It is desirable to change the processing method in the order of inserting the silent time and converting the speaking speed. Further, the order of changing the plurality of processing methods may be set differently depending on the type of consonant (plosive consonant (voiced / unvoiced), friction consonant (voiced / unvoiced), nasal consonant, etc.).
  • the synthetic voice output unit 7b outputs the synthetic voice for processing inspection via the voice output unit 4 based on the synthetic voice data for processing inspection generated in S106.
  • the response reception unit 7c receives the response to the synthetic voice for processing inspection output in S107. Specifically, when the answer receiving unit 7c selects a phoneme label that the voice output in S7 feels represents, the answer receiving unit 7c accepts the selection as an answer. Alternatively, when the user selects that the synthetic voice for processing inspection output in S7 is unpleasant, the response receiving unit 7c accepts the selection as an answer.
  • the received answer is stored in, for example, the storage unit 6.
  • the determination unit 7d determines whether or not the answer to the synthetic voice for processing inspection received in S108 is correct. Specifically, the determination unit 7d determines that the answer is correct if the answer received in S8 selects the phoneme label and the phoneme label related to the answer and the phoneme label during the test are the same. Judge, otherwise determine that the answer is incorrect. When the determination unit 7d determines that the answer received in S108 is correct (S109; Yes), the process proceeds to step S105.
  • FIG. 4 is a diagram showing an example of a test screen displayed on, for example, the display unit 5 in the above-mentioned speech sound inspection process.
  • the test screen is displayed on the display unit 5 by the display control unit 74 based on the display data stored in the storage unit 6, for example.
  • the test screen displays a selection unit for each phoneme label (for example, [a], [ka], [sa], etc.) included in the synthetic speech set.
  • the selection unit can be selected when the user responds with a phoneme label that the user feels to represent after listening to the voice output by the voice output unit 4.
  • the user selects a selection unit displayed as "unpleasant" in order to answer that the output voice is unpleasant, instead of selecting the phoneme label or in combination with the phoneme label selection. be able to.
  • FIG. 5A is a diagram showing an example of an operation flow diagram relating to correction processing of the synthetic voice set for hearing aid.
  • the hearing aid synthetic voice set correction unit 72a refers to the storage unit 6 and selects an arbitrary phoneme label whose answer to the test synthetic voice received in S103 described above is incorrect.
  • the hearing aid synthetic voice set correction unit 72a matches the phoneme label selected in S201 among the answers to the test synthetic voice for other phoneme labels different from the phoneme label selected in S201. Determine if there is something to do.
  • the hearing aid synthetic voice set correction unit 72a is for the hearing aid associated with the other phoneme label in the hearing aid synthetic voice set.
  • the synthetic speech data is newly associated with the phoneme label selected in S201. After that, the process proceeds to step S206.
  • the hearing aid synthetic voice set correction unit 72a confirms whether or not the answer to the synthetic voice for processing inspection received in S108 described above is correct. Is determined.
  • the synthetic voice set correction unit 72a for the hearing aid is set in S201 in the synthetic voice set for the hearing aid.
  • the same processing process as in S106 (however, the last executed process) is executed on the synthetic speech data for the hearing aid associated with the selected phoneme label.
  • the hearing aid synthetic voice set correction unit 72a newly associates the processed synthetic voice data for the hearing aid with the phoneme label selected in S201 in the hearing aid synthetic voice set.
  • the hearing aid synthetic voice set correction unit 72a determines whether or not the processing of S201 to S205 has been completed for all the phoneme labels whose answers to the inspection synthetic voice received in S103 described above are incorrect. judge. If the result of the determination is positive (S206; Yes), the process ends, and if the result of the determination is negative (S206; No), the process proceeds to S201.
  • FIG. 5B is a diagram showing an example of an operation flow diagram relating to modification processing of the processing method set for each phoneme label shown in FIG. 2C. ..
  • the processing method set modification 72b selects an arbitrary phoneme label whose answer to the synthetic speech for inspection received in S103 described above is incorrect with reference to the storage unit 6.
  • the processing method set correction unit 72b determines whether or not the answer to the synthetic voice for processing inspection received in S108 described above is correct for the phoneme label selected in S301.
  • the processing method set correction unit 72b sets the processing method for each phoneme label. , The same processing method as in S106 (however, the processing method related to the last executed processing) is synthesized with respect to the processing processing method associated with the phoneme label selected in S301. Then, the processing method set correction unit 72b newly associates the synthesized new processing method with the phoneme label selected in S301 in the processing method set.
  • the processing method set correction unit 72b determines whether or not the processing of S301 to S303 has been completed for all the phoneme labels whose answers to the synthetic speech for inspection received in S103 described above are incorrect. do. If the result of the determination is positive (S304; Yes), the process ends, and if the result of the determination is negative (S304; No), the process proceeds to S201.
  • (2-2-2-2) Generation of processing method set for each consonant group For example, the processing unit 7 processes each consonant group shown in FIG. 2D based on the answer of the above "(2-1) Consonant inspection".
  • a processing method set can be generated.
  • the processing unit 7 generates a processing processing method F (1) corresponding to "(1) unvoiced consonant” based on a plurality of answers to the synthetic speech for inspection belonging to "(1) unvoiced consonant" in the speech sound inspection. You may. At this time, the more incorrect answers there are, the stronger the degree of processing may be.
  • the processing may include expanding the sound pressure of the phoneme of the consonant, extending the duration of the consonant, inserting a silent time between the consonant and the vowel, converting the speaking speed, and the like.
  • FIG. 6A is a diagram showing an example of an operation flow diagram relating to the hearing aid processing by the synthetic voice method.
  • the voice synthesis unit 73b1 is modified by the process of "(2-2-1) Correction of synthetic voice set for hearing aid" performed by the listener as a subject, for example. Is used to output the synthetic voice corresponding to the generated text from the voice output unit 4. As a result, the listener can hear the synthetic voice based on the synthetic voice data which has been appropriately replaced and / or processed according to the hearing ability of the listener.
  • FIG. 6B is a diagram showing an example of an operation flow diagram related to hearing aid processing by the input voice processing method.
  • the input voice processing unit 73b2 of the output voice processing unit 73b executes processing for each part of the input voice by using the processing method set, and controls the voice output unit 4. Outputs the generated voice.
  • the input voice processing unit 73b2 may execute different processing processing for each phoneme label included in the input voice by using the processing method set for each phoneme label shown in FIG. 2C.
  • the input voice processing unit 73b2 is specified after specifying the consonant group corresponding to the phoneme label included in the input voice by using the processing method set for each consonant group shown in FIG. 2D. Processing processing by the processing processing method corresponding to the consonant group may be executed.
  • the input voice processing unit 73b2 may execute processing processing of only the first consonant of each word by a processing processing method corresponding to the consonant group to which the consonant belongs.
  • a processing processing method corresponding to the consonant group to which the consonant belongs For example, for example, in the word "Kamihikouki”, “ka”, “mi”, “hi”, “ko”, and “ki” are consonants.
  • only the first consonant "ka” may be processed by a processing method corresponding to the consonant group to which the consonant "ka” belongs. This often improves the listener's hearing without making the entire word too long.
  • FIG. 6C is a diagram showing another example of an operation flow diagram related to hearing aid processing by the input voice processing method.
  • a consonant group included in the input voice is determined based on the acoustic characteristics of the voice.
  • the acoustic processing utilizes the fact that the consonants belonging to the same consonant group have similar acoustic characteristics. For example, the difference between the spectrum or the like defined in advance for each consonant group and the spectrum or the like of the input voice is Whether or not the voice belongs to the consonant group may be determined depending on whether or not the voice is within a predetermined threshold.
  • a fricative-like phonology, a plosive-like phonology, a nasal-like phonology, and a vowel-like phonology may be detected by Bayesian estimation.
  • a consonant group corresponding to each part of the voice is generated.
  • the input voice processing unit 73b2 of the output voice processing unit 73b uses the processing method set for each consonant group shown in FIG. 2D with respect to the partial voice corresponding to the predetermined consonant group among the input voices. Then, in the processing method set, processing processing associated with the consonant group is performed, and the voice output unit 4 is controlled to output the generated voice. As a result, the input voice of the speaker is processed by the processing method for each consonant group, and then the processed input voice is output.
  • the speech sound inspection device 1A and the hearing aid 1B may be configured as separate information processing devices.
  • the speech sound inspection device 1A and the hearing aid 1B may be miniaturized.
  • the capacity of the hearing aid 1B can be reduced in order to perform acoustic analysis of the input voice.
  • FIG. 7 is a diagram showing an example of the configuration of the speech sound inspection device 1A according to another embodiment of the present invention.
  • the speech sound inspection device 1A may be configured as an arbitrary information processing device such as a personal computer (PC), a smartphone, a tablet terminal, and a dedicated terminal.
  • the speech sound inspection device 1A includes, for example, an operation unit 2, a voice input unit 3, a voice output unit 4, a display unit 5, a storage unit 6, and a processing unit 7.
  • the processing unit 7 includes, for example, an inspection unit 71, a correction unit 72, and a display control unit 74.
  • the speech sound inspection device 1A further includes, for example, a communication unit 8A.
  • the communication unit 8A provides a communication interface circuit for connecting the speech sound inspection device 1A to another information processing device such as the hearing aid 1B by short-range wireless communication such as Bluetooth (registered trademark) or arbitrary mobile communication. Have.
  • the communication unit 8A supplies the data received from the information processing device such as the hearing aid 1B to the processing unit 7. Further, the communication unit 8A transmits the data supplied from the processing unit 7 to the hearing aid 1B or the like.
  • FIG. 8 is a diagram showing an example of the configuration of the hearing aid 1B according to another embodiment of the present invention.
  • the hearing aid 1B may be configured as an arbitrary information processing device such as a personal computer (PC), a smartphone, a tablet terminal, and a dedicated terminal.
  • the hearing aid 1B includes, for example, an operation unit 2, a voice input unit 3, a voice output unit 4, a display unit 5, a storage unit 6, and a processing unit 7.
  • the processing unit 7 includes, for example, a hearing aid processing unit 73 and a display control unit 74.
  • the storage unit 6 stores a synthetic voice set for a hearing aid and a processing method set.
  • the hearing aid 1B further includes, for example, a communication unit 8B.
  • the communication unit 8A provides a communication interface circuit for connecting the hearing aid 1B to another information processing device such as the speech sound inspection device 1A by short-range wireless communication such as Bluetooth (registered trademark) or arbitrary mobile communication. Have.
  • the communication unit 8A supplies the data received from the information processing device such as the speech sound inspection device 1A to the processing unit 7. Further, the communication unit 8A transmits the data supplied from the processing unit 7 to the speech sound inspection device 1A and the like.
  • the speech sound tester 1A detects the voice of the subject, compares it with each of a plurality of predetermined model voices, and then sets the individual phoneme label or consonant group. Instead, the degree of overall fine-tuning of speech synthesis or emphasis processing may be determined.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本発明の一態様に係る補聴器用合成音声セットの修正方法は、検査用合成音声セットにおいて第1音素ラベルに対応付けられた第1検査用合成音声データに基づいて、第1検査用合成音声を出力するステップと、使用者により選択された第1回答を受け付けるステップと、検査用合成音声セットにおいて第2音素ラベルに対応付けられた第2検査用合成音声データに基づいて第2検査用合成音声を出力するステップと、使用者により選択された第2回答を受け付けるステップと、第1回答が第2音素ラベルに一致し、且つ第2回答が第2音素ラベルに一致しない場合、補聴器用合成音声セットにおいて、第2補聴強合成音声データに代えて第1補聴器用合成音声データを第2音素ラベルに対応付けるステップと、を含む。

Description

補聴器用合成音声セットの修正方法
 本発明は、補聴器用合成音声セットの修正方法に関する。
 従来から、入力された人間の音声をテキスト解析した上で、所定の合成音声データを合成することにより、音声を人工的に作り出す音声合成技術が用いられている。音声合成技術は、例えば、難聴者の聞き取りを補助するための補聴器の分野などにおいて利用されている。
 例えば、特許文献1には、テキストの解析を行う言語処理手段と、音声を母音/子音/母音の連鎖などの所望の合成単位で記憶しておく素片データベースと、言語処理手段より入力された読み情報等に基づいて素片データベースに記憶された音声を合成する音声合成部と、を備える音声処理装置が記載されている。ここで、当該音声処理装置は、更に、素片データベースに記憶された合成単位に強調処理を施す音韻強調処理手段と、使用者の聴覚特性を測定する聴覚測定手段と、測定された聴覚特性に基づいて強調処理の設定を決定する声質制御手段とを備える。これにより、当該音声処理装置は、使用者の聴覚特性に応じた合成音声を出力することが可能となる。
特開2004-004952号公報
 しかしながら、強調処理によって得られる合成音声は、使用者が正しく認識できる可能性は高まるものの、元の音声波形の振幅や周波数を操作する余り、使用者にとって不快になる場合がある。合成音声方式は(1)波形方式、(2)HMM方式、(3)DNN方式と発展してきたが、合成音声には子音や母音の特性について規格がない等の理由により、各社の合成音声を比較すると、現状では、健聴者でも異聴する場合がある。特に、難聴者の聞き取りには大きな差があることが分かっている。
 そこで、本発明は、使用者が正しく認識でき且つ不快度が低減された補聴方式を提供することを目的とする。
 本発明の一態様に係る補聴器用合成音声セットの修正方法は、複数の音素ラベルのそれぞれについて検査用合成音声を出力するための検査用合成音声データが対応付けられた検査用合成音声セットに基づいて、複数の音素ラベルのそれぞれについて補聴器用合成音声を出力するための補聴器用合成音声データが対応付けられた補聴器用合成音声セットを修正する方法であって、検査用合成音声セットにおいて第1音素ラベルに対応付けられた第1検査用合成音声データに基づいて、第1検査用合成音声を出力するステップと、出力された第1検査用合成音声が表すと感じられる音素ラベルであるとして使用者により選択された第1回答を受け付けるステップと、検査用合成音声セットにおいて第2検査用音素ラベルに対応付けられた第2検査用合成音声データに基づいて第2検査用合成音声を出力するステップと、出力された第2検査用合成音声が表すと感じられる音素ラベルであるとして使用者により選択された第2回答を受け付けるステップと、第1回答が第2音素ラベルに一致し、且つ第2回答が第2音素ラベルに一致しない場合、補聴器用合成音声セットにおいて、第2音素ラベルに対応付けられた第2補聴器用合成音声データに代えて第1音素ラベルに対応付けられた第1補聴器用合成音声データを第2音素ラベルに対応付けるステップと、を含む。
 この態様によれば、補聴器用合成音声セットに含まれる第2音素ラベルに対応付けられた第2補聴器用合成音声データに基づいて出力される第2補聴器用合成音声を使用者が正しく聞き取れない場合であっても、検査用合成音声セットにおいて他の第1音素ラベルに対応付けられた第1検査用合成音声データに基づいて出力される第1検査用合成音声を第2音素ラベルが示す音素であると認識できる場合は、補聴器用合成音声セットにおいて当該第2音素ラベルに対応付けられた第2補聴器用合成音声データを新たに第1音素ラベルに対応付けることができる。これにより、補聴器用合成音声セットについて、補聴器用合成音声データを加工処理することを必要とせずに、使用者が正しく聞き取れるように補聴器用合成音声データを修正することが可能となる。以て、使用者が正しく認識でき且つ不快度が低減された合成音声を出力することが可能となる。
 本発明によれば、使用者にとっての不快度が低減された補聴器用合成音声を出力することを可能とする補聴器用合成音声セットを提供することができる。
本発明の実施形態に係る音声処理装置1の構成の一例を示す図である。 検査用合成音声セットのデータ構造の一例を示す概念図である。 補聴器用合成音声セットのデータ構造の一例を示す概念図である。 加工処理方法セットのデータ構造の一例を示す概念図である。 加工処理方法セットのデータ構造の一例を示す概念図である。 音声処理装置1による語音検査処理を説明するための動作フロー図の一例である。 テスト画面の一例を示す図である。 補聴器用合成音声セットの修正処理に係る動作フロー図の一例を示す図である。 加工処理方法セットの修正処理に係る動作フロー図の一例を示す図である。 合成音声方式による補聴処理に係る動作フロー図の一例を示す図である。 入力音声加工方式による補聴処理に係る動作フロー図の一例を示す図である。 入力音声加工方式による補聴処理に係る動作フロー図の他の一例を示す図である。 本発明の他の実施形態に係る語音検査装置1Aの構成の一例を示す図である。 本発明の他の実施形態に係る補聴器1Bの構成の一例を示す図である。
 添付図面を参照して、本発明の好適な実施形態について説明する。(なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。)
(1)構成
 図1は、本発明の実施形態に係る音声処理装置1の構成の一例を示す図である。音声処理装置1は、合成音声方式又は入力音声加工方式により、入力された音声(例えば、話者の発話音声)に基づく音声出力を行う装置である。ここで、合成音声方式は、所定の合成音声データに基づいて音声合成を行う方式である。また、入力音声加工方式は、入力された音声自体に対して所定の加工処理を行い、当該加工処理によって生成される音声を出力する方式である。
 後述するように、音声処理装置1は、合成音声方式に用いる後述する補聴器用合成音声セットを、検査用合成音声セットに基づいた使用者の語音検査の結果に応じて修正することができる。また、同様に音声処理装置1は、入力音声加工方式に用いる後述する加工処理方法セットを、検査用合成音声セットに基づいた使用者の語音検査の結果に応じて修正することができる。
 なお、以下では、音声処理装置1は、一の情報処理装置によって構成されるものとして説明するが、音声処理装置1は複数の情報処理装置によってシステムとして構成されてもよい。ここで、情報処理装置は、本開示に記載される機能および方法を実現できる情報処理装置であればどのような情報処理装置であってもよく、例えば、スマートフォン、携帯電話(フィーチャーフォン)、コンピュータ、サーバ装置、ハンドヘルドコンピュータデバイス、ウェアラブル端末(例えば、メガネ型デバイス、時計型デバイスなど)、その他の任意のコンピュータであってよい。情報処理装置は、例えば、バスを介して相互に接続されたプロセッサと、メモリと、ストレージと、入出力インタフェース(入力装置及び出力装置)と、通信インタフェースとを含む。
 図1に示すとおり、音声処理装置1は、例えば、操作部2と、音声入力部3と、表示部5と、音声出力部4と、記憶部6と、処理部7と、を備える。
 操作部2は、例えば、タッチパネルやキーボタン等の入力装置で構成され、ユーザによる文字、数字、記号等の入力の操作を受け付け、当該操作に対応する信号を処理部7に供給する。
 音声入力部3は、例えば、マイクロフォン等で構成され、ユーザの音声等を電気信号による音声波形に変換して、処理部7に供給する。
 音声出力部4は、例えば、スピーカ等で構成され、合成音声データ(検査用合成音声データ及び補聴器用合成音声データ等)に基づいて音声を出力する。特に、音声出力部4は、検査用合成音声データに基づいて検査用合成音声を出力し、加工検査用合成音声データに基づいて加工検査用合成音声を出力する。また、音声出力部4は、補聴器用合成音声データに基づいて補聴器用合成音声を出力する。
 表示部5は、例えば、液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等の出力装置で構成され、処理部7から供給された表示データに基づいた画像等を表示する。
 記憶部6は、例えば、磁気テープ装置、磁気ディスク装置、及び光ディスク装置等のストレージを備え、処理部7での処理に用いられるコンピュータプログラム、データ等を記憶する。また、記憶部6は、後述する検査用合成音声セット、補聴器用合成音声セット、及び加工処理方法セットを記憶する。なお、本開示の各実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。プログラムは、限定でなく例として、ソフトウェアプログラムやコンピュータプログラムを含む。
 図2Aは、検査用合成音声セットのデータ構造の一例を示す概念図である。検査用合成音声セットは、音素ラベル毎に、検査用音声合成の元となる検査用合成音声データが対応付けられている。図2Aに示す例では、左列には音素ラベルが、右列には当該音素ラベルに対応付けられた検査用合成音声データが、それぞれ示されている。ここで、音素ラベルとは、音素を識別するためのラベルである。ここで、音素は、音声を構成する単位(必ずしも最小単位でなくてもよい)となる音であって、子音、母音、子音と母音との組合せ等のであってよい。音素ラベルは、これらに限定されるものではないが、例えば、表音文字(例えば、日本語の仮名文字等)であってもよいし、発音記号であってもよい。本例では、音素ラベルは「[ka]」などと表され、検査用合成音声データは、「S[ka]」などと表されるものとする。特に、検査用合成音声セットの初期状態においては、通常の聴覚を有する利用者(健常者)が、当該音素ラベルが示す音であると十分に認識可能な検査用合成音声を出力するための検査用合成音声データが、各音素ラベルに対応付けられている。
 図2Bは、補聴器用合成音声セットのデータ構造の一例を示す概念図である。補聴器用合成音声セットは、音素ラベル毎に、補聴器用音声合成の元となる補聴器用合成音声データが対応付けられている。図2Bに示す例では、左列には音素ラベルが、右列には当該音素ラベルに対応付けられた補聴器用合成音声データが、それぞれ示されている。ここで、補聴器用合成音声セットの音素ラベルの少なくとも一部は、検査用合成音声セットの音素ラベルの少なくとも一部と一致する。また、補聴器用合成音声セットの音素ラベルは、検査用合成音声セットの音素ラベルに完全に一致してもよい。本例では、音素ラベルは「[ka]」などと表され、補聴器用合成音声データは、「H[ka]」などと表されるものとする。特に、補聴器用合成音声セットの初期状態においては、通常の聴覚を有する利用者(健常者)が、当該音素ラベルが示す音であると十分に認識可能な補聴器用合成音声を出力するための補聴器用合成音声データが、各音素ラベルに対応付けられている。
 図2Cは、音素ラベル毎の加工処理方法セットのデータ構造の一例を示す概念図である。図2Cに示す例では、音素ラベル毎に、入力された音声(例えば話者の音声)に対して行う加工処理方法が対応付けられている。図2Cに示す例では、左列には音素ラベルが、右列には当該音素ラベルに対応付けられた加工処理方法が、それぞれ示されている。加工処理方法セットに含まれる各加工処理方法は、初期設定等においては、強調等をしない最低限の加工処理(入力された音声をそのまま出力するような加工処理を含む)であってよい。ここで、加工処理方法セットの音素ラベルの少なくとも一部は、検査用合成音声セットの音素ラベルの少なくとも一部と一致する。また、加工処理方法セットの音素ラベルは、検査用合成音声セットの音素ラベルに完全に一致してもよい。本例では、音素ラベルは「[ka]」などと表され、加工処理方法は、「F[ka]」などと表されるものとする。特に、加工処理方法セットの初期状態においては、入力された音声をそのまま(忠実に)出力するための最低限の加工処理方法が、各音素ラベルに対応付けられている。また、加工処理方法セットの初期状態においては、全ての音素ラベルについての加工処理方法が互いに同一であってよい。
 図2Dは、子音グループ毎の加工処理方法セットのデータ構造の一例を示す概念図である。図2Dに示す例では、子音グループ毎に、入力された音声(例えば話者の音声)に対して行う加工処理方法が対応付けられている。図2Dに示す例では、左列には子音グループが、右列には当該子音グループに対応付けられた加工処理方法が、それぞれ示されている。子音グループは、例えば、図2Dに示すとおり、大分類として「(1)無声子音」、「(2)有声子音」、「(3)濁音の頭子音」を含んでもよい。加工処理方法セットにおいて、これら子音グループにはそれぞれ、加工処理方法F(1)、F(2)、F(3)が対応付けられている。そして、例えば、当該加工処理方法セットを用いて、例えば入力された音声に「(1)無声子音」が含まれていれば、入力された音声の当該(1)無声子音に対応する部分音声に対して加工処理方法F(1)による加工処理を行うことができる。また、「(1)無声子音」は、小分類としての「(1-1)狭義の清音の頭子音」、「(1-2)無声破裂音/k, ky, t, p, py/」、「(1-3)無声破擦音/ch, ts/」、「(1-4)無声摩擦音/s, sh, h, hy/」に細分化されてもよい。また、「(2)有声子音」は、小分類としての「(2-1)鼻音/s, sh, h, hy/」、「(2―2)半母音/y, w/」、「(2-3)有声破裂音/r, ry/」に細分化されてもよい。また、「(3)濁音の頭子音」は、小分類としての「(3-1)有声破裂音・有声摩擦音 /d, b, by/」、「(3-2)有声破裂音・有声摩擦音 /g, gy/」、「(3-3)有声破擦音・有声摩擦音 /z, j/」に細分化されてもよい。加工処理方法セットにおいて、これら細分化された子音グループ毎に、加工処理方法F(1-1)等を設けてもよい。そして、例えば、例えば入力された音声に「(1-1)狭義の清音の頭子音」が含まれていれば、入力された音声の当該「(1-1)狭義の清音の頭子音」に対応する部分音声に対して加工処理方法F(1-1)による加工処理を行うことができる。なお、加工処理方法セットにおける上述した子音グループの分類の仕方や細かさは一例であって、他の仕方や細かさで加工処理方法セットを設定してもよい。
 処理部7は、一又は複数個のプロセッサ及びその周辺回路を備える。処理部7は、例えばCPUであり、音声処理装置1の全体的な動作を統括的に制御する。処理部7は、記憶部6に記憶されているプログラム等に基づいて音声処理装置1の各種処理が適切な手順で実行されるように、操作部2等の動作を制御する。処理部7は、記憶部6に記憶されているコンピュータプログラムに基づいて処理を実行する。
 処理部7は、例えば、検査部71と、修正部72と、補聴処理部73と、表示制御部74と、を備える。検査部71は、音素ラベル選択部71aと、合成音声出力部71bと、回答受付部71cと、判定部71dと、加工処理部71eと、を含む。修正部72は、補聴器用合成音声セット修正部72aと、加工処理方法セット修正部72bとを含む。補聴処理部73は、入力音声処理部73aと、出力音声処理部73bとを含む。入力音声処理部73aは、テキスト認識処理部73a1と、音響認識処理部73a2とを含む。出力音声処理部73bは、音声合成部73b1と、入力音声加工部と73b2とを含む。
 音素ラベル選択部71aは、語音検査処理において、検査用合成音声セットから例えばテストが終了していない音素ラベルを選択する。合成音声出力部71bは、音声出力部4を制御して、合成音声データ(検査用合成音声データ及び補聴器用合成音声データ等)や加工検査用合成音声データに基づく合成音声(検査用合成音声及び補聴器用合成音声等)や加工検査用合成音声を出力させる。回答受付部71cは、使用者が操作部2を操作することにより入力した回答を受け付ける。回答は、例えば、出力された音声に対応する音素ラベルの選択や、出力された音声が不快である旨の回答を含む。判定部71dは、語音検査処理において、種々の判定を行う。加工処理部71eは、所定の条件下において、検査用合合成音声データを加工処理することにより、加工検査用合成音声データを生成する。補聴器用合成音声セット修正部72aは、補聴器用合成音声セットにおいて、所定の条件下において、音素ラベルに対応付けられた補聴器用合成音声データのすげ替え処理及び/又はの加工処理を行う。加工処理方法セット修正部72bは、語音検査の結果に応じて、加工処理方法セットを修正する。テキスト認識処理部73a1は、入力された音声を解析して、当該音声に対応するテキストを生成する、音響認識処理部73a2は、入力された音声に対して音響認識処理を行う。ここで、音響認識処理は、例えば、予め子音グループや母音毎に規定された音響的特徴等(記憶部6等に記憶されていてもよい)を参照することにより、入力された音声が有する音響的特徴を判定し、当該音声に対応する子音グループや母音等を判別する。子音グループは、例えば図2Dを参照して説明した子音グループであってよい。音声合成部73b1は、補聴器用合成音声セットを用いて、生成されたテキストに対応する合成音声を音声出力部4から出力させる。入力音声加工部73b2は、加工処理方法セットを用いて入力された音声に対して加工処理を行った上で、当該音声を音声出力部4から出力させる。表示制御部74は、所定の表示データに基づいて、表示部5に種々の画面等を表示させる。音声解析部7iは、音声入力部3に入力された音声を解析して、当該音声を表すテキストデータを生成する。音声合成部7jは、補聴器用合成音声セットに基づいて、音声解析部7i等により生成されたテキストデータを表す音声を合成し、音声出力部4に当該音声を出力させる。
(2)動作
(2-1)語音検査
 図3は、音声処理装置1による語音検査処理を説明するための動作フロー図の一例である。当該処理では、音声処理装置1は、検査用合成音声セットに基づいた検査用合成音声や加工検査用合成音声を出力した上で使用者からの回答を受け付ける。
(S101)まず、音素ラベル選択部71aは、記憶部6に記憶された検査用合成音声セットに含まれる音素ラベルから、テストが終了していない任意の音素ラベル(テスト中音素ラベル)を選択する。
(S102)次に、合成音声出力部7bは、検査用合成音声セットにおいてテスト中音素ラベルに対応付けられた検査用合成音声データに基づいて、音声出力部4を介して検査用合成音声を出力する。
(S103)次に、使用者が、操作部2を操作することにより、例えば図5に示すテスト画面に表示された音素ラベルの選択部から、S2で出力された音声(検査用合成音声)が表すと感じた音素ラベルの選択部を選択すると、回答受付部7cは、当該選択を検査用合成音声に対する回答として受け付ける。受け付けられた回答は、例えば、記憶部6に記憶される。
(S104)次に、判定部7dは、S3で受け付けられた回答が正解であるか否かを判定する。具体的には、判定部7dは、S3で受け付けられた回答に係る音素ラベルとテスト中音素ラベルとが同一であれば正解であると判定し、異なれば不正解であると判定する。
(S105)S103で受け付けられた回答が正解であると判定部7dが判定した場合(S4;Yes)、判定部7dは、検査用合成音声セットに含まれる全ての音素ラベルについてテストが終了したか否かを判定する。
(S106)S103で受け付けられた回答が不正解であると判定部7dが判定した場合(S4;No)、加工処理部7eは、検査用合成音声データ(ただし、テスト中音素ラベルに対応付けられた検査用合成音声データについて、既に当該S6の処理が行われている場合は、最新の加工検査用合成音声データ)を加工処理することにより、加工検査用合成音声データを生成する。
 ここで、加工処理は、複数の加工処理方法のうちから予め選択された一の加工処理方法によるものであってよい。複数の加工処理方法は、これらに限定されるものではないが、例えば、子音の音素の音圧の拡大、子音の持続時間の伸張、子音と母音との間への無音時間の挿入、及び話速の変換等を含んでもよい。
 また、例えば、S106の加工処理を少なくとも一度経ることにより生成された加工検査用合成音声データによる加工合成音声について、後述するように使用者が不快である旨の回答を選択した場合、再びS106において実行される加工処理に用いられる加工処理方法を変更してもよい。また、複数の加工処理方法の変更の順序は、任意に設定することができるが、例えば、後述する子音の音素の音圧の拡大、子音の持続時間の伸張、子音と母音との間への無音時間の挿入、話速の変換の順序で、加工処理方法を変更することが望ましい。また、複数の加工処理方法の変更の順序は、子音の種類(破裂子音(有声・無声)、摩擦子音(有声・無声)、鼻音子音等)に応じて異なるように設定してもよい。
(S107)次に、合成音声出力部7bは、S106で生成された加工検査用合成音声データに基づいて、音声出力部4を介して加工検査用合成音声を出力する。
(S108)次に、回答受付部7cは、S107で出力された加工検査用合成音声に対する回答を受け付ける。具体的には、回答受付部7cは、S7で出力された音声が表すと感じた音素ラベルを選択すると、当該選択を回答として受け付ける。或いは、回答受付部7cは、S7で出力された加工検査用合成音声が不快である旨を使用者が選択すると、当該選択を回答として受け付ける。受け付けられた回答は、例えば、記憶部6に記憶される。
(S109)次に、判定部7dは、S108で受け付けられた加工検査用合成音声に対する回答が正解であるか否かを判定する。具体的には、判定部7dは、S8で受け付けられた回答が音素ラベルを選択するものであって、且つ当該回答に係る音素ラベルとテスト中音素ラベルとが同一であれば、正解であると判定し、そうでなければ不正解であると判定する。S108で受け付けられた回答が正解であると判定部7dが判定した場合(S109;Yes)、処理はステップS105に進む。
(S110)S108で受け付けられた回答が正解ではないと判定部7dが判定した場合(S109;No)、判定部7dは、S108において出力された加工検査用合成音声が不快である旨の回答が受け付けられたか否かを判定する。当該不快である旨の回答が受け付けられていないと判定された場合(S110;No)、処理はS106に進む。
(S111)S108において出力された加工検査用合成音声が不快である旨の回答が受け付けられたと判定部7dが判定した場合(S110;Yes)、判定部7dは、予め設定された複数の加工処理方法のうち、まだ実行していない他の加工処理方法があるか否かを判定する。そして、当該判定の結果が肯定的であった場合(S111;Yes)、処理はS106に進み、当該判定の結果が否定的であった場合(S111;No)、処理はS105に進む。以上で語音検査が終了する。
 図4は、上述した語音検査処理において、例えば表示部5に表示されるテスト画面の一例を示す図である。当該テスト画面は、例えば、記憶部6に記憶された表示データに基づいて表示制御部74が表示部5に表示させる。図4に示すとおり、テスト画面には、合成音声セットに含まれる各音素ラベル(例えば、[a]、[ka]、[sa]等)の選択部が表示される。当該選択部は、使用者が音声出力部4により出力される音声を聞いた後に当該音声が表すと感じられる音素ラベルを回答する際に選択することができる。また、使用者は、音素ラベルの選択に代えて、或いは音素ラベルの選択と併せて、出力された音声が不快である旨を回答するために、「不快」と表示された選択部を選択することができる。
(2-2-1)補聴器用合成音声セットの修正
 図5Aは、補聴器用合成音声セットの修正処理に係る動作フロー図の一例を示す図である。
(S201)まず、補聴器用合成音声セット修正部72aは、記憶部6を参照して、上述したS103で受け付けた検査用合成音声に対する回答が不正解である任意の音素ラベルを選択する。
(S202)次に、補聴器用合成音声セット修正部72aは、S201で選択された音素ラベルとは異なる他の音素ラベルについての検査用合成音声に対する回答のうち、S201で選択された音素ラベルに一致するものがあるか否かを判定する。
(S203)補聴器用合成音声セット修正部72aは、S202における判定の結果が肯定的であった場合(S202;Yes)、補聴器用合成音声セットにおいて、当該他の音素ラベルに対応付けられた補聴器用合成音声データを、S201で選択された音素ラベルに新たに対応付ける。その後、処理はステップS206に進む。
(S204)補聴器用合成音声セット修正部72aは、S202における判定の結果が否定的であった場合(S202;No)、上述したS108で受け付けた加工検査用合成音声に対する回答が正解であるか否かを判定する。
(S205)補聴器用合成音声セット修正部72aは、上述したS108で受け付けた加工検査用合成音声に対する回答が正解であると判定された場合(S204;Yes)、補聴器用合成音声セットにおいて、S201で選択された音素ラベルに対応付けられた補聴器用合成音声データに対して、S106と同様の加工処理(ただし、最後に実行された処理)を実行する。そして、補聴器用合成音声セット修正部72aは、補聴器用合成音声セットにおいて、加工処理された補聴器用合成音声データをS201で選択された音素ラベルに新たに対応付ける。
 上述したS108で受け付けた加工検査用合成音声に対する回答が正解でないと判定された場合(S204;No)、処理はS206に進む。
(S206)次に、補聴器用合成音声セット修正部72aは、上述したS103で受け付けた検査用合成音声に対する回答が不正解である全ての音素ラベルについてS201~S205の処理が終了したか否かを判定する。判定の結果が肯定的であった場合(S206;Yes)、処理は終了し、判定の結果が否定的であった場合(S206;No)、処理はS201に進む。
(2-2-2-1)音素ラベル毎の加工処理方法セットの修正
 図5Bは、図2Cに示す音素ラベル毎の加工処理方法セットの修正処理に係る動作フロー図の一例を示す図である。
(S301)まず、加工処理方法セット修正72bは、記憶部6を参照して、上述したS103で受け付けた検査用合成音声に対する回答が不正解である任意の音素ラベルを選択する。
(S302)加工処理方法セット修正部72bは、S301で選択された音素ラベルについて、上述したS108で受け付けた加工検査用合成音声に対する回答が正解であるか否かを判定する。
(S303)加工処理方法セット修正部72bは、上述したS108で受け付けられた加工検査用合成音声に対する回答が正解であると判定された場合(S302;Yes)、音素ラベル毎の加工処理方法セットにおいて、S301で選択された音素ラベルに対応付けられた加工処理方法に対して、S106と同様の加工処理方法(ただし、最後に実行された処理に係る加工処理方法)を合成する。そして、加工処理方法セット修正部72bは、加工処理方法セットにおいて、合成された新たな加工処理方法をS301で選択された音素ラベルに新たに対応付ける。
(S304)次に、加工処理方法セット修正部72bは、上述したS103で受け付けた検査用合成音声に対する回答が不正解である全ての音素ラベルについてS301~S303の処理が終了したか否かを判定する。判定の結果が肯定的であった場合(S304;Yes)、処理は終了し、判定の結果が否定的であった場合(S304;No)、処理はS201に進む。
(2-2-2-2)子音グループ毎の加工処理方法セットの生成
 例えば処理部7は、上記「(2-1)語音検査」の回答に基づいてm図2Dに示す子音グループ毎の加工処理方法セットを生成することができる。例えば、処理部7は、語音検査において「(1)無声子音」に属する検査用合成音声に対する複数の回答に基づいて、「(1)無声子音」に対応する加工処理方法F(1)を生成してもよい。この際、不正解の回答が多いほど、加工処理の度合いを強めてもよい。加工処理は、子音の音素の音圧の拡大、子音の持続時間の伸張、子音と母音との間への無音時間の挿入、及び話速の変換等であってよい。
(2-3-1)補聴処理/合成音声方式
 図6Aは、合成音声方式による補聴処理に係る動作フロー図の一例を示す図である。
(S401)まず、話者が音声入力部3に向けて音声を発することにより音声入力部3が当該音声に基づく信号を処理部7に供給すると、入力音声処理部73aのテキスト認識処理部73a1は、当該音声に対してテキスト認識処理を行う。これにより、入力された音声の各部分に対応するテキストが生成される。
(S402)次に、音声合成部73b1は、例えば聞き手が被験者となって行われた上記「(2-2-1)補聴器用合成音声セットの修正」の処理により修正された補聴器用合成音声セットを用いて、生成されたテキストに対応する合成音声を音声出力部4から出力させる。これにより、聞き手は、当該聞き手の聴力に応じて適宜すげ替え処理及び/又は加工処理された合成音声データに基づく合成音声を聞くことができる。
(2-3-2-1)補聴処理/音素ラベル毎の入力音声加工処理方式
 図6Bは、入力音声加工方式による補聴処理に係る動作フロー図の一例を示す図である。
(S501)まず、話者が音声入力部3に向けて音声を発することにより音声入力部3が当該音声に基づく信号を処理部7に供給すると、入力音声処理部73aのテキスト認識処理部73a1は、当該音声に対してテキスト認識処理を行う。これにより、入力された音声の各部分に対応するテキストが生成される。更に、入力音声処理部73aは、入力音声から単語と助詞(例えば、「は」、「が」、「を」等)とを分離した上で、これら単語及び助詞から子音部分を検出する。
(S502)次に、出力音声処理部73bの入力音声加工部73b2は、加工処理方法セットを用いて、入力された音声の各部分に対して加工処理を実行し、音声出力部4を制御して生成された音声を出力する。このとき例えば、入力音声加工部73b2は、図2Cに示す音素ラベル毎の加工処理方法セットを用いて、入力された音声に含まれる音素ラベル毎に異なる加工処理を実行してもよい。或いは、例えば、入力音声加工部73b2は、図2Dに示す子音グループ毎の加工処理方法セットを用いて、入力された音声に含まれる音素ラベルに該当する子音グループを特定した上で、特定された子音グループに対応する加工処理方法による加工処理を実行してもよい。或いは、例えば、入力音声加工部73b2は、各単語の先頭の子音のみを、当該子音が属する子音グループに対応する加工処理方法による加工処理を実行してもよい。具体的には、例えば、単語「かみひこうき」には、「か」、「み」、「ひ」、「こ」、及び「き」が子音である。この場合、先頭の子音「か」だけに対して、子音「か」が属する子音グループに対応する加工処理方法によって加工処理を実行してもよい。これにより、単語全体の長さをあまり長くし過ぎることなく、聞き手の聞き取りが向上する場合が多い。
(2-3-2-2)補聴処理/子音グループ毎に入力音声加工処理方式
 図6Cは、入力音声加工方式による補聴処理に係る動作フロー図の他の一例を示す図である。
(S601)まず、話者が音声入力部3に向けて音声を発することにより音声入力部3が当該音声に基づく信号を処理部7に供給すると、入力音声処理部73aの音響認識処理部73a2は、当該音声に対して音響処理を行うことにより、当該音声の音響的特徴に基づいて入力された音声に含まれる子音グループを判別する。当該音響処理は、同一の子音グループに属する子音は音響特性が近似していることを利用しており、例えば、各子音グループについて予め規定されたスペクトル等と、入力音声のスペクトル等との差分が所定の閾値以内であるか否かにより、当該音声が当該子音グループに属する音であるか否かが判定されてもよい。或いは、音声波形を周波数領域に変換した上で、ベイズ推定によって、摩擦音らしい音韻、破裂音らしい音韻、鼻音らしい音韻、母音らしい音韻を検出してもよい。これにより、当該音声の各部分に対応する子音グループが生成される。
(S602)次に、出力音声処理部73bの入力音声加工部73b2は、図2Dに示す子音グループ毎の加工処理方法セットを用いて、入力音声のうち所定の子音グループに対応する部分音声に対して、加工処理方法セットにおいて当該子音グループに対応付けられた加工処理を行い、音声出力部4を制御して生成された音声を出力する。これにより、話者の入力音声に対して子音グループ毎の加工処理方法によって加工処理がなされた上で、加工処理された当該入力音声が出力される。
 以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
(3)その他
 本発明の他の実施形態においては、語音検査装置1Aと補聴器1Bとが個別の情報処理装置として構成されてもよい。このように語音検査装置1Aと補聴器1Bとを個別の情報処理装置として構成することにより、補聴器1Bを小型化できるという利点がある。特に、本発明の種々の実施形態においては、入力された音声の音響分析をするため、補聴器1Bの容量を小型化できる。
 図7は、本発明の他の実施形態に係る語音検査装置1Aの構成の一例を示す図である。語音検査装置1Aは、例えば、パーソナルコンピュータ(PC)、スマートフォン、タブレット端末、及び専用端末等の任意の情報処理装置として構成されてよい。語音検査装置1Aは、例えば、操作部2と、音声入力部3と、音声出力部4と、表示部5と、記憶部6と、処理部7とを備える。処理部7は、例えば、検査部71と、修正部72と、表示制御部74とを備える。
 語音検査装置1Aは、例えば、更に通信部8Aを備える。ここで、通信部8Aは、Bluetooth(登録商標)等の近距離無線通信や任意のモバイル通信等によって、語音検査装置1Aを補聴器1B等の他の情報処理装置に接続するための通信インタフェース回路を有する。通信部8Aは、補聴器1B等の情報処理装置から受信したデータを処理部7に供給する。また、通信部8Aは、処理部7から供給されたデータを補聴器1B等に送信する。
 図8は、本発明の他の実施形態に係る補聴器1Bの構成の一例を示す図である。補聴器1Bは、例えば、パーソナルコンピュータ(PC)、スマートフォン、タブレット端末、及び専用端末等の任意の情報処理装置として構成されてよい。補聴器1Bは、例えば、操作部2と、音声入力部3と、音声出力部4と、表示部5と、記憶部6と、処理部7とを備える。処理部7は、例えば、補聴処理部73と、表示制御部74とを備える。記憶部6は、補聴器用合成音声セットや加工処理方法セットを記憶している。
 補聴器1Bは、例えば、更に通信部8Bを備える。ここで、通信部8Aは、Bluetooth(登録商標)等の近距離無線通信や任意のモバイル通信等によって、補聴器1Bを語音検査装置1A等の他の情報処理装置に接続するための通信インタフェース回路を有する。通信部8Aは、語音検査装置1A等の情報処理装置から受信したデータを処理部7に供給する。また、通信部8Aは、処理部7から供給されたデータを語音検査装置1A等に送信する。
 本発明の更に他の実施形態においては、語音検査装置1Aは被験者の音声を検知した上で、予め規定された複数のモデル音声のそれぞれと比較した上で、個別の音素ラベルや子音グループ毎ではなく、音声合成又は強調加工の全体的な微修正の程度を決定してもよい。
 1…音声処理装置、2…操作部、3…音声入力部、4…音声出力部4…表示部、6…記憶部、7…処理部、7a…音素ラベル選択部、7b…合成音声出力部、7c…回答受付部、7d…判定部、7e…加工処理部、7f…補聴器用合成音声セット修正部、7g…すげ替え処理部、74…表示制御部、7i…音声解析部、7j…音声合成部、1A…語音検査装置、1B…補聴器
 

Claims (12)

  1.  複数の音素ラベルのそれぞれについて検査用合成音声を出力するための検査用合成音声データが対応付けられた検査用合成音声セットを用いた検査の結果に基づいて、前記複数の音素ラベルのそれぞれについて補聴器用合成音声を出力するための補聴器用合成音声データが対応付けられた補聴器用合成音声セットを修正する方法であって、
     前記検査用合成音声セットにおいて第1音素ラベルに対応付けられた第1検査用合成音声データに基づいて、第1検査用合成音声を出力するステップと、
     出力された前記第1検査用合成音声が表すと感じられる音素ラベルであるとして使用者により選択された第1回答を受け付けるステップと、
     前記検査用合成音声セットにおいて第2音素ラベルに対応付けられた第2検査用合成音声データに基づいて第2検査用合成音声を出力するステップと、
     出力された前記第2検査用合成音声が表すと感じられる音素ラベルであるとして前記使用者により選択された第2回答を受け付けるステップと、
     前記第1回答が前記第2音素ラベルに一致し、且つ前記第2回答が前記第2音素ラベルに一致しない場合、前記補聴器用合成音声セットにおいて、前記第2音素ラベルに対応付けられた第2補聴器用合成音声データに代えて前記第1音素ラベルに対応付けられた第1補聴器用合成音声データを前記第2音素ラベルに対応付けるステップと、を含む、方法。
  2.  前記第2検査用合成音声データを加工処理した加工検査用合成音声データに基づいて加工検査用合成音声を出力するステップと、
     出力された前記加工検査用合成音声が表すと感じられる音素ラベルであるとして前記使用者により選択された第3回答を受け付けるステップと、
     前記第3回答が前記第2音素ラベルに一致する場合、前記補聴器用合成音声セットにおいて、前記第2音素ラベルに対応付けられた前記第2補聴器用合成音声データに対して前記加工処理と同一の加工処理を行うステップと、を更に含む、請求項1に記載の方法。
  3.  前記加工処理は、前記検査用合成音声データの子音の音素の拡大、子音の持続時間の伸張、子音と母音との間への無音時間の挿入、及び話速の変換の少なくともいずれかを含む、請求項2に記載の方法。
  4.  出力された前記加工検査用合成音声が不快である旨の第4回答を受け付けるステップと、
     前記第1回答が前記第2音素ラベルに一致し、前記第2回答が前記第2音素ラベルに一致せず、且つ前記第4回答が受け付けられた場合、前記補聴器用合成音声セットにおいて、前記第2補聴器用合成音声データに代えて前記第1補聴器用合成音声データを前記第2音素ラベルに対応付けるステップと、を更に含む、請求項2又は3に記載の方法。
  5.  前記音素ラベルは、子音の音素、母音の音素、及び、子音と母音とを組合せた音素のうちいずれかを示す、請求項1から4のいずれか一項に記載の方法。
  6.  音声の入力を受け付けるステップ、
     音声を解析してテキストを生成するステップ、
     生成されたテキストに該当する
    請求項1から5のいずれか一項に記載の方法により修正された合成音声セットにおいて、前記生成されたテキストに該当する前記音素ラベルに対応付けられた合成音声データに基づいて、音声出力するステップと、
     を含む、補聴方法。
  7.  複数の音素ラベルのそれぞれについて検査用合成音声を出力するための検査用合成音声データが対応付けられた検査用合成音声セットを用いた検査の結果に基づいて、入力された音声のうち所定の音ラベルに対応する部分に対して行う加工処理を規定した加工処理方法セットを修正する方法であって、
     前記検査用合成音声セットにおいて第1音素ラベルに対応付けられた検査用合成音声データに基づいて、検査用合成音声を出力するステップと、
     出力された前記検査用合成音声が表すと感じられる音素ラベルであるとして使用者により選択された第1回答を受け付けるステップと、
     前記検査用合成音声セットにおいて前記第1音素ラベルに対応付けられた検査用合成音声データを所定の加工処理方法によって加工処理した加工検査用合成音声データに基づいて加工検査用合成音声を出力するステップと、
     出力された前記加工検査用合成音声が表すと感じられる音素ラベルであるとして前記使用者により選択された第2回答を受け付けるステップと、
     前記第1回答が前記第1音素ラベルに一致せず、且つ前記第2回答が前記第1音素ラベルに一致する場合、前記加工処理方法セットにおいて、前記第1音素ラベルに対応付けられた加工処理に対して、前記所定の加工処理方法を合成するステップと、を含む方法。
  8.  話者が発した音声の入力を受け付けるステップと、
     前記話者が発した音声を解析するステップと、
     前記話者が発した音声の解析の結果に応じて、前記話者が発した音声を所定の加工処理方法によって加工処理するステップと、
     加工処理された前記音声を出力するステップと、を含む補聴方法。
  9.  前記話者が発した音声を解析するステップでは、前記話者が発した音声に混入する周囲騒音を軽減するための解析ではなく、前記話者が発した音声の特徴を強調するための解析が実行される、請求項8に記載の補聴方法。
  10.  前記話者が発した音声を所定の加工処理方法によって解析するステップでは、前記話者が発した音声の音響分析処理を行うことにより、前記話者が発した音声の子音の特徴を示す子音グループを判別し、
     前記話者が発した音声を加工処理するステップでは、前記子音グループに対応する前記所定の加工処理方法により前記話者が発した音声を加工処理する、請求項8又は9に記載の補聴方法。
  11.  前記話者が発した音声を所定の加工処理方法によって解析するステップでは、前記音声のテキスト認識処理を行うことにより、前記話者が発した音声に対応するテキストを判別し、
     前記話者が発した音声を加工処理するステップでは、前記テキストに対応する前記所定の加工処理方法により前記話者が発した音声を加工処理する、請求項8又は9に記載の補聴方法。
  12.  前記話者が発した音声を所定の加工処理方法によって解析するステップでは、前記請求項7に記載の前記所定の加工処理方法によって前記話者が発した音声を加工処理する、請求項8から11のいずれか一項に記載の補聴方法。
     
PCT/JP2020/004766 2020-02-07 2020-02-07 補聴器用合成音声セットの修正方法 WO2021157052A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202080099498.5A CN115380326A (zh) 2020-02-07 2020-02-07 助听器用合成语音数据集的修正方法
US17/760,256 US20230038118A1 (en) 2020-02-07 2020-02-07 Correction method of synthesized speech set for hearing aid
JP2020536900A JP6807491B1 (ja) 2020-02-07 2020-02-07 補聴器用合成音声セットの修正方法
PCT/JP2020/004766 WO2021157052A1 (ja) 2020-02-07 2020-02-07 補聴器用合成音声セットの修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/004766 WO2021157052A1 (ja) 2020-02-07 2020-02-07 補聴器用合成音声セットの修正方法

Publications (1)

Publication Number Publication Date
WO2021157052A1 true WO2021157052A1 (ja) 2021-08-12

Family

ID=73992875

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/004766 WO2021157052A1 (ja) 2020-02-07 2020-02-07 補聴器用合成音声セットの修正方法

Country Status (4)

Country Link
US (1) US20230038118A1 (ja)
JP (1) JP6807491B1 (ja)
CN (1) CN115380326A (ja)
WO (1) WO2021157052A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5879400A (ja) * 1981-11-06 1983-05-13 Gen Eng:Kk 補聴器
JPH0739540A (ja) * 1993-07-30 1995-02-10 Sony Corp 音声解析装置
US20050027537A1 (en) * 2003-08-01 2005-02-03 Krause Lee S. Speech-based optimization of digital hearing devices
WO2013008412A1 (ja) * 2011-07-08 2013-01-17 パナソニック株式会社 補聴適合度判定装置、および、補聴適合度判定方法
JP2018036320A (ja) * 2016-08-29 2018-03-08 株式会社テクノリンク 音処理方法、音処理装置、及びプログラム
JP2019213001A (ja) * 2018-06-01 2019-12-12 学校法人北里研究所 補聴器及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3210207A4 (en) * 2014-10-20 2018-09-26 Audimax LLC Systems, methods, and devices for intelligent speech recognition and processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5879400A (ja) * 1981-11-06 1983-05-13 Gen Eng:Kk 補聴器
JPH0739540A (ja) * 1993-07-30 1995-02-10 Sony Corp 音声解析装置
US20050027537A1 (en) * 2003-08-01 2005-02-03 Krause Lee S. Speech-based optimization of digital hearing devices
WO2013008412A1 (ja) * 2011-07-08 2013-01-17 パナソニック株式会社 補聴適合度判定装置、および、補聴適合度判定方法
JP2018036320A (ja) * 2016-08-29 2018-03-08 株式会社テクノリンク 音処理方法、音処理装置、及びプログラム
JP2019213001A (ja) * 2018-06-01 2019-12-12 学校法人北里研究所 補聴器及びプログラム

Also Published As

Publication number Publication date
JPWO2021157052A1 (ja) 2021-08-12
US20230038118A1 (en) 2023-02-09
CN115380326A (zh) 2022-11-22
JP6807491B1 (ja) 2021-01-06

Similar Documents

Publication Publication Date Title
US20240157143A1 (en) Somatic, auditory and cochlear communication system and method
JP4946293B2 (ja) 音声強調装置、音声強調プログラムおよび音声強調方法
JP2008309856A (ja) 音声認識装置及び会議システム
US9131876B2 (en) Portable sound source playing apparatus for testing hearing ability and method of testing hearing ability using the apparatus
JP5029168B2 (ja) 音声読み上げのための装置、プログラム及び方法
Astolfi et al. Duration of voicing and silence periods of continuous speech in different acoustic environments
JP2016535305A (ja) 自閉症における言語処理向上のための装置
Hansen et al. On the issues of intra-speaker variability and realism in speech, speaker, and language recognition tasks
JP2007140200A (ja) 語学学習装置およびプログラム
WO2018038235A1 (ja) 聴覚トレーニング装置、聴覚トレーニング方法、およびプログラム
Vojtech et al. The effects of modulating fundamental frequency and speech rate on the intelligibility, communication efficiency, and perceived naturalness of synthetic speech
US8938077B2 (en) Sound source playing apparatus for compensating output sound source signal and method of compensating sound source signal output from sound source playing apparatus
JP4883750B2 (ja) 音響評定装置、およびプログラム
JP6807491B1 (ja) 補聴器用合成音声セットの修正方法
US20070061139A1 (en) Interactive speech correcting method
Simmons et al. Cross-modal transfer of talker-identity learning
JP5518621B2 (ja) 音声合成装置およびコンピュータプログラム
Klein et al. Perceptuo-motor interactions across and within phonemic categories.
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
Lukkarila Developing a conversation assistant for the hearing impaired using automatic speech recognition
KR20160074952A (ko) 사용자 단말기를 이용한 보이스 컨설팅 제공 방법
KR102350890B1 (ko) 휴대용 청력검사장치
US11368799B2 (en) Hearing device customization systems and methods
JP2016164628A (ja) 音読評価装置、音読評価方法、及びプログラム
KR20190002003A (ko) 음성 합성 방법 및 장치

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020536900

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20918053

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20918053

Country of ref document: EP

Kind code of ref document: A1