WO2024024122A1 - 音声処理方法、プログラム、及び音声処理システム - Google Patents

音声処理方法、プログラム、及び音声処理システム Download PDF

Info

Publication number
WO2024024122A1
WO2024024122A1 PCT/JP2022/044929 JP2022044929W WO2024024122A1 WO 2024024122 A1 WO2024024122 A1 WO 2024024122A1 JP 2022044929 W JP2022044929 W JP 2022044929W WO 2024024122 A1 WO2024024122 A1 WO 2024024122A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
filter
audio signal
processor
character string
Prior art date
Application number
PCT/JP2022/044929
Other languages
English (en)
French (fr)
Inventor
冬弥 北川
雅博 石井
沙良 浅井
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2024024122A1 publication Critical patent/WO2024024122A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • the present disclosure relates to a voice processing method and the like for processing a person's voice emitted by a speaker.
  • Patent Document 1 discloses an automatic voice response adjustment method that improves the intelligibility of human voice received at a wireless receiver by automatically adjusting the voice response according to the environmental noise level.
  • This automatic audio response adjustment method increases the relative gain of high audio frequencies at the expense of lower frequency responses in the presence of large environmental noises.
  • the present disclosure provides a voice processing method and the like that makes it easier for a user to hear a person's voice, regardless of the performance of a speaker included in a speech device.
  • event information regarding an event is acquired from an information source device or an information source service
  • a character string to be uttered by a speech device is determined based on the acquired event information
  • the determined character string is
  • a filter process is performed in which a character string is divided into one or more sub-character strings, an audio signal is generated from the character string, and a first filter according to the characteristics of a consonant is applied to each of the sub-character strings in the generated audio signal.
  • the execution corrects the audio signal and outputs the corrected audio signal.
  • a program according to one aspect of the present disclosure causes one or more processors to execute the audio processing method described above.
  • An audio processing system includes an input interface that acquires event information regarding an event from an information source device or an information source service, a signal processing circuit that corrects an audio signal, and an output that outputs the corrected audio signal.
  • An interface The signal processing circuit determines a character string to be uttered by the speech device based on the acquired event information, divides the determined character string into one or more sub-character strings, and generates an audio signal from the character string, In the generated audio signal, the audio signal is corrected by performing a filtering process in which a first filter according to the characteristics of the consonant is applied to each of the sub-character strings.
  • the audio processing method and the like in the present disclosure there is an advantage that the user can easily hear a person's voice regardless of the performance of the speaker included in the speech device.
  • FIG. 1 is a diagram showing the frequency characteristics of human voice when a speech device outputs human voice.
  • FIG. 2 is a diagram showing the frequency characteristics of human voice when the speech device outputs the human voice after filtering the voice signal.
  • FIG. 3 is a diagram illustrating the frequency characteristics of driving sound output by an electrical device.
  • FIG. 4 is a diagram showing the results of performing DRT by causing the robot vacuum cleaner to output evaluation voices in a noisy environment.
  • FIG. 5 is a diagram showing the results for each consonant feature when DRT is performed by making a robot cleaner output an evaluation voice in a noisy environment.
  • FIG. 6 is a diagram showing the results for each consonant feature when DRT is performed by causing a pet camera to output evaluation audio in a noisy environment.
  • FIG. 1 is a diagram showing the frequency characteristics of human voice when a speech device outputs human voice.
  • FIG. 2 is a diagram showing the frequency characteristics of human voice when the speech device outputs the human voice after filtering the voice signal.
  • FIG. 3
  • FIG. 7 is a diagram showing an example of a spectrogram obtained from the speech waveform of the evaluation speech for each consonant feature.
  • FIG. 8 is a diagram showing an example of a spectrogram obtained from the speech waveform of the evaluation speech for each consonant feature.
  • FIG. 9 is a block diagram showing an example of the overall configuration including the audio processing system according to the embodiment.
  • FIG. 10 is a diagram showing the correspondence between consonants and consonant features.
  • FIG. 11 is a diagram showing the correspondence between consonant features and frequency domains.
  • FIG. 12 is a flowchart illustrating an example of the operation of the audio processing system according to the embodiment.
  • BACKGROUND ART Conventionally, there is a technology that allows a home device (speech device) equipped with an audio input/output function to speak by instructing the content and timing of the utterance.
  • sound refers to vibrations in the air or the like that can be perceived by at least the human sense of hearing.
  • This technology allows users who are not near the home appliance to hear the details of the event that has occurred in a home appliance, such as a washing machine, by having them speak the content of an event that has occurred in a home appliance, such as a washing machine, from a speech device equipped with audio input/output functions. Used to notify.
  • the event may include, for example, the occurrence of some kind of error in a home appliance, or the completion of an operation being performed by a home appliance.
  • the speech device is intended to mainly output human voice, such as a television receiver
  • the speaker performance of the speech device may be relatively high.
  • the user can easily hear the outputted human voice, that is, the intelligibility of the human voice is relatively high.
  • the speech device is intended to primarily output system sounds other than human voices, such as beeps, such as a robot vacuum cleaner, the performance of the speaker installed in the speech device is relatively low. Therefore, it may be difficult for the user to hear the human voice output by the speech device, that is, the intelligibility of the human voice may be relatively low.
  • the inventor developed a technology that would make it easier for users to hear human voices, regardless of the performance of the speakers included in speech equipment, which would make it easier to understand human voices. We considered this.
  • the filter processing referred to here is processing for amplifying the power (sound pressure level) in a specific frequency band of an audio signal.
  • FIG. 1 is a diagram showing the frequency characteristics of human voice when a speech device outputs human voice.
  • FIG. 2 is a diagram showing the frequency characteristics of human voice when the speech device outputs the human voice after filtering the voice signal.
  • the vertical axis represents the power of human voice
  • the horizontal axis represents the frequency.
  • FIG. 1 is a diagram showing the frequency characteristics of the human voice output by a robot vacuum cleaner as a speech device
  • FIG. FIG. 2 is a diagram showing the frequency characteristics of a person's voice
  • (b) in FIG. 1 is a diagram showing the frequency characteristics of human voice output by a pet camera as a speech device
  • FIG. 2 is a diagram showing the frequency characteristics of human voice outputted by the user. Note that both the robot vacuum cleaner and the pet camera are devices intended to primarily output system audio other than human audio.
  • the power of the human voice output by a robot vacuum cleaner is lower in the low frequency range of 0 to 1 kHz and in the high frequency range of 3 kHz or higher than in other frequency ranges. (See the circle in the same figure). Therefore, filter processing was performed on the audio signal to amplify the power in the low frequency region and high frequency region. Then, as shown in Fig. 2(a), the power of the human voice output by the robot vacuum cleaner is large in both the low frequency region and the high frequency region, and the filter processing is effective to improve the human voice.
  • the filter processing is effective to improve the human voice.
  • the power of the human voice output by the pet camera is lower in the low frequency range of 0 to 1 kHz and the high frequency range of 4 kHz or higher than in other frequency ranges. (See the circle in the same figure). Therefore, similar to the above, filter processing was performed on the audio signal to amplify the power in the low frequency region and the high frequency region.
  • the power of the human voice output by the pet camera is not large in either the low frequency region or the high frequency region, and the filter processing is It was found that this method cannot contribute to improving speech intelligibility.
  • filter processing when filter processing is performed according to the frequency characteristics of the human voice output by a speech device, the filter processing may contribute to improving the intelligibility of the human voice depending on the type of speech device. However, we have found that filter processing may not contribute to improving the intelligibility of human speech. Hereinafter, the filter processing will also be referred to as "filter processing according to the speech device.”
  • the inventor conducted a DRT (Diagnostic Rhyme Test) using Japanese speech, that is, a two-choice speech intelligibility test, by having the speech device output human speech in a noisy environment.
  • the noise environment is an environment in which electrical equipment around the speech device is driven and outputs driving sound (noise).
  • FIG. 3 is a diagram showing the frequency characteristics of the driving sound output by the electrical equipment.
  • the vertical axis shows the power of the driving sound
  • the horizontal axis shows the frequency.
  • 3(a) shows the frequency characteristics of the driving sound output by the vacuum cleaner
  • FIG. 3(b) shows the frequency characteristics of the driving sound output by the robot vacuum cleaner.
  • (c) of FIG. 3 shows the frequency characteristic of the driving sound outputted by the dishwasher
  • (d) of FIG. 3 shows the frequency characteristic of the driving sound outputted by the washing machine.
  • DRT is an intelligibility test method in which subjects are asked to listen to one of a pair of word candidates that differ only by one phoneme at the beginning of the word, and then have the subject choose one of the word pairs.
  • consonants were divided into six features, ten word pairs were prepared for each feature, and a total of 120 words were tested.
  • the intelligibility of human speech is expressed as (number of correct answers - number of incorrect answers)/total number of evaluated speech.
  • consonants are divided into six characteristics: voicing, Nasality, Sustention, Irregularity, Graveness, and Compactness. It will be done.
  • Voicedness corresponds to "vocalic-nonvocalic" in the characteristic classification of English phonemes by JFH (Jacobson, Fant, Halle) (hereinafter referred to as "JFH classification"), and is a classification of voiced and unvoiced sounds.
  • a voiced sound is a sound that is accompanied by vibration of the vocal cords, such as "zai”
  • an unvoiced sound is a sound that is not accompanied by vibration of the vocal cords, such as "sai”.
  • Nasalness corresponds to "nasal-oral" in the JFH classification, and is a classification of nasality.
  • Nasals are sounds in which sound energy is emitted through the nose without emitting from the oral cavity, such as "man”, or sounds in which sound energy is emitted from the oral cavity, such as “ban”. The sound seems to radiate through the nose.
  • Continuity corresponds to "continuant-interrupted" in the JFH classification, and is a classification of sustained sounds and other sounds (plosives or affricates).
  • a sustained speech is a speech in which the constriction of the vocal tract is not restricted until the sound /h/ is heard, such as, for example, "Hashi”.
  • An example of a non-persistent sound is a plosive sound such as "kashi”.
  • Irregularity corresponds to "strident-mellow" in the JFH classification, and is a classification related to waveform irregularity.
  • a speech with irregularities is, for example, a speech such as "chaku”, and a speech without irregularities is, for example, a speech such as "kaku”.
  • Suppressiveness corresponds to "grave-acute” in the JFH classification, and corresponds to dampening and sharp sounds.
  • the depressed sound is, for example, a sound such as "pai”
  • the sharp sound is, for example, a sound such as "tai”.
  • Convergence corresponds to "compact-diffuse" in the JFH classification, and is a classification of whether the energy on the spectrum is concentrated at one formant frequency or dispersed.
  • the former is, for example, a sound like "yaku", and the latter is a sound like "waku”.
  • FIG. 4 is a diagram showing the results of performing DRT by causing the robot vacuum cleaner to output evaluation voices in a noisy environment.
  • the vertical axis represents the intelligibility of human speech
  • the horizontal axis represents the type of noise source.
  • the bar graph with solid hatching indicates the result when filter processing according to the speech device is not executed
  • the bar graph with dot hatching indicates the result when the filter processing is executed. It shows.
  • (a) in Figure 4 shows the results when the robot vacuum cleaner outputs the evaluation voice with a female voice
  • (b) in Figure 4 shows the result when the robot vacuum cleaner outputs the evaluation voice with a male voice. The results are shown below.
  • the noise source is an electrical device such as a vacuum cleaner, dishwasher, robot vacuum cleaner, or washing machine
  • the intelligibility of human voice can be improved by performing the above filtering process. improvement was confirmed.
  • the robot vacuum cleaner outputs the evaluation voice with a female voice
  • the intelligibility of human voice is slightly higher than when the robot vacuum cleaner outputs the evaluation voice with a male voice. It was confirmed that However, no matter which electrical device is the noise source, the intelligibility of human speech is relatively low at 0.4 or less.
  • FIG. 5 is a diagram showing the results for each consonant feature when DRT is performed by making a robot cleaner output an evaluation voice in a noisy environment.
  • FIG. 6 is a diagram showing the results for each consonant feature when DRT is performed by causing a pet camera to output evaluation audio in a noisy environment.
  • the vertical axis shows the intelligibility of human speech
  • the horizontal axis shows the types of consonant features.
  • bar graphs with solid hatching indicate the results when the filter processing according to the speech device is not performed
  • bar graphs with dot hatching indicate the results when the filter processing is not performed. Shows the results when executed. 5(a) and 6(a) show the results when the noise source is a robot vacuum cleaner, and FIG. 5(b) and FIG. 6(b) show the results when the noise source is a washing machine. The results are shown for the case of machine.
  • the test subject may not be able to hear the evaluation speech even when the above filtering process is performed.
  • the intelligibility is relatively high for the evaluation voices corresponding to voicedness and irregularity, but other consonants
  • the intelligibility of the evaluated speech corresponding to the characteristics is relatively low.
  • the intelligibility of the evaluation voices corresponding to nasality and continuity was extremely low, and the test subjects could hardly hear the evaluation voices.
  • FIGS. 7 and 8 are diagrams each showing an example of a spectrogram obtained from the speech waveform of the evaluation speech for each consonant feature.
  • the upper region represents the audio waveform
  • the lower region represents the spectrogram.
  • the spectrogram referred to here is a representation of the frequency spectrum of the evaluation audio over time.
  • FIG. 7 shows a spectrogram obtained from the speech waveform of the evaluation speech "zai” corresponding to voicing
  • (b) of FIG. 7 shows a speech waveform of the evaluation speech "sai” corresponding to voicing. Shows the spectrogram obtained from.
  • FIG. 7(c) shows the spectrogram obtained from the speech waveform of the evaluation speech "man” corresponding to nasality
  • FIG. 7(d) shows the speech waveform of the evaluation speech "ban” corresponding to nasality. Shows the spectrogram obtained from.
  • Figure 7(e) shows the spectrogram obtained from the speech waveform of the evaluation voice ⁇ Hashi'' corresponding to continuity
  • Figure 7(f) shows the spectrogram of the evaluation voice ⁇ Kashi'' corresponding to continuity. A spectrogram obtained from an audio waveform is shown.
  • FIG. 8(a) shows a spectrogram obtained from the speech waveform of the evaluation speech "chaku” corresponding to the irregularity
  • FIG. 8(b) shows the spectrogram obtained from the speech waveform of the evaluation speech "kaku” corresponding to the irregularity.
  • (c) of FIG. 8 shows the spectrogram obtained from the speech waveform of the evaluation voice "Pai" corresponding to the suppression property
  • (d) of FIG. 8 shows the spectrogram of the evaluation speech "Tai” corresponding to the suppression property.
  • a spectrogram obtained from an audio waveform is shown.
  • (e) of FIG. 8 shows the spectrogram obtained from the speech waveform of the evaluation speech "Yaku” corresponding to concentration
  • (f) of FIG. 8 shows the speech waveform of the evaluation speech "Waku” corresponding to concentration. Shows the spectrogram obtained from.
  • the frequency spectrum at the first phoneme differs depending on the characteristics of the consonant. For example, as shown by the rectangular frames in Figures 7(a) and 7(b), if we focus on the spectrogram of the evaluated speech corresponding to voicing, we can see that ⁇ za'' and ⁇ sa'' correspond to the first phoneme of the word.
  • the former includes frequency components from 0 to 1 kHz, while the latter does not.
  • FIGS. 8(a) and 8(b) if we focus on the spectrogram of the evaluation speech corresponding to irregularities, we can see that "cha” and " The former contains many frequency components of 2 to 6 kHz, while the latter contains almost no frequency components.
  • the frequency spectra of the first phoneme are different.
  • FIGS. 5(a) and 5(b) focusing on the results for the evaluation speech corresponding to voicedness, when filter processing according to the speech device is executed, the filter processing is executed.
  • the intelligibility of human speech has improved significantly compared to the case without it. This is because the effective frequency range for distinguishing the first phoneme of the evaluation speech corresponding to voicing is 0 to 1 kHz, and this was emphasized by the filter processing that amplifies the power in the low frequency range of 0 to 1 kHz. it is conceivable that.
  • each figure is a schematic diagram and is not necessarily strictly illustrated. Further, in each figure, substantially the same configurations are denoted by the same reference numerals, and overlapping explanations may be omitted or simplified.
  • FIG. 9 is a block diagram showing the overall configuration including the audio processing system according to the embodiment.
  • the audio processing system 10 is a system for causing the speech device 2 to output a human voice indicating the content of the event when event information regarding an event is acquired from the information source device 3 or the information source service 4.
  • the human voice is human voice in Japanese.
  • the audio processing system 10 is realized by the server 1.
  • the server 1 is capable of communicating with each of the speech device 2, the information source device 3, and the information source service 4 via a network N1 such as the Internet. Note that the server 1 may communicate with some or all of the speech device 2, the information source device 3, and the information source service 4 via a LAN (Local Area Network).
  • LAN Local Area Network
  • the server 1 (speech processing system 10) causes one speech device 2 to output a person's voice indicating the content of the event, but each of the plurality of speech devices 2 outputs the voice of the person indicating the content of the event.
  • a person's voice indicating the content may be output.
  • the server 1 may cause one or more of the plurality of speech devices 2 to output a person's voice indicating the content of the event.
  • the server 1 may vary the content of the event that causes each speech device 2 to speak. For example, the server 1 causes one of the two speech devices 2 to output a person's voice indicating the content of an event related to the information source device 3, and the other speech device 2 outputs the voice of another person.
  • a human voice indicating the details of the event related to the information source device 3 may be output.
  • the speech device 2 is a device that can notify the user of the content of the event by outputting human voice indicating the content of the event that occurred on the information source device 3 or the information source service 4. Note that the notification by the speech device 2 may be further performed, for example, by displaying a character string, an image, or the like on an attached display.
  • the speech device 2 is, for example, a device installed in a facility where the user resides, and is a device that has the above-mentioned audio output function.
  • the speech device 2 is a home appliance.
  • the speech device 2 may include, for example, a smart speaker, a television receiver, a lighting device, a pet camera, an intercom base unit, an intercom slave unit, an air conditioner, a robot vacuum cleaner, or the like.
  • the speech device 2 may be a portable information device owned by a user, such as a portable television receiver, a smartphone, a tablet terminal, or a laptop personal computer.
  • the information source device 3 is a device that is the source of information spoken by the speech device 2.
  • the information source device 3 is a home appliance.
  • the information source device 3 is, for example, an air conditioner, a washing machine, a vacuum cleaner, a robot vacuum cleaner, a dishwasher, a refrigerator, a rice cooker, a microwave oven, or the like.
  • the event that occurs in the information source device 3 may include, for example, the start or end of the operation of the information source device 3, the occurrence of an error in the information source device 3, maintenance of the information source device 3, or the like.
  • the information source service 4 is a service that is a source of information spoken by the speech device 2, and is a service provided to the user from, for example, a server operated by a service provider.
  • the information source service 4 is, for example, a transportation service, a weather forecast service, a schedule management service, or a traffic information providing service.
  • the event that occurs in the information source service 4 may include, for example, the start or end of a service by the information source service 4, the occurrence of an error in the information source service 4, and the like. In FIG. 9, there is one information source service 4, but there may be more than one.
  • the server 1 includes a communication interface (hereinafter referred to as "communication I/F (Interface)") 11, a processor 12, a memory 13, and a storage device 14.
  • communication I/F Interface
  • the communication I/F 11 is, for example, a wireless communication interface, and communicates with the information source device 3 or the information source service 4 via the network N1 based on a wireless communication standard such as Wi-Fi (registered trademark). Signals transmitted from the information source device 3 and the information source service 4 are received. Furthermore, the communication I/F 11 transmits a signal to the speech device 2 by communicating with the speech device 2 via the network N1 based on a wireless communication standard such as Wi-Fi (registered trademark). Receive the signal sent from 2.
  • a wireless communication standard such as Wi-Fi (registered trademark).
  • the communication I/F 11 has the functions of both an input interface (hereinafter referred to as "input I/F") 11A and an output interface (hereinafter referred to as "output I/F") 11B.
  • the input I/F 11A acquires event information regarding the event from the information source device 3 or the information source service 4 by receiving a signal transmitted from the information source device 3 or the information source service 4.
  • the input I/F 11A further acquires sound collection information obtained by collecting sounds around the speech device 2.
  • the sound collection information is, for example, information regarding sound data collected and generated by a microphone 25 (described later) included in the speech device 2.
  • the sounds around the speech device 2 become noise that makes it difficult for the user to hear the person's voice when the speech device 2 outputs the person's voice indicating the content of the event.
  • the input I/F 11A acquires sound collection information by receiving audio data transmitted from the speech device 2 as sound collection information.
  • the output I/F 11B outputs the audio signal corrected by the processor 12 by transmitting a signal to the speech device 2. Furthermore, the output I/F 11B outputs an instruction signal instructing the speech device 2 to collect surrounding sounds by transmitting a signal to the speech device 2.
  • the processor 12 is, for example, a CPU (Central Processing Unit) or a DSP (Digital Signal Processor), and processes information regarding transmission and reception of signals using the communication I/F 11, as well as event information acquired by the communication I/F 11. Based on this information, information processing is performed to generate and correct audio signals.
  • the processing related to the above-mentioned signal transmission and reception and the information processing for generating and correcting the audio signal are all realized by the processor 12 executing a computer program stored in the memory 13.
  • Processor 12 is an example of a signal processing circuit of audio processing system 10.
  • the memory 13 is a storage device that stores various information necessary for the processor 12 to perform information processing, computer programs executed by the processor 12, and the like.
  • the memory 13 is realized by, for example, a semiconductor memory.
  • the storage device 14 is a device that stores a database that the processor 12 refers to when executing information processing for generating and correcting audio signals.
  • the storage device 14 is realized by, for example, a hard disk or a semiconductor memory such as an SSD (Solid State Drive).
  • the speech device 2 includes a communication I/F 21, a processor 22, a memory 23, a speaker 24, and a microphone 25. Note that the speech device 2 may not include the microphone 25 depending on its type. In the following description, it is assumed that the speech device 2 includes the microphone 25 unless otherwise specified.
  • the communication I/F 21 is, for example, a wireless communication interface, and receives signals transmitted from the server 1 by communicating with the server 1 via the network N1 based on a wireless communication standard such as Wi-Fi (registered trademark). and sends a signal to server 1.
  • a wireless communication standard such as Wi-Fi (registered trademark).
  • the processor 22 is, for example, a CPU or a DSP, and performs information processing related to signal transmission and reception using the communication I/F 21, and sends information to the microphone 25 about the surroundings of the speech device 2 based on the instruction signal received by the communication I/F 21. Information processing for collecting voices and information processing for outputting human voices from the speaker 24 based on the voice signals received by the communication I/F 21 are performed.
  • the processor 22 executes the computer program stored in the memory 23 for the above-mentioned information processing related to signal transmission and reception, information processing for outputting human voice, and information processing for collecting the surrounding voices of the speech device 2. This is achieved by executing.
  • the memory 23 is a storage device that stores various information necessary for the processor 22 to perform information processing, computer programs executed by the processor 22, and the like.
  • the memory 23 is realized by, for example, a semiconductor memory.
  • the speaker 24 reproduces human voice based on the audio signal received by the communication I/F 21.
  • the speaker 24 converts the audio signal into human voice and outputs the converted human voice.
  • the microphone 25 collects sounds around the speech device 2 and generates sound data.
  • the microphone 25 does not always collect sounds around the speaking device 2, but only when receiving an instruction to collect sounds from the server 1 (sound processing system 10). Collects the audio.
  • the audio data generated by the microphone 25 is transmitted to the server 1 via the communication I/F 21 as sound collection information.
  • the processor 12 determines the speech device 2 that outputs the human voice indicating the content of the event. If only one speech device 2 is present, the processor 12 determines to cause the speech device 2 to output the human voice. Further, when there are a plurality of speech devices 2, the processor 12 determines that a predetermined speech device 2 among the plurality of speech devices 2 is to output the human voice. At this time, the number of speech devices 2 that output the human voice is not limited to one, but may be plural.
  • the processor 12 outputs an instruction signal to the determined speech device 2 via the communication I/F 11 (output I/F 11B), instructing the speech device 2 to collect surrounding sounds. .
  • the processor 12 acquires sound collection information from the determined speech device 2 via the communication I/F 11 (input I/F 11A). Note that if the determined speech device 2 does not include the microphone 25, the processor 12 does not acquire sound collection information from the speech device 2.
  • the processor 12 determines a character string indicating the content of the event based on the acquired event information. For example, when event information indicating that a washing operation has ended from a washing machine, which is the information source device 3, is acquired, the processor 12 determines a character string such as "The washing machine has finished washing". In embodiments, processor 12 automatically generates a character string based on event information using a suitable automatic generation algorithm.
  • the processor 12 may determine the character string by, for example, referring to a database stored in the storage device 14 and reading the character string corresponding to the acquired event information. In this case, data in which event contents are associated with character strings corresponding to the events is stored in advance in the database.
  • processor 12 divides the determined character string into one or more sub-character strings using an appropriate algorithm.
  • processor 12 partitions the determined string into one or more substrings based on syllables.
  • a syllable is a type of segmental unit that separates continuous speech sounds, and is a type of group of human speech sounds.
  • syllables include consonants, vowels, consonants+vowels, vowels+consonants, or consonants+vowels+consonants.
  • the processor 12 divides the determined character string into one or more sub-character strings according to, for example, the following rules.
  • the processor 12 basically divides a character string into one or more substrings for each consonant and vowel, and for long consonants, consonants, and consonants, it divides the character string into one substring along with the immediately preceding consonant. I reckon.
  • the processor 12 may combine a vowel with a straight consonant and consider it as one subcharacter string. For example, if a character string includes "washing machine", the processor 12 converts the character string into four subcharacters: "sen", "ta”, “ku”, and "ki”. Separate into columns.
  • the processor 12 determines the first filter to be applied for each sub-character string.
  • the first filter is a filter according to the characteristics of the consonant, and is a filter for amplifying and emphasizing power in a frequency domain according to the characteristics of the consonant. Note that the processor 12 does not apply the first filter to subcharacter strings consisting only of vowels.
  • FIG. 10 is a diagram showing the correspondence between consonants and consonant features.
  • FIG. 10(a) is a table listing consonants corresponding to each consonant characteristic (voicedness, nasality, continuity, irregularity, suppressiveness, and concentration).
  • consonants that have the consonant characteristic of voicing are the ka line, the sa line, the ta line, the ga line, the za line, and the da line.
  • FIG. 10(b) is a table listing characteristics of consonants corresponding to each consonant.
  • the consonant in the Ka line has four consonant characteristics: voicing, sustainability, irregularity, and compactness.
  • FIG. 11 is a diagram showing the correspondence between the characteristics of consonants and the frequency domain.
  • the effective frequency range for distinguishing the first phoneme of a word is 0 to 1 kHz.
  • the effective frequency range for distinguishing the first phoneme of a word is 1 to 4 kHz.
  • the data shown in FIGS. 10 and 11 is stored in a database stored in the storage device 14.
  • the processor 12 determines the first filter to be applied for each sub-character string by referring to these data stored in the database.
  • the processor 12 will Since is a sa line, based on the correspondence shown in FIG. 10, voicing, continuity, and irregularity are identified as features of the consonant corresponding to the sa line.
  • the processor 12 then generates a filter that amplifies the power in the frequency domain corresponding to voicing, a filter that amplifies the power in the frequency domain that corresponds to continuity, and a filter that amplifies the power in the frequency domain that corresponds to irregularity.
  • the filters are combined and determined as the first filter.
  • the processor 12 determines voicing, continuation, etc. as the characteristics of the consonant corresponding to the ta line, based on the correspondence shown in FIG. Identify gender, irregularity, and intonation.
  • the processor 12 includes a filter that amplifies power in a frequency domain corresponding to voicing, a filter that amplifies power in a frequency domain that corresponds to continuity, a filter that amplifies power in a frequency domain that corresponds to irregularity, and a filter that amplifies power in a frequency domain that corresponds to continuity. Filters that amplify the power in the frequency domain corresponding to sound suppression are synthesized and determined as the first filter.
  • the processor 12 determines that the sub-character strings "ku” and “ki” correspond to the "ka” line based on the correspondence shown in FIG. Identify the characteristics of consonants: voicing, continuity, irregularity, and concentration.
  • the processor 12 includes a filter that amplifies power in a frequency domain corresponding to voicing, a filter that amplifies power in a frequency domain that corresponds to continuity, a filter that amplifies power in a frequency domain that corresponds to irregularity, and a filter that amplifies power in a frequency domain that corresponds to continuity. and a filter that amplifies the power in the frequency domain corresponding to the convergence, and is determined as the first filter.
  • the processor 12 may determine each as the first filter without synthesizing filters corresponding to the multiple consonant features.
  • the processor 12 generates an audio signal from the determined character string using an algorithm that generates an appropriate mechanical voice.
  • processor 12 performs [1.
  • an audio signal with a female voice is generated.
  • the processor 12 may generate an audio signal using a male voice.
  • the processor 12 executes processing to correct the generated audio signal.
  • the processor 12 performs a first filter process that applies a first filter to the generated audio signal, a second filter process that applies a second filter, and a third filter process that applies a third filter to the generated audio signal. . Note that these three filter processes may be executed in the above order, or may be executed in another order.
  • the processor 12 prior to executing the first filter process, the processor 12 causes the memory 13 to store the position (time) corresponding to each sub-character string in the generated audio signal. For example, when an audio signal is generated from the character string "Sen Takuki", the processor 12 determines that the sub character string "Sen” corresponds to a time period of 0 to 0.7 seconds in the audio signal, and the sub character string "Ta” The character string corresponds to the time of 0.7 seconds to 1 second of the audio signal, the subcharacter string "ku” corresponds to the time of 1 to 1.3 seconds of the audio signal, and the subcharacter string "ki” corresponds to the time of 1 to 1.3 seconds of the audio signal. It is stored in the memory 13 that it corresponds to the time period of 1.3 seconds to 1.6 seconds of the audio signal.
  • the processor 12 applies the first filter determined for each sub-character string to the position (time) corresponding to each sub-character string stored in the memory 13. For example, when applying the first filter to the sub-character string "sen", the processor 12 applies the first filter to the time period of 0 to 0.7 seconds of the audio signal.
  • the processor 12 is not limited to the above processing, but may, for example, generate an audio signal and apply the first filter to each sub-character string, and then connect the audio signals corresponding to all the sub-character strings. Then, an audio signal corresponding to the determined character string may be generated. In other words, the processor 12 may generate the audio signal for the determined character string by generating and concatenating the audio signals for each sub-character string. At this time, the processor 12 may correct each audio signal generated in units of sub-character strings by applying the corresponding first filter. However, if an audio signal is generated and concatenated for each sub-character string, the former method is preferable because people may feel uncomfortable when listening to the audio signals.
  • the second filter is a filter depending on the type of speech device 2.
  • the second filter is a filter that amplifies and emphasizes the power in a frequency region where the power is relatively small, based on the frequency characteristics of the human voice output by the speech device 2.
  • the speech device 2 is a robot vacuum cleaner
  • the power of the human voice output by the robot vacuum cleaner will be lower in the low frequency range of 0 to 1 kHz and in the high frequency range of 3 kHz or more than in other frequency ranges. (See Figure 1(a)).
  • the processor 12 determines a filter that amplifies power in the frequency range of 0 to 1 kHz and the frequency range of 3 kHz or more as the second filter.
  • the third filter is a filter according to sound collection information.
  • the third filter is a filter that amplifies and emphasizes the power in a frequency region where the power is relatively large, based on the frequency characteristics of the sounds around the speech device 2 obtained from the sound collection information. For example, assume that a dishwasher is operating near the speech device 2.
  • the processor 12 analyzes the frequency characteristics of the audio data included in the collected sound information and determines that the power is relatively high in the frequency range of 0 to 500 Hz (see (c) in FIG. 3). Therefore, in this case, the processor 12 determines a filter that amplifies power in the frequency range of 0 to 500 Hz as the third filter.
  • the frequency characteristics of the surrounding sounds of the speaking device 2 may be calculated by the processor 22 of the speaking device 2 when surrounding sounds are collected by the speaking device 2, or may be calculated by the processor 22 of the speaking device 2, or by the server 1 that has acquired the collected sound information. The calculation may be performed by the processor 12 of.
  • the processor 12 transmits the audio signal corrected by executing the first filter process, the second filter process, and the third filter process to the determined speech device via the communication I/F 11 (output I/F 11B). Send (output) to 2.
  • the target speech device 2 acquires the corrected audio signal via the communication I/F 21 and reproduces the human voice based on the corrected audio signal from the speaker 24.
  • FIG. 12 is a flowchart illustrating an example of the operation of the audio processing system 10 according to the embodiment.
  • an event occurs in the information source device 3 or the information source service 4
  • event information is transmitted from the event source to the server 1 via the network N1.
  • the speech device 2 is equipped with a microphone 25 and can provide collected sound information to the server 1.
  • the processor 12 acquires event information via the communication I/F 11 (input I/F 11A) (S1). Then, the processor 12 determines the speech device 2 that outputs the person's voice indicating the content of the event (S2).
  • the processor 12 outputs an instruction signal to the determined speech device 2 via the communication I/F 11 (output I/F 11B), instructing the speech device 2 to collect surrounding sounds. .
  • the processor 12 acquires sound collection information from the determined speech device 2 via the communication I/F 11 (input I/F 11A) (S3).
  • the processor 12 uses an appropriate automatic generation algorithm to determine a character string indicating the content of the event based on the acquired event information (S4). Then, the processor 12 divides the determined character string into one or more sub-character strings using an appropriate algorithm (S5). Here, the processor 12 divides the determined character string into one or more sub-character strings based on syllables.
  • the processor 12 determines the first filter to be applied for each sub-character string (S6).
  • the processor 12 determines the first filter to be applied for each sub-character string by referring to the data shown in FIGS. 10 and 11 stored in a database stored in the storage device 14.
  • the processor 12 generates an audio signal from the determined character string using an algorithm that generates an appropriate mechanical voice (S7).
  • processor 12 generates an audio signal with a female voice.
  • the processor 12 performs a first filter process on the generated audio signal by applying a first filter to each sub-character string (S8).
  • the processor 12 causes the memory 13 to store the position (time) corresponding to each sub-character string in the generated audio signal.
  • the processor 12 applies the first filter determined for each sub-character string to the position (time) corresponding to each sub-character string stored in the memory 13.
  • the processor 12 executes a second filter process of applying a second filter to the generated audio signal (S9).
  • the processor 12 executes a third filter process of applying a third filter to the generated audio signal (S10). Note that the order in which step S8, step S9, and step S10 are executed is not limited to this order, and may be in another order.
  • the processor 12 transmits (outputs) the corrected audio signal to the determined speech device 2 via the communication I/F 11 (output I/F 11B) (S11).
  • the target speech device 2 acquires the corrected audio signal via the communication I/F 21 and reproduces the human voice based on the corrected audio signal from the speaker 24.
  • a first filter corresponding to the characteristics of the consonant is applied to each sub-character string, that is, a frequency domain according to the characteristics of the consonant is amplified.
  • the audio signal is corrected by emphasizing it, and the corrected audio signal is transmitted (output) to the speech device 2. Therefore, a user who listens to the person's voice output based on the audio signal corrected by the speech device 2 will be able to easily distinguish the first phoneme of each sub-character string, and the intelligibility of the person's voice will likely improve. Become. Therefore, such a voice processing method has the advantage that the user can easily hear a person's voice regardless of the performance of the speaker 24 included in the speech device 2.
  • the voice processing method applies a second filter depending on the type of speech device 2, that is, based on the frequency characteristics of the human voice outputted by the speech device 2, frequencies with relatively low power are applied.
  • the audio signal is further corrected by amplifying and emphasizing the power in the region. Therefore, since the human voice output by the speech device 2 is corrected according to the characteristics of the speech device 2, there is an advantage that the user can more easily hear the person's voice output by the speech device 2. .
  • the sound processing method applies a third filter according to the collected sound information, that is, based on the frequency characteristics of the sound around the speech device 2, the power in the frequency region where the power is relatively large is
  • the audio signal is further corrected by amplifying and emphasizing it. Therefore, the person's voice outputted by the speaking device 2 is corrected so as not to be buried in the surrounding voices of the speaking device 2, so that the user can more easily hear the person's voice outputted by the speaking device 2.
  • the processor 12 divides the generated character string into one or more sub-character strings based on syllables, but the invention is not limited to this.
  • processor 12 may partition the generated string into one or more sub-strings based on words. As an example, if the generated character string includes the character string "Sentakuki", the processor 12 may separate "Sentakuki” as one sub-character string.
  • the processor 12 may divide the generated character string into one or more sub-character strings based on mora (beat). As an example, if the generated character string includes the character string "Sentakuki", the processor 12 generates the five subcharacters "SE”, “N”, “TA”, "KU”, and "KI”. May be separated into columns.
  • the processor 12 may divide the generated character string into one or more sub-character strings based on the kanji that make up the word. As an example, if the generated character string includes the character string "sentakuki (washing machine)", the processor 12 separates it into three sub-character strings: “sen”, "taku", and "ki”. Good too.
  • the processor 12 determines the filter corresponding to the characteristics of all the consonants as the first filter, but the present invention is not limited to this.
  • processor 12 may determine a priority for each of the plurality of consonant features for each substring in the audio signal.
  • the processor 12 may determine, as the first filter, only a filter corresponding to a consonant feature with a high priority among a plurality of consonant features.
  • high priority means that the user can understand the meaning of the character string if the consonant can be heard; in other words, there is a low possibility that the user will misunderstand the meaning of the character string. This corresponds to that.
  • the processor 12 may determine only the filter for the consonant feature with the highest priority among the plurality of consonant features as the first filter, or may determine the filter for the consonant features up to a predetermined priority order as the first filter. may be determined as the first filter.
  • the processor 12 executes the first filter process, the second filter process, and the third filter process in the filter process to correct the audio signal, but the present invention is not limited to this.
  • the processor 12 does not need to execute either the second filter process or the third filter process, or may not execute both processes.
  • the speech processing system 10 causes the speech device 2 to output human speech in Japanese, but the present invention is not limited to this.
  • the speech processing system 10 may cause the speech device 2 to output human speech in another language such as English or Chinese.
  • the processor 12 may determine, for each sub-character string, a first filter that corresponds to the language of the human voice to be outputted by the speech device 2.
  • the processor 12 when outputting English human speech to the speech device 2, the processor 12 divides the determined character string into one or more sub-character strings on a word-by-word basis.
  • the processor 12 may determine and further divide the character string into one or more sub-character strings in units of syllables.
  • the processor 12 uses the first filter according to the characteristics of the consonants (voicedness, nasality, continuity, irregularity, suppressiveness, and concentration), as in the case of Japanese. It can be determined for each substring.
  • words that have a consonant characteristic of voicing include “veal” and "feel.”
  • words having a consonant characteristic of nasality include “moot” and "boot”.
  • words having a consonant characteristic of continuity include “sheet” and “cheat”.
  • words having a consonant characteristic of irregularity include “sing” and "thing”.
  • words having a consonant characteristic of suppressiveness include “weed” and “reed”.
  • words having a consonant characteristic of concentration include “key” and "tea”.
  • the processor 12 determines to cause a predetermined speech device 2 among the plurality of speech devices 2 to output the human voice. , but not limited to this. For example, if a detection device capable of acquiring the user's position is installed in an environment where a plurality of speech devices 2 are placed, the processor 12 selects the speech device 2 that outputs human voice based on the user's location. You may decide.
  • one or more human sensors are installed in an environment where a plurality of speech devices 2 are placed, and the memory of the processor 12 stores information indicating the speech devices 2 that are present around the human sensor. It is assumed that the information is stored for each sensor.
  • the processor 12 acquires detection results from one or more human sensors via the communication I/F 11 (input I/F 11A), and transmits the detection results to the speech device 2 corresponding to the human sensor that indicates the presence of the user. You may decide to output human voice.
  • the communication I/F 11 of the server 1 serves as both the input I/F 11A and the output I/F 11B, but the communication I/F 11 is not limited to this.
  • the input I/F 11A and the output I/F 11B may be different interfaces.
  • the audio processing system 10 is realized by a single device, but it may be realized by a plurality of devices.
  • the functional components included in the audio processing system 10 may be distributed to the plurality of devices in any manner.
  • the audio processing system 10 may be realized by being distributed over multiple servers.
  • the speech processing system 10 may be realized in a distributed manner between a server and a speech device. Further, for example, the speech processing system 10 may be realized only by a speech device.
  • the communication method between devices in the above embodiment is not particularly limited.
  • a relay device (not shown) may be interposed between the two devices.
  • the order of processing described in the above embodiment is an example.
  • the order of multiple processes may be changed, and multiple processes may be executed in parallel.
  • the processing executed by a specific processing unit may be executed by another processing unit.
  • part of the digital signal processing described in the above embodiments may be realized by analog signal processing.
  • each component may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • each component may be realized by hardware.
  • each component may be a circuit (or integrated circuit). These circuits may constitute one circuit as a whole, or may be separate circuits. Further, each of these circuits may be a general-purpose circuit or a dedicated circuit.
  • the general or specific aspects of the present disclosure may be implemented in a system, device, method, integrated circuit, computer program, or computer-readable recording medium such as a CD-ROM.
  • the present invention may be realized by any combination of a system, an apparatus, a method, an integrated circuit, a computer program, and a recording medium.
  • the present disclosure may be implemented as an audio processing method executed by a computer, or may be implemented as a program for causing a computer to execute such an audio processing method.
  • the present disclosure may be realized as a computer-readable non-transitory recording medium on which such a program is recorded.
  • the program here includes an application program for causing a general-purpose information terminal to function as the audio processing system of the above embodiment.
  • event information regarding an event is acquired from the information source device 3 or the information source service 4 (S1), and based on the acquired event information, the speech device 2 makes a sound.
  • S4 divides the determined character string into one or more sub-character strings (S5), generates an audio signal from the character string (S7), and divides the determined character string into one or more sub-character strings (S7).
  • the audio signal is corrected by executing filter processing in which the first filter applied to each sub-character string is applied (S6, S8), and the corrected audio signal is output (S11).
  • the character string is divided into one or more sub-character strings based on syllables.
  • a second filter according to the type of speech device 2 is further applied to the audio signal (S9).
  • the person's voice outputted by the speaking device 2 is corrected according to the characteristics of the speaking device 2, so that the user can more easily hear the person's voice outputted by the speaking device 2, which is an advantage. There is.
  • any one of the first to third aspects sound collection information obtained by collecting sounds around the speech device 2 is acquired (S3); In the filtering process, a third filter according to the sound pickup information is further applied to the audio signal (S10).
  • the person's voice outputted by the speaking device 2 is corrected so as not to be buried in the surrounding voices of the speaking device 2, so that the user can more easily hear the person's voice outputted by the speaking device 2. It has the advantage of being.
  • program according to the fifth aspect causes one or more processors to execute the audio processing method according to any one of the first to fourth aspects.
  • the audio processing system 10 includes a processor 12 that corrects an audio signal, and an output I/F 11B that outputs the corrected audio signal.
  • Processor 12 is an example of a signal processing circuit.
  • the processor 12 determines a character string to be uttered by the speech device 2 based on the acquired event information, divides the determined character string into one or more sub-character strings, generates an audio signal from the character string, and generates the generated audio signal.
  • the audio signal is corrected by performing filter processing in which a first filter according to the characteristics of the consonant is applied to each sub-character string.
  • the audio processing method of the present disclosure is applicable to a system that processes human audio for reproduction by a speaker.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

音声処理方法では、情報元機器又は情報元サービスからイベントに関するイベント情報を取得し(S1)、取得したイベント情報に基づいて発話機器に発声させる文字列を決定し(S4)、決定した前記文字列を1以上の副文字列に区切り(S5)、文字列から音声信号を生成し(S7)、生成した音声信号において、子音の特徴に応じた第1フィルタを副文字列ごとに適用するフィルタ処理を実行することで音声信号を補正し(S6,S8)、補正した音声信号を出力する(S11)。

Description

音声処理方法、プログラム、及び音声処理システム
 本開示は、スピーカの発する人の音声を処理するための音声処理方法等に関する。
 例えば、特許文献1には、環境騒音レベルに従って音声応答を自動的に調整することにより、無線受信器において受信される人の音声の了解度を改善する音声応答自動調整方法が開示されている。この音声応答自動調整方法では、大きな環境騒音があると、低い周波数の応答を犠牲にして高い音声周波数の相対利得を大きくする。
特表2000-508487号公報
 本開示は、発話機器が備えるスピーカの性能に依らず、ユーザが人の音声を聴き取りやすくなる音声処理方法等を提供する。
 本開示の一態様に係る音声処理方法では、情報元機器又は情報元サービスからイベントに関するイベント情報を取得し、取得した前記イベント情報に基づいて発話機器に発声させる文字列を決定し、決定した前記文字列を1以上の副文字列に区切り、前記文字列から音声信号を生成し、生成した前記音声信号において、子音の特徴に応じた第1フィルタを前記副文字列ごとに適用するフィルタ処理を実行することで前記音声信号を補正し、補正した前記音声信号を出力する。
 本開示の一態様に係るプログラムは、1以上のプロセッサに、上記音声処理方法を実行させる。
 本開示の一態様に係る音声処理システムは、情報元機器又は情報元サービスからイベントに関するイベント情報を取得する入力インタフェースと、音声信号を補正する信号処理回路と、補正した前記音声信号を出力する出力インタフェースと、を備える。前記信号処理回路は、取得した前記イベント情報に基づいて発話機器に発声させる文字列を決定し、決定した前記文字列を1以上の副文字列に区切り、前記文字列から音声信号を生成し、生成した前記音声信号において、子音の特徴に応じた第1フィルタを前記副文字列ごとに適用するフィルタ処理を実行することで前記音声信号を補正する。
 本開示における音声処理方法等によれば、発話機器が備えるスピーカの性能に依らず、ユーザが人の音声を聴き取りやすくなる、という利点がある。
図1は、発話機器に人の音声を出力させた場合における人の音声の周波数特性を示す図である。 図2は、音声信号に対してフィルタ処理を実行した後に、発話機器に人の音声を出力させた場合における人の音声の周波数特性を示す図である。 図3は、電気機器が出力する駆動音声の周波数特性を示す図である。 図4は、ノイズ環境下でロボット掃除機に評価音声を出力させることでDRTを行った結果を示す図である。 図5は、ノイズ環境下でロボット掃除機に評価音声を出力させることでDRTを行った場合の子音の特徴ごとの結果を示す図である。 図6は、ノイズ環境下でペット用カメラに評価音声を出力させることでDRTを行った場合の子音の特徴ごとの結果を示す図である。 図7は、子音の特徴ごとの評価音声の音声波形から得られたスペクトログラムの一例を示す図である。 図8は、子音の特徴ごとの評価音声の音声波形から得られたスペクトログラムの一例を示す図である。 図9は、実施の形態に係る音声処理システムを含む全体構成の一例を示すブロック図である。 図10は、子音と、子音の特徴との対応関係を示す図である。 図11は、子音の特徴と、周波数領域との対応関係を示す図である。 図12は、実施の形態に係る音声処理システムの動作の一例を示すフローチャートである。
 [1.本開示の基礎となった知見]
 まず、発明者の着眼点が、下記に説明される。
 従来、音声入出力機能を備えた家庭内機器(発話機器)に対して、発話の内容及び発話のタイミングを指示することにより、家庭内機器に発話させる技術がある。ここで、「音声」とは、少なくとも人が聴覚により知覚できる空気等の振動をいう。この技術は、例えば洗濯機等の家電機器に発生したイベントの内容を、音声入出力機能を備えた発話機器から発話させることにより、家電機器の傍にいないユーザに対して、発生したイベントの内容を通知するために用いられる。イベントは、例えば家電機器に何らかのエラーが発生したこと、又は家電機器が実行していた動作が終了したこと等を含み得る。
 ここで、例えばテレビジョン受像機等のように、発話機器が人の音声を主として出力することを想定した機器であれば、発話機器が備えるスピーカの性能が比較的高いこともあり、発話機器が出力した人の音声をユーザが聴きとりやすい、つまり人の音声の了解度が比較的高くなる。一方、例えばロボット掃除機等のように、発話機器が主としてビープ音等の人の音声以外のシステム音声を主として出力することを想定した機器であれば、発話機器が備えるスピーカの性能が比較的低いこともあり、発話機器が出力した人の音声をユーザが聴きとりにくい、つまり人の音声の了解度が比較的低くなる可能性がある。
 そこで、発明者は、上記の課題を鑑みて、発話機器が備えるスピーカの性能に依らず、ユーザが人の音声を聴き取りやすくなる、つまり人の音声の了解度が比較的高くなるような技術について検討した。
 [1-1.発話機器が出力する人の音声の周波数特性]
 まず、発明者は、発話機器にて音波に変換して出力される音声信号に対してフィルタ処理を実行することで、発話機器が出力する人の音声の了解度を向上させることを検討した。ここでいうフィルタ処理は、音声信号における特定の周波数帯域でのパワー(音圧レベル)を増幅させる処理である。
 図1は、発話機器に人の音声を出力させた場合における人の音声の周波数特性を示す図である。また、図2は、音声信号に対してフィルタ処理を実行した後に、発話機器に人の音声を出力させた場合における人の音声の周波数特性を示す図である。図1及び図2のいずれにおいても、縦軸は人の音声のパワーを示し、横軸は周波数を示している。
 図1の(a)は、発話機器としてのロボット掃除機が出力する人の音声の周波数特性を示す図であり、図2の(a)は、フィルタ処理を実行した場合においてロボット掃除機が出力する人の音声の周波数特性を示す図である。また、図1の(b)は、発話機器としてのペット用カメラが出力する人の音声の周波数特性を示す図であり、図2の(b)は、フィルタ処理を実行した場合においてペット用カメラが出力する人の音声の周波数特性を示す図である。なお、ロボット掃除機及びペット用カメラは、いずれも人の音声以外のシステム音声を主として出力することを想定した機器である。
 図1の(a)に示すように、ロボット掃除機が出力する人の音声は、0~1kHzの低周波数領域、及び3kHz以上の高周波数領域において、他の周波数領域よりもパワーが低下している(同図における丸印を参照)。そこで、音声信号に対して上記の低周波数領域及び高周波数領域でのパワーを増幅させるフィルタ処理を実行した。すると、図2の(a)に示すように、ロボット掃除機が出力する人の音声は、上記の低周波数領域及び高周波数領域のいずれにおいてもパワーが大きくなっており、フィルタ処理が人の音声の了解度の向上に寄与し得るとの知見を得た。
 図1の(b)に示すように、ペット用カメラが出力する人の音声は、0~1kHzの低周波数領域、及び4kHz以上の高周波数領域において、他の周波数領域よりもパワーが低下している(同図における丸印を参照)。そこで、上記と同様に、音声信号に対して低周波数領域及び高周波数領域でのパワーを増幅させるフィルタ処理を実行した。しかしながら、図2の(b)に示すように、ペット用カメラが出力する人の音声は、上記の低周波数領域及び高周波数領域のいずれにおいてもパワーが大きくなっておらず、フィルタ処理が人の音声の了解度の向上に寄与し得ないとの知見を得た。
 上述のように、発明者は、発話機器の出力する人の音声の周波数特性に応じてフィルタ処理を実行した場合、発話機器の種類によってはフィルタ処理が人の音声の了解度の向上に寄与し得るが、フィルタ処理が人の音声の了解度の向上に寄与し得ないこともある、という知見を得た。以下、当該フィルタ処理を「発話機器に応じたフィルタ処理」ともいう。
 [1-2.日本語音声でのDRT試験]
 次に、発明者は、ノイズ環境下で発話機器に人の音声を出力させることで、日本語音声でのDRT(Diagnostic Rhyme Test)、すなわち二者択一式音声了解度試験を行った。ここで、ノイズ環境とは、発話機器の周辺にある電気機器が駆動することで駆動音声(ノイズ)を出力している環境である。
 図3は、電気機器が出力する駆動音声の周波数特性を示す図である。図3において、縦軸は駆動音声のパワーを示し、横軸は周波数を示している。図3の(a)は、掃除機が出力する駆動音声の周波数特性を示し、図3の(b)はロボット掃除機が出力する駆動音声の周波数特性を示す。また、図3の(c)は食洗器が出力する駆動音声の周波数特性を示し、図3の(d)は洗濯機が出力する駆動音声の周波数特性を示す。
 DRTは、語頭1音素のみ異なる単語対の候補のうち一方を被験者に聴取させ、単語対のうちの一方を選ばせる了解度の試験方法である。DRTにおいては、子音を6つの特徴に分け、各特徴について10対の単語対を用意し、計120単語の評価音声について試験を行った。DRTにおいて、人の音声の了解度は、(正答数-誤答数)/評価音声の総数で表される。
 ここで、子音は、有声性(Voicing)、鼻音性(Nasality)、継続性(Sustention)、不規則性(Sibilation)、抑音性(Graveness)、及び集中性(Compactness)の6つの特徴に分けられる。
 有声性は、JFH(Jacobson, Fant, Halle)による英語音素の特徴分類(以下、「JFH分類」という)では“vocalic-nonvocalic”に相当し、有声音と無声音の分類である。有声音は、例えば「ざい」のように声帯の振動を伴う音声であり、無声音は、例えば「さい」のように声帯の振動を伴わない音声である。
 鼻音性は、JFH分類では“nasal-oral”に相当し、鼻音性の分類である。鼻音とは、例えば「まん」のように音エネルギーが口腔からの放出を伴わないで鼻を通って放射されるような音声、又は「ばん」のように音エネルギーが口腔からの放出を伴って鼻を通って放射されるような音声である。
 継続性は、JFH分類では“continuant-interrupted”に相当し、持続性のある音声と、それ以外の音声(破裂音又は破擦音)の分類である。持続性のある音声は、例えば「はし」のように/h/の音声が流れるまで声道の狭窄が制限されていない音声である。持続性のない音声は、例えば「かし」のような破裂音である。
 不規則性は、JFH分類では“strident-mellow”に相当し、波形の不規則性に関する分類である。不規則性のある音声は、例えば「ちゃく」のような音声で、不規則性のない音声は、例えば「かく」のような音声である。
 抑音性は、JFH分類では“grave-acute”に相当し、抑音と鋭音とに相当する。抑音は、例えば「ぱい」のような音声で、鋭音は、例えば「たい」のような音声である。
 集中性は、JFH分類では“compact-diffuse”に相当し、スペクトル上のエネルギーが1つのフォルマント周波数に集中するか分散するかの分類である。前者は、例えば「やく」のような音声で、後者は「わく」のような音声である。
 図4は、ノイズ環境下でロボット掃除機に評価音声を出力させることでDRTを行った結果を示す図である。図4において、縦軸は人の音声の了解度(Speech Intelligibility)、横軸はノイズ源の種類を示している。また、図4において、実線のハッチングを施した棒グラフは、発話機器に応じたフィルタ処理を実行しなかった場合の結果を示し、ドットハッチングを施した棒グラフは、当該フィルタ処理を実行した場合の結果を示している。また、図4の(a)は、ロボット掃除機に女性の声で評価音声を出力させた場合の結果を示し、図4の(b)は、ロボット掃除機に男性の声で評価音声を出力させた場合の結果を示している。
 図4に示すように、掃除機、食洗器、ロボット掃除機、及び洗濯機のいずれの電気機器がノイズ源である場合も、上記のフィルタ処理を実行することにより、人の音声の了解度の向上が確認された。また、ロボット掃除機に女性の声で評価音声を出力させた場合の方が、ロボット掃除機に男性の声で評価音声を出力させた場合と比較して、人の音声の了解度が若干高くなることが確認された。しかしながら、いずれの電気機器がノイズ源である場合も、人の音声の了解度は0.4以下と比較的低くなっている。
 上述のように、発明者は、単に発話機器に応じたフィルタ処理を実行しただけでは、ノイズ環境下においては人の音声の了解度の十分な向上には寄与し得ない、という知見を得た。
 ここで、発明者は、上述のDRTについて更に詳細に検討を行った。具体的には、DRTにおける子音の特徴ごとの人の音声の了解度について検討を行った。図5は、ノイズ環境下でロボット掃除機に評価音声を出力させることでDRTを行った場合の子音の特徴ごとの結果を示す図である。図6は、ノイズ環境下でペット用カメラに評価音声を出力させることでDRTを行った場合の子音の特徴ごとの結果を示す図である。
 図5及び図6の各々において、縦軸は人の音声の了解度、横軸は子音の特徴の種類を示している。また、図5及び図6の各々において、実線のハッチングを施した棒グラフは、発話機器に応じたフィルタ処理を実行しなかった場合の結果を示し、ドットハッチングを施した棒グラフは、当該フィルタ処理を実行した場合の結果を示している。また、図5の(a)及び図6の(a)は、ノイズ源がロボット掃除機である場合の結果を示し、図5の(b)及び図6の(b)は、ノイズ源が洗濯機である場合の結果を示している。
 図5及び図6に示すように、子音の特徴によっては、上記のフィルタ処理を実行した場合であっても被験者が評価音声を聴き取れていない場合があることが判明した。例えば、図5に示すように、ロボット掃除機に評価音声を出力させた場合、有声性及び不規則性の各々に対応する評価音声については了解度が比較的高くなっているが、その他の子音の特徴に対応する評価音声については了解度が比較的低くなっている。特に、鼻音性及び継続性の各々に対応する評価音声については了解度が非常に低く、被験者が殆ど評価音声を聴き取れていない。また、例えば、図6に示すように、ペット用カメラに評価音声を出力させた場合、洗濯機がノイズ源である場合は有声性に対応する評価音声については了解度が比較的高くなっているが、その他の子音の特徴に対応する評価音声については了解度が非常に低く、被験者が殆ど評価音声を聴き取れていない。
 そこで、発明者は、子音の特徴ごとの周波数特性に着目した。図7及び図8は、いずれも子音の特徴ごとの評価音声の音声波形から得られたスペクトログラムの一例を示す図である。図7及び図8の各々において、上側の領域が音声波形を表しており、下側の領域がスペクトログラムを表している。ここでいうスペクトログラムは、評価音声の周波数スペクトルを経時的に表したものである。
 図7の(a)は、有声性に対応する評価音声「ざい」の音声波形から得られたスペクトログラムを示し、図7の(b)は、有声性に対応する評価音声「さい」の音声波形から得られたスペクトログラムを示している。図7の(c)は、鼻音性に対応する評価音声「まん」の音声波形から得られたスペクトログラムを示し、図7の(d)は、鼻音性に対応する評価音声「ばん」の音声波形から得られたスペクトログラムを示している。図7の(e)は、継続性に対応する評価音声「はし」の音声波形から得られたスペクトログラムを示し、図7の(f)は、継続性に対応する評価音声「かし」の音声波形から得られたスペクトログラムを示している。
 図8の(a)は、不規則性に対応する評価音声「ちゃく」の音声波形から得られたスペクトログラムを示し、図8の(b)は、不規則性に対応する評価音声「かく」の音声波形から得られたスペクトログラムを示している。図8の(c)は、抑音性に対応する評価音声「ぱい」の音声波形から得られたスペクトログラムを示し、図8の(d)は、抑音性に対応する評価音声「たい」の音声波形から得られたスペクトログラムを示している。図8の(e)は、集中性に対応する評価音声「やく」の音声波形から得られたスペクトログラムを示し、図8の(f)は、集中性に対応する評価音声「わく」の音声波形から得られたスペクトログラムを示している。
 図7及び図8に示すように、子音の特徴ごとに、語頭1音素での周波数スペクトルが異なっている。例えば、図7の(a)及び図7の(b)において矩形枠で示すように、有声性に対応する評価音声のスペクトログラムに着目すると、語頭1音素に対応する「ざ」と「さ」とでは、前者では0~1kHzの周波数成分が含まれるのに対して、後者では含まれていない。また、例えば、図8の(a)及び図8の(b)において矩形枠で示すように、不規則性に対応する評価音声のスペクトログラムに着目すると、語頭1音素に対応する「ちゃ」と「か」とでは、前者では2~6kHzの周波数成分が多く含まれるのに対して、後者ではほとんど含まれていない。その他の子音の特徴においても、図7及び図8において矢印又は矩形枠で示すように、語頭1音素での周波数スペクトルが異なっている。
 ここで、図5の(a)及び図5の(b)において、有声性に対応する評価音声についての結果に着目すると、発話機器に応じたフィルタ処理を実行した場合、当該フィルタ処理を実行しなかった場合と比較して、人の音声の了解度が大きく上昇している。これは、有声性に対応する評価音声の語頭1音素を聴き分けるために有効な周波数領域が0~1kHzであり、0~1kHzの低周波数領域でのパワーを増幅させる当該フィルタ処理により強調されたためと考えられる。
 上述のように、発明者は、音声信号において子音の特徴に応じた周波数領域を強調することで、人が語頭1音素を聴き分けやすくなり、結果として人の音声の了解度の向上に至る、という知見を得た。
 以上を鑑み、発明者は本開示を創作するに至った。
 以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
 (実施の形態)
 [2.構成]
 [2-1.全体構成]
 まず、実施の形態に係る音声処理システムを含む全体構成について図9を用いて説明する。図9は、実施の形態に係る音声処理システムを含む全体構成を示すブロック図である。音声処理システム10は、情報元機器3又は情報元サービス4からイベントに関するイベント情報を取得した場合に、発話機器2からイベントの内容を示す人の音声を出力させるためのシステムである。実施の形態では、人の音声は、日本語による人の音声である。また、実施の形態では、音声処理システム10は、サーバ1で実現される。サーバ1は、インターネット等のネットワークN1を介して、発話機器2、情報元機器3、及び情報元サービス4の各々と通信可能である。なお、サーバ1は、発話機器2、情報元機器3、及び情報元サービス4のうちの一部又は全部と、LAN(Local Area Network)を介して通信してもよい。
 なお、実施の形態では、サーバ1(音声処理システム10)は、1台の発話機器2にイベントの内容を示す人の音声を出力させているが、複数台の発話機器2の各々にイベントの内容を示す人の音声を出力させてもよい。また、サーバ1は、複数台の発話機器2のうちの1以上の発話機器2にイベントの内容を示す人の音声を出力させてもよい。また、サーバ1は、発話機器2ごとに発話させるイベントの内容を異ならせてもよい。例えば、サーバ1は、2台の発話機器2のうち一方の発話機器2からは、情報元機器3に関わるイベントの内容を示す人の音声を出力させ、他方の発話機器2からは、他の情報元機器3に関わるイベントの内容を示す人の音声を出力させてもよい。
 発話機器2は、情報元機器3又は情報元サービス4で発生したイベントの内容を示す人の音声を出力することで、イベントの内容をユーザに通知することが可能な機器である。なお、発話機器2による通知は、更に、例えば備え付けのディスプレイに文字列又は画像等を表示することで行われてもよい。
 発話機器2は、例えばユーザの居住する施設に据え置かれた機器であって、上述のような音声出力機能を有する機器である。実施の形態では、発話機器2は、家電機器である。具体的には、発話機器2は、例えばスマートスピーカ、テレビジョン受像機、照明器具、ペット用カメラ、インターホン親機、インターホン子機、空調機器、又はロボット掃除機等を含み得る。なお、発話機器2は、例えば可搬型のテレビジョン受像機、スマートフォン、タブレット端末、又はラップトップ型のパーソナルコンピュータ等のユーザが所持する携帯型の情報機器であってもよい。
 情報元機器3は、発話機器2から発話される情報の発信元となる機器である。実施の形態では、情報元機器3は、家電機器である。具体的には、情報元機器3は、例えば空調機器、洗濯機、掃除機、ロボット掃除機、食洗機、冷蔵庫、炊飯器、又は電子レンジ等である。情報元機器3で発生するイベントは、例えば情報元機器3の動作の開始若しくは終了、情報元機器3でのエラーの発生、又は情報元機器3のメンテナンス等を含み得る。図9では、情報元機器3は1台であるが、複数台であってもよい。
 情報元サービス4は、発話機器2から発話される情報の発信元となるサービスであって、例えばサービス事業者が運用するサーバ等からユーザに対して提供されるサービスである。情報元サービス4は、例えば運送サービス、天気予報サービス、スケジュール管理サービス、又は交通情報提供サービス等である。情報元サービス4で発生するイベントは、例えば情報元サービス4によるサービスの開始若しくは終了、又は情報元サービス4でのエラーの発生等を含み得る。図9では、情報元サービス4は1つであるが、複数であってもよい。
 [2-2.サーバの構成]
 次に、サーバ1の構成について具体的に説明する。サーバ1は、図9に示すように、通信インタフェース(以下、「通信I/F(Interface)」と記載)11と、プロセッサ12と、メモリ13と、記憶装置14と、を備えている。
 通信I/F11は、例えば無線通信インタフェースであり、Wi-Fi(登録商標)等の無線通信規格に基づいて、ネットワークN1を介して情報元機器3又は情報元サービス4と通信を行うことにより、情報元機器3及び情報元サービス4から送信される信号を受信する。また、通信I/F11は、Wi-Fi(登録商標)等の無線通信規格に基づいて、ネットワークN1を介して発話機器2と通信を行うことにより、発話機器2へ信号を送信し、発話機器2から送信される信号を受信する。
 通信I/F11は、入力インタフェース(以下、「入力I/F」と記載)11Aと、出力インタフェース(以下、「出力I/F」と記載)11Bと、の両方の機能を有する。入力I/F11Aは、情報元機器3又は情報元サービス4から送信される信号を受信することにより、情報元機器3又は情報元サービス4からイベントに関するイベント情報を取得する。
 実施の形態では、入力I/F11Aは、発話機器2の周辺の音声を収音して得られる収音情報を更に取得する。収音情報は、例えば発話機器2が備えるマイクロホン25(後述する)が収音して生成した音声データに関する情報である。発話機器2の周辺の音声は、発話機器2がイベントの内容を示す人の音声を出力する際に、ユーザが当該人の音声を聴き取りにくくなる原因であるノイズとなる。入力I/F11Aは、発話機器2から収音情報として送信される音声データを受信することにより、収音情報を取得する。
 出力I/F11Bは、発話機器2へ信号を送信することにより、プロセッサ12で補正した音声信号を出力する。また、出力I/F11Bは、発話機器2へ信号を送信することにより、発話機器2に周辺の音声を収音するように指示する指示信号を出力する。
 プロセッサ12は、例えばCPU(Central Processing Unit)又はDSP(Digital Signal Processor)等であって、通信I/F11を用いた信号の送信及び受信に関する情報処理、並びに通信I/F11で取得したイベント情報に基づいて音声信号を生成及び補正する情報処理を行う。上述の信号の送信及び受信に関する処理、並びに音声信号を生成及び補正する情報処理は、いずれもプロセッサ12がメモリ13に記憶されたコンピュータプログラムを実行することにより実現される。プロセッサ12は、音声処理システム10の信号処理回路の一例である。
 メモリ13は、プロセッサ12が情報処理を行うために必要な各種情報、及びプロセッサ12が実行するコンピュータプログラム等が記憶される記憶装置である。メモリ13は、例えば半導体メモリによって実現される。
 記憶装置14は、プロセッサ12が音声信号を生成及び補正する情報処理を実行する際に参照するデータベースが記憶される装置である。記憶装置14は、例えばハードディスク、又はSSD(Solid State Drive)等の半導体メモリによって実現される。
 [2-3.発話機器の構成]
 次に、発話機器2の構成について具体的に説明する。
 発話機器2は、図9に示すように、通信I/F21と、プロセッサ22と、メモリ23と、スピーカ24と、マイクロホン25と、を備えている。なお、発話機器2は、その種類によっては、マイクロホン25を備えていなくてもよい。以下では、特に断りのない限り、発話機器2がマイクロホン25を備えていることとして説明する。
 通信I/F21は、例えば無線通信インタフェースであり、Wi-Fi(登録商標)等の無線通信規格に基づいて、ネットワークN1を介してサーバ1と通信を行うことにより、サーバ1から送信される信号を受信し、サーバ1へ信号を送信する。
 プロセッサ22は、例えばCPU又はDSP等であって、通信I/F21を用いた信号の送信及び受信に関する情報処理、通信I/F21で受信した指示信号に基づいてマイクロホン25に発話機器2の周辺の音声を収音させる情報処理、並びに通信I/F21で受信した音声信号に基づいてスピーカ24から人の音声を出力させる情報処理を行う。上述の信号の送信及び受信に関する情報処理、人の音声を出力させる情報処理、並びに発話機器2の周辺の音声を収音させる情報処理は、いずれもプロセッサ22がメモリ23に記憶されたコンピュータプログラムを実行することにより実現される。
 メモリ23は、プロセッサ22が情報処理を行うために必要な各種情報、及びプロセッサ22が実行するコンピュータプログラム等が記憶される記憶装置である。メモリ23は、例えば半導体メモリによって実現される。
 スピーカ24は、通信I/F21で受信した音声信号に基づく人の音声を再生する。実施の形態では、スピーカ24は、音声信号を人の音声へと変換し、変換した人の音声を出力する。
 マイクロホン25は、発話機器2の周辺の音声を収音して音声データを生成する。実施の形態では、マイクロホン25は、常に発話機器2の周辺の音声を収音するのではなく、サーバ1(音声処理システム10)から収音の指示を受けた場合にのみ、発話機器2の周辺の音声を収音する。マイクロホン25で生成された音声データは、収音情報として通信I/F21を介してサーバ1へ送信される。
 [2-4.音声信号の生成及び補正]
 次に、サーバ1(音声処理システム10)のプロセッサ12による音声信号を生成及び補正する情報処理について、具体的に説明する。
 まず、プロセッサ12は、通信I/F11(入力I/F11A)がイベント情報を取得すると、イベントの内容を示す人の音声を出力させる発話機器2を決定する。発話機器2が1台しか存在しない場合、プロセッサ12は、当該発話機器2に人の音声を出力させることを決定する。また、発話機器2が複数台存在する場合、プロセッサ12は、複数台の発話機器2のうち、あらかじめ定められた発話機器2に人の音声を出力させることを決定する。このとき、人の音声を出力させる発話機器2は、1台に限らず、複数台であってもよい。
 次に、プロセッサ12は、通信I/F11(出力I/F11B)を介して、決定した発話機器2に対して、発話機器2に周辺の音声を収音するように指示する指示信号を出力する。これにより、プロセッサ12は、通信I/F11(入力I/F11A)を介して、決定した発話機器2から収音情報を取得する。なお、決定した発話機器2がマイクロホン25を備えていない場合、プロセッサ12は、当該発話機器2から収音情報を取得しない。
 次に、プロセッサ12は、取得したイベント情報に基づいて、イベントの内容を示す文字列を決定する。例えば、情報元機器3である洗濯機から洗濯運転が終了したことを示すイベント情報を取得した場合、プロセッサ12は、「洗濯機での洗濯が終わりました」等の文字列を決定する。実施の形態では、プロセッサ12は、適宜の自動生成アルゴリズムにより、イベント情報に基づいて文字列を自動的に生成する。
 なお、プロセッサ12は、例えば記憶装置14に記憶されたデータベースを参照することで、取得したイベント情報に対応する文字列を読み出すことで、文字列を決定してもよい。この場合、データベースには、イベントの内容と、イベントに対応する文字列とが対応付けられたデータがあらかじめ記憶される。
 次に、プロセッサ12は、適宜のアルゴリズムにより、決定した文字列を1以上の副文字列に区切る。実施の形態では、プロセッサ12は、決定した文字列を、音節に基づいて1以上の副文字列に区切る。ここで、音節は、連続する言語音を区切る分節単位の一種であって、人の音声の聞こえの一種のまとまりである。例えば、音節は、子音、母音、子音+母音、母音+子音、又は子音+母音+子音等がある。
 実施の形態では、プロセッサ12は、一例として以下のルールに従って、決定した文字列を1以上の副文字列に区切る。第1に、プロセッサ12は、子音ごと、及び母音ごとに文字列を1以上の副文字列に区切ることを基本として、長音、促音、及び撥音については、直前の子音と共に1つの副文字列とみなす。なお、プロセッサ12は、母音を直線の子音と組み合わせて1つの副文字列とみなしてもよい。例えば、文字列に「洗濯機(せんたくき)」が含まれている場合、プロセッサ12は、当該文字列を「せん」、「た」、「く」、及び「き」という4つの副文字列に区切る。
 次に、プロセッサ12は、副文字列ごとに、適用する第1フィルタを決定する。ここで、第1フィルタは、子音の特徴に応じたフィルタであって、子音の特徴に応じた周波数領域のパワーを増幅して強調するためのフィルタである。なお、プロセッサ12は、母音のみで構成される副文字列に対しては、第1フィルタを適用しない。
 図10は、子音と、子音の特徴との対応関係を示す図である。図10の(a)は、子音の特徴(有声性、鼻音性、継続性、不規則性、抑音性、及び集中性)ごとに対応する子音を列挙した表である。例えば、有声性という子音の特徴を有する子音は、カ行、サ行、タ行、ガ行、ザ行、及びダ行である。図10の(b)は、子音ごとに対応する子音の特徴を列挙した表である。例えば、カ行の子音は、有声性(Voicing)、継続性(Sustention)、不規則性(Sibilation)、及び集中性(Compactness)の4つの子音の特徴を有している。
 図11は、子音の特徴と、周波数領域との対応関係を示す図である。例えば、有声性という子音の特徴を有する子音では、語頭1音素を聴き分けるために有効な周波数領域が0~1kHzである。また、例えば、鼻音性という子音の特徴を有する子音では、語頭1音素を聴き分けるために有効な周波数領域が1~4kHzである。
 図10及び図11に示すデータは、記憶装置14に記憶されているデータベースに格納されている。そして、プロセッサ12は、データベースに格納されているこれらのデータを参照することにより、副文字列ごとに、適用する第1フィルタを決定する。
 例えば、「せん」、「た」、「く」、及び「き」という4つの副文字列の場合、プロセッサ12は、「せん」という副文字列については、「せん」に含まれる「せ」がサ行であるため、図10に示す対応関係に基づいて、サ行に対応する子音の特徴として、有声性、継続性、及び不規則性を特定する。そして、プロセッサ12は、有声性に対応する周波数領域のパワーを増幅するフィルタ、継続性に対応する周波数領域のパワーを増幅するフィルタ、及び不規則性に対応する周波数領域のパワーを増幅するフィルタを合成して第1フィルタとして決定する。
 また、プロセッサ12は、「た」という副文字列については、「た」がタ行であるため、図10に示す対応関係に基づいて、タ行に対応する子音の特徴として、有声性、継続性、不規則性、及び抑音性を特定する。そして、プロセッサ12は、有声性に対応する周波数領域のパワーを増幅するフィルタ、継続性に対応する周波数領域のパワーを増幅するフィルタ、不規則性に対応する周波数領域のパワーを増幅するフィルタ、及び抑音性に対応する周波数領域のパワーを増幅するフィルタを合成して第1フィルタとして決定する。
 また、プロセッサ12は、「く」及び「き」という副文字列については、「く」及び「き」がそれぞれカ行であるため、図10に示す対応関係に基づいて、カ行に対応する子音の特徴として、有声性、継続性、不規則性、及び集中性を特定する。そして、プロセッサ12は、それぞれ有声性に対応する周波数領域のパワーを増幅するフィルタ、継続性に対応する周波数領域のパワーを増幅するフィルタ、不規則性に対応する周波数領域のパワーを増幅するフィルタ、及び集中性に対応する周波数領域のパワーを増幅するフィルタを合成して第1フィルタとして決定する。
 なお、プロセッサ12は、副文字列ごとに複数の子音の特徴が存在する場合、複数の子音の特徴にそれぞれ対応するフィルタを合成せずに、それぞれ第1フィルタとして決定してもよい。
 次に、プロセッサ12は、適宜の機械音声を生成するアルゴリズムにより、決定した文字列から音声信号を生成する。実施の形態では、プロセッサ12は、[1.本開示の基礎となった知見]における、女性の声の方が男性の声よりも人の音声の了解度が若干高くなるという知見に鑑みて、女性の声による音声信号を生成する。なお、プロセッサ12は、男性の声による音声信号を生成してもよい。
 次に、プロセッサ12は、生成した音声信号を補正する処理を実行する。実施の形態では、プロセッサ12は、生成した音声信号に第1フィルタを適用する第1フィルタ処理、第2フィルタを適用する第2フィルタ処理、及び第3フィルタを適用する第3フィルタ処理を実行する。なお、これら3つのフィルタ処理は、上記の順番で実行してもよいし、他の順番で実行してもよい。
 実施の形態では、第1フィルタ処理を実行するに先立って、プロセッサ12は、生成した音声信号において、各副文字列に対応する位置(時間)をメモリ13に記憶させる。例えば、「せんたくき」という文字列から音声信号を生成した場合、プロセッサ12は、「せん」という副文字列が音声信号の0~0.7秒の時間に対応し、「た」という副文字列が音声信号の0.7秒~1秒の時間に対応し、「く」という副文字列が音声信号の1~1.3秒の時間に対応し、「き」という副文字列が音声信号の1.3秒~1.6秒の時間に対応することをメモリ13に記憶させる。
 そして、プロセッサ12は、第1フィルタ処理において、副文字列ごとに決定した第1フィルタを、メモリ13に記憶してある各副文字列に対応する位置(時間)に対して適用する。例えば、「せん」という副文字列に対して第1フィルタを適用する場合、プロセッサ12は、音声信号の0~0.7秒の時間に対して第1フィルタを適用する。
 なお、プロセッサ12は、上記の処理に限らず、例えば副文字列ごとに音声信号の生成及び第1フィルタの適用を実行し、その後、全ての副文字列にそれぞれ対応する音声信号を連結することで、決定した文字列に対応する音声信号を生成してもよい。言い換えれば、プロセッサ12は、副文字列ごとに音声信号を生成して連結していくことにより、決定した文字列に対する音声信号を生成してもよい。その際に、プロセッサ12は、副文字列単位で生成した音声信号ごとに、対応する第1フィルタを適用して補正していくようにしてもよい。ただし、副文字列ごとに音声信号を生成して連結する場合、人が聴いたときに違和感を覚える可能性があるため、前者の方法が望ましい。
 ここで、第2フィルタは、発話機器2の種類に応じたフィルタである。具体的には、第2フィルタは、発話機器2の出力する人の音声の周波数特性に基づいて、パワーが比較的小さい周波数領域のパワーを増幅して強調するフィルタである。例えば、発話機器2がロボット掃除機である場合、ロボット掃除機が出力する人の音声は0~1kHzの低周波数領域、及び3kHz以上の高周波数領域において、他の周波数領域よりもパワーが低下している(図1の(a)参照)。この場合、プロセッサ12は、0~1kHzの周波数領域、及び3kHz以上の周波数領域のパワーを増幅するフィルタを第2フィルタとして決定する。
 また、第3フィルタは、収音情報に応じたフィルタである。具体的には、第3フィルタは、収音情報から得られる発話機器2の周辺の音声の周波数特性に基づいて、パワーが比較的大きい周波数領域のパワーを増幅して強調するフィルタである。例えば、発話機器2の周辺にて食洗器が動作している、と仮定する。この場合、プロセッサ12は、収音情報に含まれる音声データの周波数特性を解析することで、0~500Hzの周波数領域においてパワーが比較的高い(図3の(c)参照)と判断する。したがって、この場合、プロセッサ12は、0~500Hzの周波数領域のパワーを増幅するフィルタを第3フィルタとして決定する。
 なお、発話機器2の周辺の音声の周波数特性は、発話機器2で周辺の音声を収音した際に、発話機器2のプロセッサ22により演算されてもよいし、収音情報を取得したサーバ1のプロセッサ12により演算されてもよい。
 そして、プロセッサ12は、第1フィルタ処理、第2フィルタ処理、及び第3フィルタ処理を実行することで補正した音声信号を、通信I/F11(出力I/F11B)を介して、決定した発話機器2へ送信(出力)する。これにより、対象となる発話機器2は、通信I/F21を介して補正した音声信号を取得し、補正した音声信号に基づく人の音声をスピーカ24から再生する。
 [3.動作]
 以下、実施の形態に係るサーバ1(音声処理システム10)の動作、つまり音声処理方法の一例について、図12を用いて説明する。図12は、実施の形態に係る音声処理システム10の動作の一例を示すフローチャートである。以下では、情報元機器3又は情報元サービス4でイベントが発生し、イベントの発生元からネットワークN1を介してサーバ1へイベント情報が送信されたこととして説明する。また、以下では、発話機器2は、マイクロホン25を備えており、収音情報をサーバ1へ提供できることとして説明する。
 まず、プロセッサ12は、通信I/F11(入力I/F11A)を介して、イベント情報を取得する(S1)。すると、プロセッサ12は、イベントの内容を示す人の音声を出力させる発話機器2を決定する(S2)。
 次に、プロセッサ12は、通信I/F11(出力I/F11B)を介して、決定した発話機器2に対して、発話機器2に周辺の音声を収音するように指示する指示信号を出力する。これにより、プロセッサ12は、通信I/F11(入力I/F11A)を介して、決定した発話機器2から収音情報を取得する(S3)。
 次に、プロセッサ12は、取得したイベント情報に基づいて、適宜の自動生成アルゴリズムにより、イベントの内容を示す文字列を決定する(S4)。そして、プロセッサ12は、適宜のアルゴリズムにより、決定した文字列を1以上の副文字列に区切る(S5)。ここでは、プロセッサ12は、決定した文字列を、音節に基づいて、1以上の副文字列に区切る。
 次に、プロセッサ12は、副文字列ごとに、適用する第1フィルタを決定する(S6)。ここでは、プロセッサ12は、記憶装置14に記憶されているデータベースに格納されている図10及び図11に示すデータを参照することにより、副文字列ごとに、適用する第1フィルタを決定する。
 次に、プロセッサ12は、適宜の機械音声を生成するアルゴリズムにより、決定した文字列から音声信号を生成する(S7)。ここでは、プロセッサ12は、女性の声による音声信号を生成する。
 次に、プロセッサ12は、生成した音声信号において、副文字列ごとに第1フィルタを適用する第1フィルタ処理を実行する(S8)。既に述べたように、実施の形態では、プロセッサ12は、生成した音声信号において、各副文字列に対応する位置(時間)をメモリ13に記憶させる。そして、プロセッサ12は、第1フィルタ処理において、副文字列ごとに決定した第1フィルタを、メモリ13に記憶してある各副文字列に対応する位置(時間)に対して適用する。また、プロセッサ12は、生成した音声信号に第2フィルタを適用する第2フィルタ処理を実行する(S9)。また、プロセッサ12は、生成した音声信号に第3フィルタを適用する第3フィルタ処理を実行する(S10)。なお、ステップS8、ステップS9、及びステップS10を実行する順番は、この順番に限られず、他の順番であってもよい。
 そして、プロセッサ12は、補正した音声信号を、通信I/F11(出力I/F11B)を介して、決定した発話機器2へ送信(出力)する(S11)。これにより、対象となる発話機器2は、通信I/F21を介して補正した音声信号を取得し、補正した音声信号に基づく人の音声をスピーカ24から再生する。
 [4.効果等]
 以上説明したように、プロセッサ12等のコンピュータによって実行される音声処理方法では、副文字列ごとに子音の特徴に応じた第1フィルタを適用する、つまり子音の特徴に応じた周波数領域を増幅して強調することで音声信号を補正し、補正した音声信号を発話機器2へ送信(出力)している。このため、発話機器2が補正した音声信号に基づいて出力した人の音声を聴いたユーザは、副文字列ごとに語頭1音素を聴き分けやすくなり、当該人の音声の了解度が向上しやすくなる。したがって、このような音声処理方法では、発話機器2が備えるスピーカ24の性能に依らず、ユーザが人の音声を聴き取りやすくなる、という利点がある。
 また、実施の形態において、音声処理方法では、発話機器2の種類に応じた第2フィルタを適用する、つまり発話機器2の出力する人の音声の周波数特性に基づいて、パワーが比較的小さい周波数領域のパワーを増幅して強調することで音声信号を更に補正している。このため、発話機器2の出力する人の音声が、発話機器2の特性に応じて補正されるため、ユーザは、発話機器2が出力する人の音声を更に聴き取りやすくなる、という利点がある。
 また、実施の形態において、音声処理方法では、収音情報に応じた第3フィルタを適用する、つまり、発話機器2の周辺の音声の周波数特性に基づいて、パワーが比較的大きい周波数領域のパワーを増幅して強調することで音声信号を更に補正している。このため、発話機器2の出力する人の音声が、発話機器2の周辺の音声に埋もれないように補正されるため、ユーザは、発話機器2が出力する人の音声を更に聴き取りやすくなる、という利点がある。
 [5.その他の実施の形態]
 以上、実施の形態について説明したが、本開示は、上記実施の形態に限定されるものではない。
 上記実施の形態では、プロセッサ12は、生成した文字列を音節に基づいて1以上の副文字列に区切っているが、これに限られない。例えば、プロセッサ12は、生成した文字列を、単語に基づいて1以上の副文字列に区切ってもよい。一例として、生成した文字列に「せんたくき」という文字列が含まれる場合、プロセッサ12は、「せんたくき」を1つの副文字列として区切ってもよい。
 また、例えば、プロセッサ12は、生成した文字列を、モーラ(拍)に基づいて1以上の副文字列に区切ってもよい。一例として、生成した文字列に「せんたくき」という文字列が含まれる場合、プロセッサ12は、「せ」、「ん」、「た」、「く」、及び「き」という5つの副文字列に区切ってもよい。
 また、例えば、プロセッサ12は、生成した文字列を、単語を構成する漢字に基づいて1以上の副文字列に区切ってもよい。一例として、生成した文字列に「せんたくき(洗濯機)」という文字列が含まれる場合、プロセッサ12は、「せん」、「たく」、及び「き」という3つの副文字列に区切ってもよい。
 上記実施の形態では、プロセッサ12は、副文字列に複数の子音の特徴が含まれる場合、全ての子音の特徴に対応するフィルタを第1フィルタとして決定しているが、これに限られない。例えば、プロセッサ12は、音声信号における副文字列ごとに、複数の子音の特徴の各々に優先度を決定してもよい。
 一例として、プロセッサ12は、複数の子音の特徴のうち優先度の高い子音の特徴に対応するフィルタのみを第1フィルタとして決定してもよい。ここで、優先度が高いとは、当該子音を聴き取ることができれば文字列の意味をユーザが理解することができる、言い換えれば、ユーザが文字列の意味を誤って認識する可能性が低い、ということに相当する。なお、プロセッサ12は、複数の子音の特徴のうち最も優先度の高い子音の特徴に対するフィルタのみを第1フィルタとして決定してもよいし、優先度の順位が所定番目までの子音の特徴に対するフィルタを第1フィルタとして決定してもよい。
 上記実施の形態では、プロセッサ12は、音声信号を補正するフィルタ処理において、第1フィルタ処理、第2フィルタ処理、及び第3フィルタ処理を実行しているが、これに限られない。例えば、プロセッサ12は、第2フィルタ処理及び第3フィルタ処理のいずれか一方を実行しなくてもよいし、両方の処理を実行しなくてもよい。
 上記実施の形態では、音声処理システム10は、発話機器2に日本語による人の音声を出力させているが、これに限られない。例えば、音声処理システム10は、英語又は中国語等の他の言語による人の音声を発話機器2に出力させてもよい。この場合、プロセッサ12は、発話機器2に出力させる人の音声の言語に応じた第1フィルタを、副文字列ごとに決定すればよい。
 例えば、英語の人の音声を発話機器2に出力させる場合、プロセッサ12は、決定した文字列を、単語単位で1以上の副文字列に区切る。ここで、単語に複数の音節が含まれる場合であれば、プロセッサ12は、決定して文字列を、更に音節単位で1以上の副文字列に区切ってもよい。また、この場合、プロセッサ12は、日本語の場合と同様に、子音の特徴(有声性、鼻音性、継続性、不規則性、抑音性、及び集中性)に応じた第1フィルタを、副文字列ごとに決定すればよい。例えば、有声性という子音の特徴を有する単語は、“veal”と“feel”等である。また、例えば鼻音性という子音の特徴を有する単語は、“moot”と“boot”等である。また、例えば継続性という子音の特徴を有する単語は、“sheet”と“cheat”等である。また、例えば不規則性という子音の特徴を有する単語は、“sing”と“thing”等である。また、例えば抑音性という子音の特徴を有する単語は、“weed”と“reed”等である。また、例えば集中性という子音の特徴を有する単語は、“key”と“tea”等である。
 上記実施の形態では、プロセッサ12は、発話機器2が複数台存在する場合、複数台の発話機器2のうち、あらかじめ定められた発話機器2に人の音声を出力させることを決定しているが、これに限られない。例えば、複数台の発話機器2が置かれる環境に、ユーザの位置を取得可能な検知機器が備えられている場合、プロセッサ12は、ユーザの位置に基づいて人の音声を出力させる発話機器2を決定してもよい。
 例えば、複数台の発話機器2が置かれる環境に1以上の人感センサが設置されており、かつ、プロセッサ12の有するメモリに、人感センサの周囲に存在する発話機器2を示す情報が人感センサごとに記憶されていることとする。この場合、プロセッサ12は、通信I/F11(入力I/F11A)を介して1以上の人感センサから検知結果を取得し、ユーザが存在することを示す人感センサに対応する発話機器2に人の音声を出力させることを決定してもよい。
 上記実施の形態では、サーバ1の通信I/F11は、入力I/F11Aと、出力I/F11Bと、の両方を兼ねているが、これに限られない。例えば、入力I/F11Aと、出力I/F11Bとは、互いに異なるインタフェースであってもよい。
 また、上記実施の形態において、音声処理システム10は、単一の装置によって実現されたが、複数の装置として実現されてもよい。音声処理システム10が複数の装置によって実現される場合、音声処理システム10が備える機能的な構成要素は、複数の装置にどのように振り分けられてもよい。例えば、音声処理システム10は、複数のサーバに分散して実現されてもよい。また、例えば、音声処理システム10は、サーバと、発話機器とに分散して実現されてもよい。また、例えば、音声処理システム10は、発話機器のみで実現されてもよい。
 また、上記実施の形態における装置間の通信方法については特に限定されるものではない。上記実施の形態において2つの装置が通信を行う場合、2つの装置間には図示されない中継装置が介在してもよい。
 また、上記実施の形態で説明された処理の順序は、一例である。複数の処理の順序は変更されてもよいし、複数の処理は並行して実行されてもよい。また、特定の処理部が実行する処理を別の処理部が実行してもよい。また、上記実施の形態で説明されたデジタル信号処理の一部がアナログ信号処理によって実現されてもよい。
 また、上記実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサ等のプログラム実行部が、ハードディスク又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
 また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROM等の記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。例えば、本開示は、コンピュータが実行する音声処理方法として実行されてもよいし、このような音声処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。また、本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。なお、ここでのプログラムには、汎用の情報端末を上記実施の形態の音声処理システムとして機能させるためのアプリケーションプログラムが含まれる。
 その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
 (まとめ)
 以上述べたように、第1の態様に係る音声処理方法では、情報元機器3又は情報元サービス4からイベントに関するイベント情報を取得し(S1)、取得したイベント情報に基づいて発話機器2に発声させる文字列を決定し(S4)、決定した文字列を1以上の副文字列に区切り(S5)、文字列から音声信号を生成し(S7)、生成した音声信号において、子音の特徴に応じた第1フィルタを副文字列ごとに適用するフィルタ処理を実行することで音声信号を補正し(S6,S8)、補正した音声信号を出力する(S11)。
 これによれば、発話機器2が備えるスピーカ24の性能に依らず、ユーザが人の音声を聴き取りやすくなる、という利点がある。
 また、第2の態様に係る音声処理方法では、第1の態様において、文字列は、音節に基づいて1以上の副文字列に区切られる。
 これによれば、人の音声の了解度を確保しつつ、文字列を1文字ずつ区切る場合と比較して音声信号を補正する処理の負荷を低減することができる、という利点がある。
 また、第3の態様に係る音声処理方法では、第1又は第2の態様において、フィルタ処理において、発話機器2の種類に応じた第2フィルタを音声信号に更に適用する(S9)。
 これによれば、発話機器2の出力する人の音声が、発話機器2の特性に応じて補正されるため、ユーザは、発話機器2が出力する人の音声を更に聴き取りやすくなる、という利点がある。
 また、第4の態様に係る音声処理方法では、第1~第3のいずれか1つの態様において、発話機器2の周辺の音声を収音して得られる収音情報を取得し(S3)、フィルタ処理において、前記収音情報に応じた第3フィルタを前記音声信号に更に適用する(S10)。
 これによれば、発話機器2の出力する人の音声が、発話機器2の周辺の音声に埋もれないように補正されるため、ユーザは、発話機器2が出力する人の音声を更に聴き取りやすくなる、という利点がある。
 また、第5の態様に係るプログラムは、1以上のプロセッサに、第1~第4のいずれか1つの態様の音声処理方法を実行させる。
 これによれば、発話機器2が備えるスピーカ24の性能に依らず、ユーザが人の音声を聴き取りやすくなる、という利点がある。
 また、第6の態様に係る音声処理システム10は、音声信号を補正するプロセッサ12と、補正した音声信号を出力する出力I/F11Bと、を備える。プロセッサ12は、信号処理回路の一例である。プロセッサ12は、取得したイベント情報に基づいて発話機器2に発声させる文字列を決定し、決定した文字列を1以上の副文字列に区切り、文字列から音声信号を生成し、生成した音声信号において、子音の特徴に応じた第1フィルタを副文字列ごとに適用するフィルタ処理を実行することで音声信号を補正する。
 これによれば、発話機器2が備えるスピーカ24の性能に依らず、ユーザが人の音声を聴き取りやすくなる、という利点がある。
 本開示の音声処理方法は、スピーカに再生させるための人の音声を処理するシステム等に適用可能である。
 1 サーバ
 10 音声処理システム
 11 通信I/F
 11A 入力I/F
 11B 出力I/F
 12 プロセッサ
 13 メモリ
 14 記憶装置
 2 発話機器
 21 通信I/F
 22 プロセッサ
 23 メモリ
 24 スピーカ
 25 マイクロホン
 3 情報元機器
 4 情報元サービス
 N1 ネットワーク

Claims (6)

  1.  情報元機器又は情報元サービスからイベントに関するイベント情報を取得し、
     取得した前記イベント情報に基づいて発話機器に発声させる文字列を決定し、
     決定した前記文字列を1以上の副文字列に区切り、
     前記文字列から音声信号を生成し、
     生成した前記音声信号において、子音の特徴に応じた第1フィルタを前記副文字列ごとに適用するフィルタ処理を実行することで前記音声信号を補正し、
     補正した前記音声信号を出力する、
     音声処理方法。
  2.  前記文字列は、音節に基づいて前記1以上の副文字列に区切られる、
     請求項1に記載の音声処理方法。
  3.  前記フィルタ処理において、前記発話機器の種類に応じた第2フィルタを前記音声信号に更に適用する、
     請求項1又は2に記載の音声処理方法。
  4.  前記発話機器の周辺の音声を収音して得られる収音情報を取得し、
     前記フィルタ処理において、前記収音情報に応じた第3フィルタを前記音声信号に更に適用する、
     請求項1又は2に記載の音声処理方法。
  5.  1以上のプロセッサに、
     請求項1又は2に記載の音声処理方法を実行させる、
     プログラム。
  6.  情報元機器又は情報元サービスからイベントに関するイベント情報を取得する入力インタフェースと、
     音声信号を補正する信号処理回路と、
     補正した前記音声信号を出力する出力インタフェースと、を備え、
     前記信号処理回路は、
     取得した前記イベント情報に基づいて発話機器に発声させる文字列を決定し、
     決定した前記文字列を1以上の副文字列に区切り、
     前記文字列から音声信号を生成し、
     生成した前記音声信号において、子音の特徴に応じた第1フィルタを前記副文字列ごとに適用するフィルタ処理を実行することで前記音声信号を補正する、
     音声処理システム。
PCT/JP2022/044929 2022-07-26 2022-12-06 音声処理方法、プログラム、及び音声処理システム WO2024024122A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-118515 2022-07-26
JP2022118515 2022-07-26

Publications (1)

Publication Number Publication Date
WO2024024122A1 true WO2024024122A1 (ja) 2024-02-01

Family

ID=89705961

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/044929 WO2024024122A1 (ja) 2022-07-26 2022-12-06 音声処理方法、プログラム、及び音声処理システム

Country Status (1)

Country Link
WO (1) WO2024024122A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58111991A (ja) * 1981-12-25 1983-07-04 株式会社東芝 音声再生装置
JP2002196779A (ja) * 2000-11-06 2002-07-12 Nokia Mobile Phones Ltd 音声信号の楽音変更のための方法と装置
JP2007219188A (ja) * 2006-02-17 2007-08-30 Kyushu Univ 子音加工装置、音声情報伝達装置及び子音加工方法
JP2008085520A (ja) * 2006-09-27 2008-04-10 Kyushu Univ 放送装置
JP2014232245A (ja) * 2013-05-30 2014-12-11 日本電信電話株式会社 音声明瞭化装置、方法及びプログラム
JP2020010149A (ja) * 2018-07-06 2020-01-16 カシオ計算機株式会社 音声信号処理装置、音声信号処理方法、および補聴器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58111991A (ja) * 1981-12-25 1983-07-04 株式会社東芝 音声再生装置
JP2002196779A (ja) * 2000-11-06 2002-07-12 Nokia Mobile Phones Ltd 音声信号の楽音変更のための方法と装置
JP2007219188A (ja) * 2006-02-17 2007-08-30 Kyushu Univ 子音加工装置、音声情報伝達装置及び子音加工方法
JP2008085520A (ja) * 2006-09-27 2008-04-10 Kyushu Univ 放送装置
JP2014232245A (ja) * 2013-05-30 2014-12-11 日本電信電話株式会社 音声明瞭化装置、方法及びプログラム
JP2020010149A (ja) * 2018-07-06 2020-01-16 カシオ計算機株式会社 音声信号処理装置、音声信号処理方法、および補聴器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KAZUHIRO KONDO, SEIJI NAKAGAWA: "Basic study of new Japanese language intelligibility test method", IEICE TECHNICAL REPORT, SP, vol. 100, no. 240 (SP2000-37), 1 July 2000 (2000-07-01), pages 39 - 46, XP009552262 *

Similar Documents

Publication Publication Date Title
US8140326B2 (en) Systems and methods for reducing speech intelligibility while preserving environmental sounds
Darwin Listening to speech in the presence of other sounds
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
Heldner On the reliability of overall intensity and spectral emphasis as acoustic correlates of focal accents in Swedish
Liu et al. Bone-conducted speech enhancement using deep denoising autoencoder
CN107112026A (zh) 用于智能语音识别和处理的系统、方法和装置
Gordon-Salant et al. Recognition of time-compressed speech does not predict recognition of natural fast-rate speech by older listeners
Hsu et al. Acoustic and perceptual speech characteristics of native Mandarin speakers with Parkinson's disease
WO2019087757A1 (ja) 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム
Bottalico et al. Teachers' voicing and silence periods during continuous speech in classrooms with different reverberation times
Feng et al. Sine-wave speech recognition in a tonal language
Roberts et al. The perceptual organization of sine-wave speech under competitive conditions
US11501758B2 (en) Environment aware voice-assistant devices, and related systems and methods
JP5115818B2 (ja) 音声信号強調装置
Fogerty et al. The effect of simulated room acoustic parameters on the intelligibility and perceived reverberation of monosyllabic words and sentences
Braza et al. Effect of masker head orientation, listener age, and extended high-frequency sensitivity on speech recognition in spatially separated speech
US9058820B1 (en) Identifying speech portions of a sound model using various statistics thereof
Fukumori et al. Optical laser microphone for human-robot interaction: speech recognition in extremely noisy service environments
Micheyl et al. Comparing models of the combined-stimulation advantage for speech recognition
Ngo et al. Increasing speech intelligibility and naturalness in noise based on concepts of modulation spectrum and modulation transfer function
WO2024024122A1 (ja) 音声処理方法、プログラム、及び音声処理システム
JP2007187748A (ja) 音選択加工装置
Noh et al. How does speaking clearly influence acoustic measures? A speech clarity study using long-term average speech spectra in Korean language
Yuan et al. Cantonese tone recognition with enhanced temporal periodicity cues
JP7373739B2 (ja) 音声テキスト変換システムおよび音声テキスト変換装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22953210

Country of ref document: EP

Kind code of ref document: A1