WO2007148493A1 - 感情認識装置 - Google Patents

感情認識装置 Download PDF

Info

Publication number
WO2007148493A1
WO2007148493A1 PCT/JP2007/060329 JP2007060329W WO2007148493A1 WO 2007148493 A1 WO2007148493 A1 WO 2007148493A1 JP 2007060329 W JP2007060329 W JP 2007060329W WO 2007148493 A1 WO2007148493 A1 WO 2007148493A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
characteristic
phoneme
timbre
speech
Prior art date
Application number
PCT/JP2007/060329
Other languages
English (en)
French (fr)
Inventor
Yumiko Kato
Takahiro Kamai
Yoshihisa Nakatoh
Yoshifumi Hirose
Original Assignee
Panasonic Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corporation filed Critical Panasonic Corporation
Priority to US11/997,458 priority Critical patent/US8204747B2/en
Priority to JP2007541566A priority patent/JP4085130B2/ja
Priority to CN2007800009004A priority patent/CN101346758B/zh
Publication of WO2007148493A1 publication Critical patent/WO2007148493A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present invention relates to an emotion recognition device that recognizes the emotion of a speaker by voice. More specifically, by recognizing that a characteristic timbre was produced in the spoken voice due to the tension and relaxation of the vocal organs that change from moment to moment depending on the emotion, facial expression, attitude, or speech style of the speaker. It relates to a voice emotion recognition device that recognizes the emotion of a speaker.
  • a conversation system with an interface by voice dialogue such as an automatic telephone answering, electronic secretary, dialogue robot, etc.
  • voice dialogue such as an automatic telephone answering, electronic secretary, dialogue robot, etc.
  • the voice power uttered by the user also affects the user's emotions. Understanding is an important requirement. For example, when the above-mentioned automatic telephone support or dialogue robot interacts with the user by voice, the voice recognition of the dialogue system does not always recognize voice accurately. If the dialog system misrecognizes, the dialog system prompts the user again for voice input. In such a situation, the user gets a little angry or frustrated. This is especially true when misrecognitions overlap.
  • prosodic features such as voice pitch (fundamental frequency), loudness (power), speech rate, etc. are extracted from the speech uttered by the speaker and input.
  • a method of recognizing emotions based on judgments such as “voice is high” and “voice is loud” has been proposed (for example, see Patent Document 1 and Patent Document 2).
  • a method for determining “high, energy in frequency domain is large” t for the entire input speech has been proposed.
  • a method for recognizing emotions by obtaining statistical representative values such as the average, maximum value, and minimum value from the sequence of voice power and fundamental frequency has been proposed (see, for example, Patent Document 3).
  • a method of recognizing emotions using prosodic time patterns such as sentence and word intonations and accents (see, for example, Patent Document 4 and Patent Document 5) has been proposed.
  • FIG. 20 shows a conventional emotion recognition apparatus using voice described in Patent Document 1.
  • FIG. 20 shows a conventional emotion recognition apparatus using voice described in Patent Document 1.
  • the microphone 1 converts input sound into an electrical signal.
  • the voice code recognition unit 2 performs voice recognition of the voice input from the microphone 1 and outputs the recognition result to the sensibility information extraction unit 3 and the output control unit 4.
  • the speech speed detection unit 31, the fundamental frequency detection unit 32, and the volume detection unit 33 of the sensibility information extraction unit 3 each have a speech speed, a fundamental frequency, and a volume from the voice input from the microphone 1. Extract.
  • the sound level determination criterion storage unit 34 stores a reference for determining the sound level by comparing the speech speed, fundamental frequency, and volume of the input speech with the standard speech speed, fundamental frequency, and volume, respectively. Has been.
  • the standard audio feature quantity storage unit 35 stores standard utterance speed, fundamental frequency, and volume that are used as a reference when determining the audio level.
  • the voice level analysis unit 36 determines a voice level, that is, a speech speed level, a basic frequency level, and a volume level, based on the ratio between the input voice feature quantity and the standard voice feature quantity.
  • the sensitivity level analysis knowledge base storage unit 37 stores rules for determining the sensitivity level based on various audio levels determined by the audio level analysis unit 36. Sensitivity The level analysis unit 38 uses the output from the voice level analysis unit 36 and the output from the voice code recognition means 2 based on the rules stored in the sensitivity level analysis knowledge base storage unit 37 to determine the sensitivity level, that is, the sensitivity level. Determine type and level.
  • the output control means 4 controls the output device 5 according to the sensitivity level output by the sensitivity level analysis unit 38, and generates an output corresponding to the sensitivity level of the input voice.
  • the information used to determine the voice level here is the prosody obtained in units of speech speed, average fundamental frequency, speech, sentence or phrase expressed in how many mora spoke per second. Information.
  • prosodic information is also used to transmit linguistic information, and the method of transmitting the linguistic information is different for each language type.
  • linguistic information such as “Hashi” and “Chopsticks”, that have different meanings depending on the accent created by the basic frequency.
  • characters In Chinese, it is known that even the same sound shows completely different meanings (characters) due to the movement of the fundamental frequency called four voices.
  • the accent In English, the accent is expressed by the strength of the voice, which is called stress rather than the fundamental frequency. The position of the stress is based on the meaning of the word or phrase and the hand that distinguishes the part of speech.
  • Patent Document 1 JP-A-9 22296 (Pages 6-9, Table 15 and Fig. 2)
  • Patent Document 2 Japanese Patent Laid-Open No. 2001-83984 (Pages 4-5, Fig. 4)
  • Patent Document 3 Japanese Patent Laid-Open No. 2003-99084
  • Patent Document 4 Japanese Unexamined Patent Publication No. 2005-39501 (Page 12)
  • Patent Document 5 Japanese Unexamined Patent Application Publication No. 2005-283647
  • emotion recognition based on prosody is used for expressing language information in prosodic information for each language, and in order to separate fluctuations from fluctuations as emotional expressions, Audio data, analysis processing and statistical processing are required. Even in the same language, even if the voice is from the same speaker, which varies greatly depending on local differences and individual ages, it varies greatly depending on physical condition. For this reason, when there is no standard data for each user, it is difficult to always generate stable results for unspecified number of voices with prominent emotional expressions with large regional and individual differences.
  • the method of preparing standard data for each individual cannot be adopted for a guidance system in a public place such as a call center or a station that is assumed to be used by an unspecified number of people. This is because standard data for each speaker cannot be prepared.
  • prosodic data analyzes the number of mora per second, statistical representative values such as average and dynamic range, or time patterns, etc., as a whole length of speech such as utterances, sentences, and phrases. There is a need to. For this reason, when the characteristics of speech changes in a short time, it is difficult to follow the analysis, and there is a problem that emotion recognition by speech cannot be performed with high accuracy.
  • the present invention solves the above-described conventional problems, and can detect emotions in a short unit called a phoneme unit, and has a characteristic timbre with relatively few individual differences, language differences, and local differences,
  • the purpose is to provide a voice emotion recognition device that performs high-precision emotion recognition using the relationship with the emotions of the elderly.
  • An emotion recognition apparatus is an emotion recognition apparatus that recognizes an emotion of a speaker of an input voice from an input voice, and is a characteristic timbre related to a specific emotion from the input voice. Based on the characteristic timbre detected by the characteristic timbre means, voice recognition means for recognizing the type of phoneme included in the input speech, and recognized by the voice recognition means Based on the type of phoneme, the characteristic timbre Based on a characteristic timbre generation index calculation means for calculating, for each phoneme, a characteristic timbre generation index indicating the ease with which the voice is uttered, and a rule in which the emotion becomes stronger as the characteristic timbre index is smaller Emotion determination means for determining a speaker's emotion of the input speech in the phonology in which the characteristic timbre is generated from the characteristic timbre generation index calculated by the timbre generation index calculation means.
  • the generation mechanism of the physical characteristics of speech is that the lips and tongue are easily pressed due to the action of opening and closing the vocal tract with the lips, tongue, and palate like a plosive. , And tsuta, which are determined by the physiological causes of the vocal organs. For this reason, the vocal organs become tense or relaxed depending on the speaker's emotions or speech attitudes. Characteristic timbre can be detected. Based on the detection results of this characteristic timbre, it is possible to recognize speaker emotions that are unaffected by differences in language types, individual differences due to speaker characteristics, and regional differences in phonological units.
  • the emotion recognition apparatus described above further determines the emotion intensity in the phoneme in which the characteristic tone color is generated based on a calculation rule in which the emotion intensity increases as the characteristic tone generation index decreases.
  • Emotion intensity discrimination means for discrimination is provided.
  • the emotion intensity determining means is characterized in that the characteristic timbre generation index for each phoneme calculated by the characteristic timbre generation index calculation means and the time during which the characteristic timbre detected by the characteristic timbre detection means is generated.
  • the emotional intensity in the phoneme in which the characteristic tone color is generated is determined based on a calculation rule in which the emotional intensity increases as the characteristic tone color generation index decreases.
  • the emotion recognition apparatus further includes an acoustic feature amount database storing an acoustic feature amount for each phoneme type, and a language feature amount representing a word dictionary having at least a reading or a phonetic symbol.
  • a language feature database including the speech recognition means For a word in which the characteristic timbre has been detected, by reducing the weight of the acoustic feature amount included in the acoustic feature amount database and increasing the weight of the language feature amount included in the language feature amount database, Based on the acoustic feature database and the language feature database, the type of phoneme included in the input speech is recognized.
  • the present invention is realized as an emotion recognition method using characteristic means included in an emotion recognition apparatus as a step which can be realized as an emotion recognition apparatus having such characteristic means as much as possible. It can also be realized as a program that causes a computer to execute the characteristic steps included in the emotion recognition method. Needless to say, such a program can be distributed via a recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet.
  • a recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet.
  • an average utterance (a normal utterance was made) caused by the vocal organs becoming tense or relaxed depending on the emotion or speech attitude of the speaker.
  • Utterances that deviate from utterances i.e. average utterances in certain acoustic characteristics, such as back voices, strong voices or breathy voices that are observed in phonological units throughout the speech
  • this characteristic timbre detection result it is possible to recognize the emotions of speakers that are not affected by individual differences and local differences due to language types and speaker characteristics. Can follow the change of emotions.
  • Fig. 1A shows the frequency of mora uttered with "powerful” sound or “harsh voice” in the voice with the emotional expression of "strong anger” for speaker 1 Is a graph showing for each consonant in the mora.
  • Fig. 1B shows the frequency of mora uttered by “powerful” sound or “harsh voice” in the voice accompanied by emotional expression of “strong anger” for speaker 2 Child It is the graph shown for every sound.
  • Figure 1C shows the frequency of mora uttered with “harsh voice” for speaker 1 with a “powerful” sound in the voice accompanied by a “medium anger” emotional expression. Is a graph showing for each consonant in the mora.
  • Figure 1D shows Mora's voice uttered with "harsh voice” for speaker 2, with a "powerful” sound in the voice accompanied by a “medium anger” emotional expression It is a graph showing the frequency for each consonant in the mora.
  • FIG. 2A is a graph showing the frequency of occurrence of the characteristic timbre “blur” in the recorded voice according to the phoneme type of speaker 1 for speaker 1.
  • FIG. 2B is a graph showing the frequency of occurrence of the characteristic timbre “blur” in the recorded voice according to the phoneme type of the voice for speaker 2.
  • FIG. 3A is a diagram showing a comparison between the occurrence position of the voice of the characteristic timbre observed in the recorded voice and the time position of the voice of the estimated characteristic timbre.
  • FIG. 3B is a diagram showing a comparison between the occurrence position of the voice of the characteristic timbre observed in the recorded voice and the time position of the voice of the estimated characteristic timbre.
  • FIG. 4 is a block diagram of a voice emotion recognition apparatus in Embodiment 1 of the present invention.
  • FIG. 5 is a flowchart showing the operation of the voice emotion recognition apparatus according to Embodiment 1 of the present invention.
  • Fig. 6 is a diagram showing an example of a rule for calculating a characteristic tone color generation index in the first embodiment of the present invention.
  • FIG. 7 is a diagram showing an example of emotion type determination rules according to the first embodiment of the present invention.
  • FIG. 8 is a diagram showing an example of emotion strength calculation rules in the first embodiment of the present invention.
  • Figure 9 shows the relationship between the frequency of mora with “force” and the frequency of mora without “force” and the value of the index, and the strength (weakness) of emotion and the value of the index.
  • FIG. 10 is a voice emotion recognition apparatus according to a modification of the first embodiment of the present invention.
  • FIG. 11 is a flowchart showing an operation of the emotion recognition apparatus by voice in the modification of the first embodiment of the present invention.
  • FIG. 12 is a diagram showing a comparison between the occurrence position of the characteristic timbre sound observed in the recorded sound and the occurrence of the characteristic timbre.
  • FIG. 13 is a diagram showing an example of emotion type determination rules in a modification of the first embodiment of the present invention.
  • FIG. 14 is a block diagram of a voice emotion recognition apparatus according to Embodiment 2 of the present invention.
  • FIG. 15 is a flowchart showing the operation of the emotion recognition apparatus using voice according to the second embodiment of the present invention.
  • FIG. 16A is a diagram showing a specific example of the speech recognition processing in the second exemplary embodiment of the present invention.
  • FIG. 16B is a diagram showing a specific example of the speech recognition processing in the second exemplary embodiment of the present invention.
  • FIG. 16C is a diagram showing a specific example of the speech recognition processing in the second exemplary embodiment of the present invention.
  • FIG. 17 is a functional block diagram of the emotion recognition apparatus using speech in the third embodiment of the present invention.
  • FIG. 18 is a flowchart showing the operation of the emotion recognition apparatus in the third embodiment.
  • FIG. 19 is a diagram showing an example of a phoneme input method according to the third embodiment.
  • FIG. 20 is a block diagram of a conventional emotion recognition apparatus using voice.
  • Characteristic tone generation index calculation rule storage unit 1 Characteristic tone generation index calculation unit
  • Figure 1A shows the frequency of mora uttered for speaker 1 with “powerful” sound or “harsh voice” in the voice with emotional expression of “strong anger”. It is a graph shown for each consonant.
  • Figure 1B shows the frequency of mora uttered with “powerful” sound or “harsh voice” in the voice with emotional expression of “strong anger” for speaker 2 for each consonant in mora. It is the shown graph.
  • Fig. 1C and Fig. 1D show the "powerful” sound in the voice with the expression of "medium anger” for the same speaker as in Fig. 1A and Fig. 1B, respectively.
  • the graphs in Fig. 1A and Fig. 1B show that the conditions for the occurrence of "force” appearing in the voice of the emotion of "anger” are common to speakers. Show.
  • the power of “force” in the two speakers shown in Fig. 1A and Fig. IB is biased in the same tendency depending on the type of consonant of the mora.
  • the probability of being uttered with “powerful” sound differs depending on the type of phoneme, and is uttered with “powerful” sound. If the probabilities are lower and utterances of “powerful” sounds are detected in the types of phonemes, it can be estimated that the degree of emotion of “anger” is large.
  • FIG. 1A and FIG. 1C showing the appearance frequency of the characteristic tone color “strength” for speaker 1 who is the same person are compared.
  • the medium anger expression shown in Figure 1C does not produce a “powerful” sound, but the strong and angry expression shown in Figure 1A Some of them produce “powered” sounds.
  • the medium anger expression shown in Figure 1C is less likely to generate a ⁇ powered '' sound, but the strong and angry expression shown in Figure 1A is ⁇ Some increase the frequency of “powerful” sounds. In this way, it can be seen that if the intensity of anger increases, a “powered” sound will be generated even if the phoneme is supposed to be hard to work.
  • the phonological bias of the probability of being uttered with “powerful” sounds is common to the speakers.
  • Fig. 2A and Fig. 2B are "breathing” sounds in voice accompanied by emotional expression of “cheerful power", that is, “smell”, "soft voice” 5 is a graph showing the frequency of mora uttered in each for each consonant in the mora.
  • Fig. 2A shows speaker 1
  • Fig. 2B shows speaker 2's “breathing” sound in the voice with the expression of cheerful power, that is, “blurred” or "soft!
  • the frequency of occurrence of characteristic tones varies depending on the type of consonant of the mora. For each speaker shown in the graphs of Fig. 2A and Fig.
  • the occurrence probability bias due to phoneme and the speaker commonality of the bias are also seen in "back voice” and "turn over” sounds in addition to “powerful” sounds and “blurred” sounds.
  • Voices uttered by utterances that deviate from the average utterance such as normal utterances
  • the values are different from the voices uttered by the average utterance mode.
  • a specific acoustic characteristic value may be distributed at a position that is statistically separated from the distribution position of many voices. Such distributions are observed in specific utterance styles or emotional expressions. For example, in the case of “breathing” acoustic characteristic values, it is possible to confirm a tendency to belong to a voice expressing familiarity. In turn, by extracting “powerful” sounds in input speech, “breathing” sounds as described in Japanese Patent Laid-Open No.
  • FIGS. 3A and 3B show the input “10” shown in FIG. 3A using the estimation formula created from the same data as FIGS. 1A to 1D, using one of the statistical learning methods.
  • It takes about a minute (it will be as powerful as possible) '' and the input ⁇ Warmed (warmed) '' shown in Fig. 3B, each mora is uttered with a ⁇ powered '' sound ⁇ Ease of power ''
  • FIG. 3A shows a “powered” sound only with a high probability mora, indicating a small “anger”.
  • “Atama” has a high or medium probability of occurrence of “strength”.
  • the probability of “anger” is low It shows that it is big.
  • information indicating the phoneme type such as the types of consonants and vowels contained in the mora, or the phoneme category, information on the mora position in the accent phrase, and information on the preceding and following phonemes And are independent variables.
  • the binary value of whether or not a “powerful” sound or “harsh voice” is generated is used as a dependent variable.
  • This example shows the result of creating an estimation formula based on these independent variables and dependent variables, using quantity ⁇ II, and dividing the probability of occurrence into three stages: low, medium, and high.
  • This example shows that the degree of emotion or speech attitude of a speaker can be determined by obtaining the probability of occurrence of characteristic timbre for each mora of the input speech using the speech recognition result.
  • FIG. 4 is a functional block diagram of the emotion recognition apparatus using voice according to Embodiment 1 of the present invention.
  • FIG. 5 is a flowchart showing the operation of the emotion recognition apparatus in the first embodiment.
  • FIG. 6 is an example of calculation rules stored in the characteristic tone generation index calculation rule storage unit 110
  • FIG. 7 is an example of determination criteria stored in the emotion type determination criterion storage unit 112
  • FIG. This is an example of emotion intensity calculation rules stored in the intensity calculation rule storage unit 114.
  • an emotion recognition device is a device for recognizing emotions from speech.
  • Microphone 1 speech recognition feature quantity extraction unit 101, inverse filter 102, periodicity analysis unit 103, A timbre detection unit 104, a feature quantity database 105, a speech recognition unit 106, a switch 107, a characteristic timbre generation phoneme identification unit 108, a prosody information extraction unit 109, and a characteristic timbre generation index calculation rule storage unit 110
  • the microphone 1 is a processing unit that converts input sound into an electrical signal.
  • the feature amount extraction unit 101 for speech recognition is a processing unit that analyzes input speech and extracts a parameter representing a spectral envelope, for example, a mel cepstrum coefficient.
  • the inverse filter 102 is an inverse filter of the spectrum envelope information output from the speech recognition feature quantity extraction unit 101, and is a processing unit that outputs the sound source waveform of the audio input from the microphone 1.
  • the periodicity analysis unit 103 is a processing unit that analyzes the periodicity of the sound source waveform output from the inverse filter 102 and extracts sound source information.
  • the characteristic timbre detection unit 104 is characterized by features such as “powerful” voice, “back voice”, and “breathing” (blurred) voice that appear in the uttered voice depending on the emotion and speech attitude of the speaker.
  • This is a processing unit that detects a timbre from sound source information output by the periodicity analysis unit 103 using physical characteristics such as amplitude fluctuation of the sound source waveform and periodic fluctuation of the sound source waveform.
  • the feature quantity database 105 is a storage device that holds a feature quantity for each phoneme type for speech recognition.
  • the feature quantity database 105 holds data expressing a distribution of feature quantities for each phoneme as a probability model.
  • the feature database 105 is composed of a feature database created from speech data in which no characteristic timbre is found in speech and a feature database created from speech data in which a specific feature timbre is seen. Has been.
  • voice data with no characteristic timbre can be created using a database with characteristic data 105a without characteristic timbre, and voice data with a characteristic timbre of a “strong” voice can also be created.
  • Volume database with feature database 105b voice data with distinctive timbre of “breathing” (faint) voice feature database created with blurring feature database 105c, A feature database created from speech data in which both the characteristic tone of the "powerful” voice and the characteristic tone of the "breathing” (smear) voice were seen. It is configured as a quantity database 105d.
  • the speech recognition unit 106 refers to the feature amount database 105, performs matching between the feature amount output by the feature amount extraction unit 101 for speech recognition and the feature amount stored in the feature amount database 105, and performs speech recognition. Is a processing unit.
  • the switch 107 indicates whether or not the sound source waveform detected by the characteristic timbre detection unit 104 is fluctuated.
  • the voice recognition unit 106 switches whether to refer to the database of the V deviation that constitutes the feature amount database 105 according to the type of fluctuation.
  • the characteristic timbre generation phoneme identification unit 108 uses the phonological sequence information output from the speech recognition unit 106 and the time position information of the characteristic timbre in the input speech output from the characteristic timbre detection unit 104 to input speech. It is a processing unit that identifies which phoneme in which a characteristic timbre has occurred.
  • the prosodic information extraction unit 109 is a processing unit that extracts the fundamental frequency and power of speech from the sound source waveform output from the inverse filter 102.
  • the characteristic tone generation index calculation rule storage unit 110 uses an index of the likelihood of generating a characteristic tone for each phoneme as an attribute of the phoneme (for example, consonant type, vowel type, accent phrase or stress phrase). This is a storage device that stores rules for determining the position from the relationship between the position and the accent or stress position, the absolute value of the fundamental frequency, or the slope.
  • the characteristic timbre generation index calculation unit 111 calculates the characteristic timbre generation index from the phonological sequence information generated by the speech recognition unit 106 and the prosody information output from the prosody information extraction unit 109, that is, the fundamental frequency and power.
  • a processing unit that refers to the rule storage unit 110 and calculates a characteristic tone generation index for each phoneme of the input speech.
  • the emotion type determination criterion storage unit 112 is a storage device that stores a criterion for determining an emotion type based on a combination of a characteristic tone color type and a characteristic tone color generation index of the mora and the adjacent mora.
  • the emotion type determination unit 113 refers to the criteria of the emotion type determination criterion storage unit 112 based on the characteristic tone generation position information generated by the characteristic tone generation phoneme specification unit 108, It is a processing unit that determines the type of emotion.
  • the emotion intensity calculation rule storage unit 114 is a storage device that stores a rule for calculating the degree of emotion or speech attitude from the characteristic tone generation index and the characteristic tone generation position information of the input voice. .
  • the emotion intensity calculation unit 115 includes information on the phonemes in which the characteristic timbre is generated in the input speech generated by the characteristic timbre generation phoneme identification unit 108 and the phonology calculated by the characteristic timbre generation index calculation unit 111.
  • a processing unit that outputs the degree of emotion or utterance attitude, emotion type, and phonological sequence with reference to the emotion intensity calculation rule storage unit 114 from the characteristic tone generation index for each is there.
  • the display unit 116 is a display device that displays the output of the emotion strength calculation unit 115.
  • step S1001 sound is input from the microphone 1 (step S1001).
  • the voice recognition feature quantity extraction unit 101 analyzes the input voice and extracts a mel cepstrum coefficient as an acoustic feature quantity for voice recognition (step S1002).
  • the inverse filter 102 sets parameters so as to be an inverse filter of the mel cepstrum coefficient generated in step S1002, and passes the audio signal input from the microphone in step S1001, and extracts the sound source waveform. (Step S1003).
  • the periodicity analysis unit 103 uses the periodicity of the sound source waveform extracted in step S1003 to obtain a cut-off characteristic in which the low frequency side is gentle and the high frequency side is steep as in the technique described in Japanese Patent Laid-Open No. 10-197575, for example.
  • the magnitude of amplitude modulation, the magnitude of frequency modulation, and the strength of the fundamental wave of the filter output are calculated, and the time domain of the periodic signal in the input speech is output as the periodic signal section (step S1004).
  • the characteristic timbre detection unit 104 detects the fundamental frequency fluctuation (jitter) of the sound source waveform among the fluctuations of the sound source waveform for the periodic signal section extracted by the periodicity analysis unit 103 in step S1004. Detects fluctuations in the high frequency component of the sound source waveform (step S1005).
  • the fundamental frequency fluctuation is detected by using an instantaneous frequency obtained by the method disclosed in, for example, Japanese Patent Laid-Open No. 10-19757.
  • the fluctuation of the high frequency component of the sound source waveform is determined by, for example, the amplitude of the peak-to-peak peak of the sound source waveform, the minimum value of the differential amplitude of the sound source waveform (maximum negative) as in the technique described in Japanese Patent Application Laid-Open No. 2004-279436.
  • the value divided by (peak) is detected by a method using a normalized amplitude index normalized by the fundamental frequency.
  • step S1006 In other words, when frequency fluctuation of the sound source waveform is detected in step S1005, the feature database 1 with “force” is included in the feature database 105. 05b and voice recognition unit 106 are connected by switch 107.
  • step S1005 if a fluctuation of the high frequency component of the sound source waveform, that is, a breathing (faint) component, is detected, the feature database 105c and the speech recognition unit 106 are switched from the feature database 105. Connect with 107. If both the frequency fluctuation of the sound source waveform and the fluctuation of the high frequency component of the sound source waveform are detected in step S1005, among the feature value database 105, the feature value database 105d and the voice recognition unit 106 and are connected by switch 107. In step S1005, if neither the frequency fluctuation of the sound source waveform nor the fluctuation of the high frequency component of the sound source waveform is detected, the feature quantity database 105a of the feature quantity database 105 and the voice recognition are recognized. Connect parts 106 and via switch 107.
  • the speech recognition unit 106 refers to the feature amount database connected by the switch 107 in step S1006 in the feature amount database 105, performs speech recognition using the mel cepstrum coefficient extracted in step S1002, As a recognition result, a phoneme string is output together with time position information in the input speech (step S1007).
  • the characteristic timbre generation phoneme identification unit 108 includes the time position of the phonological sequence information with time position information output from the speech recognition unit 106 and the time position of the characteristic timbre in the input speech output from the characteristic timbre detection unit 104. Based on the information, the power at which the characteristic timbre occurs in which phoneme in the input speech is specified (step S 1008).
  • the prosodic information extraction unit 109 analyzes the sound source waveform output from the inverse filter 102 and extracts the fundamental frequency and the sound source power (step S 1009).
  • the characteristic tone color generation index calculation unit 111 generates a basic frequency pattern from the phoneme sequence with time position information generated by the speech recognition unit 106 and the basic frequency and sound source power information extracted by the prosody information extraction unit 109. Are matched with the phoneme string to generate accent punctuation and accent information corresponding to the phoneme string (step S1010).
  • the characteristic tone generation index calculation unit 111 stores mora such as consonant, vowel, mora position in accent phrase, relative position of accent nuclear power, etc. stored in the characteristic tone generation index calculation rule storage unit 110. Attribute power A characteristic timbre generation index is calculated for each mora of the phoneme string using a rule for determining the likelihood of generating a characteristic timbre (step S1011). Characteristic sound The rule for calculating the color generation index is, for example, a statistic that treats qualitative data using the attribute of the mora attribute as an explanatory variable and the binary value of whether or not a characteristic timbre has occurred as a dependent variable from audio data containing audio with a characteristic timbre. It is created by performing statistical learning using quantity II, which is one of the statistical methods, and generating a model that can numerically express the likelihood of occurrence of characteristic timbres.
  • the characteristic timbre occurrence index calculation rule storage unit 110 stores the statistical learning result for each type of characteristic timbre as shown in FIG.
  • the characteristic timbre generation index calculation unit 111 applies a statistical model stored in the characteristic timbre generation index calculation rule storage unit 110 according to the attribute of each mora, and calculates a characteristic timbre generation index.
  • the characteristic tone generation index calculation unit 111 calculates the score of the attribute of the first mora “a” as “no consonant”, that is, the score of the consonant.
  • the characteristic tone color generation index calculation unit 111 calculates the characteristic tone color generation index of the first mora “A” by adding these scores.
  • the characteristic tone generation index is calculated as 0.89 for the third mora and 0.908 for the third mora.
  • the emotion type determination unit 113 identifies the characteristic tone generation type in the input speech from the characteristic tone generation position described in the phoneme unit generated by the characteristic tone generation phoneme identification unit 108, for example, FIG.
  • the emotion type in the mora in which the characteristic timbre included in the input voice is generated is identified with reference to the information in the emotion type determination criterion storage unit 112 described as above (step S 1012).
  • the voice of the characteristic tone is strong, only for the mora generated by the characteristic tone, Emotions are judged according to the table in Fig. 7, and emotional changes in units of mora are recognized.
  • Fig. 3 (b) the calculation according to Fig.
  • the input voice “Juppu is as powerful” as shown in Fig. 3A is “Haze”, and “Haze” is uttered, but there is no characteristic tone in the previous mora. And immediately after “Do”, “Strength” is uttered. For this reason, “Ho” is judged by combining the occurrence index of 2.26 of the relevant mora and the occurrence index of “strength” of the immediate mora 0.753, 0.35. According to the table, the input speech is judged to include the emotion of “happy” and “excited” for “ho” and “do”. However, only “power” is detected as the characteristic tone in the part of “Kaka” that follows “So”, and it is determined that it contains the feeling of “anger” according to the table in FIG. You can follow the emotions that fluctuate as you speak.
  • the value of the characteristic tone generation index for each mora calculated in step S 1011 (for example, the first “A” is 1.51 and the next “TA” is 0. 79, the third mora “Ta” is 0.908), while referring to the emotion strength calculation rule stored in the emotion strength calculation rule storage unit 11 4 described in FIG.
  • the occurrence index of “force” is 1.51, which is 0.9 or more, so the ease of “force” is judged as “high”.
  • Fig. 3B when “warm up” of "warmed up” is uttered with "powerful” voice, the ease of "powerfulness” is large. The strength of the emotion of “anger” decreases because of “V” with force.
  • the next “ta” has an occurrence index of “power” of 0.79, medium “anger” with medium “anger”, and the third mora “ta” has an occurrence index of 0.98. Therefore, “strength” is easy and “anger” is low.
  • the display unit 116 displays the mora as the output of the emotion type determination unit 113 calculated in step S1013. Is displayed (step S1014).
  • step S1012 For the input shown in Fig. 3A, in step S1012, "Ho” for "July enough” is based on the occurrence index of 2.26 and the occurrence index of "force” of 0.365. It is determined that it is a “quick excitement”.
  • the occurrence index of “the strength” and the “faint” The value obtained by multiplying it by the occurrence index is 0.8249, and the intensity of “happy” excitement is weak.
  • the “strength” index is 1.553, which is 0.53 of the corresponding mora and half of the next mora, 1.57, and the “blurred” index is the previous mora “H”.
  • the index of 2.26 is half 1.26, and the result of multiplying these is 1.171195, so the intensity of “quickly excited” is weak.
  • the strength indicator is 2.55, which is half the index of the previous mora, half of the indicator of the immediately following mora, and the indicator of the mora, and the strength of “anger” is “weak” Judged.
  • FIG. 6 is a diagram schematically showing the relationship between the value of the index and the index.
  • the index of ease of “strength” obtained for each mora on the horizontal axis is set so that “strength” becomes easier as it goes to the right.
  • the vertical axis indicates the frequency of occurrence of mora with or without “force” in the voice and the “force” probability for each mora.
  • the left axis of the graph shows the frequency of occurrence of mora with or without “force”
  • the right axis of the graph shows the probability of “force” for each mora.
  • the solid line is a function created from actual speech data and shows the relationship between the index value and the frequency of occurrence of mora with “force”.
  • the dotted line is created from actual speech data.
  • this is a function showing the relationship between the index value and the frequency of occurrence of “no force”.
  • the frequency of occurrence of “force” in a mora with a certain index value is obtained, and the “force” occurrence probability is summarized in 100 minutes as the “feeling weakness” shown by the broken line. That's it.
  • the probability of occurrence, or “weakness of emotion” has a characteristic that emotions become stronger when the occurrence index becomes smaller, and emotions become weaker when the occurrence index becomes larger.
  • the emotion intensity range is set from the voice data at the time, and the occurrence index corresponding to the boundary of the set emotion intensity range is obtained from the function, and a table as shown in FIG. 8 is created.
  • the emotion strength calculation rule storage unit 114 shown in FIG. 8 calculates the emotion strength using the table created from the function of “weakness of emotion”, but stores the function shown in FIG. It is also possible to calculate “weakness of emotion”, that is, function strength directly from the function.
  • the fluctuation of the sound source is extracted as a characteristic timbre in which emotion is reflected from the input speech, and a feature amount database including the characteristic timbre and a feature amount database not including the characteristic timbre
  • the voice recognition accuracy is improved by switching the feature database according to the presence or absence of sound source fluctuation.
  • the characteristic timbre is actually generated in the part where the characteristic timbre is likely to be generated, based on the comparison result between the characteristic timbre required by the voice recognition result and the presence or absence of the sound source fluctuation of the actual input voice.
  • the accuracy of speech recognition for characteristic timbres found in speech with emotional expression is low when using a feature-value database created with expressive speech data, but speech containing characteristic timbres.
  • the speech recognition accuracy is also improved.
  • the recognition accuracy the calculation accuracy of the ease of generating characteristic timbres calculated using phonological sequences is also improved. For this reason, the calculation of emotion intensity also improves accuracy.
  • by detecting characteristic timbres in units of mora and performing emotion recognition in units of mora changes in emotions in the input speech can be followed in units of mora. Therefore, when the system is used for dialog control, it is effective to specify what kind of reaction the speaker who is the user has responded to which event in the dialog process.
  • FIG. 10 is a functional block diagram of a modification of the emotion recognition apparatus using voice according to the first embodiment of the present invention.
  • FIG. 11 is a flowchart showing the operation of the emotion recognition apparatus using voice in the modification of the first embodiment.
  • Fig. 12 schematically shows the morphological sequence of the input speech, the mora uttered with the characteristic timbre, its “strength” generation index, and the “fogging” generation index value.
  • FIG. 13 shows an example of reference information for determining the type of emotion stored in the emotion type determination rule storage unit 132.
  • the emotion recognition device shown in FIG. 10 has the same configuration as the emotion recognition device according to Embodiment 1 shown in FIG. 4, but is partially different. That is, the emotion type determination criterion storage unit 112 in FIG. 4 is replaced with the emotion type determination rule storage unit 132. Also, the emotion type determination unit 113 and the emotion strength calculation unit 115 are replaced with an emotion type strength calculation unit 133. Further, the emotion strength calculation rule storage unit 114 is eliminated, and the emotion type strength calculation unit 133 is configured to refer to the emotion type determination rule storage unit 132.
  • the voice emotion recognition apparatus configured as described above calculates a characteristic tone color generation index for each mora in step S1 011 in the first embodiment.
  • the emotion type strength calculation unit 133 determines the type and strength of emotion according to the emotion type determination rule as shown in FIG. 13 (step S 1313).
  • Embodiment 1 in FIG. 3B, “Ri” of the fifth mora has a characteristic tone generation index of 0.85, and it can be determined from FIG. 8 that the emotion is “anger” and the strength is “strong”. .
  • the determination result of the intensity of emotion is different from the case of determining for each motor as in the first embodiment.
  • the modified example in which the dialogue system determines the type and intensity of emotion in the entire input speech is effective when the dialogue between the person and the dialogue system is short and simple. As in Embodiment 1, it is very important to judge the type and intensity of emotion for each mora and obtain changes in the type and intensity of emotion in the case of complex conversations or long conversations. is there.
  • the numerical values used for emotion determination are different for each type of characteristic tone color for each mora. -Calculated by the sum of the reciprocal of the index of the index.
  • the characteristic timbre generation index value at the characteristic timbre generation position of the input voice is averaged for each characteristic timbre type, and the number of mora in which the characteristic timbre occupies the total number of mora of the input voice is calculated as the characteristic timbre frequency.
  • the inverse is multiplied by the average value of the characteristic tone generation index obtained earlier.
  • the value of the characteristic timbre generation index at the characteristic timbre generation position of the input voice is averaged for each characteristic timbre type, and is used for emotion determination by multiplying the characteristic timbre frequency by the inverse of the average value.
  • the numerical value obtained may be obtained.
  • the numerical value used for the determination of the account is a method in which the ease of occurrence of characteristic timbre is used as a weight in emotion judgment, and the judgment criteria according to the calculation method are stored in the emotion type judgment rule storage unit 132. If so, it may be obtained by other methods.
  • the intensity of the characteristic tone color generation index is obtained in step S1313, and the emotion type determination rule storage unit 132 stores the determination rule based on the difference in intensity for each characteristic sound color. It may be configured by the ratio of the intensity of the target tone color generation index.
  • the sound source fluctuation is extracted as a characteristic timbre reflecting emotions from the input voice.
  • speech recognition with improved speech recognition accuracy is performed by switching the feature database depending on the presence or absence of sound source fluctuations.
  • the probability of occurrence of characteristic timbre is calculated using the speech recognition result.
  • the emotion recognition using the characteristic timbre in the speech according to the present invention can be performed by obtaining the characteristic timbre generation index using the phoneme sequence of the speech recognition result.
  • speech recognition there is a problem that the speech recognition accuracy is often lowered when characteristic timbres associated with emotions often deviate from the general acoustic model power.
  • the first embodiment since there are multiple types of force acoustic models that solve this problem by preparing and switching acoustic models including characteristic tones, the amount of data is increased, and an acoustic model is generated. There was a problem that offline work would increase.
  • the recognition result by the acoustic model is corrected by using the language model, the recognition accuracy is improved, and the characteristic sequence is based on the phoneme string of the correct speech recognition result. It shows a configuration for obtaining a timbre generation index and performing highly accurate emotion recognition.
  • FIG. 14 is a functional block diagram of the voice emotion recognition apparatus according to the second embodiment of the present invention.
  • FIG. 15 is a flowchart showing the operation of the speech emotion recognition apparatus according to the second embodiment.
  • 16A to 16C show specific examples of the operation of the second embodiment.
  • FIG. 14 the description of the same part as in FIG. 4 is omitted, and only the part different from FIG. 4 is described. Also in FIG. 15, the description of the same part as in FIG. 5 is omitted, and only the part different from FIG. 5 is described.
  • the configuration of the emotion recognition device is that the prosody information extraction unit 109 and the switch 107 are eliminated from the functional block diagram of FIG. 4, and the feature database 105 is replaced with the acoustic feature database 205, and the language feature database Fig. 4 except that 206 was added and the speech recognition unit 106 was replaced with the continuous word speech recognition unit 207, which recognizes the linguistic information including only the phoneme from the acoustic feature and the language feature based on the language model.
  • the configuration is similar.
  • Voice is input from the microphone 1 (step S1001), and the voice recognition feature quantity extraction unit 101 extracts mel cepstrum coefficients (step S1002).
  • the inverse filter 102 extracts the sound source waveform (step S1003), and the periodicity analysis unit 103 outputs the time domain of the periodic signal in the input speech as the periodic signal section (step S1004).
  • the characteristic timbre detection unit 104 detects the fluctuation of the sound source waveform in the periodic signal section, for example, the fundamental frequency fluctuation (jitter) of the sound source waveform and the fluctuation of the high frequency component of the sound source waveform (step S 1005).
  • the continuous word speech recognition unit 207 stores an acoustic model and stores the acoustic feature database 2 05 and the language model are stored, the language feature database 206 is referenced, and speech recognition is performed using the mel cepstrum coefficient extracted in step S 1002.
  • the speech recognition by the continuous word speech recognition unit 207 is based on, for example, a speech recognition method using a probability model using an acoustic model and a language model. Recognition is generally
  • [0093] can be expressed as follows. Since the balance between the acoustic model and the language model is not always equivalent, it is necessary to give weight to both models. Generally, the weight of the language model is set as the ratio of both weights,
  • the weight ⁇ of the language model is temporal in general recognition processing. Has a constant value.
  • the continuous word speech recognition unit 207 acquires information on the occurrence position of the characteristic timbre detected in step S 1005 and changes the language model weight ⁇ for each word.
  • W arg max log P (YIW) + ⁇ , log P w s
  • Continuous speech recognition is performed based on the model expressed as follows.
  • speech recognition is performed with reference to the acoustic feature database and the language feature database
  • the weight of the language model is increased and the acoustic model is relatively compared.
  • the weight is reduced (step S2006), and speech recognition is performed (step S2007).
  • the continuous word speech recognition unit 207 estimates the accent phrase boundary and accent position from the word reading information, accent information, and part-of-speech information for the word string and phoneme string as a result of speech recognition of the input speech (step S2010).
  • the phonological sequence of the input speech is “name is a pencil V” and “pencil” is a characteristic tone, “power”.
  • the continuous word speech recognition unit 207 acquires information on the occurrence position of the characteristic timbre detected in step S 1005, and does not include the characteristic timbre.
  • the language model weight ⁇ 0.9 determined from the learning data that does not include the characteristic timbre.
  • the conventional continuous speech recognition method that is, the weight of the language model is fixed, and even if the part is uttered with the characteristic timbre, it is uttered with the characteristic timbre.
  • the continuous word speech recognition unit 207 recognizes in step S2006 when the input speech including the characteristic timbre is recognized by the acoustic model created from the learning data not including the characteristic timbre.
  • the weight of the language model is increased for the “pencil force” uttered by “force”.
  • the weight a 2.3 of the language model created from the data including
  • the characteristic timbre generation index calculation unit 111 includes the characteristic timbre generation position described in the phonological sequence and the phonological unit output from the continuous word speech recognition unit 207, and the accent phrase boundary and the accent position of the phonological sequence. Get information about.
  • the characteristic tone generation index calculation unit 111 includes the acquired information, the position in the consonant, the vowel, the end ccent phrase, the relative position of the accent nuclear power, etc. stored in the characteristic tone generation index calculation rule storage unit 110.
  • the characteristic tone generation index is calculated for each mora of the phoneme sequence using the mora attribute power and the rule for determining the ease of generation of the characteristic tone color (step S1011).
  • the emotion type determination unit 113 specifies the characteristic tone generation type in the input speech from the characteristic tone generation position described in the phoneme unit generated by the characteristic tone generation source phoneme specification unit 208, and stores the emotion type determination criterion memory
  • the emotion type corresponding to the characteristic timbre type included in the input voice is specified with reference to the information of the unit 112 (step S1012).
  • the emotion intensity calculation unit 115 compares the characteristic tone generation position of the input speech described in phonological units with the characteristic tone generation index for each mora calculated by the characteristic tone generation index calculation unit 111 in step S1011.
  • the emotion strength for each mora is calculated according to the rules stored in the emotion strength calculation rule storage unit 114 based on the relationship between the size of the index of each mora and the state of the corresponding mora of the input speech (step S1013). ).
  • the display unit 116 displays the emotion intensity for each mora as the output of the emotion type determination unit 113 calculated in step S1013 (step S1014).
  • the weight of the language model applied to the frame that does not include the characteristic timbre is 0.9, and the weight of the language model applied to the frame uttered with ⁇ power '' is 2. Forces of 3 Other values may be used as long as the weight of the language model is relatively large in frames containing characteristic timbres. It is also possible to set the weight of the language model to be applied to characteristic timbres such as “faint” and “back voice” other than “power”, or to frames that include characteristic timbres. It is also possible to set two types of weights: language model weights to be applied and language model weights to be applied to frames that do not contain characteristic timbres.
  • the sound source is a characteristic timbre that reflects emotion from the input voice. If the fluctuation is extracted and there is sound source fluctuation, the weighting factor a of the language model is increased in consideration of the difficulty of matching the acoustic model in the acoustic feature database, and the relative weight of the acoustic model is increased. Lighten. As a result, erroneous recognition of the phonetic level due to the mismatch of the acoustic model can be prevented, and the speech recognition accuracy at the sentence level can be improved. On the other hand, the type of emotion in the input speech is determined based on the presence or absence of sound source fluctuations, and the ease of occurrence of characteristic timbres is calculated using the speech recognition results.
  • the timbre is generated, it is determined that the intensity of the emotion is low, and if the characteristic timbre is generated in the input voice in the portion where the characteristic timbre is difficult to generate, it is determined that the intensity of the emotion is high. .
  • the characteristic timbre is generated in the input voice in the portion where the characteristic timbre is difficult to generate, it is determined that the intensity of the emotion is high. .
  • the weight of the language model determines the balance between the existing language model and the acoustic model. For this reason, it is possible to generate a feature amount database with a small amount of data, compared to the case of generating an acoustic model including characteristic timbres.
  • the characteristic timbre found in voices with emotional expressions is low in voice recognition accuracy when an acoustic feature quantity database made from expressionless voice data is used, but a characteristic timbre is generated. If the acoustic model is appropriate, the weight of the acoustic model is reduced and the weight of the language model is increased. This reduces the effect of applying an inappropriate acoustic model and improves speech recognition accuracy.
  • the calculation accuracy of the ease of generating characteristic timbres calculated using phoneme sequences is also improved. For this reason, the accuracy of the emotion intensity calculation is also improved. Furthermore, by detecting characteristic timbres in units of phonemes and performing emotion recognition in units of phonemes, it is possible to follow emotional changes in the input speech in units of phonemes. For this reason, when used for dialog control, etc., it is effective to specify what kind of reaction the speaker who is the user has responded to which event in the dialog operation process.
  • FIG. 17 is a functional block diagram of a voice emotion recognition apparatus according to Embodiment 3 of the present invention.
  • FIG. 18 is a flowchart showing the operation of the emotion recognition apparatus in the third embodiment.
  • FIG. 19 shows an example of a phoneme input method according to the third embodiment.
  • FIG. 17 the description of the same parts as those in FIG. 4 is omitted, and the parts different from those in FIG. Only explained.
  • FIG. 18 the description of the same part as in FIG. 5 is omitted, and only the part different from FIG. 5 is described.
  • the feature amount extraction unit 101 for speech recognition in FIG. 4 is replaced with a feature amount analysis unit 301. Further, the configuration is the same as that in FIG. 4 except that the feature quantity database 105 and the switch 107 are eliminated and the speech recognition unit 106 is replaced with a phoneme input unit 306.
  • an emotion recognition device is a device for recognizing emotions from speech.
  • Microphone 1 feature amount analysis unit 301, inverse filter 102, periodicity analysis unit 103, characteristic timbre detection
  • An output unit 104 a phoneme input unit 306, a characteristic tone color generation phoneme identification unit 108, a prosody information extraction unit 109, a characteristic tone color generation index calculation rule storage unit 110, a characteristic tone color generation index calculation unit 111,
  • An emotion type determination criterion storage unit 112 an emotion type determination unit 113, an emotion intensity calculation rule storage unit 114, an emotion intensity calculation unit 115, and a display unit 116 are provided.
  • the feature amount analysis unit 301 is a processing unit that analyzes input speech and extracts a parameter representing a spectral envelope, for example, a mel cepstrum coefficient.
  • the phoneme input unit 306 is input means for the user to input a corresponding phoneme type for a specific section of the input waveform, and is a pointing device such as a mouse or a pen tablet, for example.
  • a pointing device such as a mouse or a pen tablet
  • the user designates a section using a pointing device for the waveform of the input speech presented on the screen using a pointing device, and inputs or displays the phoneme type corresponding to the section from the keyboard.
  • a pointing device to select from the list of phoneme types that have been selected! Enter the phoneme type using the / ⁇ ⁇ method.
  • step S1001 sound is input from the microphone 1 (step S1001).
  • the feature amount analysis unit 301 analyzes the input speech and extracts a mel cepstrum coefficient as an acoustic feature amount representing the spectrum information (step S3001).
  • the inverse filter 102 sets parameters so as to be an inverse filter of the mel cepstrum coefficient generated in step S3001, passes the audio signal input from the microphone in step S1001, and extracts the sound source waveform (step S 10 03).
  • the periodicity analysis unit 103 calculates the fundamental wave likeness of the sound source waveform extracted in step S1003, and based on the fundamental wave likeness, the time domain of the periodic signal in the input speech is calculated as the periodic signal. Output as a section (step S1004).
  • the characteristic timbre detection unit 104 detects fluctuations in the sound source waveform for the periodic signal section extracted by the periodicity analysis unit 103 in step S1004 (step S1005).
  • the phoneme input unit 306 receives a phoneme type corresponding to a specific section of the input speech (step S3002).
  • the phoneme input unit 306 outputs the input speech segment and the corresponding phoneme type to the characteristic timbre utterance phoneme specifying unit 108 as the time position of the input speech and the phoneme information corresponding to the time position.
  • the characteristic timbre generation phoneme identification unit 108 includes the phonological sequence information with time position information output from the phonological input unit 306 and the time position of the characteristic timbre in the input speech output by the characteristic timbre detection unit 104. Based on the information, the power at which the characteristic timbre is generated in which phoneme in the input speech is specified (step S1008).
  • the prosodic information extraction unit 109 analyzes the sound source waveform output from the inverse filter 102 and extracts the fundamental frequency and the sound source power (step S 1009).
  • the characteristic tone color generation index calculation unit 111 calculates the basic frequency pattern and the sound source from the basic frequency and sound source power information extracted by the phoneme sequence with time position information input in step S3002 and the prosody information extraction unit 109.
  • the power pattern ridges and valleys are compared with the phoneme string, and accent punctuation and accent information corresponding to the phoneme string is generated (step S1010).
  • the characteristic tone generation index calculation unit 111 stores phonemes such as consonants, vowels, positions in accent phrases, and relative positions of accent nuclear power stored in the characteristic tone generation index calculation rule storage unit 110.
  • a characteristic tone generation index is calculated for each phoneme of the phoneme sequence using a rule for determining the ease of occurrence of the characteristic tone from the attribute (step S1011).
  • the emotion type determination unit 113 specifies the characteristic tone generation type in the input speech from the characteristic tone generation position described in the phoneme unit generated by the characteristic tone generation phoneme specification unit 108, and determines the emotion type By referring to the information in the reference storage unit 112, the emotion type in the phoneme in which the characteristic timbre included in the input voice is generated is specified (step S1012).
  • the emotion strength calculation unit refers to the rules stored in the emotion strength calculation rule storage unit 114, The emotional intensity is calculated for each phoneme (step S1013). It is possible to obtain the change in emotion intensity in more detail than the emotion judgment in step S1012.
  • the display unit 116 displays the emotion intensity for each phoneme as the output of the emotion type determination unit 113 calculated in step S 1013 (step S 1014).
  • the emotion intensity calculation rule is determined in step S1013.
  • the emotional intensity for each phoneme was calculated according to the rules stored in the storage unit 114, the characteristic tone generation index for each phoneme was calculated as in the variation of the first embodiment, and based on the result, It is also possible to calculate the emotion type and intensity of the entire utterance.
  • characteristic timbre generation index is calculated using these as parameters, and the emotion type and intensity are estimated based on the characteristic timbre generation index.
  • the emotion recognition device of this application when the voice with the same phoneme uttered with a characteristic tone and the accent position of consecutive voices shifted by one phoneme is input to the emotion recognition device of this application, By confirming the change, it is confirmed that the characteristic tone generation index using the phoneme type and prosodic information as parameters is calculated, and the emotion type and intensity are estimated based on the characteristic tone generation index. it can.
  • the emotion recognition apparatus using voice acquires the entire input voice and performs processing of power.
  • the sound input from the microphone 1 may be sequentially processed.
  • the sequential processing uses the phoneme, which is the processing unit of speech recognition, as the unit of sequential processing, and in the second embodiment, the units such as phrases or phrases that can be processed in language are sequentially used. It shall be a unit of processing.
  • the vocal tract transfer characteristics are obtained based on the force vocal tract model in which the sound source waveform is obtained by the inverse filter of the mel cepstrum in the first embodiment and the modifications thereof, the second embodiment, and the third embodiment.
  • the method of obtaining the sound source waveform such as a method of obtaining the sound source waveform by the inverse filter or a method of obtaining the sound source waveform based on the model of the sound source waveform, may use a method other than the method using the inverse filter of the mel cepstrum.
  • the acoustic characteristic model of speech recognition uses the mel cepstrum parameters, and other speech recognition The method may be used.
  • the sound source waveform can be obtained by using the inverse filter of the mel cepstrum V, or it can be obtained by other methods!
  • the frequency fluctuation of the sound source and the fluctuation of the high frequency component of the sound source are expressed as “power” as characteristic timbres. ”And“ Kasule ”, but the amplitude fluctuations of the sound source, etc.,“ The Acoustical Society of Japan, Journal 51 ⁇ 11 (1995), pp869-875 Hidemi Sugaya “Nagamori Sakai” It is also possible to detect characteristic timbres other than “power” and “blur” such as back voices and tense voices listed in.
  • the basic frequency and the sound source power extraction in the first embodiment and its modified examples, the second embodiment, and the third embodiment are extracted by the accent phrase in step S 1009, that is, the characteristic tone color generation index calculation unit 111.
  • Force step performed immediately before determining the boundary and accent position Step S1003
  • the characteristic frequency and sound source power may be extracted at any timing before the characteristic tone color generation index calculation unit 111 determines the accent phrase boundary and the accent position.
  • the characteristic tone color generation index calculation unit 111 in the first embodiment and its modified examples, the second embodiment, and the third embodiment uses a quantification class as a statistical learning method, and uses explanatory variables. We used consonants, vowels, positions in the accent phrase, and relative positions from the accent kernel, but statistical learning methods can be used by other methods. It is also possible to calculate a characteristic tone generation index using a continuous amount such as the time length of the pattern phoneme.
  • the input sound is assumed to be input from the microphone 1 and is recorded and recorded. Or a voice signal input from the outside of the device.
  • the recognized emotion type and intensity are displayed on the display unit 116. It is good also as what records it to a device or outputs to the exterior of a device.
  • the speech emotion recognition apparatus detects a voice having characteristic timbre that appears in various places depending on the tension or relaxation of the vocal organs, emotion, facial expression, or speech style. It recognizes the emotions or attitudes of voice speakers, and is useful as a speech dialogue interface for robots. It can also be applied to applications such as call centers and automatic telephone answering systems for telephone exchanges. In addition, in mobile terminal applications where the behavior of the character image changes according to the tone of the voice during voice communication, the mobile phone is equipped with an application that changes the behavior and expression of the character image according to the emotional changes that appear in the voice. It can also be applied to terminals.

Abstract

 韻律情報の個人差、地方差、言語による差に関わらず、正確で安定した音声による感情認識を行うことができる感情認識装置を提供は、入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、入力音声に含まれる音韻の種類を認識する音声認識手段(106)と、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段(104)と、前記音声認識手段(106)で認識された音韻の種類に基づいて、音韻ごとに、前記特徴的音色の発生頻度を示す特徴的音色発生指標を計算する特徴的音色発生指標計算手段(111)と、前記特徴的音色発生指標計算手段(111)で計算された前記特徴的音色発生指標に基づいて、前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手段(113)とを備える。

Description

明 細 書
感情認識装置
技術分野
[0001] 本発明は、音声により発話者の感情を認識する感情認識装置に関する。より特定 的には、発話者の感情、表情、態度あるいは発話スタイルによって時々刻々変化す る発声器官の緊張や弛緩によって、発声された音声中に特徴的な音色が生じたこと を認識することで、発話者の感情を認識する、音声による感情認識装置に関するもの である。
背景技術
[0002] 自動電話応対、電子秘書、対話ロボット等、音声対話によるインタフェースを持つ対 話システムにおいて、対話システムがユーザの要求により適切に対応するためには、 ユーザが発声した音声力もユーザの感情を理解することが重要な要件となる。例え ば、上記のような自動電話対応や対話ロボットがユーザと音声による対話を行う際、 対話システムの音声認識は必ずしも正確に音声を認識できるとは限らな 、。対話シス テムが誤認識を起こした場合には、対話システムはユーザ対して再度音声入力を要 求する。このような状況において、ユーザは少なからず怒りを覚えたり、イライラしたり する。誤認識が重なればなおさらである。怒りやイライラは、ユーザの話し方や声質を 変化させ、ユーザの音声は平常時の音声とは異なるパターンとなる。このため、平常 時の音声を認識用モデルとして保持する対話システムは、さらに誤認識をし易くなり 、ユーザに対して同じ回答を何度も要求するなど、ユーザにとってさらに不愉快な要 求をすることになる。対話システムが上記のような悪循環に陥った場合、その対話ィ ンタフェースとしての用を成さなくなる。
[0003] ユーザが発声する音声から感情を認識することは、このような悪循環を断ち切り、機 器とユーザとの音声対話を正常化するために必要である。すなわち、ユーザの怒りや イライラを理解することができれば、対話システムは誤認識したことに対して、より丁寧 な口調で聞き返したり、謝罪したりすることができる。これにより、対話システムは、ュ 一ザの感情を平常に近づけ、平常の発話を導くことができ、認識率を回復することが できる。 L 、ては対話システムによる機器操作をスムースに行うことができる。
[0004] 従来、音声から感情を認識する方法としては、話者の発声した音声から、声の高さ( 基本周波数)、大きさ (パワー)、発話速度などの韻律的特徴を抽出し、入力音声全 体に対して、「声が高い」、「声が大きい」といった判断に基づき、感情を認識する方 式 (例えば特許文献 1、特許文献 2参照)が提案されている。また、入力音声全体に 対して、「高 、周波数領域のエネルギーが大き 、」 t 、つた判断をする方式 (例えば 特許文献 1参照)が提案されている。さらに、音声のパワーと基本周波数とのシーケ ンスより、それらの平均、最大値、最小値といった統計的な代表値を求めて感情を認 識する方式 (例えば特許文献 3参照)が提案されている。さらにまた、文や単語のイン トネーシヨンやアクセントといった韻律の時間パターンを用いて、感情を認識する方式 (例えば特許文献 4、特許文献 5参照)が提案されている。
[0005] 図 20は、前記特許文献 1に記載された従来の音声による感情認識装置を示すもの である。
[0006] マイクロホン 1は、入力音声を電気信号に変換する。音声コード認識手段 2は、マイ クロホン 1から入力された音声の音声認識を行い、認識結果を感性情報抽出手段 3 および出力制御手段 4へ出力する。
[0007] 一方、感性情報抽出手段 3の話速検出部 31、基本周波数検出部 32および音量検 出部 33は、マイクロホン 1より入力された音声より話速、基本周波数および音量をそ れぞれ抽出する。
[0008] 音声レベル判定基準格納部 34には、入力された音声の話速、基本周波数および 音量を標準の話速、基本周波数および音量とそれぞれ比較して音声レベルを決定 するための基準が記憶されている。標準音声特徴量格納部 35には、音声レベルを 判定する際の基準となる標準の発声速度、基本周波数および音量が記憶されている 。音声レベル分析部 36は、入力された音声の特徴量と標準の音声特徴量との比に 基づいて、音声レベル、すなわち話速レベル、基本周波数レベルおよび音量レベル を決定する。
[0009] さらに、感性レベル分析用知識ベース格納部 37は、音声レベル分析部 36で決定 された各種音声レベルによって感性レベルを判定するルールを記憶して 、る。感性 レベル分析部 38は、音声レベル分析部 36からの出力と音声コード認識手段 2からの 出力とから、感性レベル分析用知識ベース格納部 37に記憶されているルールに基 づき、感性レベルすなわち感性の種類とレベルとを判定する。
[0010] 出力制御手段 4は、感性レベル分析部 38が出力した感性レベルに従って、出力装 置 5を制御して、入力された音声の感性レベルに対応する出力を生成する。ここで音 声レベルの決定に用いられて 、る情報は、 1秒当たり何モーラ話して 、るかで表した 話速や、平均基本周波数や、発話、文あるいはフレーズといった単位で求められた 韻律情報である。
[0011] し力しながら、韻律情報は言語的情報を伝達するためにも使用されており、さらにそ の言語的情報の伝達方法が、言語の種類ごとに違うという特徴がある。たとえば、日 本語にぉ ヽては「橋」と「箸」のように、基本周波数の高低によって作られるアクセント により言葉の意味が異なる同音異義語が多くある。また、中国語においては、四声と 呼ばれる基本周波数の動きにより、同じ音でもまったく異なる意味 (文字)を示すこと が知られている。英語では、アクセントは基本周波数よりもむしろストレスと呼ばれる音 声の強度によって表現される力 ストレスの位置は単語あるいは句の意味や、品詞を 区別する手が力りとなっている。韻律による感情認識を行うためにはこのような言語に よる韻律パターンの違いを考慮する必要があり、言語ごとに感情表現としての韻律の 変化と、言語情報としての韻律の変化とを分離して、感情認識用のデータを生成する 必要があった。また、同一言語内においても、韻律を用いる感情認識においては、早 口の人や、声の高い (低い)人、等の個人差があり、例えば、普段から大声且つ早口 で話す声の高い人は、常に怒っていると認識されてしまうことになる。そのため、個人 ごとの標準データを記憶し、個人ごとに標準データと比較することで各個人に合わせ た感情認識を行い、個人差による感情の認識間違いを防ぐ (例えば特許文献 2、特 許文献 5) t 、う方法も必要であった。
特許文献 1 :特開平 9 22296号公報 (第 6— 9頁、表 1 5、第 2図)
特許文献 2:特開 2001— 83984号公報 (第 4— 5頁、第 4図)
特許文献 3:特開 2003 - 99084号公報
特許文献 4:特開 2005— 39501号公報 (第 12頁) 特許文献 5:特開 2005 - 283647号公報
発明の開示
発明が解決しょうとする課題
[0012] 前述のように、韻律による感情認識は、言語ごとに、韻律情報のうち言語情報を表 すために使われて 、る変動と感情表現としての変動とを分離するために、大量の音 声データ、分析処理および統計処理が必要となる。さらに同一言語であっても、地方 差や年齢等による個人差も大きぐ同一話者による音声であったとしても体調等によ り大きく変動する。このため、ユーザごとに標準データを持たない場合には、韻律によ る感情表現は地方差や個人差が大きぐ不特定多数の音声に常に安定した結果を 生成することは困難であった。
[0013] さらに、個人ごとに標準データを用意する方式については、不特定多数の使用を 想定するコールセンターや駅などの公共の場所での案内システム等には採用できな い。なぜならば、発話者ごとの標準データを用意することができないからである。
[0014] また、韻律データは 1秒あたりのモーラ数や、平均、ダイナミックレンジのような統計 的代表値、あるいは時間パターンなどを、発話、文、フレーズといった音声としてまと まった長さで分析する必要がある。このため、音声の特徴が短時間で変化する場合 には、分析の追随が困難であり、音声による感情認識を高い精度で行うことができな いという課題を有している。
[0015] 本発明は、前記従来の課題を解決するものであり、音韻単位という短い単位で感情 を検出可能で、且つ比較的、個人差、言語差および地方差が少ない特徴的音色と、 話者の感情との関係を利用して精度の高い感情認識を行う音声による感情認識装 置を提供することを目的とする。
課題を解決するための手段
[0016] 本発明のある局面に係る感情認識装置は、入力音声から当該入力音声の発話者 の感情を認識する感情認識装置であって、前記入力音声から特定の感情と関連す る特徴的音色を検出する特徴的音色検出手段と、前記特徴的音色手段で検出した 特徴的音色に基づいて、前記入力音声に含まれる音韻の種類を認識する音声認識 手段と、前記音声認識手段で認識された音韻の種類に基づいて、前記特徴的音色 の発声され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生 指標計算手段と、前記特徴的音色指標が小さいほど前記感情が強くなる規則に基 づ 、て、前記特徴的音色発生指標計算手段で計算された前記特徴的音色発生指 標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判 定する感情判定手段とを備える。
[0017] 音声の物理的特徴の発生機序は、破裂音のように口唇と舌と口蓋とによって声道を ー且閉鎖してから一気に開放する動作のために唇や舌に力が入りやす 、と 、つた、 発声器官の生理的原因により求められる。このため、話者の感情あるいは発話態度 によって発声器官が緊張したり弛緩したりすることにより、音声中のところどころに音 韻単位で観察される裏声や力んだ声あるいは気息性の声のような特徴的音色を検 出することができる。この特徴的音色の検出結果に基づいて、言語の種類の違い、 話者の特性による個人差および地方差に影響されることなぐ話者の感情を音韻単 位で認識することができる。
[0018] 好ましくは、上述の感情認識装置は、さらに、前記特徴的音色発生指標が小さいほ ど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生した音韻にお ける感情強度を判別する感情強度判別手段を備える。
[0019] また、前記感情強度判別手段は、前記特徴的音色発生指標計算手段で計算され た音韻ごとの特徴的音色発生指標と前記特徴的音色検出手段で検出された特徴的 音色が発生する時間的音声位置とを比較し、特徴的音色発生指標が小さいほど感 情強度が強くなる計算規則に基づいて、前記特徴的音色が発生している音韻にお ける感情強度を判別する。
[0020] 特徴的音色が発生しにくい音韻において特徴的音色が発生した場合には、当該特 徴的音色に対応する特定の感情が強く現れたと考えられる。よって、このような規則 に則って、言語差、個人差および地方差に影響されることなく正確に感情の強度を 判別することができる。
[0021] 好ましくは、上述の感情認識装置は、さらに、音韻の種類ごとに音響特徴量を記憶 している音響特徴量データベースと、少なくとも読みまたは発音記号を有する単語辞 書を表す言語特徴量を含む言語特徴量データベースとを備え、前記音声認識手段 は、前記特徴的音色を検出した単語については、前記音響特徴量データベースに 含まれる音響特徴量の重みを小さくし、前記言語特徴量データベースに含まれる言 語特徴量の重みを大きくすることにより、前記音響特徴量データベースと前記言語特 徴量データベースとに基づいて、前記入力音声に含まれる音韻の種類を認識する。
[0022] 特徴的音色の発生した単語については、言語特徴量の重みを大きくすることにより 、特徴的音色の発生位置において音響特徴量が適合しないことによる音声認識精 度の低下を防ぐことができる。これにより、正確に感情を認識することができる。
[0023] なお、本発明は、このような特徴的な手段を備える感情認識装置として実現すること ができるだけでなぐ感情認識装置に含まれる特徴的な手段をステップとする感情認 識方法として実現したり、感情認識方法に含まれる特徴的なステップをコンピュータ に実行させるプログラムとして実現したりすることもできる。そして、そのようなプロダラ ムは、 CD— ROM (Compact Disc-Read Only Memory)等の記録媒体やインターネッ ト等の通信ネットワークを介して流通させることができるのは言うまでもない。
発明の効果
[0024] 本発明の音声による感情認識装置によれば、話者の感情あるいは発話態度によつ て発声器官が緊張したり弛緩したりすることによりおこる、平均的な発話 (平常発声を された発話)の様態から逸脱した発話様態、すなわち、音声中のところどころに音韻 単位で観察される裏声や力んだ声あるいは気息性の声のような、特定の音響特性に おいて、平均的な発声とは離れた値を示す、はずれ値に当たる特性を持った特徴的 音色を検出することができる。この特徴的音色の検出結果を用いることにより、言語の 種類、話者の特性による個人差および地方差に影響されることなぐ話者の感情を音 韻単位で認識することができるため、発話中の感情の変化に追随することができる。 図面の簡単な説明
[0025] [図 1A]図 1Aは、話者 1について「強い怒り」の感情表現を伴った音声中の「力んだ」 音あるいは「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の子 音ごとに示したグラフである。
[図 1B]図 1Bは、話者 2について「強い怒り」の感情表現を伴った音声中の「力んだ」 音あるいは「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の子 音ごとに示したグラフである。
圆 1C]図 1Cは、話者 1について「中程度の怒り」の感情表現を伴った音声中の「力ん だ」音ある 、は「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の 子音ごとに示したグラフである。
[図 1D]図 1Dは、話者 2について「中程度の怒り」の感情表現を伴った音声中の「力ん だ」音ある 、は「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の 子音ごとに示したグラフである。
[図 2A]図 2Aは、話者 1について、録音された音声における特徴的音色「かすれ」の 音声の音韻種類による発生頻度を示すグラフである。
圆 2B]図 2Bは、話者 2について、録音された音声における特徴的音色「かすれ」の 音声の音韻種類による発生頻度を示すグラフである。
圆 3A]図 3Aは、録音された音声において観察された特徴的音色の音声の発生位置 と推定された特徴的音色の音声の時間位置の比較を示す図である。
圆 3B]図 3Bは、録音された音声において観察された特徴的音色の音声の発生位置 と推定された特徴的音色の音声の時間位置の比較を示す図である。
[図 4]図 4は、本発明の実施の形態 1における音声による感情認識装置のブロック図 である。
[図 5]図 5は、本発明の実施の形態 1における音声による感情認識装置の動作を示す フローチャートである。
[図 6]図 6は、本発明の実施の形態 1における特徴的音色発生指標の計算規則の一 例を示す図である。
[図 7]図 7は、本発明の実施の形態 1における感情種類判定規則の一例を示す図で ある。
[図 8]図 8は、本発明の実施の形態 1における感情強度計算規則の一例を示す図で ある。
[図 9]図 9は、「力み」ありのモーラの発生頻度と「力み」なしのモーラの発生頻度と指 標の値、および感情の強さ(弱さ)と指標の値の関係を模式的に示した図である。
[図 10]図 10は、本発明の実施の形態 1の変形例における音声による感情認識装置 のブロック図である。
[図 11]図 11は、本発明の実施の形態 1の変形例における音声による感情認識装置 の動作を示すフローチャートである。
[図 12]図 12は、録音された音声において観察された特徴的音色の音声の発生位置 とその特徴的音色の発生のしゃすさの比較を示す図である。
[図 13]図 13は、本発明の実施の形態 1の変形例における感情種類判定規則の一例 を示す図である。
[図 14]図 14は、本発明の実施の形態 2における音声による感情認識装置のブロック 図である。
[図 15]図 15は、本発明の実施の形態 2における音声による感情認識装置の動作を 示すフローチャートである。
圆 16A]図 16Aは、本発明の実施の形態 2における音声認識処理の具体例を示す 図である。
圆 16B]図 16Bは、本発明の実施の形態 2における音声認識処理の具体例を示す図 である。
圆 16C]図 16Cは、本発明の実施の形態 2における音声認識処理の具体例を示す 図である。
[図 17]図 17は、本発明の実施の形態 3における音声による感情認識装置の機能プロ ック図である。
[図 18]図 18は実施の形態 3における感情認識装置の動作を示したフローチャートで ある。
[図 19]図 19は実施の形態 3における音韻入力方法の一例を示した図である。
[図 20]図 20は、従来の音声による感情認識装置のブロック図である。
符号の説明
1 マイクロホン
2 音声コード認識手段
3 感性情報抽出手段
4 出力制御手段 出力装置
話速検出部
基本周波数検出部
音量検出部
音声レベル特定基準格納部
標準音声特徴量格納部
音声レベル分析部
感性レベル分析用知識ベース格納部 感性レベル分析部
1 音声認識用特徴量抽出部
2 逆フィルタ
3 周期性分析部
特徴的音色検出部
5 特徴量データベース
音声認識部
7 スィッチ
特徴的音色発生音韻特定部
9 韻律情報抽出部
特徴的音色発生指標計算規則記憶部1 特徴的音色発生指標計算部
2 感情種類判定基準記憶部
3 感情種類判定部
感情強度計算規則記憶部
5 感情強度計算部
表示部
2 感情種類判定規則記憶部
3 感情種類強度計算部
5 音響特徴量データベース 206 言語特徴量データベース
207 連続単語音声認識部
208 特徴的音色発生音韻特定部
発明を実施するための最良の形態
[0027] まず、本発明の基礎となる、音声中の特徴的音色と話者の感情との関係について、 実際の音声に見られる現象を説明する。
[0028] 感情や表情を伴った音声においては、様々な声質の音声が混在し、音声の感情や 表情を特徴付け、音声の印象を形作っていることが知られている(例えば日本音響学 会誌 51卷 11号(1995) , PP869 - 875,粕谷英榭 '楊長盛, "音源から見た声質"、 特開 2004— 279436号公報参照)。本願発明に先立って、同一テキストに基づいて 発話された 50文について無表情な音声と感情を伴う音声との調査を行った。
[0029] 図 1Aは、話者 1について「強い怒り」の感情表現を伴った音声中の「力んだ」音ある いは「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごと に示したグラフである。図 1Bは、話者 2について「強い怒り」の感情表現を伴った音声 中の「力んだ」音あるいは「ざらざら声(harsh voice)」で発声されたモーラの頻度を モーラ内の子音ごとに示したグラフである。図 1Cおよび図 1Dは、それぞれ図 1Aおよ び図 1Bと同じ話者について「中程度の怒り」の感情表現を伴って音声中の「力んだ」 音ある ヽは「ざらざら声(harsh voice)」のモーラ頻度をモーラ内の子音ごとに示し たグラフである。
[0030] 特徴的音色の発生頻度は当該モーラの子音の種類によって偏りがあり、図 1Aおよ び図 1Bのグラフに示されたそれぞれの話者について「t」(硬口蓋によって構音される 無声破裂子音)、「k」(軟口蓋によって構音される無声破裂子音)、「d」(硬口蓋によ つて構音される有声破裂子音)、「m」(口唇によって構音される鼻音)、「n」(硬口蓋 によって構音される鼻音)あるいは子音無しの場合には発生頻度が高ぐ「p」(口唇 によって構音される無声破裂音)、「ch」(歯によって構音される無声破擦音)、「ts」( 無声破擦音)、「f」(口唇と歯によって構音される無声摩擦音)などでは発生頻度が低 い、という 2名の話者に共通の特徴が見られる。すなわち、図 1Aおよび図 1Bのグラフ は、「怒り」の感情の音声に表れる「力み」が発生する条件は話者に共通であることを 示している。図 1Aおよび図 IBに示された 2名の話者における「力み」の発生力 当 該モーラの子音の種類によって同様の傾向で偏っている。また同程度の「怒り」の感 情を伴って発話された音声であっても、音韻の種類によって「力んだ」音で発声され る確率が異なり、「力んだ」音で発声される確率がより低!、種類の音韻で「力んだ」音 での発声が検出されれば、「怒り」の感情の程度が大きいことが推定できる。
[0031] また、同一人物である話者 1についての特徴的音色「力み」の出現頻度を示した図 1Aと図 1Cとを比較する。「sh」や「f」のように、図 1Cに示した中程度の怒りの表現で は「力んだ」音は発生しな 、が、図 1Aに示した強 、怒りの表現になると「力んだ」音が 発生するものがある。また、子音のないモーラのように、図 1Cに示した中程度の怒り の表現では「力んだ」音が発生する頻度は低 、が、図 1Aに示した強 、怒りの表現に なると「力んだ」音の発生頻度が増大するものがある。このように、怒りの強度が強くな ると、本来力みにくいはずの音韻にぉ 、ても「力んだ」音が発生するようになることが わかる。さらには、「力んだ」音で発声される確率の音韻ごとの偏りは話者 1と話者 2に っ 、て確認されたように、話者に共通なものである。
[0032] 図 2Aおよび図 2Bは「朗ら力」の感情表現を伴った音声中の「気息性」の音、すなわ ち「かすれ」ある 、は「やわら力 、声(soft voice)」で発声されたモーラの頻度をモ ーラ内の子音ごとに示したグラフである。図 2Aは話者 1、図 2Bは話者 2について「朗 ら力」の感情表現を伴って音声中の「気息性」の音、すなわち「かすれ」あるいは「や わらか!、声(soft voice)」のモーラ頻度をモーラ内の子音ごとに示したグラフである 。特徴的音色の発生頻度は当該モーラの子音の種類によって偏りがあり、図 2Aと図 2Bのグラフに示されたそれぞれの話者について、「h」(声門によって構音される無声 摩擦子音)、「k」(軟口蓋によって構音される無声破裂子音)の場合には発生頻度が 高ぐ「d」(硬口蓋によって構音される有声破裂子音)、「m」(口唇によって構音され る鼻音)、「g」(軟口蓋によって構音される有性破裂音)などでは発生頻度が低い、と いう 2名の話者に共通の特徴が見られる。また、図 2Aおよび図 2Bの「b」「g」「m」の 音韻における特徴的音色の発生頻度は、話者 1では 0であるが、話者 2では低いもの の存在している。一方の話者では発生頻度が 0で、他方の話者では発生頻度が低い が存在しているという傾向は、図 1A〜図 1Dにおける「f」の音韻の傾向(図 1Aの話者 1では発生頻度が低ぐ図 1Bの話者 2では発生頻度が 0である。)と同様である。した がって、図 1A〜図 1Dの「f」は本来力みにくいはずの音韻であり、怒りの強度が強く なると発生する音韻であることと同様に、図 2Aおよび図 2Bの「b」「g」「m」の「かすれ」 音は、本来かすれにくいはずの音韻であり、「朗らか」の強度が強くなると発生する音 韻であると考えられる。
[0033] 上記のように、音韻による発生確率の偏りと、偏りの話者共通性は「力んだ」音や「 かすれ」音以外に「裏声」や「裏返り」の音にもみられる。「力んだ」音、「かすれ」音、「 裏声」、「裏返り」のように平均的な発話様態 (平常発声の発話)から逸脱した発話様 態により発声された音声は、特定の音響的特性について、平均的な発話様態により 発声された音声から離れた値を示す。十分に大量且つ様々な発話様態を含む音声 データがある場合、特開 2004— 279436号公報に示される「気息性」(かすれ)の第 1フォルマント周辺のエネルギーと第 3フォルマント周辺のエネルギーとの時間的相 関の例のように、特定の音響特性値が、多くの音声の分布位置とは統計的に離れた 位置に分布する場合がある。このような分布は、特定の発話スタイルあるいは感情表 現において観測される。例えば「気息性」の音響特性値の場合であれば、親近感を 表現する音声に属する傾向が確認できることになる。翻って、入力音声中の「力んだ 」音や、特開 2004— 279436号公報に記述されているような「気息性」(かすれ)の音 や、「裏声」を抽出することで、話者の感情または発話態度の種類もしくは状態を判 定できる可能性がある。さらに、その特徴的音色が検出された部分の音韻を特定す ることで、話者の感情あるいは発話態度の程度を判定できる可能性がある。
[0034] 図 3Aおよび図 3Bは、図 1A〜図 1Dと同一のデータから統計的学習手法の 1つで ある数量ィ匕 Π類を用いて作成した推定式により、図 3Aに示す入力「10分ほどかかり ます (じゅっぷんほど力かります)」と図 3Bに示す入力「温まりました (あたたまりました )」につ ヽて各モーラが「力んだ」音で発声される「力みやすさ」を推定した結果を示し たものである。例えば、図 3Aの「かかります」では確率の高いモーラでのみ「力んだ」 音が発生しており、程度の小さい「怒り」であることを示している。同様に図 3Bにおい ても、「あたたま」は「力み」の発生確率が高いまたは中程度であるため、「怒り」の程 度が小から中程度であり、「り」では「力み」の発生確率が低いため、「怒り」の程度が 大であることを示している。この例は学習用データの各モーラについて、モーラに含 まれる子音および母音の種類あるいは音韻のカテゴリといった音韻の種類を示す情 報とアクセント句内のモーラ位置の情報と、さらに前後の音韻の情報とを独立変数と する。また、「力んだ」音あるいは「ざらざら声 (harsh voice)」が発生した力否かの 2 値を従属変数とする。この例は、これら独立変数および従属変数に基づいて、数量 ィ匕 II類により推定式を作成し、発生確率を低'中 '高の 3段階に分けた場合の結果で ある。この例は、音声認識結果を用いて入力音声のモーラごとの特徴的音色の発生 確率を求めることで、話者の感情あるいは発話態度の程度を判定可能であることを示 している。
[0035] 発声時の生理的特徴による特徴的音色の発生確率を使用して求められる感情ある いは発話態度の種類と程度とを、感情の種類と強度との指標として用いることで、言 語や地方 (方言)差や個人差による影響の小さ 、正確な感情の判断を行うことができ る。
[0036] 以下、本発明の実施の形態について、図面を参照しながら説明する。
[0037] (実施の形態 1)
図 4は、本発明の実施の形態 1における音声による感情認識装置の機能ブロック図 である。図 5は実施の形態 1における感情認識装置の動作を示したフローチャートで ある。図 6は特徴的音色発生指標計算規則記憶部 110に記憶された計算規則の一 例であり、図 7は感情種類判定基準記憶部 112に記憶された判定基準の一例であり 、図 8は感情強度計算規則記憶部 114に記憶された感情強度計算規則の一例であ る。
[0038] 図 4において、感情認識装置は、音声より感情を認識する装置であり、マイクロホン 1と、音声認識用特徴量抽出部 101と、逆フィルタ 102と、周期性分析部 103と、特徴 的音色検出部 104と、特徴量データベース 105と、音声認識部 106と、スィッチ 107 と、特徴的音色発生音韻特定部 108と、韻律情報抽出部 109と、特徴的音色発生指 標計算規則記憶部 110と、特徴的音色発生指標計算部 111と、感情種類判定基準 記憶部 112と、感情種類判定部 113と、感情強度計算規則記憶部 114と、感情強度 計算部 115と、表示部 116とを備えている。 [0039] マイクロホン 1は、入力音声を電気信号に変換する処理部である。
[0040] 音声認識用特徴量抽出部 101は、入力音声を分析し、スペクトル包絡を表すパラメ ータ、例えばメルケプストラム係数を抽出する処理部である。
[0041] 逆フィルタ 102は、音声認識用特徴量抽出部 101が出力するスペクトル包絡情報 の逆フィルタであり、マイクロホン 1より入力された音声の音源波形を出力する処理部 である。
[0042] 周期性分析部 103は、逆フィルタ 102より出力された音源波形の周期性を分析し、 音源情報を抽出する処理部である。
[0043] 特徴的音色検出部 104は、話者の感情や発話態度によって発話音声中に出現す る「力んだ」声や「裏声」や「気息性」(かすれ)の声等の特徴的音色を物理的特性、 例えば音源波形の振幅揺らぎや音源波形の周期揺らぎなど、を用いて周期性分析 部 103により出力された音源情報より検出する処理部である。
[0044] 特徴量データベース 105は、音韻種類ごとの特徴量を音声認識用に保持する記憶 装置であり、例えば、音韻ごとの特徴量の分布を確率モデルとして表現したデータを 保持する。特徴量データベース 105は、音声中に特徴的音色が見られない音声デ ータより作成された特徴量データベースと、特定の特徴的音色が見られる音声デー タより作成された特徴量データベースとで構成されている。例えば、特徴的音色が見 られない音声データ力 作成されたデータベースを特徴的音色なし特徴量データべ ース 105a、「力んだ」声の特徴的音色がみられた音声データ力も作成された特徴量 データベースを「力み」あり特徴量データベース 105b、「気息性」(かすれ)の声の特 徴的音色が見られた音声データ力 作成された特徴量データベースを「かすれ」あり 特徴量データベース 105c、「力んだ」声の特徴的音色と「気息性」(かすれ)の声の 特徴的音色との両方が見られた音声データから作成された特徴量データベースを「 力み」「かすれ」あり特徴量データベース 105dのように構成する。
[0045] 音声認識部 106は、特徴量データベース 105を参照し、音声認識用特徴量抽出部 101が出力した特徴量と特徴量データベース 105に格納された特徴量とのマツチン グを行って音声認識を行う処理部である。
[0046] スィッチ 107は、特徴的音色検出部 104で検出された音源波形の揺らぎの有無お よび揺らぎの種類に従って、音声認識部 106が特徴量データベース 105を構成する Vヽずれのデータベースを参照するかを切り替える。
[0047] 特徴的音色発生音韻特定部 108は、音声認識部 106が出力する音韻列情報と特 徴的音色検出部 104が出力する入力音声中の特徴的音色の時間位置情報とから、 入力音声中のどの音韻で特徴的音色が発生していたかを特定する処理部である。
[0048] 韻律情報抽出部 109は、逆フィルタ 102より出力された音源波形より、音声の基本 周波数とパワーとを抽出する処理部である。
[0049] 特徴的音色発生指標計算規則記憶部 110は、音韻ごとの特徴的音色の発生しや すさの指標を当該音韻の属性 (例えば子音の種類、母音の種類、アクセント句やスト レス句内での位置、アクセントやストレス位置との関係、基本周波数の絶対値あるい は傾斜等)から求めるためのルールを記憶した記憶装置である。
[0050] 特徴的音色発生指標計算部 111は、音声認識部 106で生成された音韻列情報と 韻律情報抽出部 109から出力された韻律情報すなわち基本周波数およびパワーよ り、特徴的音色発生指標計算規則記憶部 110を参照して、入力音声の音韻ごとに特 徴的音色発生指標を計算する処理部である。
[0051] 感情種類判定基準記憶部 112は、当該モーラおよび隣接するモーラの特徴的音 色の種類と特徴的音色発生指標との組み合わせにより感情の種類を判定する基準 を記憶した記憶装置である。
[0052] 感情種類判定部 113は、特徴的音色発生音韻特定部 108で生成された特徴的音 色発生位置情報に基づき、感情種類判定基準記憶部 112の基準を参照して、モー ラごとの感情の種類を判定する処理部である。
[0053] 感情強度計算規則記憶部 114は、特徴的音色の発生指標と入力音声の特徴的音 色発生位置情報とから感情あるいは発話態度の程度を計算するための規則を記憶 する記憶装置である。
[0054] 感情強度計算部 115は、特徴的音色発生音韻特定部 108で生成された入力音声 中の特徴的音色が発生した音韻の情報と特徴的音色発生指標計算部 111で計算さ れた音韻ごとの特徴的音色発生指標とから、感情強度計算規則記憶部 114を参照 して感情あるいは発話態度の程度および感情種類と、音韻列とを出力する処理部で ある。
[0055] 表示部 116は感情強度計算部 115の出力を表示する表示装置である。
[0056] 先に述べたように構成された音声による感情認識装置の動作を図 5に従って説明 する。
[0057] まずマイクロホン 1より音声が入力される (ステップ S1001)。音声認識用特徴量抽 出部 101は、入力音声を分析し、音声認識用の音響特徴量としてメルケプストラム係 数を抽出する(ステップ S1002)。次に、逆フィルタ 102は、ステップ S1002で生成さ れたメルケプストラム係数の逆フィルタとなるようにパラメータを設定し、ステップ S100 1でマイクロホンより入力された音声信号を通過させ、音源波形を抽出する (ステップ S1003)。
[0058] 周期性分析部 103は、ステップ S1003で抽出された音源波形の周期性を、例えば 特開平 10— 197575号公報に記載の技術のように低周波側が緩やかで高周波側が 急峻な遮断特性を有するフィルタ出力の振幅変調の大きさと周波数変調の大きさと 力 基本波らしさを計算し、入力音声のうち周期性のある信号の時間領域を周期性 信号区間として出力する (ステップ S1004)。
[0059] 特徴的音色検出部 104は、ステップ S1004で周期性分析部 103により抽出された 周期性信号区間について、音源波形の揺らぎのうち本実施の形態では音源波形の 基本周波数揺らぎ (ジッタ)および音源波形の高域成分の揺らぎを検出する (ステツ プ S1005)。なお基本周波数揺らぎは、例えば特開平 10— 19757号公報の方式で 求められる瞬時周波数を利用して検出する。また、音源波形の高域成分の揺らぎは 、例えば特開 2004— 279436号公報に記載の技術のように、音源波形のピークッ 一ピークの振幅を、音源波形の微分の振幅の最小値 (最大ネガティブピーク)で除し た値を基本周波数で正規化した正規化振幅指数を用いる方法で検出する。
[0060] 入力音声の周期性信号区間にお!、て音源波形の周波数揺らぎある 、は音源波形 の高域成分の揺らぎが検出されたカゝ否かにより、スィッチ 107を切り替えて特徴量デ ータベース 105内の適切な特徴量データベースと音声認識部 106とを接続する(ス テツプ S1006)。すなわち、ステップ S1005において音源波形の周波数揺らぎが検 出された場合には、特徴量データベース 105のうち「力み」あり特徴量データベース 1 05bと音声認識部 106とをスィッチ 107により接続する。ステップ S1005において音 源波形の高域成分の揺らぎすなわち気息性 (かすれ)の成分が検出された場合には 、特徴量データベース 105のうち「かすれ」あり特徴量データベース 105cと音声認識 部 106とをスィッチ 107により接続する。ステップ S1005において音源波形の周波数 揺らぎと音源波形の高域成分の揺らぎの両方が検出された場合には、特徴量データ ベース 105のうち「力み」「かすれ」あり特徴量データベース 105dと音声認識部 106と をスィッチ 107により接続する。また、ステップ S1005において音源波形の周波数摇 らぎと音源波形の高域成分の揺らぎのいずれも検出されな力つた場合は、特徴量デ ータベース 105のうち特徴的音色なし特徴量データベース 105aと音声認識部 106と をスィッチ 107より接続する。
[0061] 音声認識部 106は、特徴量データベース 105のうちステップ S1006においてスイツ チ 107によって接続された特徴量データベースを参照し、ステップ S1002で抽出さ れたメルケプストラム係数を用いて音声認識を行い、認識結果として入力音声中の時 間位置情報と共に音韻列を出力する (ステップ S1007)。
[0062] 特徴的音色発生音韻特定部 108は、音声認識部 106が出力する時間位置情報付 きの音韻列情報と特徴的音色検出部 104が出力する入力音声中の特徴的音色の時 間位置情報とから入力音声中のどの音韻で特徴的音色が発生している力を特定す る(ステップ S 1008)。
[0063] 一方、韻律情報抽出部 109は、逆フィルタ 102より出力された音源波形を分析し、 基本周波数と音源パワーとを抽出する (ステップ S 1009)。
[0064] 特徴的音色発生指標計算部 111は、音声認識部 106で生成された時間位置情報 付き音韻列と韻律情報抽出部 109で抽出された基本周波数と音源パワーの情報と から、基本周波数パターンと音源パワーパターンの山谷を音韻列と照合し、音韻列 に対応するアクセント句切りおよびアクセント情報を生成する (ステップ S 1010)。
[0065] さらに、特徴的音色発生指標計算部 111は、特徴的音色発生指標計算規則記憶 部 110に記憶された、子音、母音、アクセント句中のモーラ位置、アクセント核力 の 相対位置等のモーラ属性力 特徴的音色の発生しやすさを求める規則を用いて特 徴的音色発生指標を音韻列のモーラごとに計算する (ステップ S1011)。特徴的音 色発生指標の計算規則は、例えば特徴的音色を伴う音声を含む音声データよりモー ラ属性を説明変数とし、特徴的音色が発生したか否かの 2値を従属変数として質的 データを取り扱う統計的手法の 1つである数量ィ匕 II類を用いて統計的学習を行い、モ ーラ属性力 特徴的音色の発生しやすさを数値で表現できるモデルを生成すること により作成される。
[0066] 特徴的音色発生指標計算規則記憶部 110は、例えば図 6のように統計的学習結 果を特徴的音色の種類ごとに記憶して!/、るものとする。特徴的音色発生指標計算部 111は、各モーラの属性に従って、特徴的音色発生指標計算規則記憶部 110に記 憶された統計モデルを適用し、特徴的音色発生指標を計算する。入力音声が図 3B に示すような「あたたまりました」である場合、特徴的音色発生指標計算部 111は、先 頭のモーラ「あ」の属性の得点を、「子音なし」すなわち子音の得点が—0. 17、母音 は「ァ」で母音の得点は 0. 754、「あたたまりました」というアクセント句中正順位置で の 1番目のモーラであるので正順位置の得点が 0. 267、アクセント中逆順位置では 8番目のモーラとなり逆順位置の得点が 0. 659のように求める。また、特徴的音色発 生指標計算部 111は、これらの得点を加算することにより、先頭のモーラ「あ」の特徴 的音色発生指標を計算する。特徴的音色発生指標計算部 111は、同様の処理を各 モーラについて行い、各モーラの特徴的音色発生指標を計算する。このようにして各 モーラ ίまその属'性より、先頭の「あ」 ίま 1. 51 (=—0. 17 + 0. 754 + 0. 267 + 0. 65 9)、次の「た」は 0. 79、 3モーラ目の「た」は 0. 908のように特徴的音色発生指標が 計算される。
[0067] 感情種類判定部 113は、特徴的音色発生音韻特定部 108で生成された音韻単位 で記述された特徴的音色発生位置より入力音声中の特徴的音色発生種類を特定し 、例えば図 7のように記述された感情種類判定基準記憶部 112の情報を参照し、入 力音声に含まれる特徴的音色が発生したモーラにおける感情種類を特定する (ステ ップ S 1012)。入力音声の「あたたまりました」のうち「あたたまりま」が「力んだ」音声で あり、それ以外では特徴的音色での発声がな力つた場合、特徴的音色によって発生 されたモーラについてのみ、図 7の表に従って感情を判断し、モーラ単位での感情の 変化を認識する。図 3Βについて、「あ」について、図 7に従った計算を行うと、当該モ ーラ「あ」の直前モーラはないため、当該モーラの「力み」の発生指標 1. 51に、直後 モーラの「力み」発生指標 0. 79の半分の 0. 395が加算され、 1. 905となる。また、「 かすれ」の発生は隣接するモーラには見られない。このため、「力み」に対する計算 値が正となり、「かすれ」に対する計算値が 0となるため、このモーラに含まれる感情は 「怒り」であると判断される。同様に 2モーラ目の「た」についても当該モーラの 0. 79 に直前モーラの 1. 51の半分の 0. 755と直後モーラの 0. 91の半分の 0. 455をカロ 算すると 2. 0となり、 1モーラ目同様感情は「怒り」であると判断される。
[0068] ところ力 図 3Aに示す「じゅっぷんほど力かります」という入力音声については、「ほ 」では「かすれ」の発声がされており、直前のモーラでは特徴的音色による発生はな いが、直後の「ど」では「力み」の発声がされている。このため「ほ」については当該モ ーラの「かすれ」の発生指標 2. 26と直後モーラの「力み」の発生指標 0. 73の半分 0 . 365をあわせて判断することとなり、図 7の表に従って、「ほ」また同様に「ど」の部分 につ ヽては入力音声は「はしゃぎ 'うれ 、興奮」の感情を含むものとして判断される 。しかし、「ほど」につづく「かか」の部分では特徴的音色は「力み」のみが検出されて おり、図 7の表に従って「怒り」の感情を含むものと判断され、ユーザがシステムに語り かけるうちに変動する感情をモーラ単位で追随することができる。
[0069] 入力音声が「あたたまりました」の場合、ステップ S 1011で計算されたモーラごとの 特徴的音色発生指標の値 (例えば先頭の「あ」は 1. 51、次の「た」は 0. 79、 3モーラ 目の「た」は 0. 908)に対して、図 8のように記述された感情強度計算規則記憶部 11 4の感情強度計算規則を参照すると、先頭の「あ」は「力み」の発生指標が 1. 51であ り、 0. 9以上であるため「力み」やすさが「高」と判断される。入力音声が図 3Bのように 「あたたまりました」のうち「あたたまりま」が「力んだ」音声で発声されて 、た場合、「力 み」易さが大き 、先頭の「あ」で「力んで」 V、るため「怒り」の感情強度は低くなる。次の 「た」は「力み」の発生指標が 0. 79であり中程度の「力み」易さで中程度の「怒り」、 3 モーラ目の「た」は発生指標が 0. 908であり「力み」易さが高く「怒り」の感情強度は 低い。このように、モーラごとに感情強度が計算され (ステップ S1013)、ステップ S10 12で感情判断をしたよりさらに詳細に感情強度の変化を求めることができる。表示部 116は、ステップ S 1013で計算された感情種類判定部 113の出力としてのモーラご との感情強度を表示する (ステップ S1014)。
[0070] 図 3Aのような入力については、ステップ S1012で「じゅっぷんほど力かります」の「 ほ」は「かすれ」の発生指標 2. 26と「力み」の発生指標 0. 365とにより「はしゃぎ 'うれ しい興奮」と判断されており、図 8のように記述された感情強度計算規則記憶部 114 の規則を参照すると、「ほ」の「力み」の発生指標と「かすれ」の発生指標とを乗算した 値は 0. 8249となり、「はしゃぎ 'うれしい興奮」の強度は弱となる。また、「ど」につい ては、「力み」の指標が当該モーラの 0. 73と直後モーラの 1. 57の半分を加算して 1 . 515となり、「かすれ」の指標が直前モーラ「ほ」の指標 2. 26の半分 1. 13となり、こ れらを乗算した値は 1. 171195であるので「はしゃぎ 'うれしい興奮」の強度は弱とな る。続く「か」では力みの指標が直前モーラの指標の半分と直後モーラの指標の半分 と当該モーラの指標とを加算して 2. 55となり、「怒り」の強度は「弱」であると判断され る。
[0071] ここで、図 8に示した感情強度計算規則記憶部 114に記憶されて 、る感情強度計 算規則の作成方法のうち、指標範囲と「力み」易さと感情強度との関係の作成方法に ついて説明する。図 9は、「力み」ありのモーラの発生頻度と「力み」なしのモーラの発 生頻度と「力み」易さの指標の値との関係、および感情の強さ (弱さ)と指標の値との 関係を模式的に示した図である。図 9では横軸にモーラごとに求められた「力み」易さ の指標を、右へ行くほど「力み」易くなるように設定する。また、縦軸に音声中の「力み 」ありまたは「力み」なしのモーラの発生頻度およびモーラごとの「力み」確率を示す。 また、グラフ左の軸に「力み」ありまたは「力み」なしのモーラの発生頻度を、グラフの 右の軸にモーラごとの「力み」確率を示している。グラフの曲線のうち、実線は実際の 音声データより作成された、指標の値と「力み」ありのモーラの発生頻度との関係を示 す関数であり、点線は実際の音声データより作成された、指標の値と「力み」なしのモ ーラの発生頻度との関係を示す関数である。両関数より、ある指標の値を持つモーラ の内「力み」で発生される頻度を求め、「力み」発生確率として 100分率でまとめたも のが、破線で示した「感情の弱さ」である。発生確率すなわち「感情の弱さ」は発生指 標が小さくなると感情が強くなり、発生指標が大きくなると感情が弱くなる特性となつ ている。図 9に示すような発生指標により変化する「感情の弱さ」の関数に対して、実 際の音声データより感情強度の範囲を設定し、設定された感情強度範囲の境界に対 応する発生指標を関数より求め、図 8のようなテーブルを作成する。
[0072] なお、図 8に示した感情強度計算規則記憶部 114では「感情の弱さ」の関数より作 成したテーブルを用いて感情強度を計算したが、図 9に示した関数を記憶しておき、 関数より直接「感情の弱さ」すなわち関数強度を計算するものとしても良い。
[0073] 力かる構成によれば、入力された音声より感情が反映された特徴的音色として音源 揺らぎを抽出し、特徴的音色を含む特徴量データベースと特徴的音色を含まな ヽ特 徴量データベースとを保持し、音源揺らぎの有無によって特徴量データベースを切り 替えることで音声認識精度を向上させている。他方で音声認識結果より求められる特 徴的音色の発生しやすさと実際の入力音声の音源揺らぎの有無との比較結果により 、特徴的音色が発生しやすい部分で実際に特徴的音色が発生している場合には感 情の強度が低いと判断し、特徴的音色が発生しにくい部分で入力音声に特徴的音 色が発生している場合には感情の強度が高いと判断する。このことで、入力音声から 音声の発話者の感情の種類と強度を、言語差、個人差および地方差に影響されるこ となく正確に認識することができる。
[0074] また、感情表現のある音声中に見られる特徴的音色に対する音声認識精度は、無 表情な音声データ力 作られた特徴量データベースを用いた場合には低いが、特徴 的音色を含む音声から作られた特徴量データベースに切り替えることで音声認識精 度も向上する。また、認識精度の向上により音韻列を用いて計算する特徴的音色の 発生しやすさの計算精度も向上する。このため、感情強度の計算も精度が向上する 。さらに、特徴的音色をモーラ単位で検出し、感情認識をモーラ単位で行うことで、入 力音声中の感情の変化をモーラ単位で追随させることができる。このため、システム を対話制御等に用いる場合にはユーザである話者が対話動作過程のどのイベントに 対して、どのような反応をしたかを特定する場合に効果的である。このように入力音声 よりユーザの感情の変化を詳細に捉えることができるため、例えば、ユーザの怒り強 度に合わせて、システム側の出力音声を「大変申し訳ございませんが · · ·」というよう なより丁寧な謝罪や「お手数ではございますが · · ·」というような丁寧な依頼の表現に したりすることで、ユーザの感情を平常な状態に導き、対話インタフェースとしてスム ースに動作することができる。
[0075] (実施の形態 1の変形例)
本発明の実施の形態 1の変形例を示す。図 10は本発明の実施の形態 1の音声に よる感情認識装置の変形例の機能ブロック図である。図 11は実施の形態 1の変形例 における音声による感情認識装置の動作を示すフローチャートである。図 12は入力 された音声の音韻列と特徴的音色で発声されたモーラおよびその「力み」の発生指 標と「かすれ」の発生指標の値とを模式的に示したものである。図 13は感情種類判定 規則記憶部 132に記憶された感情の種類を判定する基準の情報の例を示したもの である。
[0076] 図 10に示す感情認識装置は、図 4に示した実施の形態 1に係る感情認識装置と同 様の構成を有するが、一部構成が異なる。すなわち、図 4における感情種類判定基 準記憶部 112が感情種類判定規則記憶部 132に置き換えられている。また、感情種 類判定部 113と感情強度計算部 115とが感情種類強度計算部 133に置き換えられ ている。さらに、感情強度計算規則記憶部 114が無くなり、感情種類強度計算部 13 3が感情種類判定規則記憶部 132とを参照するように構成されている。
[0077] このような構成の、音声による感情認識装置は、実施の形態 1におけるステップ S1 011でモーラごとの特徴的音色発生指標の計算を行う。
[0078] 図 12のような例の場合、特徴的音色の「力み」と「かすれ」とを抽出し、その頻度の みに基づいて感情を判断した場合、モーラ数の多い「力み」が判断に大きく影響し、「 力み」が典型的に出現する「怒り」の感情の音声であると判断し、システムは謝罪の対 応を取ることとなる。し力しながら、実際に入力された音声は、中程度の「はしゃぎ 'う れしい興奮」の感情をともなっており、対話システムはユーザがシステムとの会話をよ り楽しむための情報提供をすべきである。
[0079] 例えば図 12のように「力み」で発生されたモーラが 24モーラ中 5モーラあり、「かす れ」で発生されたモーラが 24モーラ中 3モーラあった場合、 S 1011と同様の方法で「 力み」と「かすれ」の特徴的音色発生指標を 1モーラごとに算出する。「力み」の特徴 的音色発生指標の逆数の和は 4. 36となる。一方「かすれ」の特徴的音色発生指標 の逆数の和は 4. 46となる。これは検出された特徴的音色のモーラ数としては「力み」 の音声が多 、が、「かすれ」の音声はよりかすれにくい音声でも「かすれ」の音声が発 生しているすなわち、より「かすれ」を起こす感情が強いことを示している。さらには、 感情種類強度計算部 133は、図 13に示すような感情種類判定規則に従って感情の 種類と強度とを判定する (ステップ S 1313)。
[0080] また、 1種類の特徴的音色の指標を平均することもできる。例えば、図 3Bのように、 「力み」で発生されたモーラが 8モーラ中 5モーラあり、他の特徴的音色が発生して!/ヽ ない。「力み」と「かすれ」とが特徴的音色が発生しているときと同様に計算すると、「 力み」の特徴的音色発生指標の逆数(1モーラ目の「あ」 0. 52、 2モーラ目の「た」 0. 50、 3モーラ目の「た」 0. 56、 4モーラ目の「ま」 1. 04、 5モーラ目の「り」 6. 45、 6モ ーラ目の「ま」 1. 53)の和は 10. 6となる。図 13に示す感情強度計算規則から感情が 「怒り」で強度が「弱」であることがわかる。実施の形態 1では、図 3Bにおいて、 5モー ラ目の「り」は特徴的音色発生指標が 0. 85であり、図 8から感情が「怒り」で強度が 「強」であると判断できる。この感情の強度の判断結果は、実施の形態 1のように 1モ ーラごとに判断したときと異なる。対話システムが入力音声全体の感情の種類と強度 を判定する変形例は、人と対話システムの対話が短ぐ単純な場合に有効である。実 施の形態 1のように、 1モーラごとに感情の種類と強度を判断し、感情の種類や強度 の変化を得ることは、複雑な内容の会話や長い会話の場合には非常に重要である。 しかし、非常に単純な会話に対話システムを利用する場合には、入力音声全体で感 情の種類と強度を判定する方法が有効である。例えば、チケットの販売を行う対話シ ステムが考えられる。対話システムが「何枚ですか?」と問いかけて、それに対してュ 一ザが「二枚お願いします。」と応答するという対話を目的とする。この場合、「二枚お 願いします。」という入力音声全体で感情の種類と強度を判定し、システムが音声を 認識できな力つた場合には、感情の種類や強度に応じた謝罪を行ない、もう一度ュ 一ザに応答をしてもらう対応を対話システムが行うことにより、対話システムは有効に 動作することができる。よって、本変形例の 1種類の特徴的音色の指標のみを用いて 入力音声全体で感情の種類や強度を判定する音声認識のシステムは、短 ヽ会話や 単純な会話の対話システム等に有効である。
[0081] なお、感情の判定に用いられる数値は、モーラごとの特徴的音色の種類ごとに各モ ーラの指標の逆数の和により求められる。あるいは入力音声の特徴的音色発生位置 での特徴的音色発生指標の値を特徴的音色種類ごとに平均し、入力音声の全モー ラ数に占める特徴的音色が発生したモーラ数を特徴的音色頻度として求め、その逆 数を先に求めた特徴的音色発生指標の平均値に乗ずることにより求められる。ある いは、入力音声の特徴的音色発生位置での特徴的音色発生指標の値を特徴的音 色種類ごとに平均し、平均値の逆数に特徴的音色頻度を乗ずる等により感情の判定 に用いられる数値を求めてもよい。勘定の判定に用いられる数値は、特徴的音色の 発生のし易さが重みとして感情判断に生力される方法であり、計算方法に合わせた 判定基準が感情種類判定規則記憶部 132に記憶されているものであれば、他の方 法で求めるものとしても良い。
[0082] なお、ここではステップ S1313において特徴的音色発生指標の強度を求め、感情 種類判定規則記憶部 132は特徴的音色ごとの強度の差による判定規則を記憶して いたが、判定基準は特徴的音色発生指標の強度の比によって構成するものとしても 良い。
[0083] 力かる構成によれば、入力された音声より感情が反映された特徴的音色として音源 揺らぎが抽出される。一方で音源揺らぎの有無によって特徴量データベースを切り替 えることで音声認識精度が向上した音声認識が行なわれる。音声認識結果を利用し て特徴的音色の発生しやすさが計算される。特徴的音色が発生しやすい部分で実 際に特徴的音色が発生している場合には感情の強度が低ぐ特徴的音色が発生し にくい部分で入力音声に特徴的音色が発生している場合には感情の強度が高いと 判断して、入力音声の 1発話中で検出された特徴的音色の発生指標から、その発話 全体で表され発話者の感情の種類と強度を個人差や地方差に影響されることなく正 確に認識することができる。
[0084] (実施の形態 2)
本発明における音声中の特徴的音色を用いた感情認識では、音声認識結果の音 韻列を用いて、特徴的音色発生指標を求めることにより、精度の高い感情認識を行う ことができる。ところが、音声認識においては、感情に伴う特徴的音色は一般的な音 響モデル力 乖離している場合が多ぐ音声認識精度が低下するという課題がある。 実施の形態 1では、この課題を特徴的音色を含む音響モデルを用意して切り替える ことによって解決した力 音響モデルを複数種備えるため、データ量が大きくなり、ま た、音響モデルを生成するためのオフライン作業が増大すると言う課題があった。本 実施の形態では、これらの実施の形態 1の課題を解決するため、音響モデルによる 認識結果を言語モデルを用いて修正し、認識精度を高め、正しい音声認識結果の 音韻列に基づき、特徴的音色発生指標を求め、精度の高い感情認識を行うための 構成を示すものである。
[0085] 図 14は本発明の実施の形態 2の音声による感情認識装置の機能ブロック図である 。図 15は実施の形態 2における音声による感情認識装置の動作を示したフローチヤ ートである。図 16A〜図 16Cは実施の形態 2の動作の具体例を示したものである。
[0086] 図 14において、図 4と同じ部分については説明を省略し、図 4と異なる部分につい てのみ説明する。図 15においても、図 5と同じ部分については説明を省略し、図 5と 異なる部分にっ 、てのみ説明する。
[0087] 図 14において、感情認識装置の構成は、図 4の機能ブロック図より韻律情報抽出 部 109およびスィッチ 107がなくなり、特徴量データベース 105が音響特徴量データ ベース 205に置き換わり、言語特徴量データベース 206が付け加わり、音声認識部 1 06が音響特徴量と、言語モデルによる言語特徴量とから音韻のみでなぐ言語情報 も含めて認識を行う連続単語音声認識部 207に置き換わった以外は図 4と同様の構 成である。
[0088] このように構成された音声による感情認識装置の動作について図 15に従って説明 する。図 5と同じ動作については説明を省略し、異なる部分についてのみ説明する。
[0089] マイクロホン 1より音声が入力され (ステップ S1001)、音声認識用特徴量抽出部 10 1はメルケプストラム係数を抽出する (ステップ S1002)。逆フィルタ 102は音源波形を 抽出し (ステップ S1003)、周期性分析部 103は入力音声のうち周期性のある信号の 時間領域を周期性信号区間として出力する (ステップ S1004)。特徴的音色検出部 1 04は周期性信号区間について音源波形の揺らぎ、例えば音源波形の基本周波数 揺らぎ (ジッタ)および音源波形の高域成分の揺らぎを検出する (ステップ S 1005)。 連続単語音声認識部 207は、音響モデルを記憶して 、る音響特徴量データベース 2 05と言語モデルを記憶して 、る言語特徴量データベース 206とを参照し、ステップ S 1002で抽出されたメルケプストラム係数を用いて音声認識を行う。連続単語音声認 識部 207による音声認識は、例えば、音響モデルと言語モデルを用いた確率モデル を用いた音声認識方法によるものとする。認識は一般的に、
[0090] [数 1]
W = aigmsoiP(Y/ W)P(W)
W
[0091] W:指定された単語系列
Y:音響的な観測値系列
P (Y/W):単語列で条件付けられた音響的な観測値系列の確率 (音響モデル) P (W):仮定された単語系列に対する確率 (言語モデル)
のように音響モデルと言語モデルの積が最も高くなる単語系列を選択することで行わ れる。数 1は対数を取ると
[0092] [数 2]
J^ - argmax log P(Y / W) + log P(W)
w
[0093] のように表現できる。音響モデルと言語モデルのバランスが等価であるとは限らない ため、両モデルへの重みをつける必要がある。一般的には両重みの比として、言語 モデルの重みを設定し、
[0094] [数 3]
W = aig max log P(Y I W) + a log P(W)
w
[0095] a:音響モデルと言語モデルとの両モデルにおける言語モデルの重み
のように表現する。言語モデルの重み αは、一般的な認識処理においては、時間的 に一定の値を持つものとされる。しかし、連続単語音声認識部 207はステップ S 1005 で検出された特徴的音色の発生位置の情報を取得し、単語ごとに言語モデル重み αを変更する、
[0096] [数 4]
Λ «
W = arg max log P(Y I W) +〉 , log P ws | w - - - ) w
[0097] w :i番目の単語
a i番目の単語に適用する言語モデルの重み
のように表現されるモデルに基づき連続音声認識を行う。音響特徴量データベースと 言語特徴量データベースとを参照して音声認識を行う際に、音声認識を行うフレーム が特徴的音色を含む場合には言語モデルの重み を大きくし、相対的に音響モデ ルの重みを小さくして(ステップ S2006)、音声認識を行う(ステップ S2007)。言語モ デルの重みを大きくし、音響モデルの重みを小さくすることで、特徴的音色の発生位 置で音響モデルが適合しないことにより認識精度が低下する影響を小さくすることが できる。連続単語音声認識部 207は入力音声を音声認識した結果の単語列および 音韻列について単語の読み情報、アクセント情報、品詞情報よりアクセント句境界と アクセント位置を推定する(ステップ S2010)。
[0098] 例えば、図 16Aに示すように、入力音声の音韻列が「なまえをかくえんぴつがほし V、んです」で、そのうち「えんぴつが」の部分が特徴的音色である「力み」で発声され た音声が入力された場合、連続単語音声認識部 207はステップ S 1005で検出され た特徴的音色の発生位置の情報を取得し、特徴的音色を含まない、「なまえをかく」 と「ほ 、んです」の部分にっ 、ては、特徴的音色を含まな 、学習用データより決定 された言語モデルの重み α =0. 9を適用する。このとき、図 16Bに示すように従来の 連続音声認識の方法すなわち言語モデルの重み を一定として、特徴的音色で発 声された部分にっ ヽても特徴的音色で発声されて ヽな ヽ場合に適用する言語モデ ルの重みひ =0. 9を適用する。「力み」で発声された「えんぴつ力 の部分が「力み」 のない音響モデルとしては「えんとつ」とのマッチングが良かった場合、 [0099] [数 5] (えんとつ卜.書く) < P (えんぴつ I…書く)
[0100] のように、言語モデルとしては、文頭から「書く」までの単語列に「えんとつ」が続く確 率より「えんぴつ」が続く確率の方が大きい。このため
[0101] 園
P{W, ) < P{W2 )
名前 を 書く えんとつ が 欲しい ん です
=名前 を 書く えんぴつ が 欲しい ん です
[0102] となるにもかかわらず、言語モデルの重みが小さいために相対的に音響モデルの値 が大きぐ数 3の値は
[0103] [数 7] logP(r/ if, ) + 0.9 log P WX ) > log (7/ 2) + 0.9 x log P(W2 )
[0104] となり、認識結果としては「名前を書く煙突が欲しいんです」が採用されることになる。
[0105] しかし、本実施の形態では、連続単語音声認識部 207はステップ S2006で、特徴 的音色を含んだ入力音声を特徴的音色を含まない学習データより作成した音響モ デルにより認識する場合には認識精度が低下することに対応して、「力み」で発声さ れた「えんぴつ力 の部分については言語モデルの重みを大きくする。すなわち図 1 6Cに示すように「力み」の発声を含んだデータより作成した言語モデルの重み a = 2 . 3を適用することで、
[0106] [数 8]
[0107] となり、認識結果としては「名前を書く鉛筆が欲しいんです」が採用され、正しい認識 結果を得ることができる。 [0108] 特徴的音色発生指標計算部 111は、連続単語音声認識部 207から出力された音 韻列と音韻単位で記述された特徴的音色発生位置、および音韻列のアクセント句境 界とアクセント位置の情報を取得する。特徴的音色発生指標計算部 111は、取得し た情報と、特徴的音色発生指標計算規則記憶部 110に記憶された、子音、母音、了 クセント句中の位置、アクセント核力もの相対位置等のモーラ属性力も特徴的音色の 発生しやすさを求める規則とを用いて特徴的音色発生指標を音韻列のモーラごとに 計算する (ステップ S1011)。感情種類判定部 113は、特徴的音色発生音韻特定部 208で生成された音韻単位で記述された特徴的音色発生位置より入力音声中の特 徴的音色発生種類を特定し、感情種類判定基準記憶部 112の情報を参照して入力 音声に含まれる特徴的音色の種類に対応する感情種類を特定する (ステップ S1012 )。感情強度計算部 115は、音韻単位で記述された入力音声の特徴的音色発生位 置とステップ S1011で特徴的音色発生指標計算部 111で計算されたモーラごとの特 徴的音色発生指標とを比較し、各モーラの指標の大きさと入力音声の対応するモー ラの状態との関係に基づき、感情強度計算規則記憶部 114に記憶された規則に従 つてモーラごとの感情強度を計算する (ステップ S1013)。表示部 116は、ステップ S 1013で計算された感情種類判定部 113の出力としてのモーラごとの感情強度を表 示する(ステップ S 1014)。
[0109] なお、本実施の形態 2において特徴的音色を含まないフレームに適用する言語モ デルの重みを 0. 9、「力み」で発声されたフレームに適用する言語モデルの重みを 2 . 3とした力 特徴的音色を含むフレームにおいて言語モデルの重みが相対的に大 きくなる限りにおいて、これ以外の値であっても良い。また、「力み」以外の「かすれ」「 裏声」等の特徴的音色に対してもそれぞれに適用する言語モデルの重みを設定して おくものとしても良いし、特徴的音色を含むフレームに適用する言語モデルの重みと 特徴的音色を含まないフレームに適用する言語モデルの重みとの 2種を設定してお くものとしても良い。
[0110] なお、本実施の形態 2においても、実施の形態 1で述べたような変形例が可能であ る。
[0111] 力かる構成によれば、入力された音声より感情が反映された特徴的音色として音源 揺らぎを抽出し、一方で音源揺らぎがある場合には音響特徴量データベース内の音 響モデルに合致しにくいことを考慮して言語モデルの重み係数 aを大きくし、相対的 に音響モデルの重みを軽くする。これにより、音響モデルが合致しないことによる音 韻レベルの誤認識を防ぎ、文レベルの音声認識精度を向上させることができる。他方 で音源揺らぎの有無によって入力音声の感情の種類を判定し、さらに音声認識結果 を利用して特徴的音色の発生しやすさを計算して、特徴的音色が発生しやすい部分 で実際に特徴的音色が発生している場合には感情の強度が低いと判断し、特徴的 音色が発生しにくい部分で入力音声に特徴的音色が発生している場合には感情の 強度が高いと判断する。これにより、入力音声力 音声の発話者の感情の種類と強 度を、個人差や地方差に影響されることなく正確に認識することができる。
[0112] さらには言語モデルの重みは、既存の言語モデルと音響モデルとのバランスを決 定するものである。このため、特徴的音色を含む音響モデルを生成する場合より、少 量のデータで特徴量データベースの生成が可能である。また、感情表現のある音声 中に見られる特徴的音色は無表情な音声データから作られた音響特徴量データべ ースを用いた場合には音声認識精度が低いが、特徴的な音色が発生している部分 につ 、ては音響モデルが適切でな 、可能性があるとして音響モデルの重みを軽くし て言語モデルの重みを大きくする。このことにより不適切な音響モデルを適用するこ との影響を小さくして音声認識精度も向上する。音声認識精度の向上により音韻列 を用いて計算する特徴的音色の発生しやすさの計算精度も向上する。このため、感 情強度の計算も精度が向上する。さらに、特徴的音色を音韻単位で検出し、感情認 識を音韻単位で行うことで、入力音声中の感情の変化を音韻単位で追随することが できる。このため、対話制御等に用いる場合にはユーザである話者が対話動作過程 のどのイベントに対して、どのような反応をしたかを特定する場合に効果的である。
[0113] (実施の形態 3)
図 17は、本発明の実施の形態 3における音声による感情認識装置の機能ブロック 図である。図 18は実施の形態 3における感情認識装置の動作を示したフローチヤ一 トである。図 19は実施の形態 3における音韻入力方法の一例を示した図である。
[0114] 図 17において、図 4と同じ部分については説明を省略し、図 4と異なる部分につい てのみ説明する。図 18においても、図 5と同じ部分については説明を省略し、図 5と 異なる部分にっ 、てのみ説明する。
[0115] 図 17に示す感情認識装置では、図 4における音声認識用特徴量抽出部 101が特 徴量分析部 301に置き換えられている。また、特徴量データベース 105とスィッチ 10 7がなくなり、音声認識部 106が音韻入力部 306に置き換わった以外は図 4と同様の 構成である。
[0116] 図 17において、感情認識装置は、音声より感情を認識する装置であり、マイクロホ ン 1と、特徴量分析部 301と、逆フィルタ 102と、周期性分析部 103と、特徴的音色検 出部 104と、音韻入力部 306と、特徴的音色発生音韻特定部 108と、韻律情報抽出 部 109と、特徴的音色発生指標計算規則記憶部 110と、特徴的音色発生指標計算 部 111と、感情種類判定基準記憶部 112と、感情種類判定部 113と、感情強度計算 規則記憶部 114と、感情強度計算部 115と、表示部 116とを備えている。
[0117] 特徴量分析部 301は、入力音声を分析し、スペクトル包絡を表すパラメータ、例え ばメルケプストラム係数を抽出する処理部である。
[0118] 音韻入力部 306は、ユーザが、入力波形の特定の区間に対して、対応する音韻種 類を入力する入力手段であり、例えば、マウスやペンタブレットのようなポインティング デバイスである。ユーザは、例えば、画面上に提示された入力音声の波形ゃスぺタト ログラムに対して、ポインティングデバイスを用いて区間指定をし、その区間に対応す る音韻種類をキーボードから入力する、あるいは表示された音韻種類のリストからボイ ンティングデバイスを用いて選択すると!/ヽぅ方法で音韻種類を入力する。
[0119] 先に述べたように構成された音声による感情認識装置の動作を図 5に従って説明 する。
[0120] まずマイクロホン 1より音声が入力される (ステップ S1001)。特徴量分析部 301は、 入力音声を分析し、スペクトル情報を現す音響特徴量としてメルケプストラム係数を 抽出する(ステップ S3001)。次に、逆フィルタ 102は、ステップ S3001で生成された メルケプストラム係数の逆フィルタとなるようにパラメータを設定し、ステップ S1001で マイクロホンより入力された音声信号を通過させ、音源波形を抽出する (ステップ S 10 03)。 [0121] 周期性分析部 103は、ステップ S1003で抽出された音源波形の基本波らしさを計 算し、基本波らしさを元に入力音声のうち周期性のある信号の時間領域を周期性信 号区間として出力する (ステップ S1004)。
[0122] 特徴的音色検出部 104は、ステップ S1004で周期性分析部 103により抽出された 周期性信号区間について、音源波形の揺らぎを検出する (ステップ S1005)。
[0123] 一方、音韻入力部 306より、ユーザは入力音声の特定区間に対応する音韻種類を 入力する (ステップ S3002)。音韻入力部 306は入力された入力音声の区間と対応 する音韻種類とを、入力音声の時間位置とその時間位置に対応する音韻情報として 、特徴的音色発声音韻特定部 108に出力する。
[0124] 特徴的音色発生音韻特定部 108は、音韻入力部 306が出力する時間位置情報付 きの音韻列情報と特徴的音色検出部 104が出力する入力音声中の特徴的音色の時 間位置情報とから入力音声中のどの音韻で特徴的音色が発生していた力を特定す る(ステップ S 1008)。
[0125] 一方、韻律情報抽出部 109は、逆フィルタ 102より出力された音源波形を分析し、 基本周波数と音源パワーとを抽出する (ステップ S 1009)。
[0126] 特徴的音色発生指標計算部 111は、ステップ S3002で入力された時間位置情報 付き音韻列と韻律情報抽出部 109で抽出された基本周波数と音源パワーの情報と から、基本周波数パターンと音源パワーパターンの山谷を音韻列と照合し、音韻列 に対応するアクセント句切りおよびアクセント情報を生成する (ステップ S 1010)。
[0127] さらに、特徴的音色発生指標計算部 111は、特徴的音色発生指標計算規則記憶 部 110に記憶された、子音、母音、アクセント句中の位置、アクセント核力 の相対位 置等の音韻属性から特徴的音色の発生しやすさを求める規則を用いて特徴的音色 発生指標を音韻列の音韻ごとに計算する (ステップ S1011)。
[0128] 感情種類判定部 113は、特徴的音色発生音韻特定部 108で生成された音韻単位 で記述された特徴的音色発生位置より入力音声中の特徴的音色発生種類を特定し 、感情種類判定基準記憶部 112の情報を参照し、入力音声に含まれる特徴的音色 が発生した音韻における感情種類を特定する (ステップ S1012)。
[0129] 感情強度計算部は、感情強度計算規則記憶部 114に格納された規則を参照し、 音韻ごとに感情強度を計算する (ステップ S1013)。ステップ S1012で感情判断をし たよりさらに詳細に感情強度の変化を求めることができる。表示部 116は、ステップ S 1013で計算された感情種類判定部 113の出力としての音韻ごとの感情強度を表示 する(ステップ S 1014)。
[0130] なお、本実施の形態 3ではステップ S1012で感情種類判定基準記憶部 112に記 憶された感情種類判定基準に従って各音韻における感情種類を特定した後、ステツ プ S 1013において感情強度計算規則記憶部 114に格納された規則に従って音韻ご との感情強度を計算したが、実施の形態 1の変形例のように、音韻ごとの特徴的音色 発生指標を計算し、その結果に基づ 、て発話全体の感情種類と強度を計算するも のとしても良い。
[0131] 力かる構成によれば、入力された音声より感情が反映された特徴的音色として音源 揺らぎを抽出する一方で、入力音声の特定の区間に対応する音韻種類が入力され る。音韻列と韻律情報とから求められる特徴的音色の発生しやすさと実際の入力音 声の音源揺らぎの有無との比較結果により、特徴的音色が発生しやすい部分で実際 に特徴的音色が発生して 、る場合には感情の強度が低 、と判断し、特徴的音色が 発生しにくい部分で入力音声に特徴的音色が発生している場合には感情の強度が 高いと判断される。このことで、入力音声から音声の発話者の感情の種類と強度を、 言語差、個人差および地方差に影響されることなく正確に認識することができる。
[0132] なお、韻律情報がまったく同じで、特徴的音色の発生指標が大きくなる傾向の強い 音韻で構成された特徴的音色で発声された音声 (たとえばタ行とカ行とダ行のァ段、 ェ段、ォ段の音韻で構成された「力み」易い音声)と、特徴的音色の発生指標が小さ くなる傾向の強い音韻で構成された特徴的音色で発声された音声 (例えばハ行とサ 行のィ段とゥ段の音韻で構成された音声)とを本願の感情認識装置に入力した場合 のそれぞれの感情種類と強度の判断結果を見比べることにより、音韻種類と韻律情 報とをパラメータとして用いた特徴的音色発生指標が計算され、特徴的音色発生指 標に基づいて感情種類と強度が推定されていることが確認できる。また、特徴的音色 で発声された同一音韻が連続する音声のアクセント位置を 1音韻ずつずらした音声 を本願の感情認識装置に入力した場合の、アクセント位置の移動による感情強度の 変化を確認することにより、音韻種類と韻律情報とをパラメータとして用いた特徴的音 色発生指標が計算され、特徴的音色発生指標に基づいて感情種類と強度が推定さ れて 、ることが確認できる。
[0133] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお 、て、音 声による感情認識装置は、入力音声全体を取得して力も処理を行うものとしたが、マ イク口ホン 1より入力される音声に対して、逐次的に処理を行うものとしても良い。その 際、実施の形態 1およびその変形例では逐次処理は音声認識の処理単位である音 韻を逐次処理の単位とし、実施の形態 2については言語処理が可能な文節あるいは フレーズ等の単位を逐次処理の単位とするものとする。
[0134] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3において音源 波形はメルケプストラムの逆フィルタによって求めるものとした力 声道モデルを元に 声道伝達特性を求め、その逆フィルタによって音源波形を求める方法や、音源波形 のモデルを元に求める方法等、音源波形の求め方はメルケプストラムの逆フィルタに よる方法以外の方法を用いても良 、。
[0135] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお 、て音声 認識の音響特性モデルはメルケプストラムのパラメータを用いるものとした力 それ以 外の音声認識方式でも良い。その際、音源波形はメルケプストラムの逆フィルタを用 V、て求めるものとしても、それ以外の方法で求めるものとしても良!、。
[0136] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお 、て、特 徴的音色として音源の周波数揺らぎと音源の高域成分の揺らぎとを、「力み」と「かす れ」として検出するものとしたが、音源の振幅揺らぎ等、「日本音響学会誌 51卷 11号 (1995) , pp869-875 粕谷英榭 '楊長盛 "音源力も見た声質"」に列挙されている 裏声や緊張した声等、「力み」と「かすれ」以外の特徴的音色を検出するものとしても 良い。
[0137] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3において基本 周波数と音源パワーの抽出とを、ステップ S 1009すなわち特徴的音色発生指標計 算部 111でアクセント句境界とアクセント位置を決定する直前で行うものとした力 ス テツプ S1003で逆フィルタ 102が音源波形を生成した後で、且つステップ S1010で 特徴的音色発生指標計算部 111がアクセント句境界とアクセント位置を決定する以 前であればどのタイミングで基本周波数と音源パワーを抽出しても良い。
[0138] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお 、て特徴 的音色発生指標計算部 111は統計的学習手法として数量化 Π類を用い、説明変数 には子音、母音、アクセント句中の位置、アクセント核からの相対位置を用いるものと したが、統計的学習手法はこれ以外の方法でも良ぐ説明変数も前記の属性のみで なぐ基本周波数やパワーとそのパターン音韻の時間長等の連続量を用いて特徴的 音色発生指標を計算するものとしても良い。
[0139] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお 、て、入 力音声はマイクロホン 1より入力されるものとした力 あら力じめ録音、記録された音声 あるいは装置外部より入力される音声信号であっても良 、。
[0140] なお、実施の形態 1およびその変形例、実施の形態 2、実施の形態 3にお 、て、認 識した感情の種類と強度を表示部 116で表示するものとしたが、記憶装置へ記録す る、あるいは装置外部へ出力するものとしても良い。
産業上の利用可能性
[0141] 本発明にかかる音声による感情認識装置は、発声器官の緊張や弛緩、あるいは感 情、あるいは表情、あるいは発話スタイルによって音声のところどころに出現する特徴 的な音色の音声を検出することで入力音声の話者の感情あるいは態度を認識するも のであり、ロボット等の音声'対話インタフェース等として有用である。またコールセン ターや、電話交換の自動電話応対システム等の用途にも応用できる。さらには音声 通信時に、音声の調子に合わせてキャラクタ画像の動作が変化するような携帯端末 のアプリケーションにおいて、音声に現れる感情の変化に合わせてキャラクタ画像の 動作や表情を変化させるアプリケーションを搭載した携帯端末等にも応用できる。

Claims

請求の範囲
[1] 入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、 前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出 手段と、
前記特徴的音色手段で検出した特徴的音色に基づいて、前記入力音声に含まれ る音韻の種類を認識する音声認識手段と、
前記音声認識手段で認識された音韻の種類に基づ!/ヽて、前記特徴的音色の発声 され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指標計 算手段と、
前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づいて、前記特徴 的音色発生指標計算手段で計算された前記特徴的音色発生指標から前記特徴的 音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手 段とを備える
ことを特徴とする感情認識装置。
[2] さらに、
前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、 前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別手段を 備える
ことを特徴とする請求項 1に記載の感情認識装置。
[3] 前記感情強度判別手段は、前記特徴的音色発生指標計算手段で計算された音韻 ごとの特徴的音色発生指標と前記特徴的音色検出手段で検出された特徴的音色が 発生する時間的音声位置とを比較し、特徴的音色発生指標が小さいほど感情強度 が強くなる計算規則に基づいて、前記特徴的音色が発生している音韻における感情 強度を判別する
ことを特徴とする請求項 2に記載の感情認識装置。
[4] 前記特徴的音色検出手段は、母音部分の音源に揺らぎのある音声の音色を特徴 的音色として検出する
ことを特徴とする請求項 1に記載の感情認識装置。
[5] さらに、
音韻の種類ごとに前記特徴的音色を含む音声の特徴量を記憶して!/、る特徴量デ ータベースを少なくとも含み、
前記音声認識手段は、前記特徴量データベースに基づいて、前記入力音声に含 まれる音韻の種類を認識する
ことを特徴とする請求項 1に記載の感情認識装置。
[6] 前記特徴量データベースは、
前記音韻の種類ごとに、少なくとも 1つ以上の前記特徴的音色を含む音声の特徴 量を記憶している第 1データベースと、
前記音韻の種類ごとに、前記特徴的音色を含まない音声の特徴量を記憶している 第 2データベースとを含み、
前記感情認識装置は、さらに、前記特徴的音色検出手段での検出結果に対応す るデータベースを、前記第 1データベースおよび前記第 2データベースの中から選択 する選択手段を備え、
前記音声認識手段は、前記選択手段で選択されたデータベースに基づいて、前記 入力音声に含まれる音韻の種類を認識する
ことを特徴とする請求項 5に記載の感情認識装置。
[7] さらに、
音韻の種類ごとに音響特徴量を記憶している音響特徴量データベースと、 少なくとも読みまたは発音記号を有する単語辞書を表す言語特徴量を含む言語特 徴量データベースとを備え、
前記音声認識手段は、前記特徴的音色を検出した単語については、前記音響特 徴量データベースに含まれる音響特徴量の重みを小さくし、前記言語特徴量データ ベースに含まれる言語特徴量の重みを大きくすることにより、前記音響特徴量データ ベースと前記言語特徴量データベースとに基づいて、前記入力音声に含まれる音韻 の種類を認識する
ことを特徴とする請求項 1に記載の感情認識装置。
[8] 入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、 前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出 手段と、
入力音声に含まれる音韻の種類を入力する音韻入力手段と、
少なくとも前記音韻入力手段から入力された音韻の種類をパラメータとして用いて、 前記特徴的音色の発声され易さを示す特徴的音色発生指標を音韻ごとに計算する 特徴的音色発生指標計算手段と、
前記特徴的音色指標が小さいほど前記感情が強くなる対応規則に基づいて、前記 特徴的音色発生指標計算手段で計算された前記特徴的音色発生指標から前記特 徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判 定手段とを備える
ことを特徴とする感情認識装置。
[9] 入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、 入力音声に含まれる音韻の種類を認識する音声認識手段と、
前記入力音声力 母音部分の音源に振幅揺らぎあるいは周波数揺らぎのある力み 音声部分を抽出する特徴的音色検出手段と、
前記音声認識手段で認識された音韻ごとに、前記特徴的音色検出手段で検出さ れた音声部分が、口唇によって構音される無声破裂音、歯によって構音される無声 破擦音、口唇と歯とによって構音される無声摩擦音を少なくとも一つ含む音韻である 場合に、前記入力音声の発話者の感情が強!、怒りであると判定する感情判定手段と を備える
ことを特徴とする感情認識装置。
[10] 入力音声力 当該入力音声の発話者の感情を認識する感情認識方法であって、 前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出 ステップと、
前記特徴的音色検出ステップで検出した特徴的音色に基づいて、前記入力音声 に含まれる音韻の種類を認識する音声認識ステップと、
前記音声認識ステップで認識された音韻の種類に基づ!、て、前記特徴的音色の 発声され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指 標計算ステップと、
前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づいて、前記特徴 的音色発生指標計算ステップで計算された前記特徴的音色発生指標から前記特徴 的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定 ステップとを含む
ことを特徴とする感情認識方法。
[11] さらに、
前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、 前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別ステツ プを含む
ことを特徴とする請求項 10に記載の感情認識方法。
[12] 入力音声力 当該入力音声の発話者の感情を認識するプログラムであって、
前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出 ステップと、
前記特徴的音色検出ステップで検出した特徴的音色に基づいて、前記入力音声 に含まれる音韻の種類を認識する音声認識ステップと、
前記音声認識ステップで認識された音韻の種類に基づ!、て、前記特徴的音色の 発声され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指 標計算ステップと、
前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づいて、前記特徴 的音色発生指標計算ステップで計算された前記特徴的音色発生指標から前記特徴 的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定 ステップとをコンピュータに実行させる
ことを特徴とするプログラム。
[13] さらに、
前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、 前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別ステツ プをコンピュータに実行させる ことを特徴とする請求項 12に記載のプログラム。
PCT/JP2007/060329 2006-06-23 2007-05-21 感情認識装置 WO2007148493A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US11/997,458 US8204747B2 (en) 2006-06-23 2007-05-21 Emotion recognition apparatus
JP2007541566A JP4085130B2 (ja) 2006-06-23 2007-05-21 感情認識装置
CN2007800009004A CN101346758B (zh) 2006-06-23 2007-05-21 感情识别装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006173937 2006-06-23
JP2006-173937 2006-06-23

Publications (1)

Publication Number Publication Date
WO2007148493A1 true WO2007148493A1 (ja) 2007-12-27

Family

ID=38833236

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/060329 WO2007148493A1 (ja) 2006-06-23 2007-05-21 感情認識装置

Country Status (4)

Country Link
US (1) US8204747B2 (ja)
JP (1) JP4085130B2 (ja)
CN (1) CN101346758B (ja)
WO (1) WO2007148493A1 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010210730A (ja) * 2009-03-09 2010-09-24 Univ Of Fukui 乳幼児の感情診断装置及び方法
WO2010148141A2 (en) * 2009-06-16 2010-12-23 University Of Florida Research Foundation, Inc. Apparatus and method for speech analysis
JP2011242755A (ja) * 2010-04-22 2011-12-01 Fujitsu Ltd 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
CN102737629A (zh) * 2011-11-11 2012-10-17 东南大学 一种嵌入式语音情感识别方法及装置
WO2014069075A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 不満会話判定装置及び不満会話判定方法
US8935168B2 (en) 2011-02-10 2015-01-13 Fujitsu Limited State detecting device and storage medium storing a state detecting program
CN105551499A (zh) * 2015-12-14 2016-05-04 渤海大学 面向语音与面部表情信号的情感可视化方法
JP2017111760A (ja) * 2015-12-18 2017-06-22 カシオ計算機株式会社 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム
WO2018020763A1 (ja) * 2016-07-26 2018-02-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2018122919A1 (ja) * 2016-12-26 2018-07-05 三菱電機株式会社 感性表現語による検索装置
CN108630231A (zh) * 2017-03-22 2018-10-09 卡西欧计算机株式会社 信息处理装置、感情识别方法以及存储介质
CN111816213A (zh) * 2020-07-10 2020-10-23 深圳小辣椒科技有限责任公司 一种基于语音识别的情绪分析方法及系统
JP2021032920A (ja) * 2019-08-15 2021-03-01 日本電信電話株式会社 パラ言語情報推定装置、学習装置、それらの方法、およびプログラム
EP3983875A4 (en) * 2019-09-16 2022-07-27 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND METHOD FOR PROVIDE INSTRUCTION MANUAL THEREOF

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009009722A2 (en) 2007-07-12 2009-01-15 University Of Florida Research Foundation, Inc. Random body movement cancellation for non-contact vital sign detection
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
CN101561868B (zh) * 2009-05-19 2011-08-10 华中科技大学 基于高斯特征的人体运动情感识别方法
US8548807B2 (en) * 2009-06-09 2013-10-01 At&T Intellectual Property I, L.P. System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
WO2011011413A2 (en) * 2009-07-20 2011-01-27 University Of Florida Research Foundation, Inc. Method and apparatus for evaluation of a subject's emotional, physiological and/or physical state with the subject's physiological and/or acoustic data
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
KR101708682B1 (ko) * 2010-03-03 2017-02-21 엘지전자 주식회사 영상표시장치 및 그 동작 방법.
KR101262922B1 (ko) * 2009-12-10 2013-05-09 한국전자통신연구원 감성 변화에 따른 감성지수 결정 장치 및 그 방법
US8412530B2 (en) * 2010-02-21 2013-04-02 Nice Systems Ltd. Method and apparatus for detection of sentiment in automated transcriptions
JP2011209787A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP5610197B2 (ja) * 2010-05-25 2014-10-22 ソニー株式会社 検索装置、検索方法、及び、プログラム
US8595005B2 (en) 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
CN102479024A (zh) * 2010-11-24 2012-05-30 国基电子(上海)有限公司 手持装置及其用户界面构建方法
EP2659486B1 (en) * 2010-12-30 2016-03-23 Nokia Technologies Oy Method, apparatus and computer program for emotion detection
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
JP5708155B2 (ja) * 2011-03-31 2015-04-30 富士通株式会社 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
EP2707872A2 (en) * 2011-05-12 2014-03-19 Johnson Controls Technology Company Adaptive voice recognition systems and methods
JP5664480B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US9520125B2 (en) * 2011-07-11 2016-12-13 Nec Corporation Speech synthesis device, speech synthesis method, and speech synthesis program
KR101830767B1 (ko) * 2011-07-14 2018-02-22 삼성전자주식회사 사용자의 감정 인식 장치 및 방법
KR101801327B1 (ko) * 2011-07-29 2017-11-27 삼성전자주식회사 감정 정보 생성 장치, 감정 정보 생성 방법 및 감정 정보 기반 기능 추천 장치
US9763617B2 (en) * 2011-08-02 2017-09-19 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
GB2514943A (en) * 2012-01-24 2014-12-10 Auraya Pty Ltd Voice authentication and speech recognition system and method
US10007724B2 (en) * 2012-06-29 2018-06-26 International Business Machines Corporation Creating, rendering and interacting with a multi-faceted audio cloud
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9183849B2 (en) * 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US9158760B2 (en) 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
US9396723B2 (en) 2013-02-01 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
WO2015019345A1 (en) * 2013-08-06 2015-02-12 Beyond Verbal Communication Ltd Emotional survey according to voice categorization
EP3057493B1 (en) * 2013-10-20 2020-06-24 Massachusetts Institute Of Technology Using correlation structure of speech dynamics to detect neurological changes
US20150111185A1 (en) * 2013-10-21 2015-04-23 Paul Laroche Interactive emotional communication doll
CN103531208B (zh) * 2013-11-01 2016-08-03 东南大学 一种基于短时记忆权重融合的航天应激情感识别方法
KR102191306B1 (ko) 2014-01-22 2020-12-15 삼성전자주식회사 음성 감정 인식 시스템 및 방법
WO2015116678A1 (en) 2014-01-28 2015-08-06 Simple Emotion, Inc. Methods for adaptive voice interaction
US9947342B2 (en) 2014-03-12 2018-04-17 Cogito Corporation Method and apparatus for speech behavior visualization and gamification
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9685174B2 (en) * 2014-05-02 2017-06-20 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
US20160042766A1 (en) * 2014-08-06 2016-02-11 Echostar Technologies L.L.C. Custom video content
US9667786B1 (en) 2014-10-07 2017-05-30 Ipsoft, Inc. Distributed coordinated system and process which transforms data into useful information to help a user with resolving issues
WO2016057781A1 (en) 2014-10-08 2016-04-14 The University Of Florida Research Foundation, Inc. Method and apparatus for non-contact fast vital sign acquisition based on radar signal
US9747276B2 (en) 2014-11-14 2017-08-29 International Business Machines Corporation Predicting individual or crowd behavior based on graphical text analysis of point recordings of audible expressions
US9355089B1 (en) * 2014-12-08 2016-05-31 International Business Machines Corporation Intention detection in domain-specific information
CN105989836B (zh) * 2015-03-06 2020-12-01 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
US9833200B2 (en) 2015-05-14 2017-12-05 University Of Florida Research Foundation, Inc. Low IF architectures for noncontact vital sign detection
US10997226B2 (en) 2015-05-21 2021-05-04 Microsoft Technology Licensing, Llc Crafting a response based on sentiment identification
EP3350806A4 (en) 2015-09-14 2019-08-07 Cogito Corporation SYSTEMS AND METHODS FOR IDENTIFYING HUMAN EMOTIONS AND / OR MENTAL HEALTH CONDITIONS BASED ON ANALYZES OF AUDIO INPUTS AND / OR BEHAVIORAL DATA COLLECTED FROM COMPUTING DEVICES
KR102437689B1 (ko) 2015-09-16 2022-08-30 삼성전자주식회사 음성 인식 서버 및 그 제어 방법
CN106562792B (zh) * 2015-10-08 2021-08-06 松下电器(美国)知识产权公司 信息提示装置的控制方法和信息提示装置
CN105334743B (zh) * 2015-11-18 2018-10-26 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其系统
JP6306071B2 (ja) 2016-02-09 2018-04-04 Pst株式会社 推定装置、推定プログラム、推定装置の作動方法および推定システム
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
JP6589838B2 (ja) * 2016-11-30 2019-10-16 カシオ計算機株式会社 動画像編集装置及び動画像編集方法
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
US10339931B2 (en) 2017-10-04 2019-07-02 The Toronto-Dominion Bank Persona-based conversational interface personalization using social network preferences
US10460748B2 (en) 2017-10-04 2019-10-29 The Toronto-Dominion Bank Conversational interface determining lexical personality score for response generation with synonym replacement
KR102525120B1 (ko) * 2018-04-19 2023-04-25 현대자동차주식회사 데이터 분류 장치, 이를 포함하는 차량, 및 데이터 분류 장치의 제어방법
JP7159655B2 (ja) * 2018-07-09 2022-10-25 富士フイルムビジネスイノベーション株式会社 感情推定システムおよびプログラム
US11380351B2 (en) * 2018-09-20 2022-07-05 Samsung Electronics Co., Ltd. System and method for pulmonary condition monitoring and analysis
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
CN110110135A (zh) * 2019-04-17 2019-08-09 西安极蜂天下信息科技有限公司 声音特征数据库更新方法及装置
US11183201B2 (en) 2019-06-10 2021-11-23 John Alexander Angland System and method for transferring a voice from one body of recordings to other recordings
RU2718868C1 (ru) * 2019-06-19 2020-04-15 Федеральное Государственное Бюджетное Образовательное Учреждение Высшего Образования "Новосибирский Государственный Технический Университет" Способ диагностики психоэмоционального состояния по голосу
US11019207B1 (en) * 2019-11-07 2021-05-25 Hithink Royalflush Information Network Co., Ltd. Systems and methods for smart dialogue communication
CN110910903B (zh) * 2019-12-04 2023-03-21 深圳前海微众银行股份有限公司 语音情绪识别方法、装置、设备及计算机可读存储介质
EP4044624A1 (en) 2021-02-15 2022-08-17 Sonova AG Tracking happy moments of hearing device users
CN113611326B (zh) * 2021-08-26 2023-05-12 中国地质大学(武汉) 一种实时语音情感识别方法及装置
CN114566189B (zh) * 2022-04-28 2022-10-04 之江实验室 基于三维深度特征融合的语音情感识别方法及系统
CN115460031B (zh) * 2022-11-14 2023-04-11 深圳市听见时代科技有限公司 一种基于物联网的智能音响控制监管系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JP2003210833A (ja) * 2002-01-17 2003-07-29 Aruze Corp 対話ゲームシステム、対話ゲーム方法及びプログラム
JP2004037989A (ja) * 2002-07-05 2004-02-05 Nippon Telegr & Teleph Corp <Ntt> 音声受付システム
JP2004259238A (ja) * 2003-02-25 2004-09-16 Kazuhiko Tsuda 自然言語解析における感情理解システム
JP2004310034A (ja) * 2003-03-24 2004-11-04 Matsushita Electric Works Ltd 対話エージェントシステム
JP2005348872A (ja) * 2004-06-09 2005-12-22 Nippon Hoso Kyokai <Nhk> 感情推定装置及び感情推定プログラム
JP2006071936A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント
JP2006106711A (ja) * 2004-09-10 2006-04-20 Matsushita Electric Ind Co Ltd 情報処理端末

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0922296A (ja) 1995-07-05 1997-01-21 Sanyo Electric Co Ltd 感性情報入力処理装置及びその処理方法
JP3112654B2 (ja) 1997-01-14 2000-11-27 株式会社エイ・ティ・アール人間情報通信研究所 信号分析方法
IL122632A0 (en) * 1997-12-16 1998-08-16 Liberman Amir Apparatus and methods for detecting emotions
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6353810B1 (en) * 1999-08-31 2002-03-05 Accenture Llp System, method and article of manufacture for an emotion detection system improving emotion recognition
US6480826B2 (en) * 1999-08-31 2002-11-12 Accenture Llp System and method for a telephonic emotion detection that provides operator feedback
US6427137B2 (en) * 1999-08-31 2002-07-30 Accenture Llp System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
JP2001083984A (ja) 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
US7139699B2 (en) * 2000-10-06 2006-11-21 Silverman Stephen E Method for analysis of vocal jitter for near-term suicidal risk assessment
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
CN1159702C (zh) * 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
AU2002230151B2 (en) * 2001-08-06 2006-08-03 Index Corporation Apparatus for determining dog's emotions by vocal analysis of barking sounds and method for the same
US6721704B1 (en) * 2001-08-28 2004-04-13 Koninklijke Philips Electronics N.V. Telephone conversation quality enhancer using emotional conversational analysis
EP1300831B1 (en) * 2001-10-05 2005-12-07 Sony Deutschland GmbH Method for detecting emotions involving subspace specialists
EP1326445B1 (en) * 2001-12-20 2008-01-23 Matsushita Electric Industrial Co., Ltd. Virtual television phone apparatus
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP2004063953A (ja) * 2002-07-31 2004-02-26 Ube Ind Ltd ダイシングテ−プ
EP1391876A1 (en) * 2002-08-14 2004-02-25 Sony International (Europe) GmbH Method of determining phonemes in spoken utterances suitable for recognizing emotions using voice quality features
JP4204839B2 (ja) * 2002-10-04 2009-01-07 株式会社エイ・ジー・アイ 発想モデル装置、自発感情モデル装置、発想のシミュレーション方法、自発感情のシミュレーション方法、およびプログラム
JP3706112B2 (ja) 2003-03-12 2005-10-12 独立行政法人科学技術振興機構 音声合成装置及びコンピュータプログラム
JP2005039501A (ja) 2003-07-14 2005-02-10 Nec Corp 携帯電話録音サービスシステム、方法およびプログラム
JP2005202854A (ja) * 2004-01-19 2005-07-28 Nec Corp 画像処理装置、画像処理方法及び画像処理プログラム
JP2005283647A (ja) 2004-03-26 2005-10-13 Matsushita Electric Ind Co Ltd 感情認識装置
US7788104B2 (en) * 2004-09-10 2010-08-31 Panasonic Corporation Information processing terminal for notification of emotion
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
WO2006132159A1 (ja) * 2005-06-09 2006-12-14 A.G.I. Inc. ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
US8209182B2 (en) * 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
WO2007072485A1 (en) * 2005-12-22 2007-06-28 Exaudios Technologies Ltd. System for indicating emotional attitudes through intonation analysis and methods thereof
US20070192108A1 (en) * 2006-02-15 2007-08-16 Alon Konchitsky System and method for detection of emotion in telecommunications
KR101014321B1 (ko) * 2009-02-24 2011-02-14 한국전자통신연구원 최소 분류 오차 기법을 이용한 감정 인식 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JP2003210833A (ja) * 2002-01-17 2003-07-29 Aruze Corp 対話ゲームシステム、対話ゲーム方法及びプログラム
JP2004037989A (ja) * 2002-07-05 2004-02-05 Nippon Telegr & Teleph Corp <Ntt> 音声受付システム
JP2004259238A (ja) * 2003-02-25 2004-09-16 Kazuhiko Tsuda 自然言語解析における感情理解システム
JP2004310034A (ja) * 2003-03-24 2004-11-04 Matsushita Electric Works Ltd 対話エージェントシステム
JP2005348872A (ja) * 2004-06-09 2005-12-22 Nippon Hoso Kyokai <Nhk> 感情推定装置及び感情推定プログラム
JP2006071936A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント
JP2006106711A (ja) * 2004-09-10 2006-04-20 Matsushita Electric Ind Co Ltd 情報処理端末

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010210730A (ja) * 2009-03-09 2010-09-24 Univ Of Fukui 乳幼児の感情診断装置及び方法
WO2010148141A2 (en) * 2009-06-16 2010-12-23 University Of Florida Research Foundation, Inc. Apparatus and method for speech analysis
WO2010148141A3 (en) * 2009-06-16 2011-03-31 University Of Florida Research Foundation, Inc. Apparatus and method for speech analysis
US8788270B2 (en) 2009-06-16 2014-07-22 University Of Florida Research Foundation, Inc. Apparatus and method for determining an emotion state of a speaker
US9099088B2 (en) 2010-04-22 2015-08-04 Fujitsu Limited Utterance state detection device and utterance state detection method
JP2011242755A (ja) * 2010-04-22 2011-12-01 Fujitsu Ltd 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US8935168B2 (en) 2011-02-10 2015-01-13 Fujitsu Limited State detecting device and storage medium storing a state detecting program
CN102737629A (zh) * 2011-11-11 2012-10-17 东南大学 一种嵌入式语音情感识别方法及装置
JPWO2014069075A1 (ja) * 2012-10-31 2016-09-08 日本電気株式会社 不満会話判定装置及び不満会話判定方法
WO2014069075A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 不満会話判定装置及び不満会話判定方法
CN105551499A (zh) * 2015-12-14 2016-05-04 渤海大学 面向语音与面部表情信号的情感可视化方法
JP2017111760A (ja) * 2015-12-18 2017-06-22 カシオ計算機株式会社 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム
JPWO2018020763A1 (ja) * 2016-07-26 2019-01-17 ソニー株式会社 情報処理装置
WO2018020763A1 (ja) * 2016-07-26 2018-02-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019124952A (ja) * 2016-07-26 2019-07-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2018122919A1 (ja) * 2016-12-26 2018-07-05 三菱電機株式会社 感性表現語による検索装置
JP2018159788A (ja) * 2017-03-22 2018-10-11 カシオ計算機株式会社 情報処理装置、方法及びプログラム
CN108630231A (zh) * 2017-03-22 2018-10-09 卡西欧计算机株式会社 信息处理装置、感情识别方法以及存储介质
CN108630231B (zh) * 2017-03-22 2024-01-05 卡西欧计算机株式会社 信息处理装置、感情识别方法以及存储介质
JP2021032920A (ja) * 2019-08-15 2021-03-01 日本電信電話株式会社 パラ言語情報推定装置、学習装置、それらの方法、およびプログラム
JP7141641B2 (ja) 2019-08-15 2022-09-26 日本電信電話株式会社 パラ言語情報推定装置、学習装置、それらの方法、およびプログラム
EP3983875A4 (en) * 2019-09-16 2022-07-27 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND METHOD FOR PROVIDE INSTRUCTION MANUAL THEREOF
CN111816213A (zh) * 2020-07-10 2020-10-23 深圳小辣椒科技有限责任公司 一种基于语音识别的情绪分析方法及系统

Also Published As

Publication number Publication date
JPWO2007148493A1 (ja) 2009-11-19
CN101346758B (zh) 2011-07-27
US20090313019A1 (en) 2009-12-17
US8204747B2 (en) 2012-06-19
JP4085130B2 (ja) 2008-05-14
CN101346758A (zh) 2009-01-14

Similar Documents

Publication Publication Date Title
JP4085130B2 (ja) 感情認識装置
Polzin et al. Emotion-sensitive human-computer interfaces
JP4914295B2 (ja) 力み音声検出装置
Ten Bosch Emotions, speech and the ASR framework
US7062439B2 (en) Speech synthesis apparatus and method
US6725199B2 (en) Speech synthesis apparatus and selection method
US7062440B2 (en) Monitoring text to speech output to effect control of barge-in
Rudzicz Adjusting dysarthric speech signals to be more intelligible
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
US7191132B2 (en) Speech synthesis apparatus and method
JPH09500223A (ja) 多言語音声認識システム
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
JP5040778B2 (ja) 音声合成装置、方法及びプログラム
Sigmund Voice recognition by computer
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
JPH11175082A (ja) 音声対話装置及び音声対話用音声合成方法
Picart et al. Analysis and HMM-based synthesis of hypo and hyperarticulated speech
Bosch Emotions: what is possible in the ASR framework
Diwakar et al. Improving speech to text alignment based on repetition detection for dysarthric speech
Furui Robust methods in automatic speech recognition and understanding.
Chen et al. Optimization of dysarthric speech recognition
JP2000244609A (ja) 話者状況適応型音声対話装置及び発券装置
JP2000075894A (ja) 音声認識方法及び装置、音声対話システム、記録媒体
Schramm et al. A Brazilian Portuguese language corpus development
Bharadwaj et al. Analysis of Prosodic features for the degree of emotions of an Assamese Emotional Speech

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780000900.4

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2007541566

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11997458

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07743763

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07743763

Country of ref document: EP

Kind code of ref document: A1