WO2017168663A1 - 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 - Google Patents

発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 Download PDF

Info

Publication number
WO2017168663A1
WO2017168663A1 PCT/JP2016/060565 JP2016060565W WO2017168663A1 WO 2017168663 A1 WO2017168663 A1 WO 2017168663A1 JP 2016060565 W JP2016060565 W JP 2016060565W WO 2017168663 A1 WO2017168663 A1 WO 2017168663A1
Authority
WO
WIPO (PCT)
Prior art keywords
fundamental frequency
value
feature amount
difference
impression
Prior art date
Application number
PCT/JP2016/060565
Other languages
English (en)
French (fr)
Inventor
太郎 外川
紗友梨 香村
猛 大谷
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2016/060565 priority Critical patent/WO2017168663A1/ja
Priority to EP16896881.6A priority patent/EP3438980B1/en
Priority to JP2018507963A priority patent/JP6521173B2/ja
Publication of WO2017168663A1 publication Critical patent/WO2017168663A1/ja
Priority to US16/143,537 priority patent/US10861477B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/24Arrangements for testing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to a speech impression determination program, a speech impression determination method, and a speech impression determination device.
  • the voice of the operator affects the impression received by the customer.
  • the customer often has a good impression of the call with the operator. Therefore, there is a technique for objectively determining the brightness level of the operator's voice in order to evaluate the operator's response to the customer.
  • this technique for example, based on the difference between the maximum value and the minimum value of the fundamental frequency of the operator's voice, when the difference is large, it is determined that the brightness level of the operator's voice is large.
  • the impression of the brightness of the voice received by the listener changes based on the magnitude of the change in the fundamental frequency in a short time.
  • the fundamental frequency of the voice tends to decrease gradually, so the maximum fundamental frequency can be near the start of utterance and the minimum fundamental frequency can be near the end of utterance. High nature.
  • the magnitude of the change in the fundamental frequency in a short time does not appear in the difference between the maximum value and the minimum value of the fundamental frequency. Therefore, there is a possibility that an operator's voice with a low brightness level is determined to have a high brightness level.
  • an object of the present invention is to improve the determination accuracy of an utterance impression.
  • a fundamental frequency is specified from an audio signal that has received an input, and a relaxation value obtained by changing the fundamental frequency is calculated in time series so that a change in the identified fundamental frequency becomes gentle.
  • the audio signal is evaluated based on the degree of difference between at least one feature quantity related to the fundamental frequency and the relaxation value corresponding to the feature quantity.
  • FIG. 3 is a block diagram showing an example of a hardware configuration of an utterance impression determination device according to the first to third embodiments. It is a block diagram for demonstrating the outline
  • the speech impression determination device 10 includes, for example, a voice detection unit 11, a calculation unit 12, and an impression determination unit 13.
  • the sound detection unit 11, the calculation unit 12, and the impression determination unit 13 are connected to each other.
  • the voice detection unit 11 detects the voice of the user.
  • the calculation unit 12 specifies a fundamental frequency from the audio signal that has received the input, and calculates a relaxation value in which the fundamental frequency is changed in time series so that the change in the identified fundamental frequency becomes gentle.
  • the impression determination unit 13 evaluates the audio signal based on the degree of difference between at least one feature quantity related to the fundamental frequency and the relaxation value corresponding to the feature quantity.
  • the speech impression determination device 10 may be, for example, a personal computer that can be connected to a fixed phone, a smartphone, or a mobile phone, or a dedicated device, or may be a part of a fixed phone, a smartphone, a mobile phone, or the like. Also good.
  • the speech impression determination apparatus 10 includes a CPU (Central Processing Unit) 21, a primary storage unit 22, a secondary storage unit 23, an external interface 24, an audio signal receiving unit 25, and a microphone (microphone). 26.
  • the CPU 21, the primary storage unit 22, the secondary storage unit 23, the external interface 24, the audio signal reception unit 25, and the microphone 26 are connected to each other via a bus 29.
  • External devices are connected to the external interface 24, and the external interface 24 controls transmission / reception of various information between the external device and the CPU 21.
  • the microphone 26 receives the voice on the user side, for example, the voice of the operator of the call center that uses the speech impression determination device 10 and converts it into a voice signal.
  • the microphone 26 is shown to be included in the speech impression determination device 10, but the present embodiment is not limited to this.
  • the microphone 26 may be, for example, a microphone of a communication device such as a telephone connected to the utterance impression determination device 10, or may be an external microphone connected via the external interface 24.
  • the voice signal receiving unit 25 receives a voice signal representing a voice uttered by a customer who talks with the other party, for example, an operator, which is transmitted by wire or wirelessly through a telephone line or an Internet line.
  • the primary storage unit 22 is a volatile memory such as a RAM (Random Access Memory).
  • the secondary storage unit 23 is a non-volatile memory such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • the secondary storage unit 23 includes, for example, a program storage area 23P that stores a speech impression determination program and a data storage area 23D that stores various data. Note that the utterance impression determination program may be read from a non-temporary storage medium such as a CD-ROM or DVD via the external interface 24, or may be received from an external server.
  • the CPU 21 reads the utterance impression determination program from the secondary storage unit 23 and develops it in the primary storage unit 22.
  • the CPU 21 operates as the calculation unit 12 and the impression determination unit 13 illustrated in FIG. 1 by executing the utterance impression determination program.
  • the utterance impression determination device 10 determines the utterance impression that the user's utterance gives to the other party.
  • the utterance impression determination apparatus 10 acquires a user's utterance voice with the microphone 26.
  • the speech impression determining apparatus 10 extracts a fundamental frequency from an audio signal corresponding to the user's speech.
  • the utterance impression determination apparatus 10 calculates relaxation values obtained by changing the fundamental frequency in a time series so that the fundamental frequency changes gradually.
  • the utterance impression determination device 10 calculates a difference amount representing a degree of difference between the fundamental frequency and the relaxation value corresponding to the fundamental frequency for each unit time described later.
  • the speech impression determining apparatus 10 determines a speech impression per unit time based on the difference amount calculated in block 36A.
  • FIG. 4 shows an example of the speech impression determination process performed by the speech impression determination device 10.
  • the utterance impression determination process of FIG. 4 is started by turning on the utterance impression determination apparatus 10 in a state where the user has started a call.
  • the CPU 21 sets a counter F1 for counting the number of audio frames (hereinafter also referred to as a first frame counter F1) to 1 and a counter N1 for counting the number of unit times (hereinafter also referred to as a unit time counter N1). Set to 0).
  • the first frame counter F1 and the unit time counter N1 are included in the data storage area 23D of the secondary storage unit 23, for example.
  • step 102 the CPU 21 determines whether a call is in progress. If the determination is negative, that is, if the call is not in progress, the CPU 21 ends the speech impression determination process. If the determination is affirmative, that is, if the call is in progress, the process proceeds to step 103.
  • the CPU 21 receives an audio signal for one frame.
  • the time length of one frame is, for example, 10 milliseconds.
  • the voice signal is a signal corresponding to the voice detected by the microphone 26, that is, a signal uttered by the user, and is temporarily stored in the data storage area 23 ⁇ / b> D of the secondary storage unit 23, for example.
  • the CPU 21 acquires the fundamental frequency FF2 of the audio signal.
  • the fundamental frequency FF1 of the audio signal is acquired as described below, for example.
  • the autocorrelation of the audio signal is calculated, and as illustrated in FIG. 5, the time when the shift time is positive and the autocorrelation value is maximized at the minimum position is defined as the basic period pr.
  • the sampling frequency Fs is, for example, 8,000 Hz.
  • the CPU 21 changes the basic frequency FF1 of the audio signal, which is a unit Hz, to the basic frequency FF2 of the audio signal, which is a unit semitone that matches the voice level on human hearing.
  • FF1 12 ⁇ log 2 (FF1 / 50) (2)
  • the CPU21 memorize
  • the FFR may be, for example, an array included in the data storage area 23D of the secondary storage unit 23, and the first frame counter F1 stores the count value of the audio frame as described above.
  • step 105 the CPU 21 adds 1 to the first frame counter F1.
  • step 106 the CPU 21 determines whether or not the count value of the audio frame stored in the first frame counter F1 is smaller than the predetermined frame number L. L may be 50, for example. If the determination is affirmative, that is, if the count value of the audio frame is smaller than the predetermined frame number L, the CPU 21 returns to step 102 and repeats the processing of step 102 to step 105. On the other hand, if the determination is negative, that is, if the count value of the audio frame is equal to or greater than the predetermined frame number L, the CPU 21 proceeds to step 107.
  • step 107 the CPU 21 sets 0 to a counter F2 that counts the number of audio frames (hereinafter also referred to as a second frame counter F2). Based on the count value of the second frame counter F2, it is determined whether or not the number of frames has reached a predetermined frame number M corresponding to a unit time for determining the speech impression, as will be described later.
  • a counter F2 that counts the number of audio frames
  • step 108 the CPU 21 determines whether or not a call is in progress. If the determination is negative, that is, if the call is not in progress, the utterance impression determination process ends. If the determination in step 108 is affirmative, that is, if a call is in progress, the CPU 21 proceeds to step 109. Step 109 is the same as step 103 described above, and step 110 is the same as step 104 described above.
  • the CPU 21 calculates a relaxation value A1.
  • the relaxation value is, for example, a moving average value that calculates an average value of the fundamental frequencies FF2 (stored in the array FFR) for L frames retroactively from the current fundamental frequency FF2, as shown in Expression (3).
  • the L frame is an example of a partial section of the audio signal. As described above, L may be 50, for example.
  • the CPU 21 stores the acquired relaxation value A1 in the array A1R [F1].
  • A1R may be, for example, an array included in the data storage area 23D of the secondary storage unit 23, and the first frame counter F1 stores the count value of the audio frame as described above.
  • step 112 the CPU 21 adds 1 to the second frame counter F2.
  • step 113 the CPU 21 determines whether or not the count value stored in the second frame counter F2 is smaller than M.
  • M is a predetermined number of frames corresponding to the unit time for determining the above-mentioned speech impression.
  • M may be 300.
  • a value larger than L is used for M.
  • step 113 If the determination in step 113 is affirmative, that is, if the count value stored in the second frame counter F2 is smaller than M, the CPU 21 adds 1 to the count value of the first frame counter F1 in step 114. Return to step 108. If the determination in step 113 is negative, that is, if the count value stored in the second frame counter F2 is greater than or equal to M, the CPU 21 calculates the difference amount AD in step 115.
  • Expression (4) the difference amount AD between the fundamental frequency FF2 stored in the array FFR for M frames retroactively from the current audio frame and the relaxation value A1 stored in the array A1R is calculated. Calculated. That is, in Expression (4), a difference amount AD that is a degree representing the magnitude of the difference between each basic frequency FF2 per unit time and each relaxation value A1 corresponding to each basic frequency FF2 is calculated.
  • step 116 the CPU 21 determines an utterance impression based on the calculated difference amount AD. Details of step 116 are illustrated in FIG.
  • step 171 the CPU 21 determines whether or not the difference amount AD is smaller than a predetermined first threshold value TL that is an example of a threshold value. If the determination in step 171 is affirmative, that is, if the difference amount AD is smaller than the predetermined first threshold value TL, the CPU 21 determines in step 172 that the utterance impression is bad and sets the utterance impression DR in the array OI [N1]. Store and proceed to step 117.
  • the utterance impression DR may be, for example, the alphabet B indicating that the utterance impression is bad, or may be a numerical value -1.
  • the OI may be an array included in the data storage area 23D of the secondary storage unit 23, for example.
  • step 173 the CPU 21 calculates in step 173 that the calculated difference amount AD is less than or equal to the predetermined second threshold value TH. It is determined whether or not.
  • the second threshold TH is a value greater than the first threshold. If the determination in step 173 is affirmative, that is, if the calculated difference amount AD is equal to or smaller than the second threshold value TH, the CPU 21 determines in step 174 that the utterance impression is normal, and the utterance impression DR is arranged in the array OI [ N1] and proceed to step 117.
  • the utterance impression DR may be, for example, the letter O indicating that the utterance impression is normal, or may be the numerical value 0.
  • step 173 determines in step 175 that the utterance impression is good, and the utterance impression DR is arranged in the array OI [N1]. And proceed to step 117.
  • the utterance impression DR may be, for example, the letter G indicating that the utterance impression is good, or may be the numerical value 1.
  • the first threshold value TL may be, for example, 1.5 [semitone]
  • the second threshold value TH may be, for example, 3.0 [semitone].
  • the CPU 21 adds 1 to the count value of the first frame counter F1, adds 1 to the count value of the unit time counter N1, and returns to step 107.
  • the speech utterance impression corresponding to the audio signal is based on the difference amount indicating the degree of the difference between each fundamental frequency and each relaxation value corresponding to each fundamental frequency.
  • the present embodiment is not limited to this.
  • the audio corresponding to the audio signal based on the difference amount indicating the magnitude of the difference between each of the fundamental frequencies larger than each of the corresponding relaxation values and each of the relaxation values corresponding to each of the fundamental frequencies.
  • the utterance impression may be determined.
  • the calculation unit specifies the fundamental frequency from the audio signal that has received the input, and calculates a relaxation value obtained by changing the fundamental frequency in time series so that the change in the identified fundamental frequency becomes gradual.
  • the impression determination unit evaluates the audio signal based on a degree of difference between at least one feature amount related to the fundamental frequency and a relaxation value corresponding to the feature amount.
  • the relaxation value is a moving average value of the fundamental frequency in a partial section of the audio signal.
  • the feature amount is a fundamental frequency specified from the audio signal.
  • the difference amount indicating the degree of difference between at least one feature amount related to the fundamental frequency and the relaxation value corresponding to the feature amount is the feature amount and feature amount per unit time of impression determination. It is the square root of the sum of squares of the difference from the corresponding relaxation value.
  • the impression determination unit determines that the impression is bad when the difference amount is smaller than the threshold value, and determines that the impression is good when the difference amount is larger than the threshold value by a predetermined value or more.
  • the present embodiment it is possible to improve speech impression determination accuracy by evaluating the audio signal based on the degree of difference between the feature value and the relaxation value corresponding to the feature value. That is, in the present embodiment, it is possible to suppress erroneous determination of dark sound as bright sound even when the utterance duration is long and the fundamental frequency tends to gradually decrease.
  • the utterance impression determination apparatus 10 acquires the user's utterance voice with the microphone 26.
  • the utterance impression determination device 10 detects an utterance section in block 34.
  • the utterance section is a section including the user's uttered voice.
  • the utterance impression determination device 10 When it is detected in block 34 that it is an utterance section, the utterance impression determination device 10 extracts a fundamental frequency from an audio signal corresponding to the user's uttered voice in block 31. The utterance impression determination apparatus 10 calculates a relaxation value obtained by changing the fundamental frequency in a time series so that the change of the fundamental frequency becomes gradual in block 32B, and calculates a feature amount related to the fundamental frequency in block 33B. .
  • the utterance impression determination device 10 determines the magnitude of the difference between the feature value and the relaxation value corresponding to the feature value in block 36B. A difference amount representing the degree is calculated for each unit utterance section. In block 37B, the utterance impression determination device 10 determines the utterance impression for each unit utterance section based on the difference amount for each unit utterance section.
  • FIG. 8 shows an example of the speech impression determination process performed by the speech impression determination device 10.
  • the utterance impression determination process of FIG. 8 is started by turning on the power of the utterance impression determination apparatus 10 in a state where the user has started a call.
  • the CPU 21 sets 0 to a counter N2 that counts the number of unit utterance intervals (hereinafter also referred to as a unit utterance interval counter N2).
  • the CPU 21 determines whether a call is in progress. If the determination is negative, that is, if the call is not in progress, the CPU 21 ends the speech impression determination process. If the determination is affirmative, that is, if the call is in progress, the process proceeds to step 122.
  • the CPU 21 receives an audio signal for one frame in step 122.
  • the time length of one frame is, for example, 10 milliseconds.
  • the voice signal is a voice signal corresponding to the voice detected by the microphone 26, that is, the voice of the user, and is temporarily stored in the data storage area 23D of the secondary storage unit 23, for example.
  • step 123 the CPU 21 determines whether or not the voice represented by the voice signal received in step 122 is the voice of the utterance section. For example, when the power or signal-to-noise ratio of the voice signal received in step 123 is greater than a predetermined value, the voice represented by the voice signal is an utterance section including not only background noise but also the user's uttered voice. judge.
  • step 123 If the determination in step 123 is negative, that is, if the voice represented by the voice signal received in step 122 is not the voice of the utterance section, the CPU 21 returns to step 121. On the other hand, if the determination in step 123 is affirmative, that is, if the voice represented by the voice signal received in step 122 is a voice in the utterance section, the CPU 21 proceeds to step 124.
  • step 124 the CPU 21 acquires the fundamental frequency FF2 of the audio signal. Acquisition of the fundamental frequency FF2 is the same as that in step 104 of FIG.
  • the CPU 21 stores the acquired basic frequency FF2 in the array FFR [0].
  • the FFR may be an array included in the data storage area 23D of the secondary storage unit 23, for example.
  • the CPU 21 stores the basic frequency FF2 acquired in step 124 as the initial value of the relaxation value in the array A1R [0], and the basic frequency acquired in step 124 as the initial value of the feature amount in the array A2R [0].
  • the frequency FF2 is stored.
  • the array A1R may be an array included in the data storage area 23D of the secondary storage unit 23, for example, and the array A2R is also an array included in the data storage area 23D, for example. Good.
  • the CPU 21 sets 1 to F3 (hereinafter also referred to as a third frame counter) which is a counter for counting the number of audio frames.
  • step 127 the CPU 21 determines whether or not a call is in progress. If the determination is negative, that is, if the call is not in progress, the utterance impression determination process ends. If the determination in step 127 is affirmative, that is, if a call is in progress, the CPU 21 receives an audio signal in step 128. Since step 128 is the same as step 122 described above, detailed description thereof is omitted.
  • step 129 the CPU 21 determines whether or not the voice represented by the voice signal received in step 128 is the voice of the utterance section. Since step 129 is the same as step 123 described above, detailed description thereof is omitted. If the determination in step 129 is affirmative, that is, if the voice represented by the voice signal received in step 129 is the voice of the speech section, the CPU 21 acquires the fundamental frequency FF2 in step 130. Acquisition of the fundamental frequency FF2 is the same as that in step 104 of FIG. The acquired fundamental frequency FF2 is stored in the array FFR [F3].
  • the CPU 21 calculates a relaxation value A1A.
  • the relaxation value A1A is, for example, as shown in Expression (5), the current fundamental frequency, that is, the fundamental frequency stored in the array FFR [F3], and the past relaxation value, that is, the array A1R [F3-1. ] Is a weighted average value with the relaxation value stored in the memory.
  • A1A R1 ⁇ A1R [F3-1] + (1-R1) ⁇ FFR [F3] (5)
  • R1 which is an example of a long-term weighting factor that changes the fundamental frequency so that the change in the fundamental frequency becomes gradual, is smaller than 1 and larger than 1-R1.
  • the calculated relaxation value A1A is stored in the array A1R [F3].
  • the CPU 21 calculates a feature amount A2.
  • the feature quantity A2 is the current fundamental frequency, that is, the fundamental frequency stored in the array FFR [F3], and the past feature quantity, that is, the array A2R [F3-1. ]
  • Is a weighted average value with the feature quantity stored in the A2 R2 ⁇ A2R [F3-1] + (1-R2) ⁇ FFR [F3] (6)
  • R2 which is an example of a short-term weighting coefficient that changes the fundamental frequency so that the fundamental frequency changes gradually, is smaller than R1 and larger than 1-R2.
  • the calculated feature amount A2 is stored in the array A2R [F3].
  • R1 may be 0.9, for example, and R2 may be 0.6, for example.
  • the long-term weight coefficient R1 for the past relaxation value is larger than the short-term weight coefficient R2 for the past feature amount in the equation (6) for calculating the feature value. large. Therefore, the influence of the past relaxation value on the current relaxation value is larger than the influence of the past feature value on the current feature value.
  • step 133 the CPU 21 adds 1 to the count value of the third frame counter F ⁇ b> 3 and returns to step 127.
  • the CPU 21 shows in step 134, for example, Equation (7).
  • the difference amount AD2 is calculated.
  • Expression (7) a difference amount AD2 representing the degree of difference between each feature amount for each unit utterance section and each relaxation value corresponding to each feature amount is calculated.
  • step 135 the CPU 21 determines an utterance impression based on the calculated difference amount AD2.
  • Step 135 is the same as step 116 in FIG.
  • the utterance impression DR is stored in the array OI [N2].
  • step 136 the CPU 21 adds 1 to the count value of the unit utterance section counter N2, and returns to step 121.
  • the speech utterance impression corresponding to the audio signal is based on the difference amount indicating the degree of difference between each feature amount and each relaxation value corresponding to each feature amount.
  • the present embodiment is not limited to this.
  • the audio corresponding to the audio signal based on the difference amount indicating the magnitude of the difference between each of the feature amounts larger than each of the corresponding relaxation values and each of the relaxation values corresponding to each of the feature amounts.
  • the utterance impression may be determined.
  • the calculation unit specifies the fundamental frequency from the audio signal that has received the input, and calculates a relaxation value obtained by changing the fundamental frequency in time series so that the change in the identified fundamental frequency becomes gradual.
  • the impression determination unit evaluates the audio signal based on a degree of difference between at least one feature amount related to the fundamental frequency and a relaxation value corresponding to the feature amount.
  • the relaxation value is a weighted average value of the current fundamental frequency calculated from the weighted average value of the past fundamental frequency and the current fundamental frequency identified from the audio signal.
  • the weight of the weighted average value of the past fundamental frequency is made heavy by using a long-term weight coefficient that changes the fundamental frequency so that the change of the fundamental frequency becomes gentle.
  • the feature amount is obtained by weighting the weighted average value of the past fundamental frequency and weighting the weighted average value of the past fundamental frequency and the current fundamental frequency calculated from the current fundamental frequency identified from the audio signal. It is a weighted average value.
  • a short-term weighting factor is used so that the degree of gradual change is smaller than when the relaxation value is calculated.
  • the difference amount indicating the degree of difference between at least one feature amount related to the fundamental frequency and the relaxation value corresponding to the feature amount corresponds to the feature amount and the feature amount per unit utterance section. It is the square root of the sum of squares of the difference from the relaxation value.
  • the impression determination unit determines that the impression is bad when the difference amount is smaller than the threshold value, and determines that the impression is good when the difference amount is larger than the threshold value by a predetermined value or more.
  • the present embodiment it is possible to improve speech impression determination accuracy by evaluating the audio signal based on the degree of difference between the feature value and the relaxation value corresponding to the feature value. That is, in the present embodiment, it is possible to suppress erroneous determination of dark sound as bright sound even when the utterance duration is long and the fundamental frequency tends to gradually decrease.
  • the speech utterance impression corresponding to the audio signal is determined based on the difference amount representing the degree of difference between each feature amount and each relaxation value corresponding to each feature amount.
  • the feature amount is obtained by weighting the weighted average value of the past fundamental frequency and weighting the weighted average value of the past fundamental frequency and the current fundamental frequency calculated from the current fundamental frequency identified from the audio signal. It is a weighted average value.
  • a short-term weighting factor is used so that the degree of gradual change is smaller than when the relaxation value is calculated.
  • the outlier gives the speech impression determination by using a weighted average value calculated using a short-term weighting factor instead of the fundamental frequency.
  • the influence can be reduced, and the determination accuracy of the utterance impression can be improved.
  • the utterance impression determination apparatus 10 acquires a user's utterance voice with the microphone 26.
  • the utterance impression determination device 10 detects an utterance section in block 34.
  • the utterance section is a section including the user's uttered voice.
  • the utterance impression determination device 10 When it is detected in block 34 that it is an utterance section, the utterance impression determination device 10 acquires a fundamental frequency from an audio signal corresponding to the user's uttered voice in block 31. If there is an outlier in the fundamental frequency, the speech impression determining apparatus 10 excludes the outlier in block 35. The utterance impression determination device 10 calculates a relaxation value obtained by changing the fundamental frequency so that the change of the fundamental frequency becomes gentle in block 32C.
  • the utterance impression determination device 10 determines in block 36C the fundamental frequency excluding outliers and the relaxation value corresponding to the fundamental frequency. A difference amount indicating the degree of the difference is calculated for each unit utterance section. In block 37 ⁇ / b> C, the utterance impression determination device 10 determines the utterance impression for each unit utterance section based on the difference amount for each unit utterance section.
  • FIG. 10 shows an example of the speech impression determination process performed by the speech impression determination apparatus 10.
  • the utterance impression determination process of FIG. 10 is started by turning on the utterance impression determination apparatus 10 in a state where the user has started a call.
  • the CPU 21 sets 0 to the unit utterance section counter N2.
  • the CPU 21 sets 1 to a counter F4 (hereinafter also referred to as a fourth frame counter F4) that counts the number of audio frames.
  • step 142 the CPU 21 determines whether or not a call is in progress. If the determination is negative, that is, if the call is not in progress, the CPU 21 ends the speech impression determination process. If the determination is affirmative, that is, if the call is in progress, the process proceeds to step 143.
  • the CPU 21 receives an audio signal for one frame in step 143.
  • the time length of one frame is, for example, 10 milliseconds.
  • the voice signal is a voice signal corresponding to the voice detected by the microphone 26, that is, the voice of the user, and is temporarily stored in the data storage area 23D of the secondary storage unit 23, for example.
  • step 144 the CPU 21 determines whether or not the voice represented by the voice signal received in step 143 is the voice of the utterance section. Step 144 is the same as step 123 in FIG.
  • step 145 the CPU 21 acquires the fundamental frequency FF2 of the audio signal. Acquisition of the fundamental frequency FF2 is the same as that in step 104 of FIG.
  • the CPU 21 stores the acquired fundamental frequency FF2 in the array FFR [F4].
  • the FFR may be, for example, an array included in the data storage area 23D of the secondary storage unit 23, and the fourth frame counter F4 stores the count value of the audio frame as described above. Yes.
  • step 146 the CPU 21 adds 1 to the count value of the fourth frame counter F4.
  • step 147 the CPU 21 determines whether or not the count value of the audio frame stored in the fourth frame counter F4 is smaller than the predetermined frame number L. L may be 50, for example. If the determination in step 147 is affirmative, that is, if the count value of the audio frame is smaller than the predetermined frame number L, the CPU 21 returns to step 142 and repeats the processing in steps 142 to 146. On the other hand, if the determination in step 147 is negative, that is, if the count value of the audio frame is equal to or greater than the predetermined frame number L, the CPU 21 proceeds to step 148.
  • step 148 the CPU 21 sets 1 to a counter F5 that counts the number of audio frames (hereinafter also referred to as a fifth frame counter F5), and stores the fundamental frequency FF2 as an initial value of the relaxation value in the array A1R [0]. .
  • step 149 the CPU 21 determines whether a call is in progress. If the determination in step 149 is negative, that is, if the call is not in progress, the CPU 21 ends the speech impression determination process. If the determination in step 149 is affirmative, that is, if the call is in progress, the CPU 21 determines in step 150. Proceed to Step 150 and step 151 are the same as step 143 and step 145, respectively, and thus description thereof is omitted.
  • the CPU 21 calculates a section average value A3.
  • the section average value A3 may be, for example, a moving average value that is an average of fundamental frequencies for L frames retroactive to the current fundamental frequency, as shown in Expression (8). As described above, L may be 50, for example. As will be described later, the section average value A3 is used to determine whether or not the fundamental frequency signal FF2 is an outlier.
  • the CPU 21 stores the acquired section average value A3 in the array A3R [F4].
  • the array A3R may be, for example, an array included in the data storage area 23D of the secondary storage unit 23, and the fourth frame counter F4 stores the count value of the audio frame as described above.
  • step 153 the CPU 21 determines whether or not the fundamental frequency FF2 is an outlier. Specifically, for example, as shown in Expression (9), the fundamental frequency FF2 stored in FFR [F4] and the section average value A3 calculated in step 152 stored in the array A3R [F4] Get the absolute value of the difference. When the absolute value of the difference is larger than the third threshold TA, it is determined that the fundamental frequency FF2 stored in FFR [F4] is an outlier.
  • step 153 If the determination in step 153 is affirmative, that is, if the fundamental frequency FF2 stored in FFR [F4] is an outlier, the CPU 21 adds 1 to the count value of the fourth frame counter F4 in step 163. Then, the process returns to step 149. If the determination in step 153 is negative, that is, if the fundamental frequency FF2 stored in FFR [F4] is not an outlier, the CPU 21 stores the fundamental frequency F2 in the array FFI [F5] in step 154. .
  • the FFI may be, for example, an array included in the data storage area 23D of the secondary storage unit 23, and the fifth frame counter F5 stores the count value of the audio frame as described above.
  • the CPU 21 calculates a relaxation value A1B.
  • the relaxation value A1B includes, for example, the current fundamental frequency, that is, the fundamental frequency FF2 stored in the array FFI [F5], and the past relaxation value, that is, the array A1R [F5- 1] is a weighted average value with the relaxation value stored in [1].
  • A1B R3 ⁇ A1R [F5-1] + (1-R3) ⁇ FFI [F5] (10)
  • the calculated relaxation value A1B is stored in the array A1R [F5].
  • step 161 it is determined whether or not the current fundamental frequency FF2 stored in the array FFI [F5] is greater than the past relaxation value A1B stored in the array A1R [F5-1]. If the determination in step 161 is affirmative, that is, if the fundamental frequency FF2 stored in FFI [F5] is greater than the relaxation value A1B stored in the array A1R [F5-1], the CPU 21 determines in step 162. , R3 is set to the value R3L. In step 164, the CPU 21 calculates the current relaxation value A1B and proceeds to step 156.
  • step 161 determines whether the fundamental frequency FF2 stored in FFI [F5] is less than or equal to the relaxation value A1B stored in the array A1R [F5-1].
  • the CPU 21 In step 163, the value R3S is set to R3. The value R3S is smaller than the value R3L. The CPU 21 proceeds to step 164.
  • step 156 the CPU 21 adds 1 to the count value of the fifth frame counter F5.
  • step 157 the CPU 21 determines whether a call is in progress. If the determination is negative, that is, if the call is not in progress, the speech impression determination process ends.
  • step 157 If the determination in step 157 is affirmed, the CPU 21 proceeds to step 158. Since step 158 and step 159 are the same as step 143 and step 144, description thereof will be omitted. If the determination in step 159 is affirmative, that is, if it is an utterance period, the CPU 21 adds 1 to the count value of the fourth frame counter F4 in step 164 and returns to step 151.
  • step 159 If the determination in step 159 is negative, that is, if the end of the utterance section is determined, the CPU 21 calculates a difference amount in step 160. Specifically, as illustrated in FIG. 13, in step 181, the CPU 21 sets 1 to the variable I and sets 0 to the variable AD ⁇ b> 3 ⁇ / b> P.
  • the variable I and the variable AD3P are included in the data storage area 23D of the secondary storage unit 23, for example.
  • step 182 the CPU 21 adds the square of the relaxation value A1R [F5-I] ⁇ basic frequency FFI [F5-I) to the variable AD3P.
  • step 183 the CPU 21 adds 1 to the value set in the variable I.
  • step 184 the CPU 21 determines whether or not the value set in the variable I is smaller than the count value of the fifth frame counter F5. If the determination in step 184 is affirmative, that is, if the value set in the variable I is smaller than the count value of the fifth frame counter F5, the CPU 21 returns to step 181.
  • step 184 determines whether the value set in the variable I is greater than or equal to the count value of the fifth frame counter F5 is greater than or equal to the count value of the fifth frame counter F5 is greater than or equal to the count value of the fifth frame counter F5 is greater than or equal to the count value of the fifth frame counter F5.
  • the difference amount AD3 is calculated, and the process proceeds to step 161.
  • Expression (11) for each unit utterance interval, a difference amount AD3 representing the degree of difference between each of the fundamental frequencies excluding outliers and each of the relaxation values corresponding to each of the fundamental frequencies is calculated. That is, the difference amount AD3 is calculated using the fundamental frequency FF2 and the relaxation value A1B determined in step 153 that the fundamental frequency FF2 is not an outlier.
  • Step 161 is the same as step 135 in FIG.
  • the CPU 21 adds 1 to the count value of the unit utterance section counter N ⁇ b> 2 and returns to step 141.
  • the speech impression determination device 10 is a physically single device.
  • the speech impression device 10 may be a speech impression determination system 30 including a plurality of physically separate devices such as a client 32 and a server 33 connected via a network 31. .
  • the client 32 includes the voice detection unit 11A
  • the server 33 includes the calculation unit 12A and the impression determination unit 13A. Also good. Further, the client 32 may include the voice detection unit 11A and the calculation unit 12A, and the server 33 may include the impression determination unit 13A.
  • the utterance impression determination system 30 may include a plurality of clients and a plurality of servers.
  • the speech utterance impression corresponding to the audio signal is based on the difference amount indicating the degree of the difference between each fundamental frequency and each relaxation value corresponding to each fundamental frequency.
  • the present embodiment is not limited to this.
  • the audio corresponding to the audio signal based on the difference amount indicating the magnitude of the difference between each of the fundamental frequencies larger than each of the corresponding relaxation values and each of the relaxation values corresponding to each of the fundamental frequencies.
  • the utterance impression may be determined.
  • the speech impression determination process is applied to a real-time call.
  • the first to third embodiments are not limited to this.
  • it may be applied to a recorded call or face-to-face voice.
  • the threshold value used when determining the speech impression may be determined based on, for example, the fundamental frequency of the entire audio signal corresponding to the recorded call or the face-to-face voice.
  • the threshold used when determining the speech impression may be a value obtained by adding a predetermined value to the average value of the fundamental frequencies of the entire audio signal.
  • threshold values used when determining the utterance impressions acquired in a large number of calls or face-to-face responses are accumulated, and real-time calls as in the first to third embodiments are performed based on the accumulated large number of impression determination values.
  • the threshold value used when determining the utterance impression in the voice may be determined.
  • the example in which the average value of the fundamental frequency for a predetermined frame is calculated retroactively from the current fundamental frequency when the moving average value is calculated has been described. It is not limited. For example, an average value of a basic frequency for a predetermined frame before the current basic frequency and a basic frequency for a predetermined frame after the current basic frequency may be calculated.
  • the fundamental frequency which is a unit semitone
  • a fundamental frequency of unit Hz may be used as the fundamental frequency.
  • a moving average value may be used as the relaxation value.
  • the relaxation value when the relaxation value is a moving average value, a moving average value obtained by reducing the number of frames from the relaxation value may be used as the feature amount.
  • the feature amount when the relaxation value is a moving average value every 50 frames, the feature amount may be a moving average value every 10 frames.
  • a weighted average value of the current fundamental frequency and the past relaxation value may be used as the relaxation value.
  • the utterance impression may be determined for each unit utterance section in the first embodiment, and the utterance impression may be determined for each unit time in the second and third embodiments. Note that the above is an example, and modifications other than the above are possible.
  • the flowcharts of FIGS. 4, 6, 8, 10, and 13 are examples, and the processing order can be changed.
  • the difference amount may be a value that represents a degree of difference between each feature amount and each relaxation value corresponding to each feature amount.
  • the array, the counter, and the variable may be included in the primary storage unit 23, for example.
  • the calculation unit specifies the fundamental frequency from the audio signal that has received the input, and calculates a relaxation value obtained by changing the fundamental frequency in time series so that the change in the identified fundamental frequency becomes gradual.
  • the impression determination unit evaluates the audio signal based on a degree of difference between at least one feature amount related to the fundamental frequency and a relaxation value corresponding to the feature amount.
  • the relaxation value is a weighted average value of the current fundamental frequency calculated from the weighted average value of the past fundamental frequency and the current fundamental frequency identified from the audio signal.
  • the weight of the weighted average value of the past fundamental frequencies is increased using a long-term weighting coefficient that changes the fundamental frequency so that the fundamental frequency changes gradually.
  • the relaxation value is a weighted average value and the feature amount is equal to or less than the relaxation value corresponding to the feature amount, the change is more gradual than when the feature amount is larger than the relaxation value corresponding to the feature amount.
  • the long-term weight coefficient is determined so that the degree becomes small.
  • the feature amount is a fundamental frequency specified from the audio signal.
  • the difference amount representing the degree of difference between at least one feature amount related to the fundamental frequency and the relaxation value corresponding to the feature amount is the feature amount and feature amount per unit utterance section of impression determination. Is the square root of the sum of squares of the difference from the relaxation value corresponding to.
  • the impression determination unit determines that the impression is bad when the difference amount is smaller than the threshold value, and determines that the impression is good when the difference amount is larger than the threshold value by a predetermined value or more.
  • the fundamental frequency is excluded in advance.
  • the present embodiment it is possible to improve speech impression determination accuracy by evaluating the audio signal based on the degree of difference between the feature value and the relaxation value corresponding to the feature value. That is, in the present embodiment, it is possible to suppress erroneous determination of dark sound as bright sound even when the utterance duration is long and the fundamental frequency tends to gradually decrease. In the present embodiment, by excluding outliers from the fundamental frequency, it is possible to reduce the influence of the outliers on speech impression determination, and the speech impression determination accuracy can be improved.
  • the utterance impression is determined using the difference amount indicating the degree of the difference between the feature amount and the relaxation value corresponding to the feature amount.
  • the fundamental frequency which is an example of the feature amount of the audio signal is illustrated by a solid line 211A
  • an example of a relaxation value corresponding to the fundamental frequency indicated by the solid line 211A is illustrated by a broken line 212A.
  • an example of the fundamental frequency of the audio signal is indicated by a solid line 211B
  • a relaxation value corresponding to the fundamental frequency indicated by the solid line 211B is indicated by a broken line 212B.
  • the vertical axis represents frequency
  • the horizontal axis represents time.
  • FIG. 17A shows an example of the same fundamental frequency as FIG. 16A by a solid line 211A
  • FIG. 17B shows an example of the same fundamental frequency as FIG. 16B by a solid line 211B.
  • the vertical axis represents frequency and the horizontal axis represents time.
  • the difference DIF2 is substantially equal. Therefore, when the speech impression is determined based on the difference between the maximum value and the minimum value of the fundamental frequency of the audio signal, the voice brightness level represented by the fundamental frequency exemplified by the solid line 211A and the solid line 211B are exemplified. The degree of sound brightness represented by the fundamental frequency is substantially equal.
  • the utterance impression that is, the degree of subjectively perceived brightness of the voice depends on the magnitude of the change in the fundamental frequency in a short time, that is, the inflection. Therefore, actually, the degree of the brightness of the voice represented by the fundamental frequency exemplified by the solid line 211A is larger than the degree of the brightness of the voice represented by the fundamental frequency exemplified by the solid line 211B.
  • the degree of sound brightness is determined based on the difference between the maximum value and the minimum value of the fundamental frequency as exemplified by the solid line 211B, there is a case where dark sound is erroneously determined as bright sound. is there.
  • the fundamental frequency as exemplified by the solid line 211B appears when the utterance duration is long and has a tendency to gradually decrease.
  • the difference amount representing the degree of the magnitude of the difference between the fundamental frequency exemplified by the solid line 211A and the fundamental frequency exemplified by the broken line 212A in FIG. 16A appropriately represents a change in the fundamental frequency in a short time. be able to.
  • the difference amount indicating the magnitude of the difference between the fundamental frequency exemplified by the solid line 211B in FIG. 16B and the relaxation value exemplified by the broken line 212B corresponding to the fundamental frequency also changes the fundamental frequency in a short time. Can be expressed appropriately. This is because a relaxation value obtained by changing the fundamental frequency so that the change in the fundamental frequency becomes moderate can appropriately represent a short-time change in the fundamental frequency that serves as a reference for the magnitude of the difference from the fundamental frequency.
  • the degree of sound brightness represented by the fundamental frequency exemplified by the solid line 211A in FIG. 16A is represented by the fundamental frequency exemplified by the solid line 211B in FIG. 16B.
  • the utterance impression that is greater than the degree of brightness of the voice is appropriately determined. That is, even in the case where the speech duration is long and the fundamental frequency has a tendency to gradually decrease like the voice represented by the fundamental frequency illustrated by the solid line 211B in FIG. 16B, the first to third embodiments. Therefore, there is a low possibility that a dark sound is erroneously determined to be a bright sound.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephonic Communication Services (AREA)

Abstract

入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。

Description

発話印象判定プログラム、発話印象判定方法及び発話印象判定装置
 本発明は、発話印象判定プログラム、発話印象判定方法及び発話印象判定装置に関する。
 例えば、コールセンターでオペレータが顧客と通話する場合、オペレータの声は顧客が受ける印象に影響を与える。オペレータの声の明るさの度合いが大きいと、顧客はオペレータとの通話に対して好印象をもつ場合が多い。したがって、オペレータの顧客への対応を評価するために、オペレータの声の明るさの度合いを客観的に判定する技術が存在する。当該技術では、例えば、オペレータの声の基本周波数の最大値と最小値との差に基づいて、差が大きい場合に、オペレータの声の明るさの度合いが大きいと判定する。
特開2006-267465号公報 特開2008-134557号公報 特開平8-44395号公報 国際公開2009/145192号公報
スンドベリ、「歌声の科学」、東京電機大学出版局、2007年
 しかしながら、発話持続時間が長い発話では、肺からの呼気が少なくなるため、声門への圧力が低下することで声帯の振動数が減少し、声の基本周波数は徐々に下降する傾向がある。したがって、発話持続時間が長い発話において、基本周波数の最大値と最小値との差に基づいてオペレータの声の明るさの度合いを判定した場合、明るさの度合いの低いオペレータの声を明るさの度合いが大きいと判定する可能性がある。
 詳細には、聞き手が受ける声の明るさの印象は、短い時間における基本周波数の変化の大きさに基づいて変化する。一方、発話持続時間が長い発話では、声の基本周波数が徐々に下降する傾向があるため、基本周波数の最大値が発話開始付近に存在し、基本周波数の最小値が発話終了付近に存在する可能性が高い。この場合、短い時間における基本周波数の変化の大きさが、基本周波数の最大値と最小値との差に現れない。したがって、明るさの度合いの低いオペレータの声を明るさの度合いが大きいと判定する可能性がある
 1つの側面として、本発明は、発話印象の判定精度を向上させることを目的とする。
 1つの態様では、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。
 1つの側面として、発話印象の判定精度を向上させる、という効果を有する。
第1~第3実施形態に係る発話印象判定装置の要部機能の一例を示すブロック図である。 第1~第3実施形態に係る発話印象判定装置のハードウェアの構成の一例を示すブロック図である。 第1実施形態に係る発話印象判定処理の一例の概要を説明するためのブロック図である。 第1実施形態に係る発話印象判定処理の一例を示すフローチャートである。 第1~第3実施形態に係る基本周波数を取得する処理を説明するための概念図である。 第1~第3実施形態に係る印象判定処理の一例を示すフローチャートである。 第2実施形態に係る発話印象判定処理の一例の概要を説明するためのブロック図である。 第2実施形態に係る発話印象判定処理の一例を示すフローチャートである。 第3実施形態に係る発話印象判定処理の一例の概要を説明するためのブロック図である。 第3実施形態に係る発話印象判定処理の一例を示すフローチャートである。 第3実施形態に係る緩和値算出処理の一例を示すフローチャートである。 第3実施形態に係る緩和値の一例を示す概念図である。 第3実施形態に係る差分量算出処理の一例を示すフローチャートである。 発話印象判定システムの一例を示すブロック図である。 発話印象判定システムのクライアントの要部機能の一例を示すブロック図である。 発話印象判定システムのサーバの要部機能の一例を示すブロック図である。 第1~第3実施形態の発話印象判定処理について説明するための概念図である。 第1~第3実施形態の発話印象判定処理について説明するための概念図である。 関連技術の発話印象判定処理について説明するための概念図である。 関連技術の発話印象判定処理について説明するための概念図である。
[第1実施形態]
 以下、開示の技術の実施形態の一例である第1実施形態を説明する。
 一例として図1に発話印象判定装置10を示す。発話印象判定装置10は、例えば、音声検出部11、算出部12、及び印象判定部13を含む。音声検出部11、算出部12、及び印象判定部13は、相互に接続されている。
 音声検出部11は、ユーザの発話音声を検出する。算出部12は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部13は、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。
 発話印象判定装置10は、例えば、固定電話、スマートフォン、又は携帯電話などに接続可能なパーソナルコンピュータ、もしくは専用装置であってもよいし、固定電話、スマートフォン、又は携帯電話などの一部であってもよい。
 発話印象判定装置10は、一例として図2に示すように、CPU(Central Processing Unit)21、一次記憶部22、二次記憶部23、外部インターフェイス24、音声信号受信部25、及びマイク(マイクロフォン)26を備えている。CPU21、一次記憶部22、二次記憶部23、外部インターフェイス24、音声信号受信部25、及びマイク26は、バス29を介して相互に接続されている。
 外部インターフェイス24には、外部装置が接続され、外部インターフェイス24は、外部装置とCPU21との間の各種情報の送受信を司る。
 マイク26は、ユーザ側の音声、例えば、発話印象判定装置10を利用するコールセンターのオペレータの発話音声を受け取り、音声信号に変換する。なお、図2では、マイク26が発話印象判定装置10に含まれるように示しているが、本実施形態はこれに限定されない。マイク26は、例えば、発話印象判定装置10に接続される電話などの通話装置のマイクであってもよいし、外部インターフェイス24を介して接続される外付けのマイクであってもよい。
 音声信号受信部25は、電話回線又はインターネット回線などを通じて、有線または無線で送信される、通話相手側、例えば、オペレータと通話する顧客の発話音声を表す音声信号を受信する。
 一次記憶部22は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部23は、例えば、HDD(Hard Disk Drive)、またはSSD(Solid State Drive)などの不揮発性のメモリである。二次記憶部23は、例えば、発話印象判定プログラムを記憶するプログラム格納領域23P及び各種データを記憶するデータ格納領域23Dを含む。なお、発話印象判定プログラムは、外部インターフェイス24を介して、CD-ROM又はDVDなどの非一時的記憶媒体から読み込まれてもよいし、外部サーバから受信されてもよい。
 CPU21は、二次記憶部23から発話印象判定プログラムを読み出して一次記憶部22に展開する。CPU21は、当該発話印象判定プログラムを実行することで、図1に示す算出部12、及び印象判定部13として動作する。
 次に、発話印象判定装置10によって実施される発話印象判定処理の概要を説明する。発話印象判定装置10は、ユーザの発話が通話相手に与える発話印象を判定する。
 図3に例示するように、発話印象判定装置10は、マイク26でユーザの発話音声を取得する。発話印象判定装置10は、ブロック31で、ユーザの発話音声に対応する音声信号から基本周波数を抽出する。発話印象判定装置10は、ブロック32Aで、基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。発話印象判定装置10は、ブロック36Aで、基本周波数と当該基本周波数に対応する緩和値との差の大きさの度合いを表す差分量を後述する単位時間毎に算出する。発話印象判定装置10は、ブロック37Aで、ブロック36Aで算出した差分量に基づいて、単位時間毎の発話印象を判定する。
 次に、本実施形態の作用として、発話印象判定装置10によって実施される発話印象判定処理について説明する。図4は、発話印象判定装置10によって実施される発話印象判定処理の一例を示す。
 例えば、ユーザが通話を開始した状態で発話印象判定装置10の電源をオンすることによって、図4の発話印象判定処理が開始される。CPU21は、ステップ101で、音声フレームの数をカウントするカウンタF1(以下、第1フレームカウンタF1ともいう)に1を設定し、単位時間の数をカウントするカウンタN1(以下、単位時間カウンタN1ともいう)に0を設定する。第1フレームカウンタF1及び単位時間カウンタN1は、例えば、二次記憶部23のデータ格納領域23Dに含まれる。
 CPU21は、ステップ102で、通話中であるか否かを判定する。判定が否定された場合、即ち、通話中でない場合、CPU21は、発話印象判定処理を終了し、判定が肯定された場合、即ち、通話中である場合、ステップ103に進む。
 CPU21は、ステップ103で、1フレーム分の音声信号を受信する。1フレームの時間長は、例えば、10ミリ秒である。当該音声信号は、マイク26で検出した音声、即ち、ユーザの発話音声に対応する信号であり、例えば、二次記憶部23のデータ格納領域23Dに一時的に保存される。
 CPU21は、ステップ104で、音声信号の基本周波数FF2を取得する。詳細には、まず、音声信号の基本周波数FF1を、例えば、以下で説明するように取得する。音声信号の自己相関を算出し、図5に例示するように、シフト時間が正であり、かつ、最小の位置で自己相関値が極大となる時間を基本周期prとする。基本周波数FF1は、式(1)に示すように、サンプリング周波数Fsを基本周期prで除算することにより算出される。
  FF1=Fs/pr … (1)
サンプリング周波数Fsは、例えば、8,000Hzである。
 次に、CPU21は、式(2)に示すように、単位Hzである音声信号の基本周波数FF1を人間の聴覚上での声の高さに適合する単位semitoneである音声信号の基本周波数FF2に変換する。
  FF2=12×log(FF1/50) … (2)
 CPU21は、変換により取得した基本周波数FF2を配列FFR[F1]に記憶する。FFRは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第1フレームカウンタF1は、上記したように、音声フレームのカウント値を記憶している。
 CPU21は、ステップ105で、第1フレームカウンタF1に1を加算する。CPU21は、ステップ106で、第1フレームカウンタF1に記憶されている音声フレームのカウント値が所定フレーム数Lより小さいか否か判定する。Lは、例えば、50であってよい。判定が肯定された場合、即ち、音声フレームのカウント値が所定フレーム数Lより小さい場合、CPU21は、ステップ102に戻り、ステップ102~ステップ105の処理を繰り返す。一方、判定が否定された場合、即ち、音声フレームのカウント値が所定フレーム数L以上である場合、CPU21は、ステップ107に進む。
 CPU21は、ステップ107で、音声フレームの数をカウントするカウンタF2(以下、第2フレームカウンタF2ともいう。)に0を設定する。第2フレームカウンタF2のカウント値に基づいて、後述するように、フレーム数が、発話印象を判定する単位時間に対応する所定のフレーム数Mに達したか否かを判定する。
 CPU21は、ステップ108で、通話中であるか否か判定し、判定が否定された場合、即ち、通話中でない場合、発話印象判定処理を終了する。ステップ108の判定が肯定された場合、即ち、通話中である場合、CPU21はステップ109に進む。ステップ109は上記ステップ103と同様であり、ステップ110は上記ステップ104と同様であるため、説明を省略する。
 CPU21は、ステップ111で、緩和値A1を算出する。緩和値は、例えば、式(3)に示すように、現在の基本周波数FF2から遡ってLフレーム分の(配列FFRに記憶されている)基本周波数FF2の平均値を計算する移動平均値である。ここで、Lフレームは音声信号の一部の区間の一例であり、上記したように、Lは、例えば、50であってよい。
Figure JPOXMLDOC01-appb-M000001

 次に、CPU21は、取得した緩和値A1を配列A1R[F1]に記憶する。A1Rは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第1フレームカウンタF1は上記したように、音声フレームのカウント値を記憶している。
 CPU21は、ステップ112で、第2フレームカウンタF2に1を加算する。CPU21は、ステップ113で、第2フレームカウンタF2に記憶されているカウント値がMより小さいか否か判定する。Mは、上記した発話印象を判定する単位時間に対応する所定のフレーム数であり、例えば、Mは300であってよい。MにはLより大きい値が用いられる。
 ステップ113の判定が肯定された場合、即ち、第2フレームカウンタF2に記憶されているカウント値がMより小さい場合、CPU21は、ステップ114で、第1フレームカウンタF1のカウント値に1を加算し、ステップ108に戻る。ステップ113の判定が否定された場合、即ち、第2フレームカウンタF2に記憶されているカウント値がM以上である場合、CPU21は、ステップ115で、差分量ADを算出する。ここでは、式(4)に示すように、現在の音声フレームから遡ってMフレーム分の配列FFRに記憶されている基本周波数FF2と配列A1Rに記憶されている緩和値A1との差分量ADが算出される。
Figure JPOXMLDOC01-appb-M000002

即ち、式(4)では、単位時間毎の基本周波数FF2の各々と、基本周波数FF2の各々に対応する緩和値A1の各々との差の大きさを表す度合いである差分量ADを算出する。
 CPU21は、ステップ116で、算出した差分量ADに基づいて、発話印象を判定する。ステップ116の詳細を、図6に例示する。CPU21は、ステップ171で、差分量ADが閾値の一例である所定の第1閾値TLより小さいか否か判定する。ステップ171の判定が肯定された場合、即ち、差分量ADが所定の第1閾値TLより小さい場合、CPU21は、ステップ172で発話印象が悪いと判定し、発話印象DRを配列OI[N1]に記憶し、ステップ117に進む。発話印象DRは、例えば、発話印象が悪いことを表す英字Bであってもよいし、数値-1であってもよい。OIは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよい。
 ステップ171の判定が否定された場合、即ち、算出した差分量ADが第1閾値TL以上である場合、CPU21は、ステップ173で、算出した差分量ADが、所定の第2閾値TH以下であるか否か判定する。第2閾値THは、第1閾値より大きい値である。ステップ173の判定が肯定された場合、即ち、算出した差分量ADが第2閾値TH以下である場合、CPU21は、ステップ174で発話印象が普通であると判定し、発話印象DRを配列OI[N1]に記憶し、ステップ117に進む。発話印象DRは、例えば、発話印象が普通であることを表す英字Oであってもよいし、数値0であってもよい。
 ステップ173の判定が否定された場合、即ち、算出した差分量ADが第2閾値THより大きい場合、CPU21は、ステップ175で、発話印象が良いと判定し、発話印象DRを配列OI[N1]に記憶し、ステップ117に進む。発話印象DRは、例えば、発話印象が良いことを表す英字Gであってもよいし、数値1であってもよい。
 第1閾値TLは、例えば、1.5[semitone]であってよく、第2閾値THは、例えば、3.0[semitone]であってよい。CPU21は、ステップ117で、第1フレームカウンタF1のカウント値に1を加算し、単位時間カウンタN1のカウント値に1を加算して、ステップ107に戻る。
 なお、本実施形態では、基本周波数の各々と、基本周波数の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する例について説明したが、本実施形態は、これに限定されない。例えば、対応する緩和値の各々より大きい基本周波数の各々と、基本周波数の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定してもよい。
 本実施形態では、算出部は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部は、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。本実施形態では、緩和値は、音声信号の一部の区間の基本周波数の移動平均値である。
 本実施形態では、特徴量は、音声信号から特定した基本周波数である。本実施形態では、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量は、印象判定の単位時間当たりにおける特徴量と特徴量に対応する緩和値との差の二乗和の平方根である。本実施形態では、印象判定部は、差分量が閾値より小さい場合に印象が悪いと判定し、差分量が閾値より所定値以上大きい場合に印象が良いと判定する。
 本実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価することで、発話印象の判定精度を向上させることができる。即ち、本実施形態では、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、暗い音声を明るい音声であると誤って判定することを抑制することができる。
[第2実施形態]
 次に、開示の技術の実施形態の一例である第2実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。
 本実施形態では、図7に例示するように、発話印象判定装置10は、マイク26でユーザの発話音声を取得する。発話印象判定装置10は、ブロック34で、発話区間を検出する。発話区間とは、ユーザの発話音声を含む区間である。
 ブロック34で発話区間であることが検出されると、発話印象判定装置10は、ブロック31で、ユーザの発話音声に対応する音声信号から基本周波数を抽出する。発話印象判定装置10は、ブロック32Bで、基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出し、ブロック33Bで、基本周波数に関連する特徴量を算出する。
 ブロック34で発話区間ではないこと、即ち、発話区間の終了が検出されると、発話印象判定装置10は、ブロック36Bで、特徴量と当該特徴量に対応する緩和値との差の大きさの度合いを表す差分量を単位発話区間毎に算出する。発話印象判定装置10は、ブロック37Bで、単位発話区間毎の差分量に基づいて、単位発話区間毎の発話印象を判定する。
 次に、本実施形態の作用として、発話印象判定装置10によって実施される発話印象判定処理について説明する。図8は、発話印象判定装置10によって実施される発話印象判定処理の一例を示す。
 例えば、ユーザが通話を開始した状態で発話印象判定装置10の電源をオンすることによって、図8の発話印象判定処理が開始される。CPU21は、ステップ120で、単位発話区間の数をカウントするカウンタN2(以下、単位発話区間カウンタN2ともいう)に0を設定する。CPU21は、ステップ121で、通話中であるか否かを判定する。判定が否定された場合、即ち、通話中でない場合、CPU21は、発話印象判定処理を終了し、判定が肯定された場合、即ち、通話中である場合、ステップ122に進む。
 CPU21は、ステップ122で、1フレーム分の音声信号を受信する。1フレームの時間長は、例えば、10ミリ秒である。当該音声信号は、マイク26で検出した音声、即ち、ユーザの発話音声に対応する音声信号であり、例えば、二次記憶部23のデータ格納領域23Dに一時的に保存される。
 CPU21は、ステップ123で、ステップ122で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。例えば、ステップ123で受信した音声信号のパワーまたは信号対雑音比が所定値より大きい場合、当該音声信号で表される音声が、背景雑音だけでなく、ユーザの発話音声を含む発話区間であると判定する。
 ステップ123の判定が否定された場合、即ち、ステップ122で受信した音声信号で表される音声が発話区間の音声ではない場合、CPU21はステップ121に戻る。一方、ステップ123の判定が肯定された場合、即ち、ステップ122で受信した音声信号で表される音声が発話区間の音声である場合、CPU21はステップ124に進む。
 CPU21は、ステップ124で、音声信号の基本周波数FF2を取得する。基本周波数FF2の取得については、図4のステップ104と同様であるため、詳細な説明を省略する。
 CPU21は、取得した基本周波数FF2を配列FFR[0]に記憶する。FFRは、上記したように、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよい。
 CPU21は、ステップ125で、配列A1R[0]に緩和値の初期値としてステップ124で取得した基本周波数FF2を記憶し、配列A2R[0]にも特徴量の初期値としてステップ124で取得した基本周波数FF2を記憶する。配列A1Rは、上記したように、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、配列A2Rも、同様に、例えば、データ格納領域23Dに含まれる配列であってよい。また、CPU21は、ステップ126で、音声フレーム数をカウントするカウンタであるF3(以下、第3フレームカウンタともいう)に1を設定する。
 CPU21は、ステップ127で、通話中であるか否か判定し、判定が否定された場合、即ち、通話中でない場合、発話印象判定処理を終了する。ステップ127の判定が肯定された場合、即ち、通話中である場合、CPU21は、ステップ128で、音声信号を受信する。ステップ128は、上記ステップ122と同様であるため、詳細な説明を省略する。
 CPU21は、ステップ129で、ステップ128で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。ステップ129は、上記ステップ123と同様であるため、詳細な説明を省略する。ステップ129の判定が肯定された場合、即ち、ステップ129で受信した音声信号で表される音声が発話区間の音声である場合、CPU21は、ステップ130で、基本周波数FF2を取得する。基本周波数FF2の取得については、図4のステップ104と同様であるため、詳細な説明を省略する。取得した基本周波数FF2は配列FFR[F3]に記憶される。
 CPU21は、ステップ131で、緩和値A1Aを算出する。緩和値A1Aは、例えば、式(5)で示すように、現在の基本周波数、即ち、配列FFR[F3]に記憶されている基本周波数と、過去の緩和値、即ち、配列A1R[F3-1]に記憶されている緩和値との加重平均値である。
  A1A=R1×A1R[F3-1]+(1-R1)×FFR[F3] … (5)
基本周波数の変化が緩やかになるように基本周波数を変化させる長期用重み係数の一例であるR1は、1より小さく、1-R1より大きい値である。算出した緩和値A1Aは、配列A1R[F3]に記憶される。
 CPU21は、ステップ132で、特徴量A2を算出する。特徴量A2は、例えば、式(6)で示すように、現在の基本周波数、即ち、配列FFR[F3]に記憶されている基本周波数と、過去の特徴量、即ち、配列A2R[F3-1]に記憶されている特徴量との加重平均値である。
  A2=R2×A2R[F3-1]+(1-R2)×FFR[F3] … (6)
基本周波数の変化が緩やかになるように基本周波数を変化させる短期用重み係数の一例であるR2は、R1より小さく、1-R2より大きい値である。算出した特徴量A2は、配列A2R[F3]に記憶される。R1は、例えば、0.9であってよく、R2は、例えば、0.6であってよい。
 上記したように、緩和値を算出する式(5)では、過去の緩和値に対する長期用重み係数R1が、特徴量を算出する式(6)における過去の特徴量に対する短期用重み係数R2よりも大きい。したがって、過去の緩和値の現在の緩和値に対する影響は、過去の特徴量の現在の特徴量に対する影響よりも大きい。
 CPU21は、ステップ133で、第3フレームカウンタF3のカウント値に1を加算して、ステップ127に戻る。一方、ステップ129の判定が否定されると、即ち、ステップ128で受信した音声信号で表される音声が発話区間の音声ではない場合、CPU21は、ステップ134で、例えば、式(7)で示すように、差分量AD2を算出する。
Figure JPOXMLDOC01-appb-M000003

式(7)では、単位発話区間毎の特徴量の各々と特徴量の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量AD2を算出する。
 CPU21は、ステップ135で、算出した差分量AD2に基づいて、発話印象を判定する。ステップ135は、図4のステップ116と同様であるため、詳細な説明を省略する。発話印象DRは配列OI[N2]に記憶される。CPU21は、ステップ136で、単位発話区間カウンタN2のカウント値に1を加算し、ステップ121に戻る。
 なお、本実施形態では、特徴量の各々と、特徴量の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する例について説明したが、本実施形態は、これに限定されない。例えば、対応する緩和値の各々より大きい特徴量の各々と、特徴量の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定してもよい。
 本実施形態では、算出部は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部は、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。
 本実施形態では、緩和値は、過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。緩和値を演算する際に、基本周波数の変化が緩やかになるように基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くしている。
 本実施形態では、特徴量は、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。特徴量を演算する際に、変化を緩やかにする度合いが緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いている。
 本実施形態では、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量は、単位発話区間当たりにおける特徴量と特徴量に対応する緩和値との差の二乗和の平方根である。本実施形態では、印象判定部は、差分量が閾値より小さい場合に印象が悪いと判定し、差分量が閾値より所定値以上大きい場合に印象が良いと判定する。
 本実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価することで、発話印象の判定精度を向上させることができる。即ち、本実施形態では、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、暗い音声を明るい音声であると誤って判定することを抑制することができる。
 また、本実施形態では、特徴量の各々と特徴量の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する。本実施形態では、特徴量は、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。特徴量を演算する際に、変化を緩やかにする度合いが緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いている。即ち、基本周波数が外れ値を含んでいる場合であっても、基本周波数に代えて、短期用重み係数を用いて演算した加重平均値を使用することで、外れ値が発話印象の判定に与える影響を低減することが可能となり、発話印象の判定精度を向上させることができる。
[第3実施形態]
 次に、開示の技術の実施形態の一例である第3実施形態を説明する。第1実施形態及び第2実施形態と同様の構成及び作用については説明を省略する。
 図9に例示するように、発話印象判定装置10は、マイク26でユーザの発話音声を取得する。発話印象判定装置10は、ブロック34で、発話区間を検出する。発話区間とは、ユーザの発話音声を含む区間である。
 ブロック34で発話区間であることが検出されると、発話印象判定装置10は、ブロック31で、ユーザの発話音声に対応する音声信号から基本周波数を取得する。基本周波数に外れ値が存在する場合、発話印象判定装置10は、ブロック35で、当該外れ値を除外する。発話印象判定装置10は、ブロック32Cで、基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を算出する。
 ブロック34で発話区間ではないこと、即ち、発話区間の終了が検出されると、発話印象判定装置10は、ブロック36Cで、外れ値を除外した基本周波数と当該基本周波数に対応する緩和値との差の大きさの度合いを表す差分量を単位発話区間毎に算出する。発話印象判定装置10は、ブロック37Cで、単位発話区間毎の差分量に基づいて、単位発話区間毎の発話印象を判定する。
 次に、本実施形態の作用として、発話印象判定装置10によって実施される発話印象判定処理について説明する。図10は、発話印象判定装置10によって実施される発話印象判定処理の一例を示す。
 例えば、ユーザが通話を開始した状態で発話印象判定装置10の電源をオンすることによって、図10の発話印象判定処理が開始される。CPU21は、ステップ140で、単位発話区間カウンタN2に0を設定する。CPU21は、ステップ141で、音声フレームの数をカウントするカウンタF4(以下、第4フレームカウンタF4ともいう)に1を設定する。
 CPU21は、ステップ142で、通話中であるか否かを判定する。判定が否定された場合、即ち、通話中でない場合、CPU21は、発話印象判定処理を終了し、判定が肯定された場合、即ち、通話中である場合、ステップ143に進む。
 CPU21は、ステップ143で、1フレーム分の音声信号を受信する。1フレームの時間長は、例えば、10ミリ秒である。当該音声信号は、マイク26で検出した音声、即ち、ユーザの発話音声に対応する音声信号であり、例えば、二次記憶部23のデータ格納領域23Dに一時的に保存される。
 CPU21は、ステップ144で、ステップ143で受信した音声信号で表される音声が発話区間の音声であるか否かを判定する。ステップ144は、図7のステップ123と同様であるため、詳細な説明は省略する。
 CPU21は、ステップ145で、音声信号の基本周波数FF2を取得する。基本周波数FF2の取得については、図4のステップ104と同様であるため、詳細な説明を省略する。
 CPU21は、取得した基本周波数FF2を配列FFR[F4]に記憶する。FFRは、上記したように、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第4フレームカウンタF4は、上記したように、音声フレームのカウント値を記憶している。
 CPU21は、ステップ146で、第4フレームカウンタF4のカウント値に1を加算する。CPU21は、ステップ147で、第4フレームカウンタF4に記憶されている音声フレームのカウント値が所定フレーム数Lより小さいか否か判定する。Lは、例えば、50であってよい。ステップ147の判定が肯定された場合、即ち、音声フレームのカウント値が所定フレーム数Lより小さい場合、CPU21は、ステップ142に戻り、ステップ142~ステップ146の処理を繰り返す。一方、ステップ147の判定が否定された場合、即ち、音声フレームのカウント値が所定フレーム数L以上である場合、CPU21は、ステップ148に進む。
 CPU21は、ステップ148で、音声フレーム数をカウントするカウンタF5(以下、第5フレームカウンタF5ともいう)に1をセットし、配列A1R[0]に緩和値の初期値として基本周波数FF2を記憶する。CPU21は、ステップ149で、通話中であるか否かを判定する。ステップ149の判定が否定された場合、即ち、通話中でない場合、CPU21は、発話印象判定処理を終了し、ステップ149の判定が肯定された場合、即ち、通話中である場合、CPU21はステップ150に進む。ステップ150及びステップ151は、ステップ143及びステップ145と各々同様であるため説明を省略する。
 CPU21は、ステップ152で、区間平均値A3を算出する。区間平均値A3は、例えば、式(8)に示すように、現在の基本周波数から遡ってLフレーム分の基本周波数の平均である移動平均値であってよい。上記したように、Lは、例えば、50であってよい。区間平均値A3は、後述するように、基本周波数信号FF2が外れ値であるか否か判定するために使用する。
Figure JPOXMLDOC01-appb-M000004
 次に、CPU21は、取得した区間平均値A3を配列A3R[F4]に記憶する。配列A3Rは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第4フレームカウンタF4は上記したように、音声フレームのカウント値を記憶している。
 CPU21は、ステップ153で、基本周波数FF2が外れ値であるか否か判定する。詳細には、例えば、式(9)に示すように、FFR[F4]に記憶されている基本周波数FF2と、配列A3R[F4]に記憶されているステップ152で算出した区間平均値A3との差の絶対値を取得する。当該差の絶対値が第3閾値TAより大きい場合は、FFR[F4]に記憶されている基本周波数FF2が外れ値であると判定する。
  |FFR[F4]-A3R[F4]|>TA … (9)
 ステップ153の判定が肯定された場合、即ち、FFR[F4]に記憶されている基本周波数FF2が外れ値である場合、CPU21は、ステップ163で、第4フレームカウンタF4のカウント値に1を加算して、ステップ149に戻る。ステップ153の判定が否定された場合、即ち、FFR[F4]に記憶されている基本周波数FF2が外れ値ではない場合、CPU21は、ステップ154で、配列FFI[F5]に基本周波数F2を記憶する。FFIは、例えば、二次記憶部23のデータ格納領域23Dに含まれる配列であってよく、第5フレームカウンタF5は、上記したように、音声フレームのカウント値を記憶している。
 CPU21は、ステップ155で、緩和値A1Bを算出する。緩和値A1Bは、例えば、式(10)で示すように、現在の基本周波数、即ち、配列FFI[F5]に記憶されている基本周波数FF2と、過去の緩和値、即ち、配列A1R[F5-1]に記憶されている緩和値との加重平均値である。
  A1B=R3×A1R[F5-1]+(1-R3)×FFI[F5] … (10)
算出した緩和値A1Bは、配列A1R[F5]に記憶される。
 長期用重み係数の一例であるR3は、1より小さく、1-R3より大きい値であり、R3の値は変更される。図11を用いて、ステップ155において、R3がどのように変更されるかについて説明する。ステップ161で、配列FFI[F5]に記憶されている現在の基本周波数FF2が配列A1R[F5-1]に記憶されている過去の緩和値A1Bより大きいか否か判定する。ステップ161の判定が肯定された場合、即ち、FFI[F5]に記憶されている基本周波数FF2が配列A1R[F5-1]に記憶されている緩和値A1Bより大きい場合、CPU21は、ステップ162で、R3に値R3Lを設定する。CPU21は、ステップ164で、現在の緩和値A1Bを算出して、ステップ156に進む。
 一方、ステップ161の判定が否定された場合、即ち、FFI[F5]に記憶されている基本周波数FF2が配列A1R[F5-1]に記憶されている緩和値A1B以下である場合、CPU21は、ステップ163で、R3に値R3Sを設定する。値R3Sは値R3Lよりも小さい値である。CPU21は、ステップ164に進む。
 即ち、基本周波数FF2が上昇傾向を示す場合、R3の値を大きくすることで、過去の緩和値の影響を大きくし、基本周波数FF2が下降傾向を示す場合、R3の値を小さくすることで、過去の緩和値の影響を小さくしている。R3の値を大きくすることは、変化を緩やかにする度合いを大きくすることであり、R3の値を小さくすることは、変化を緩やかにする度合いを小さくすることである。縦軸が周波数を表し、横軸が時間を表す図12において、音声信号の基本周波数の一例を実線201で示す。実線201で示す基本周波数が、円201A及び円201Bで示すように急激に下降する場合、過去の緩和値の影響を小さくすることで、緩和値は、基本周波数の急激な下降に追従することができる。基本周波数の急激な下降に追従する緩和値を破線203で例示する。一方、過去の緩和値の影響を小さくしない場合、粗い破線202で例示するように、緩和値は、基本周波数の変化に追従しない。
 CPU21は、ステップ156で、第5フレームカウンタF5のカウント値に1を加算する。CPU21は、ステップ157で、通話中であるか否か判定する。判定が否定された場合、即ち、通話中でない場合、発話印象判定処理を終了する。
 ステップ157の判定が肯定された場合、CPU21はステップ158に進む。ステップ158及びステップ159は、ステップ143及びステップ144と同様であるため、説明は省略する。ステップ159の判定が肯定された場合、即ち、発話区間である場合、CPU21は、ステップ164で、第4フレームカウンタF4のカウント値に1を加算して、ステップ151に戻る。
 ステップ159の判定が否定された場合、即ち、発話区間の終了が判定された場合、CPU21は、ステップ160で、差分量を算出する。詳細には、図13に例示するように、CPU21は、ステップ181で、変数Iに1を設定し、変数AD3Pに0を設定する。変数I及び変数AD3Pは、例えば、二次記憶部23のデータ格納領域23Dに含まれている。
 CPU21は、ステップ182で、緩和値A1R[F5-I]-基本周波数FFI[F5-I)の二乗を変数AD3Pに加算する。CPU21は、ステップ183で、変数Iに設定されている値に1を加算し、ステップ184で、変数Iに設定されている値が第5フレームカウンタF5のカウント値より小さいか否か判定する。ステップ184の判定が肯定された場合、即ち、変数Iに設定されている値が第5フレームカウンタF5のカウント値より小さい場合、CPU21はステップ181に戻る。
 ステップ184の判定が否定された場合、即ち、変数Iに設定されている値が第5フレームカウンタF5のカウント値以上である場合、CPU21は、ステップ185で、例えば、式(11)に示すように、差分量AD3を算出して、ステップ161に進む。
Figure JPOXMLDOC01-appb-M000005

式(11)では、単位発話区間毎の、外れ値を除外した基本周波数の各々と基本周波数の各々に対応する緩和値の各々との差の大きさの度合いを表す差分量AD3を算出する。即ち、差分量AD3は、ステップ153で、基本周波数FF2が外れ値ではないと判定された基本周波数FF2及び緩和値A1Bを用いて計算される。
 ステップ161は、図8のステップ135と同様であるため、説明を省略する。CPU21は、ステップ163で、単位発話区間カウンタN2のカウント値に1を加算してステップ141に戻る。
 なお、第1~第3実施形態では、発話印象判定装置10が物理的に単一の装置である場合について説明したが、第1~第3実施形態はこれに限定されない。例えば、図14に例示するように、発話印象装置10は、ネットワーク31で接続されたクライアント32及びサーバ33のような物理的に別個の複数の装置を含む発話印象判定システム30であってもよい。
 発話印象判定システム30では、例えば、図15Aに例示するように、クライアント32が音声検出部11Aを含み、図15Bに例示するように、サーバ33が算出部12A及び印象判定部13Aを含んでいてもよい。また、クライアント32が音声検出部11A及び算出部12Aを含み、サーバ33が印象判定部13Aを含んでいてもよい。また、発話印象判定システム30は、複数のクライアント及び複数のサーバを含んでいてもよい。
 なお、本実施形態では、基本周波数の各々と、基本周波数の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定する例について説明したが、本実施形態は、これに限定されない。例えば、対応する緩和値の各々より大きい基本周波数の各々と、基本周波数の各々に対応する緩和値の各々と、の差の大きさの度合いを表す差分量に基づいて、音声信号に対応する音声の発話印象を判定してもよい。
 なお、第1~第3実施形態では、発話印象判定処理がリアルタイムの通話に適用される例について説明したが、第1~第3実施形態はこれに限定されない。例えば、録音された通話または対面応対の音声に適用されてもよい。この場合、発話印象を判定する際に用いる閾値は、例えば、録音された通話または対面応対の音声に対応する音声信号全体の基本周波数に基づいて決定されてもよい。例えば、発話印象を判定する際に用いる閾値は、音声信号全体の基本周波数の平均値に所定の値を加えた値であってよい。また、多数の通話または対面応対で取得された発話印象を判定する際に用いる閾値を蓄積し、蓄積された多数の印象判定値に基づいて、第1~第3実施形態のようなリアルタイムの通話での発話印象を判定する際に用いる閾値を決定してもよい。
 また、第1実施形態では、移動平均値を計算する際に、現在の基本周波数から遡って所定フレーム分の基本周波数の平均値を計算する例について説明したが、第1実施形態は、これに限定されない。例えば、現在の基本周波数の前の所定フレーム分の基本周波数と現在の基本周波数の後の所定フレーム分の基本周波数との平均値を計算してもよい。
 第1~第3実施形態では、基本周波数として単位semitoneである基本周波数を用いたが、第1~第3実施形態は、これに限定されない。基本周波数として単位Hzの基本周波数を用いてもよい。
 第1~第3実施形態の各々の1つまたは複数の部分は、異なる実施形態に適用することが可能である。例えば、第2実施形態及び第3実施形態において、緩和値として移動平均値を使用してもよい。また、例えば、第2実施形態において、緩和値が移動平均値である場合、特徴量にも緩和値よりフレーム数を低減した移動平均値を使用してもよい。例えば、緩和値が50フレーム毎の移動平均値である場合、特徴量は10フレーム毎の移動平均値であってもよい。また、第1実施形態において、緩和値として現在の基本周波数と過去の緩和値との加重平均値を用いてもよい。また、第1実施形態で、単位発話区間毎に発話印象の判定を行い、第2及び第3実施形態で、単位時間毎に発話印象の判定を行うようにしてもよい。なお、上記は例示であり、上記以外の変更も可能である。
 また、図4、図6、図8、図10、及び図13のフローチャートは一例であり、処理の順番は変更可能である。式(4)、式(7)、式(11)を用いて差分量を算出する例について説明したが、本実施形態はこれに限定されない。差分量は、特徴量の各々と特徴量の各々に対応する緩和値の各々との差の大きさの度合いを表す値であればよい。また、配列、カウンタ、及び変数が二次記憶部23のデータ格納領域23Dに含まれる例について説明したが、本実施形態はこれに限定されない。配列、カウンタ、及び変数は、例えば、一次記憶部23に含まれてもよい。
 本実施形態では、算出部は、入力を受け付けた音声信号から基本周波数を特定し、特定した基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値を時系列に算出する。印象判定部は、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価する。
 本実施形態では、緩和値は、過去の基本周波数の加重平均値と音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である。緩和値を演算する際に、基本周波数の変化が緩やかになるように基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くする。本実施形態では、緩和値が加重平均値であって、特徴量が特徴量に対応する緩和値以下である場合、特徴量が特徴量に対応する緩和値より大きい場合よりも変化を緩やかにする度合いが小さくなるように、長期用重み係数を決定する。
 本実施形態では、特徴量は、音声信号から特定した基本周波数である。本実施形態では、基本周波数に関連する少なくとも1つの特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量は、印象判定の単位発話区間当たりにおける特徴量と特徴量に対応する緩和値との差の二乗和の平方根である。
 本実施形態では、印象判定部は、差分量が閾値より小さい場合に印象が悪いと判定し、差分量が閾値より所定値以上大きい場合に印象が良いと判定する。本実施形態では、基本周波数と基本周波数に対応する所定区間の基本周波数の平均値との差の絶対値が所定値を越える場合、基本周波数を予め除外する。
 本実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いに基づいて、音声信号を評価することで、発話印象の判定精度を向上させることができる。即ち、本実施形態では、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、暗い音声を明るい音声であると誤って判定することを抑制することができる。また、本実施形態では、基本周波数から外れ値を除外することで、外れ値が発話印象の判定に与える影響を低減することが可能となり、発話印象の判定精度を向上させることができる。
 上記したように、第1~第3実施形態では、特徴量と特徴量に対応する緩和値との差の大きさの度合いを表す差分量を用いて、発話印象を判定する。図16Aにおいて、音声信号の特徴量の一例である基本周波数を実線211Aで例示し、実線211Aで示される基本周波数に対応する緩和値の一例を破線212Aで示す。また、図16Bにおいて、音声信号の基本周波数の一例を実線211Bで示し、実線211Bで示される基本周波数に対応する緩和値を破線212Bで示す。図16A及び図16Bにおいて、縦軸は周波数を表し、横軸は時間を表す。
 一方、例えば、音声信号の基本周波数の最大値と最小値との差に基づいて発話印象を判定する関連技術が存在する。関連技術について説明するために、図17Aに図16Aと同じ基本周波数の一例を実線211Aで示し、図17Bに図16Bと同じ基本周波数の一例を実線211Bで示す。図17A及び図17Bにおいても、縦軸は周波数を表し、横軸は時間を表す。
 図17A及び図17Bに示すように、図17Aに実線211Aで例示する基本周波数の最大値と最小値との差DIF1と、図17Bに実線211Bで例示する基本周波数の最大値と最小値との差DIF2とは略等しい。したがって、音声信号の基本周波数の最大値と最小値との差に基づいて発話印象を判定した場合、実線211Aで例示する基本周波数で表される音声の明るさの度合いと、実線211Bで例示する基本周波数で表される音声の明るさの度合いと、は略等しい。
 しかしながら、発話印象、即ち、主観的に感じる音声の明るさの度合いは、短時間での基本周波数の変化の大きさ、即ち、抑揚に依存する。従って、実際には、実線211Aで例示する基本周波数で表される音声の明るさの度合いは、実線211Bで例示する基本周波数で表される音声の明るさの度合いより大きい。このように、実線211Bで例示されるような基本周波数の最大値と最小値との差に基づいて音声の明るさの度合いを判定すると、暗い音声を明るい音声であると誤って判定する場合がある。実線211Bで例示されるような基本周波数は、発話持続時間が長い場合に現れ、徐々に下降する傾向を有する。
 図16Aの実線211Aで例示される基本周波数と破線212Aで例示される基本周波数に対応する緩和値の差の大きさの度合いを表す差分量は、短時間での基本周波数の変化を適切に表すことができる。また、図16Bの実線211Bで例示される基本周波数と基本周波数に対応する破線212Bで例示される緩和値との差の大きさの度合いを表す差分量も、短時間での基本周波数の変化を適切に表すことができる。基本周波数の変化が緩やかになるように基本周波数を変化させた緩和値が、基本周波数との差の大きさの基準となる基本周波数の短時間における変化を適切に表すことができるからである。
 したがって、第1~第3実施形態によれば、図16Aの実線211Aで例示される基本周波数で表される音声の明るさの度合いは、図16Bの実線211Bで例示される基本周波数で表される音声の明るさの度合いより大きい、という発話印象が適切に判定される。即ち、図16Bに実線211Bで例示する基本周波数で表される音声のように、発話持続時間が長く、基本周波数が徐々に下降する傾向を有する場合であっても、第1~第3実施形態によれば、暗い音声を明るい音声であると誤って判定する可能性は低い。

Claims (24)

  1.  入力を受け付けた音声信号から基本周波数を特定し、
     特定した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出し、
     前記基本周波数に関連する少なくとも1つの特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いに基づいて、前記音声信号を評価する、
     発話印象判定処理をコンピュータに実行させるためのプログラム。
  2.  前記緩和値は、
     前記音声信号の一部の区間の基本周波数の移動平均値、または、
     前記基本周波数の変化が緩やかになるように前記基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
     請求項1に記載のプログラム。
  3.  前記緩和値が加重平均値であって、前記特徴量が前記特徴量に対応する前記緩和値以下である場合、前記特徴量が前記特徴量に対応する前記緩和値より大きい場合よりも変化を緩やかにする度合いが小さくなるように、前記長期用重み係数を決定する、
     請求項2に記載のプログラム。
  4.  前記特徴量は、
     前記音声信号から特定した基本周波数、または、
     変化を緩やかにする度合いが前記緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
     請求項1~請求項3の何れか1項に記載のプログラム。
  5.  前記基本周波数に関連する少なくとも1つの特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量は、印象判定の単位時間当たりまたは単位発話区間当たりにおける前記特徴量と前記特徴量に対応する前記緩和値との差の二乗和の平方根である、
     請求項1~請求項4の何れか1項に記載のプログラム。
  6.  前記基本周波数に関連する少なくとも1つの特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量が閾値より小さい場合に印象が悪いと判定し、前記差分量が前記閾値より所定値以上大きい場合に印象が良いと判定する、
     請求項1~請求項5の何れか1項に記載のプログラム。
  7.  前記閾値は、前記音声信号全体の平均値に基づいて決定される、
     請求項6に記載のプログラム。
  8.  前記基本周波数と前記基本周波数に対応する所定区間の基本周波数の平均値との差の絶対値が所定値を越える場合、前記基本周波数を予め除外する、
     請求項1~請求項7の何れか1項に記載のプログラム。
  9.  コンピュータが、
     入力を受け付けた音声信号から基本周波数を特定し、
     特定した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出し、
     前記基本周波数に関連する少なくとも1つの特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いに基づいて、前記音声信号を評価する、
     発話印象判定方法。
  10.  前記緩和値は、
     前記音声信号の一部の区間の基本周波数の移動平均値、または、
     前記基本周波数の変化が緩やかになるように前記基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
     請求項9に記載の発話印象判定方法。
  11.  前記緩和値が加重平均値であって、前記特徴量が前記特徴量に対応する前記緩和値以下である場合、前記特徴量が前記特徴量に対応する前記緩和値より大きい場合よりも変化を緩やかにする度合いが小さくなるように、前記長期用重み係数を決定する、
     請求項10に記載の発話印象判定方法。
  12.  前記特徴量は、
     前記音声信号から特定した基本周波数、または、
     変化を緩やかにする度合いが前記緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
     請求項9~請求項11の何れか1項に記載の発話印象判定方法。
  13.  前記基本周波数に関連する少なくとも1つの特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量は、印象判定の単位時間当たりまたは単位発話区間当たりにおける前記特徴量と前記特徴量に対応する前記緩和値との差の二乗和の平方根である、
     請求項9~請求項12の何れか1項に記載の発話印象判定方法。
  14.  前記基本周波数に関連する少なくとも1つの特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量が閾値より小さい場合に印象が悪いと判定し、前記差分量が前記閾値より所定値以上大きい場合に印象が良いと判定する、
     請求項9~請求項13の何れか1項に記載の発話印象判定方法。
  15.  前記閾値は、前記音声信号全体の平均値に基づいて決定される、
     請求項14に記載の発話印象判定方法。
  16.  前記基本周波数と前記基本周波数に対応する所定区間の基本周波数の平均値との差の絶対値が所定値を越える場合、前記基本周波数を予め除外する、
     請求項9~請求項15の何れか1項に記載の発話印象判定方法。
  17.  入力を受け付けた音声信号から基本周波数を特定し、特定した前記基本周波数の変化が緩やかになるように前記基本周波数を変化させた緩和値を時系列に算出する算出部と、
     前記基本周波数に関連する少なくとも1つの特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いに基づいて、前記音声信号を評価する印象判定部と、
     を含む発話印象判定装置。
  18.  前記緩和値は、
     前記音声信号の一部の区間の基本周波数の移動平均値、または、
     前記基本周波数の変化が緩やかになるように前記基本周波数を変化させる長期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
     請求項17に記載の発話印象判定装置。
  19.  前記緩和値が加重平均値であって、前記特徴量が、前記特徴量に対応する前記緩和値以下である場合、前記特徴量が、前記特徴量に対応する前記緩和値より大きい場合よりも変化を緩やかにする度合いが小さくなるように、前記長期用重み係数を決定する、
     請求項18に記載の発話印象判定装置。
  20.  前記特徴量は、
     前記音声信号から特定した基本周波数、または、
     変化を緩やかにする度合いが前記緩和値を算出する場合より小さくなるように定めた短期用重み係数を用いて、過去の基本周波数の加重平均値の重みを重くして過去の基本周波数の加重平均値と前記音声信号から特定した現在の基本周波数とで演算した現在の基本周波数の加重平均値である、
     請求項17~請求項19の何れか1項に記載の発話印象判定装置。
  21.  前記基本周波数に関連する少なくとも1つの特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量は、印象判定の単位時間当たりまたは単位発話区間当たりにおける前記特徴量と前記特徴量に対応する前記緩和値との差の二乗和の平方根である、
     請求項17~請求項20の何れか1項に記載の発話印象判定装置。
  22.  前記印象判定部は、前記基本周波数に関連する少なくとも1つの特徴量と前記特徴量に対応する前記緩和値との差の大きさの度合いを表す差分量が閾値より小さい場合に印象が悪いと判定し、前記差分量が前記閾値より所定値以上大きい場合に印象が良いと判定する、
     請求項17~請求項21の何れか1項に記載の発話印象判定装置。
  23.  前記閾値は、前記音声信号全体の平均値に基づいて決定される、
     請求項22に記載の発話印象判定装置。
  24.  前記基本周波数と前記基本周波数に対応する所定区間の基本周波数の平均値との差の絶対値が所定値を越える場合、前記基本周波数を予め除外する、
     請求項17~請求項23の何れか1項に記載の発話印象判定装置。
PCT/JP2016/060565 2016-03-30 2016-03-30 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置 WO2017168663A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2016/060565 WO2017168663A1 (ja) 2016-03-30 2016-03-30 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置
EP16896881.6A EP3438980B1 (en) 2016-03-30 2016-03-30 Utterance impression determination program, method for determining utterance impression, and utterance impression determination device
JP2018507963A JP6521173B2 (ja) 2016-03-30 2016-03-30 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置
US16/143,537 US10861477B2 (en) 2016-03-30 2018-09-27 Recording medium recording utterance impression determination program by changing fundamental frequency of voice signal, utterance impression determination method by changing fundamental frequency of voice signal, and information processing apparatus for utterance impression determination by changing fundamental frequency of voice signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/060565 WO2017168663A1 (ja) 2016-03-30 2016-03-30 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/143,537 Continuation US10861477B2 (en) 2016-03-30 2018-09-27 Recording medium recording utterance impression determination program by changing fundamental frequency of voice signal, utterance impression determination method by changing fundamental frequency of voice signal, and information processing apparatus for utterance impression determination by changing fundamental frequency of voice signal

Publications (1)

Publication Number Publication Date
WO2017168663A1 true WO2017168663A1 (ja) 2017-10-05

Family

ID=59962784

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/060565 WO2017168663A1 (ja) 2016-03-30 2016-03-30 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置

Country Status (4)

Country Link
US (1) US10861477B2 (ja)
EP (1) EP3438980B1 (ja)
JP (1) JP6521173B2 (ja)
WO (1) WO2017168663A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210407527A1 (en) * 2019-08-08 2021-12-30 Avaya Inc. Optimizing interaction results using ai-guided manipulated video
EP4145444A1 (en) * 2021-09-07 2023-03-08 Avaya Management L.P. Optimizing interaction results using ai-guided manipulated speech

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006267465A (ja) * 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
JP2009251469A (ja) * 2008-04-09 2009-10-29 Nippon Telegr & Teleph Corp <Ntt> コンテンツ視聴時の印象度推定方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2010210730A (ja) * 2009-03-09 2010-09-24 Univ Of Fukui 乳幼児の感情診断装置及び方法
JP2013072979A (ja) * 2011-09-27 2013-04-22 Fuji Xerox Co Ltd 音声解析システムおよび音声解析装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3418005B2 (ja) 1994-08-04 2003-06-16 富士通株式会社 音声ピッチ検出装置
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US6151571A (en) 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
JP2007004001A (ja) * 2005-06-27 2007-01-11 Tokyo Electric Power Co Inc:The オペレータ応対能力診断装置、オペレータ応対能力診断プログラム、プログラム格納媒体
JP2007004000A (ja) * 2005-06-27 2007-01-11 Tokyo Electric Power Co Inc:The コールセンターにおけるオペレータ業務支援システム
JP4107613B2 (ja) * 2006-09-04 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 残響除去における低コストのフィルタ係数決定法
JP2008134557A (ja) 2006-11-29 2008-06-12 Fujitsu Ltd 携帯端末装置
US7856353B2 (en) * 2007-08-07 2010-12-21 Nuance Communications, Inc. Method for processing speech signal data with reverberation filtering
JP2009071403A (ja) * 2007-09-11 2009-04-02 Fujitsu Fsas Inc オペレータ受付監視・切替システム
JP5381982B2 (ja) 2008-05-28 2014-01-08 日本電気株式会社 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体
JP5664480B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
JP6891662B2 (ja) * 2017-06-23 2021-06-18 富士通株式会社 音声評価プログラム、音声評価方法および音声評価装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
JP2006267465A (ja) * 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
JP2009251469A (ja) * 2008-04-09 2009-10-29 Nippon Telegr & Teleph Corp <Ntt> コンテンツ視聴時の印象度推定方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2010210730A (ja) * 2009-03-09 2010-09-24 Univ Of Fukui 乳幼児の感情診断装置及び方法
JP2013072979A (ja) * 2011-09-27 2013-04-22 Fuji Xerox Co Ltd 音声解析システムおよび音声解析装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3438980A4 *

Also Published As

Publication number Publication date
US20190027158A1 (en) 2019-01-24
JPWO2017168663A1 (ja) 2018-10-11
JP6521173B2 (ja) 2019-05-29
EP3438980A1 (en) 2019-02-06
EP3438980A4 (en) 2019-04-10
US10861477B2 (en) 2020-12-08
EP3438980B1 (en) 2020-04-08

Similar Documents

Publication Publication Date Title
CN102549657B (zh) 用于确定音频系统的感知质量的方法和系统
JP5664480B2 (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
EP2463856B1 (en) Method to reduce artifacts in algorithms with fast-varying gain
EP2881948A1 (en) Spectral comb voice activity detection
WO2016015461A1 (zh) 异常帧检测方法和装置
KR101430321B1 (ko) 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템
JP4769673B2 (ja) オーディオ信号補間方法及びオーディオ信号補間装置
RU2665916C2 (ru) Оценивание фонового шума в аудиосигналах
US20150106087A1 (en) Efficient Discrimination of Voiced and Unvoiced Sounds
US20140177853A1 (en) Sound processing device, sound processing method, and program
US8744846B2 (en) Procedure for processing noisy speech signals, and apparatus and computer program therefor
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
WO2017168663A1 (ja) 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
CN114694678A (zh) 音质检测模型训练方法、音质检测方法、电子设备及介质
JP5782402B2 (ja) 音声品質客観評価装置及び方法
JP2015169827A (ja) 音声処理装置、音声処理方法および音声処理プログラム
WO2016173675A1 (en) Suitability score based on attribute scores
US20220270622A1 (en) Speech coding method and apparatus, computer device, and storage medium
DK3232906T3 (en) HEARING TEST SYSTEM
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP6320962B2 (ja) 音声認識システム、音声認識方法、プログラム
CN113593604A (zh) 检测音频质量方法、装置及存储介质
JP5169918B2 (ja) 話速変換装置
KR20240031117A (ko) 지연 판단 시스템 및 그 방법

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018507963

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016896881

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2016896881

Country of ref document: EP

Effective date: 20181030

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16896881

Country of ref document: EP

Kind code of ref document: A1