WO2016088557A1 - 会話評価装置および方法 - Google Patents

会話評価装置および方法 Download PDF

Info

Publication number
WO2016088557A1
WO2016088557A1 PCT/JP2015/082435 JP2015082435W WO2016088557A1 WO 2016088557 A1 WO2016088557 A1 WO 2016088557A1 JP 2015082435 W JP2015082435 W JP 2015082435W WO 2016088557 A1 WO2016088557 A1 WO 2016088557A1
Authority
WO
WIPO (PCT)
Prior art keywords
question
pitch
answer
voice
conversation
Prior art date
Application number
PCT/JP2015/082435
Other languages
English (en)
French (fr)
Inventor
嘉山 啓
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to EP15864468.2A priority Critical patent/EP3229233B1/en
Priority to CN201580065339.2A priority patent/CN107004428B/zh
Publication of WO2016088557A1 publication Critical patent/WO2016088557A1/ja
Priority to US15/609,163 priority patent/US10229702B2/en
Priority to US16/261,218 priority patent/US10553240B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to a conversation evaluation apparatus and method, and further to a storage medium storing a program for executing the method.
  • Patent Document 1 a speaker's speech sequence is acquired, and the psychological state and health state of the speaker are diagnosed by detecting the interval and pitch of a fundamental tone (one fundamental tone) in the speech sequence. Techniques to do this have been proposed.
  • the present invention has been made in view of such circumstances, and one of its purposes is a non-linguistic feature of an answer to a question (for example, the good or bad impression that the answer gives to the person who has asked the question).
  • a conversation evaluation apparatus capable of objectively evaluating the above
  • a method for evaluating such a conversation and a storage medium storing a program for executing the method. is there.
  • a conversation evaluation apparatus includes a receiving unit configured to receive information about a question voice and information about a voice of an answer to the question, and the received information.
  • An analysis unit configured to acquire a representative pitch of the question and a representative pitch of the answer, a representative pitch of the question acquired by the analysis unit, and a representative pitch of the answer
  • An evaluation unit configured to evaluate the answer to the question based on a comparison with high.
  • the pitch of the pitch of the answer to the pitch of the question is closely related to the impression that the answer gives to the person who asked the question.
  • it is possible to objectively evaluate the non-linguistic characteristics of the answer to the question for example, the quality of the answer given to the person who asked the question). Such evaluation can be performed with high reliability.
  • the evaluation unit determines whether or not a difference value between a typical pitch of the question and a typical pitch of the answer acquired by the analysis unit falls within a predetermined range. If the pitch does not fall within the predetermined range, the pitch shift amount is determined in octaves so as to fall within the predetermined range, and at least one of the representative pitch of the question and the representative pitch of the answer is determined. The pitch may be shifted by the pitch shift amount, and the answer to the question may be evaluated based on a comparison between the question after the shift and a representative pitch of the answer.
  • the pitch shift control is performed in octave units so that the pitch difference between the two falls within the predetermined range, so appropriate comparison processing is performed. Will be able to. Therefore, even when the pitch of the utterance voice of the question and the answer is more than one octave apart, such as a conversation between a man and a woman or an adult and a child, the answer to the question can be properly evaluated.
  • the evaluation unit evaluates the answer to the question according to how far a difference between a representative pitch of the question and a representative pitch of the answer is from a predetermined reference value. It may be configured.
  • the apparatus may further include a conversation interval detection unit that detects a conversation interval that is a time from the end of the question to the start of the answer, and the evaluation unit further adds the detected conversation interval to the detected conversation interval. Based on, the answer to the question may be evaluated.
  • the answer to the question may be evaluated.
  • the time from the end of the question to the start of the answer is closely related to the impression given to the other party. Therefore, by evaluating not only the pitch of the question and answer but also the conversation interval between the question and answer, it is possible to evaluate the answer to the question with higher reliability.
  • the present invention can be configured and embodied not only as an apparatus invention as described above but also as a method invention.
  • the present invention can also be used as a software program that can be executed by a processor such as a computer or a DSP (digital signal processor), or as a non-transitory computer-readable storage medium that stores such a software program.
  • a processor such as a computer or a DSP (digital signal processor), or as a non-transitory computer-readable storage medium that stores such a software program.
  • the program is provided to the user in the storage medium and then installed in the user's computer, or distributed from the server device to the client computer via a communication network, and then the client computer. It may be installed inside.
  • the processor used in the present invention is not only a computer or other general-purpose processor capable of starting an arbitrary software program, but a dedicated processor having a dedicated logic circuit assembled by hardware. There may be.
  • the “question” is not limited to the “question” but includes a simple “talk”, and the “answer” refers to some linguistic reaction to the “question” (talk).
  • the utterance of one speaker in a conversation between two or more people is called “question”, and the linguistic response of the other speaker is called “answer”.
  • FIG. 1 is a diagram showing a configuration of a conversation evaluation apparatus 10 according to the first embodiment of the present invention.
  • the conversation evaluation apparatus 10 is applied to a conversation training apparatus in which conversation voices of two people are input with a microphone of one voice input unit 102 and an answer to a question during conversation is evaluated and displayed.
  • the answers to the questions here include responses to questions such as “Yes”, “No”, “Yes”, “Yes”, “Fun”, “I see” Also included are saigo (interjections).
  • the conversation evaluation apparatus 10 includes a CPU (Central Processing Unit), a storage unit such as a memory and a hard disk device, one voice input unit 102, a display unit 112, and the like.
  • a plurality of functional blocks are constructed as follows. Specifically, in the conversation evaluation device 10, a voice acquisition unit 104, an analysis unit 106, a determination unit 108, a language database 122, a conversation interval detection unit 109, and an evaluation unit 110 are constructed.
  • the conversation evaluation apparatus 10 includes an operation input unit and the like so that the user can input various operations to the apparatus and perform various settings.
  • the conversation evaluation device 10 is not limited to the conversation training device, and may be a terminal device such as a smartphone or a mobile phone, a tablet personal computer, or the like. Further, the present invention may be applied to the case where three or more conversational voices are input with a microphone of one voice input unit 102. In this case, for example, when one person utters a question, anyone of the other two may answer the question.
  • the audio input unit 102 includes a microphone that converts audio into an electric signal and an A / D converter that converts the converted audio signal into a digital signal in real time.
  • the audio acquisition unit 104 receives the digital audio signal output from the audio input unit 102 and temporarily stores the audio signal in a memory.
  • the voice input unit 102 and the voice acquisition unit 104 function as a reception unit configured to receive information related to the question voice and information related to the answer voice to the question.
  • the analysis unit 106 performs an analysis process on the audio signal converted into a digital signal to extract the voice characteristics (pitch, volume, etc.) of the utterance (question or answer), and at least the representative sound of the question High and representative pitches of the answers are obtained.
  • the analysis unit 106 detects the pitch (pitch) of a specific section of the question, and obtains the voice feature (typically representative pitch) of the question based on this detection.
  • 106A, and a second pitch acquisition unit 106B that detects a pitch included in the answer voice and acquires a voice feature (typically, a typical pitch) of the answer based on this detection.
  • This specific section is a representative section suitable for extracting pitch characteristics of the questioned voice.
  • the specific section is the end section (for example, 180 msec) of a predetermined time immediately before the utterance ends, and the first pitch acquisition unit 106A determines the highest pitch in the end section as the representative section. Detected as a target pitch.
  • This specific section is not limited to the end section, and may be all or part of the utterance section. Moreover, you may make it detect not only the highest pitch in this specific area (representative area) but the minimum pitch, an average pitch, etc. as said representative pitch.
  • the start of speech can be determined, for example, when the volume of the audio signal is equal to or higher than the threshold, and the end of speech is, for example, the volume of the audio signal is less than the threshold for a certain period It can be judged by becoming.
  • a plurality of threshold values may be used to provide hysteresis characteristics.
  • the voiced section is a section in which the pitch (pitch) of the voice signal can be detected in the utterance section.
  • the section in which the pitch can be detected means that there is a periodic part in the audio signal and that part can be detected.
  • the pitch of the unvoiced sound part is estimated from the immediately voiced sound part.
  • the specific section (representative section) of the question is not limited to the last section of the voiced section, and may be a head section, for example. Moreover, it is good also as a structure which a user can set arbitrarily about which part the pitch of a question is specified. Moreover, instead of using two of the volume and the pitch for detecting the voiced section, it may be detected using either one, and the user determines which one is used to detect the voiced section. You may choose.
  • the second pitch acquisition unit 106B detects the pitch from the voice signal of the answer, acquires a representative pitch (for example, the average pitch of the utterance interval) of the voice of the answer based on the second pitch acquisition unit 106B, and Data indicating high is supplied to the evaluation unit 110.
  • the second pitch acquisition unit 106B acquires not only the average pitch but also the highest pitch or the lowest pitch in the entire answer segment or a predetermined partial interval as the representative pitch. It may be. Moreover, you may make it acquire the average pitch in the predetermined partial area of the voice of an answer as said representative pitch. Alternatively, the pitch of the pitch of the answer voice is the same as the pitch of the answer voice.
  • the analysis unit 106 uses the audio signal stored in the memory by the audio acquisition unit 104 to detect a specific section and specify the specific interval when performing the processing related to the first and second pitch acquisition units 106A and 106B.
  • the pitch of the section may be detected, or the pitch may be detected using a voice signal received in real time via the voice acquisition unit 104.
  • the pitch of the question in real time for example, the pitch of the input voice signal is compared with the pitch of the previous voice signal, and the higher pitch is stored and updated. By continuing this until the end of the question utterance, the finally updated pitch is specified as the pitch of the question. Thereby, the highest pitch until the end of the utterance can be specified as the pitch of the question.
  • the pitch per second syllable is often close to the overall average, so the pitch at the start of the second syllable may be specified as the pitch of the answer.
  • the discriminating unit 108 analyzes the voice signal of the utterance converted into a digital signal, and performs voice recognition to convert it into a character string, thereby specifying the meaning of the word of the utterance. Thereby, it is determined whether the utterance is a question or an answer, and data indicating the determination result is supplied to the analysis unit 106.
  • the determination unit 108 determines which phoneme the speech signal of the utterance is close to by referring to a phoneme model created in advance in the language database 122 and defines the speech signal. Identify the meaning of the words to be played.
  • a phoneme model for example, a hidden Markov model can be used.
  • the determination of the question and the answer during the utterance by the determination unit 108 is not limited to the linguistic semantic analysis method as described above, and may be performed based on a non-linguistic speech feature. For example, if the utterance has an increased pitch in the end section, it can be determined as a question. Usually, if an utterance is a question, the next utterance is an answer. For this reason, the determination unit 108 only needs to be able to determine whether or not the utterance is questionable. In that case, the utterance after the utterance determined to be a question is automatically regarded as an answer to the question.
  • the conversation interval detection unit 109 detects the time (conversation interval) from the end of the question to the start of the answer.
  • the conversation interval is measured by a timer or a real time clock built in the conversation evaluation apparatus 10. In the case of measuring with a timer, the time is started by the end of the question and the time is stopped by the start of the answer, so that the time between them is detected as the conversation interval.
  • the time at the end of the question and the time at the start of the answer is acquired, and the time between them is detected as the conversation interval.
  • the detected time data of the conversation interval is supplied to the evaluation unit 110, and is subjected to evaluation together with the above-described question and answer pitch data.
  • the evaluation unit 110 evaluates the answer to the question based on the pitch data of the question and answer from the analysis unit 106 and the time data from the conversation interval detection unit 109, and calculates an evaluation score (score).
  • the evaluation of pitch data is to determine the difference (pitch) between the representative pitch of the question and the representative pitch of the answer, and how far this difference (pitch) is from a predetermined reference value.
  • the pitch evaluation score is calculated from the viewpoint.
  • a conversation interval evaluation point is calculated from the viewpoint of how far the conversation interval time is from a predetermined reference value (reference interval).
  • the evaluation unit 110 calculates the sum of the pitch evaluation point and the conversation interval evaluation point as the final evaluation point of the answer, and displays it on the display unit 112. Thereby, the respondent can confirm the evaluation of the answer made by himself / herself in response to the question. Details of the evaluation by the evaluation unit 110 will be described later.
  • FIG. 2 is a flowchart showing processing operations in the conversation evaluation apparatus 10.
  • the CPU starts an application program corresponding to the process. By executing this application program, the CPU constructs the functional block shown in FIG.
  • step Sa11 the voice signal converted by the voice input unit 102 is supplied to the analysis unit 106 via the voice acquisition unit 104, and it is determined whether or not speech has been started. For example, whether or not the utterance is started is determined by whether or not the volume of the audio signal is equal to or higher than a threshold value.
  • the voice acquisition unit 104 stores the voice signal in a memory.
  • step Sa12 the first pitch acquisition unit 106A of the analysis unit 106 acquires the pitch of the utterance as a voice feature from the voice signal from the voice acquisition unit 104. Is done. If it is not determined in step Sa11 that the utterance has been started, step Sa11 is repeated until it is determined that the utterance has started.
  • step Sa13 the analysis unit 106 determines whether or not the speech is being performed. Whether or not speaking is in progress is determined by whether or not an audio signal having a volume equal to or higher than a threshold value continues. If it is determined in step Sa13 that the speech is being performed, the process returns to step Sa12, and the analysis process for acquiring the pitch is continued. If it is determined in step Sa13 that the utterance is not being performed, it is determined in step Sa14 whether or not the determination unit 108 has determined that the latest utterance is a question. If it is determined in step Sa14 that the latest utterance is not a question, the process returns to step Sa11 and waits for the start of the next utterance.
  • step Sa14 determines whether or not the latest utterance is a question. Whether or not the inquiry has ended is determined, for example, by whether or not the state in which the volume of the audio signal has become less than a predetermined threshold has continued for a predetermined time.
  • step Sa15 If it is determined in step Sa15 that the utterance (question) has not ended, the process returns to step Sa12 and the analysis process for acquiring the pitch is continued.
  • the first pitch acquisition unit 106A acquires the pitch of the utterance (question) (for example, the highest pitch of the ending section of the question) as a voice feature by the analysis process of the voice signal, the first pitch acquisition unit 106A evaluates the pitch data of the question. 110.
  • step Sa15 When it is determined in step Sa15 that the utterance (question) has been completed, in step Sa16, the conversation interval detector 109 starts measuring the conversation interval.
  • step Sa17 it is determined whether or not an answer has been started. At this time, since the question has already been completed, the next utterance becomes the answer. For this reason, whether or not the answer has been started is determined by whether or not the volume of the audio signal after the inquiry is over a threshold value.
  • step Sa18 the conversation interval detector 109 finishes measuring the conversation interval. Thereby, the time of the conversation interval from the end of the question to the start of the answer can be measured.
  • the conversation interval detection unit 109 supplies time data of the measured conversation interval to the evaluation unit 110.
  • step Sa19 the second pitch acquisition unit 106B of the analysis unit 106 performs analysis processing for acquiring the pitch of the answer as a voice feature for the voice signal from the voice acquisition unit 104.
  • step Sa20 it is determined whether or not the answer has been completed. Whether or not the answer is completed is determined by whether or not the state in which the volume of the audio signal is less than a predetermined threshold value has continued for a predetermined time, for example.
  • step Sa20 If it is determined in step Sa20 that the answer has not ended, the process returns to step Sa19, and the analysis process for acquiring the pitch is continued.
  • the second pitch acquisition unit 106B acquires the pitch of the answer (for example, the average pitch of the answer) as a voice feature by the analysis process of the voice signal, the second pitch acquisition unit 106B supplies the pitch data of the answer to the evaluation unit 110.
  • step Sa21 evaluation of the conversation is executed by the evaluation unit 110.
  • FIG. 3 is a flowchart showing details of the conversation evaluation process in step Sa21 in FIG.
  • the evaluation unit 110 determines the pitch of the question based on the pitch data of the question acquired from the first pitch acquisition unit 106A and the pitch data of the answer acquired from the second pitch acquisition unit 106B.
  • a difference value absolute value of a pitch subtraction value obtained by subtracting the pitch of the answer from the pitch of the question
  • the pitch of the answer typically pitch
  • step Sb12 the evaluation unit 110 determines whether or not the calculated pitch difference value is within a predetermined range. If it is determined that the pitch difference value is outside the predetermined range, in step Sb13, the evaluation unit 110 adjusts the pitch of the answer. Specifically, the evaluation unit 110 determines the pitch shift amount of the pitch of the answer in octave units so that the pitch difference value falls within a predetermined range (for example, within a range of one octave). The evaluation unit 110 adjusts the pitch of the answer by the pitch shift amount, returns to step Sb11, and recalculates the pitch difference value based on the pitch of the question and the pitch of the answer after the shift.
  • the pitch of the answer may be adjusted by one octave in step Sb13 until the pitch difference value falls within a predetermined range (for example, within a range of one octave).
  • the pitch of the answer is adjusted without changing the pitch of the question.
  • step Sb12 when the evaluation unit 110 determines that the pitch difference value is within the predetermined range, in step Sb14, the evaluation unit 110 subtracts the pitch of the answer from the pitch of the question.
  • An evaluation score (score) of the pitch is calculated based on the value.
  • a pitch evaluation score is calculated using the pitch subtraction value after the pitch is adjusted.
  • the pitch subtraction value here is obtained by subtracting the pitch of the answer from the pitch of the question, so if the pitch of the answer is lower than the pitch of the question, it becomes a positive value and the pitch of the answer is asked. If the pitch is higher than, the value is negative.
  • the pitch evaluation point in step Sb14 is calculated from the viewpoint of how far the pitch subtraction value is from a predetermined reference value. For example, if the predetermined reference value is 700 cent, the point when the pitch subtraction value is 700 cent is set as a perfect score (100 points), and the evaluation point is subtracted as the pitch subtraction value is far from 700 cent. The pitch evaluation score of is calculated. According to this, the answer to the question is better as the pitch evaluation score is closer to 100 points. In addition, you may make it add an evaluation score, so that the said pitch subtraction value approaches a predetermined reference value.
  • the evaluation unit 110 calculates a conversation interval evaluation score based on the conversation interval time data from the conversation interval detection unit 109.
  • Such an evaluation of the conversation interval is calculated from the viewpoint of how far the conversation interval from the end of the question to the start of the answer is from a predetermined reference value. For example, if the predetermined reference value is 180 msec, the point when the conversation interval time is 180 msec is regarded as a perfect score (100 points), and the evaluation point is subtracted as the conversation interval time is away from 180 msec. calculate. According to this, the answer to the question is better as the conversation interval evaluation score is closer to 100 points.
  • the evaluation points may be added as the conversation interval approaches a predetermined reference value.
  • step Sb16 the evaluation unit 110 calculates a comprehensive evaluation score from the pitch evaluation score and the conversation interval evaluation score of the answer to the question.
  • the overall evaluation score is calculated by simply adding the pitch evaluation score and the conversation interval evaluation score. Note that the overall evaluation score may be calculated by adding a predetermined weight to the pitch evaluation score and the conversation interval evaluation score and then adding them.
  • step Sb17 the evaluation unit 110 displays the evaluation result of the answer to the question on the display unit 112, and returns to step Sa21 in FIG.
  • the evaluation result displays only the comprehensive evaluation score.
  • the evaluation of the answer to the question can be objectively confirmed by a score value called an evaluation score. Note that not only the overall evaluation score but also the pitch evaluation score and the conversation interval evaluation score may be displayed separately.
  • the display of the evaluation result of the answer to the question may display not only the numerical value of the evaluation score but also a graphic or symbol or mark such as illumination or animation corresponding to the evaluation score on the display unit 112.
  • the evaluation result of the answer to the question is not limited to the screen display of the display unit 112. For example, when the conversation evaluation apparatus 10 is applied to a portable terminal, the conversation evaluation apparatus 10 is vibrated with a vibration pattern corresponding to the evaluation point using the vibration function or sound generation function of the portable terminal, A corresponding acoustic sound may be generated.
  • the evaluation result of the answer to the question may be expressed by a stuffed toy or a robot operation (gesture).
  • a stuffed toy or a robot operation For example, when the evaluation score is high, the stuffed animal or the robot can perform a tedious operation, and when the evaluation score is low, the stuffed animal or the robot can be disappointed. Thereby, the conversation training by the answer with respect to a question can be performed more honest.
  • step Sb12 and Sb13 the pitch adjustment (steps Sb12 and Sb13) performed by the evaluation unit 110 in the present embodiment will be described in more detail with reference to the drawings.
  • the case where the pitch difference value between the question and the answer is within one octave (when the pitch is not adjusted) is compared with the case where the pitch difference value is not within one octave (when the pitch is adjusted).
  • FIG. 4 and FIG. 5 are diagrams illustrating the relationship between the question and answer inputted by voice, with the pitch on the vertical axis and the time on the horizontal axis.
  • FIG. 4 shows a case where the pitch difference value is within one octave
  • FIG. 5 shows a case where the pitch difference value is not within one octave.
  • the solid line indicated by the symbol Q simply indicates the change in the pitch of the question as a straight line.
  • the symbol dQ is the pitch of the specific section in this question Q (the highest pitch of the ending section).
  • the solid line indicated by the symbol A simply indicates the change in pitch of the answer to the question Q by a straight line
  • the symbol dA is the average pitch of the answer A.
  • a symbol D is a difference value between the pitch dQ of the question Q and the pitch dA of the answer A.
  • the symbol tQ is the end time of the question Q
  • the symbol tA is the start time of the answer A.
  • a symbol T is a time between tQ and tA, and corresponds to a time from the end of the question Q to the start of the answer A.
  • the dotted line indicated by the reference symbol A ′ represents the change in pitch of the answer after the pitch adjustment in which the pitch of the answer A is shifted by one octave as a straight line.
  • the symbol dA ′ is the average pitch of the answer A ′ after the pitch adjustment.
  • the symbol D ′ is a difference value between the pitch dQ of the question and the pitch dA ′ of the answer A ′ after the pitch adjustment.
  • FIG. 4 shows a case where the pitch difference value D is within one octave (1200 cent).
  • step Sb13 is not executed and the pitch of question Q is calculated in step Sb14.
  • a pitch evaluation score is calculated by a pitch subtraction value obtained by subtracting the pitch dA of the answer A from dQ.
  • the pitch subtraction value here is the same as the pitch difference value D because the pitch dA of the answer A is lower than the pitch dQ of the question Q, so that the pitch difference is a positive value.
  • the pitch difference value D exceeds 1 octave (1200 cent). In this case, the pitch needs to be adjusted.
  • the pitch of the answer A is greatly deviated to be lower than the pitch of the question Q, for example, a person with a low voice of 1 octave or more responds to the question A of a person with a high voice. This is the case.
  • the evaluation score is greatly shifted and an appropriate evaluation cannot be performed.
  • the pitch dA of the answer A is shifted by one octave R to the higher side in step Sb13 in FIG. 3 to adjust to the pitch dA ′ of the answer A ′.
  • the pitch difference value D ′ between the pitch dQ of the question Q and the pitch dA ′ of the adjusted answer is set within one octave (1200 cent).
  • the pitch adjustment is not limited to the case where the pitch is shifted in octave units, but may be shifted in the octave unit toward lower pitches.
  • FIG. 6 is a diagram for explaining a specific example of the pitch evaluation point calculation standard.
  • the horizontal axis represents the pitch subtraction value D between the question and the answer, and the vertical axis represents the pitch evaluation point. ing.
  • a symbol D0 is a reference value of the pitch subtraction value, and is 700 cent, for example.
  • the solid line shown in FIG. 6 is a reference line for calculating the pitch evaluation point, and is a straight line in which the evaluation point decreases as the distance from the pitch reference value D0 increases, regardless of whether the pitch subtraction value D is high or low. It is shown.
  • the calculation reference line for the pitch evaluation score is set so that the pitch evaluation score is 0 outside a predetermined range (lower limit DL to upper limit DH) from the reference value D0. For this reason, for example, if the pitch subtraction value is the reference value D0 is 100 points, the score decreases as the distance from the reference value D0 within the predetermined range (lower limit value DL to upper limit value DH) becomes smaller. 0 outside the value DL to the upper limit DH).
  • the calculation reference line of the pitch evaluation point in FIG. 6 is described as an example in which the line is symmetrical with respect to a straight line passing through the reference value D0 and parallel to the vertical axis, it is not necessarily line-symmetric. .
  • the slope of the straight line may be changed before and after the reference value D0.
  • the calculation reference line for the pitch evaluation point is not limited to a straight line, and may be a curved line.
  • the reference line for calculating the pitch evaluation point is not limited to linear, and may be non-linear.
  • the pitch evaluation score is calculated using the pitch evaluation score calculation reference line shown in FIG. 6, if the pitch subtraction value obtained by subtracting the pitch of the answer A from the calculated pitch of the question Q is Dx.
  • Sdx corresponding to Dx on the calculation reference line is an addition point or a subtraction point of the pitch evaluation point. For example, if the initial pitch evaluation score is 0, the pitch evaluation score is calculated by adding (subtracting) an addition point (subtraction point) to the 0 point.
  • the reference value D0 of the pitch subtraction value is preferably set so as to be the pitch of the optimum answer to the question.
  • a case where the reference value D0 is set to 700 cent is taken as an example.
  • This is a pitch subtraction value in which the pitch of the answer is about 5 degrees below the pitch of the question, that is, the relationship of the Kyowa pitch.
  • the reference value D0 is a pitch subtraction value in which the pitch subtraction value of the question and the answer is related to the Kyowa interval. This is because in the conversation between people, when the affirmative affirmation is given to the question, the closer the pitch subtraction value of the question and answer is closer to the Kyowa interval, the more appropriate it is to have a good impression of comfort and peace of mind.
  • the relationship of the pitch of the answer to the pitch of the question is not limited to the above-described relationship of the Kyowa pitch below about 5 degrees, and may be the relationship of the Kyowa pitch other than about 5 degrees below. For example, it may be complete 8 degrees, complete 5 degrees, complete 4 degrees, long / short 3 degrees, and long / short 6 degrees. Furthermore, even if it is not the relationship of the Kyowa pitches, the existence of a pitch relationship that gives a good impression empirically may be recognized, so the pitch relationship may be used.
  • FIG. 7 is a diagram for explaining a specific example of the calculation standard for the conversation interval evaluation score.
  • the horizontal axis represents the conversation interval time T, and the vertical axis represents the conversation interval evaluation point.
  • a symbol T0 is a reference value (reference interval) for conversation interval evaluation, and is, for example, 180 msec.
  • the solid line shown in FIG. 7 is a calculation reference line for the conversation interval evaluation point, and the evaluation point becomes lower as the conversation interval time T becomes longer or shorter, the further away from the conversation interval reference value T0. This is indicated by a straight line.
  • the calculation reference line for the conversation interval evaluation point is set so that the conversation interval evaluation point becomes 0 when it falls outside a predetermined range (lower limit value TL to upper limit value TH) from the reference value T0. For this reason, for example, if the time of the conversation interval is the reference value T0 is 100 points, the score decreases as the distance from the reference value T0 within the predetermined range (lower limit value TL to upper limit value TH) becomes smaller. 0 outside the value TL to the upper limit value TH).
  • the calculation reference line of the conversation interval evaluation point in FIG. 7 is described as an example in the case of being line symmetric with respect to a straight line passing through the reference value T0 and parallel to the vertical axis, it is not necessarily required to be line symmetric.
  • the slope of the straight line may be changed before and after the reference value T0.
  • the calculation reference line of the conversation interval evaluation point is not limited to a straight line, and may be a curved line.
  • the calculation reference line for the conversation interval evaluation point is not limited to linear, and may be non-linear.
  • the conversation interval evaluation point is calculated using the calculation reference line of the conversation interval evaluation point shown in FIG. 7, if the conversation interval time of the calculated question Q and answer A is Tx, the calculation reference line corresponds to Tx. Stx becomes an addition point or a subtraction point of the conversation interval evaluation point. For example, if the initial conversation interval evaluation score is 0, the conversation interval evaluation score is calculated by adding (subtracting) an addition point (subtraction point) to the 0 point.
  • the reference value T0 of the conversation interval it is preferable to set an optimal time from the end of the question to the start of the answer as the reference value T0 of the conversation interval.
  • T0 the reference value
  • the reference value T0 is set to 180 msec. This is the interval of the conversation interval that gives a good impression that the answer to the question is comfortable and reassuring to the other party. According to this, as the time of the conversation interval from the end of the question to the start of answer is closer to the reference value, it can be evaluated that the answer is better for the question.
  • the reference value D0 for the pitch subtraction value and the reference value T0 for the time of the conversation interval are not necessarily limited to the reference values for evaluating a completely affirmative answer.
  • the reference value T0 of the conversation interval may be changed according to the type of answer, such as an angry answer or an answer with an emotion such as a careless answer. Thereby, it is possible to evaluate an appropriate answer according to the type of answer to the question. For example, when an angry answer is evaluated, the reference value T0 of the conversation interval time is made shorter than that in the case of complete affirmation (180 msec). Thereby, the anger level of the answer to the question can be evaluated. Further, when evaluating an unanswered answer, the reference value T0 of the conversation interval time is set longer than that in the case of complete affirmation (180 msec). This makes it possible to evaluate the unwillingness of answering questions.
  • a plurality of reference values D0 for pitch subtraction values and reference values (reference intervals) T0 for conversation interval time may be provided in accordance with the types of answers as described above.
  • a reference value (reference interval) for a completely affirmative answer a reference value (reference interval) for an angry answer, and a reference value (reference interval) for an unfair answer may be provided separately.
  • the volume may be evaluated in addition to the pitch.
  • the volume of the question and the answer is acquired as a voice feature, a difference value between the volume of the question and the answer is obtained, and the volume evaluation score from the viewpoint of how far the difference value is from a predetermined reference value Is calculated.
  • the volume evaluation score is added to the pitch evaluation score and the conversation interval evaluation score to calculate a total evaluation score.
  • the reference value of the volume difference value may also be changed according to the type of answer, or a plurality of reference values may be provided. For example, in the case of an unfamiliar answer, the reference value is set lower than in the case of a completely affirmative answer. This makes it possible to evaluate the unwillingness of answering questions.
  • the evaluation score calculated for each answer may be added in steps Sb14, Sb15, and Sb16 of FIG. .
  • the voice feature of the answer to the question can be evaluated by comparison with the voice feature of the question.
  • the impression given to the other party as an answer to the question can be objectively confirmed.
  • the pitch of the question and the pitch of the answer are closely related to the impression given to the other party, so the pitch of the answer should be evaluated by comparing it with the pitch of the question.
  • the voice characteristics of the question and answer in addition to the pitch, the time from the end of the question to the start of the answer (conversation interval) is closely related to the impression given to the other party. Therefore, by evaluating not only the pitch of the question and answer but also the conversation interval between the question and answer, it is possible to evaluate the answer to the question with higher reliability.
  • the conversation evaluation apparatus 10 when the conversation evaluation apparatus 10 according to the first embodiment is applied to a terminal device such as a smartphone or a mobile phone, voice input and feature acquisition are performed by the mobile terminal, and conversation evaluation is performed with the mobile terminal.
  • a terminal device such as a smartphone or a mobile phone
  • voice input and feature acquisition are performed by the mobile terminal, and conversation evaluation is performed with the mobile terminal.
  • An external server connected via a network may be used.
  • voice input may be performed by a mobile terminal, and an external server may perform acquisition of the characteristics of the input voice and evaluation of the conversation.
  • FIG. 8 is a block diagram illustrating a configuration of the conversation evaluation apparatus 10 according to the second embodiment.
  • a case where an answer made by a person in response to a question uttered by a person is input with a microphone of one voice input unit 102 and the answer is evaluated is taken as an example.
  • the answer is evaluated.
  • an answer spoken by a person is input by a microphone of one voice input unit 102 and evaluated.
  • symbol is attached
  • the conversation evaluation apparatus 10 includes a question selection unit 130, a question reproduction unit 132, and a question database 124.
  • the determination unit 108 and the language database 122 illustrated in FIG. 1 are not provided. This is because, in the conversation evaluation apparatus 10 according to the second embodiment, since the voice data with a predetermined pitch is selected and reproduced from the speaker 134, it is not necessary to determine whether or not the utterance is a question. That's why.
  • the question database 124 stores a plurality of question voice data in advance.
  • This audio data is a recording of the voice of a person serving as a model.
  • the voice data in question is in a format such as wav or mp3, for example, and the pitch for each waveform sample (or for each waveform period) when played back as a standard, and the typical pitch for a specific section (representative section) ( For example, the highest pitch of the end section is obtained in advance, and data indicating the typical pitch of the specific section is stored in the inquiry database 124 in association with the voice data.
  • the standard reproduction here means that the audio data is reproduced under the same conditions as recording conditions (pitch, volume, tone color, speech speed, etc.).
  • the voice data of the question stored in the question database 124 questions of the same content may be stored across a plurality of people such as persons A, B, C,. For the persons A, B, C,..., For example, as celebrities, talents, singers, etc., the voice data is databased for each person.
  • the voice data of the question may be stored in the question database 124 via a medium such as a memory card, or the conversation evaluation apparatus 10 may be provided with a network connection function to provide a specific server.
  • the voice data of the question may be downloaded from and stored in the question database 124. When the questioned voice data is obtained from the memory card or the server, it may be free or paid.
  • the voice data of the question may be configured such that the user can select which model is desired as a model by the operation input unit or the like, and is randomly determined for each condition (day, week, month, etc.). It is good also as a structure.
  • the voice data of the question is made into a database of voices recorded by the user himself / herself, the user's family and acquaintances (or converted into data by a separate device) via the microphone of the voice input unit 102. May be. In this way, when a question is uttered by the voice of a familiar person, it is possible to obtain a feeling as if the user is interacting with the person.
  • the question selection unit 130 selects one of the question voice data from the question database 124, and reads and acquires the selected question voice data together with the representative pitch data associated therewith.
  • the question selection unit 130 supplies the acquired voice data to the question reproduction unit 132, and supplies representative pitch data to the analysis unit 106. It should be noted that regarding which rule the question selection unit 130 selects one voice data from among a plurality of voice data, for example, it may be random or may be selected from an operation unit (not shown).
  • the question reproduction unit 132 reproduces the question voice data from the question selection unit 130 through the speaker 134.
  • FIG. 9 is a flowchart showing a processing operation in the conversation evaluation device 10 according to the second embodiment.
  • the question selection unit 130 selects a question from the question database 124.
  • the question selection unit 130 acquires voice data and feature data (pitch data) of the selected question.
  • the question selection unit 130 supplies the acquired voice data to the question reproduction unit 132, and the pitch data is supplied to the analysis unit 106.
  • the first pitch acquisition unit 106 ⁇ / b> A of the analysis unit 106 acquires representative pitch data of the question supplied from the question selection unit 130 and supplies it to the evaluation unit 110.
  • step Sc13 the question reproduction unit 132 reproduces the selected question voice data through the speaker 134.
  • step Sc14 it is determined whether or not the question reproduction has been completed. If it is determined in step Sc14 that the question has been played back, in step Sc15, the measurement of the conversation interval is started. Thereafter, the process of reply utterance (steps Sc16 to Sc20) is the same as the process of reply utterance (steps Sa17 to Sa21) in FIG.
  • the conversation evaluation apparatus 10 when the question voice is reproduced and pronounced via the speaker 134 and the answer voice to the question is inputted via the microphone of the voice input unit 102, The evaluation value of the answer is displayed on the display unit 112. According to this, since the question is reproduced by the speaker 134, the answer to the question can be trained by one person even if there is no partner who speaks the question. In addition, since the question is reproduced by the speaker 134, it is sufficient to input only the answer with the microphone of the voice input unit 102, so that it is not necessary to determine whether the utterance input from the voice input unit 102 is a question.
  • the first pitch acquisition unit 106A analyzes the voice data of the question selected by the question selection unit 130 without using the voice input unit 102, and obtains the voice data.
  • a configuration may be adopted in which an average pitch when played back as a standard is calculated, and data indicating the calculated average pitch is supplied to the evaluation unit 110 as representative pitch data. According to this configuration, it is not necessary to store typical pitch data in the question database 124 in association with the questioned voice data in advance.
  • the voice input unit 102 and the voice acquisition unit 104 function as a reception unit that receives the acoustic signal of the answer voice, and the question selection unit 130 and the first pitch acquisition unit 106A It functions as a receiving unit that receives voice synthesis related data (the stored representative pitch data or the selected question voice data) related to data for synthesizing voice.
  • the questioned voice is input via the microphone of the voice input unit 102, and the voice of the answer is reproduced as synthesized voice through the speaker 134. You may make it do.
  • the voice input unit 102 and the voice acquisition unit 104 function as a receiving unit that receives the acoustic signal of the questioned voice, and the answer selection unit and the second pitch for selecting the voice of the answer to be synthesized.
  • the acquisition unit 106B functions as a reception unit that receives speech synthesis-related data (stored representative pitch data or speech data of the selected answer) related to data for synthesizing a response speech.
  • FIG. 10 is a block diagram illustrating a configuration of the conversation evaluation apparatus 10 according to the third embodiment.
  • the case where two conversational voices are input by the microphone of one voice input unit 102 has been described as an example.
  • two conversational voices are input to two voice input units 102A, Input separately for each microphone of 102B.
  • symbol is attached
  • the determination unit 108 and the language database 122 illustrated in FIG. 1 are not provided. This is because the conversation evaluation apparatus 10 according to the third embodiment is configured to input each person's voice via separate (question-only and answer-only) voice input units 102A and 102B. If the person who utters the voice input unit 102A dedicated to the question and the person who answers uses the voice input unit 102B dedicated to the answer, it is not necessary to perform a special determination process whether or not the utterance is a question. That's why.
  • the voice input units 102A and 102B and the voice acquisition unit 104 function as a reception unit configured to distinguish and receive the acoustic signal of the question voice and the acoustic signal of the answer voice.
  • FIG. 11 is a flowchart showing a processing operation in the conversation evaluation apparatus 10 according to the third embodiment.
  • the flowchart shown in FIG. 11 corresponds to the flowchart shown in FIG. 2 excluding the process for determining whether the utterance is questionable.
  • steps Sd11, Sd12, and Sd13 shown in FIG. 11 are changed from “utterance” to “question” in steps Sa11, Sa12, and Sa15 shown in FIG.
  • the subsequent steps Sd14 to Sd19 shown in FIG. 11 are the same as the steps Sa16 to Sa21 shown in FIG.
  • the conversation evaluation apparatus 10 when a question voice is input by the microphone of the voice input unit 102A, the answer voice is input by a microphone of another voice input unit 102B. .
  • the voice of the inputted answer with respect to the voice of the inputted question is evaluated by the analysis unit 106 and the evaluation unit 110, and the evaluation value of the answer is displayed on the display unit 112.
  • the question and the answer are separately input from the microphones of the voice input units 102A and 102B, it is not necessary to determine whether or not the utterance input from each of the voice input units 102A and 102B is a question. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 問いの音声に関する情報及び該問いに対する回答の音声に関する情報が受信される。解析部(106)は、該受信した情報に基づき、前記問いの代表的音高(例えば末尾の音高)及び前記回答の代表的音高(例えば平均音高)を取得する。評価部(110)は、問いの代表的音高と回答の代表的音高との比較に基づいて、該問いに対してなされた回答の音声を評価する。評価部は、問い及び回答の代表的音高との差(音程)が所定の基準値(例えば5度下のような協和音程)からどれだけ離れるかによって、該問いに対する回答を評価する。更に、前記問いが終了してから前記回答が開始するまでの時間である会話間隔を検出する会話間隔検出部(109)が設けられてよい。評価部は、更に、前記検出された会話間隔に基づいて、前記問いに対する前記回答を評価する。こうして、問いに対する回答が持つ非言語的特徴(回答が与える印象の善し悪し)を客観的に評価できる。

Description

会話評価装置および方法
 本発明は、会話評価装置および方法に関し、さらには該方法を実行するためのプログラムを記憶した記憶媒体に関する。
 従来、話し手が発言した音声自体を分析することで、話し手の心理状態などを分析するものが提案されている。例えば特許文献1では、話し手の音声シーケンスを取得し、その音声シーケンス中にある基音(1つの基本トーン:fundamental tone)の間隔や音程を検出することで、話し手の心理状態や健康状態などを診断する技術が提案されている。
特許第4495907号公報
 ところで、少なくとも二人からなる人同士の会話では、一方の話し手から問い(話掛け)が発言されたとき、他方の話し手は、それに対して相槌を含め何らかの回答を発言する。このとき、同じ文言で回答する場合であっても、どのような雰囲気又はニュアンス(つまり非言語的特徴)で回答するかによって、相手に与える印象が異なる。しかるに、上述した特許文献1の技術は、1人の話し手の音声シーケンスの中での基音間隔や音程によって、話し手の心理状態などを分析するものである。すなわち、特許文献1の技術は、2人の会話中の問いと回答の音声特徴を比較するものではなく、従って、特定の問いに対してなされた回答の非言語的特徴を評価するものでもない。このため、特許文献1の技術では、会話中における特定の問いに対する回答が、該問いに対する回答がどのような非言語的特徴を持っているかを評価することはできない。
 本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、問いに対する回答が持つ非言語的特徴(例えば問いを発した相手に対して該回答が与える印象の善し悪し)を客観的に評価できる会話評価装置を提供することにあり、さらにはそのような会話評価のための方法、及び該方法を実行するためのプログラムを記憶した記憶媒体を提供しようとするものである。
 会話中の問いに対する回答を評価するに当たって、まず人同士でどのような会話(対話)がなされるかについて、言語的情報以外の情報、とりわけ対話を特徴付ける音高(周波数)に着目して考察する。人同士の対話として、一方の人(aとする)による問い(問い掛け)に対し、他方の人(bとする)が回答(返答)する場合について検討する。この場合において、aが問いを発したとき、aだけなく、当該問いに対して回答しようとするbも、当該問いのうちの、特定区間における音高を強い印象で残していることが多い。bは、同意や、賛同、肯定などの意で回答するときには、印象に残っている問いの音高に対し、当該回答を特徴付ける部分の音高が、特定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたaは、自己の問いについて印象に残っている音高と当該問いに対する回答を特徴付ける部分の音高とが上記関係にあるので、bの回答に対して心地良く、安心するような好印象を抱くことになる、と考えられる。このように人同士の対話では、問いの音高と回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。このような考察を踏まえて、問いに対する回答を評価する会話評価システムを検討したときに、上記目的を達成するために、次のような構成とした。
 すなわち、上記目的を達成するために、本発明に係る会話評価装置は、問いの音声に関する情報及び前記問いに対する回答の音声に関する情報を受信するように構成された受信部と、前記受信した情報に基づき、前記問いの代表的音高及び前記回答の代表的音高を取得するように構成された解析部と、前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との比較に基づいて、前記問いに対する前記回答を評価するように構成された評価部と、を具備する。
 上述したように問いの音高に対する回答の音高の音程は、問いを発した相手に対して該回答が与える印象と密接に関連しているので、本発明に従って問いの代表的音高と回答の代表的音高とを比較することにより、問いに対する回答が持つ非言語的特徴(例えば問いを発した相手に対して該回答が与える印象の善し悪し)を客観的に評価することができるものとなり、かつ高い信頼性でそのような評価を行うことができる。
 一実施例において、前記評価部は、前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との差分値が所定の範囲内に入るか否かを判定し、前記所定の範囲内に入らない場合は、前記所定の範囲内に入るように音高シフト量をオクターブ単位で決定し、前記問いの代表的音高と前記回答の代表的音高の少なくとも一方を前記音高シフト量だけシフトし、シフト後の前記問い及び前記回答の代表的音高の比較に基づいて前記問いに対する前記回答を評価するように構成されていてよい。これによれば、問いと回答の音高が所定範囲以上かけ離れている場合、両者の音高差が所定範囲内に入るようにオクターブ単位で音高シフト制御を行うので、適切な比較処理を行うことができるようになる。従って、例えば男性と女性の会話や大人と子どもの会話のように、問いと回答の発話音声の音程が1オクターブ以上離れているような場合においても、問いに対する回答を適正に評価できる。一実施例において、前記評価部は、前記問いの代表的音高と前記回答の代表的音高との差が所定の基準値からどれだけ離れるかによって、前記問いに対する前記回答を評価するように構成されていてよい。
 一実施例において、前記問いが終了してから前記回答が開始するまでの時間である会話間隔を検出する会話間隔検出部を更に備えてよく、前記評価部は、更に前記検出された会話間隔に基づいて、前記問いに対する前記回答を評価するように構成されていてよい。問いに対する回答の音声特徴として、上述した音高の他にも、問いの終了から回答の開始までの時間(会話間隔)は相手に与える印象に密接な関係がある。このため、問いと回答の音高のみならず、問いと回答の会話間隔についても評価することで、問いに対する回答についてより信頼性の高い評価をすることができる。
 本発明は、上述したような装置の発明のみならず方法の発明としても構成され具体化され得る。また、本発明は、コンピュータ又はDSP(デジタル信号処理器)のようなプロセッサによって実行可能なソフトウェアプログラムとして、また、そのようなソフトウェアプログラムを記憶した非一過性のコンピュータ読み取り可能な記憶媒体としても、構成され具体化され得る。その場合、該プログラムは該記憶媒体内においてユーザに提供され、それから該ユーザのコンピュータ内にインストールされるか、若しくは、サーバ装置から通信ネットワークを介してクライアントのコンピュータに配信され、それから該クライアントのコンピュータ内にインストールされるようになっていてよい。更に、本発明において使用されるプロセッサとは、任意のソフトウェアプログラムを起動させることができるコンピュータ又はその他の汎用プロセッサのみを言うのではなく、ハードウェアで組み立てられた専用ロジック回路を具備した専用プロセッサであってもよい。
 なお、本発明において「問い」とは、「質問」に限るものではなく、単なる「話掛け」も含み、「回答」とは「問い」(話掛け)に対する何らかの言語的反応を指す。要するに、二人以上の会話における一方の話し手の発話を「問い」と言い、それに対する他方の話し手の言語的反応を「回答」と言う。
 以下、本発明の実施形態について図面を参照して詳細に説明する。
本発明の第1実施形態に係る会話評価装置の構成を示すブロック図である。
図1に示す会話評価装置の動作の一例を示すメインルーチンのフローチャートである。
図2に示す会話の評価を行う際のサブルーチンを示すフローチャートである。
本実施形態における問いと回答との音高例を示す図である。
本実施形態における問いと回答との音高例を示す図であって、問いと回答との音高差分値が1オクターブ以上ある場合の例を示す。
本実施形態における音高評価点の算出基準の具体例を説明するための図である。
本実施形態における会話間隔評価点の算出基準の具体例を説明するための図である。
本発明の第2実施形態に係る会話評価装置の構成を示すブロック図である。
図8に示す会話評価装置の動作の一例を示すメインルーチンのフローチャートである。
本発明の第3実施形態に係る会話評価装置の構成を示すブロック図である。
図10に示す会話評価装置の動作の一例を示すメインルーチンのフローチャートである。
<第1実施形態>
 図1は、本発明の第1実施形態に係る会話評価装置10の構成を示す図である。ここでの会話評価装置10は、2人の会話音声を1つの音声入力部102のマイクロフォンで入力し、会話中の問いに対する回答を評価して表示する会話トレーニング装置に適用した場合を例に挙げる。またここでの問いに対する回答には、問いの質問に答える回答のみならず、例えば「はい」、「いいえ」、「そう」、「うん」、「ふーん」、「なるほど」のような質問に対する返事や相槌(間投詞)も含まれる。
 図1に示すように、会話評価装置10は、CPU(Central Processing Unit)、メモリやハードディスク装置などの記憶部、1つの音声入力部102、表示部112などを有し、当該CPUが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。詳細には、会話評価装置10では、音声取得部104、解析部106、判別部108、言語データベース122、会話間隔検出部109および評価部110が構築される。
 なお、特に図示しないが、このほかにも会話評価装置10は、操作入力部などを備え、利用者が装置に対して各種の操作を入力し、各種の設定などができるようになっている。また、会話評価装置10は、会話トレーニング装置に限られず、スマートフォンや携帯電話機のような端末装置やタブレット型のパーソナルコンピュータなどであっても良い。また、3人以上の会話音声を1つの音声入力部102のマイクロフォンで入力する場合に適用してもよい。この場合、例えば1人が問いを発話したときに、その問いに対する回答は、他の2人のうちの誰が回答してもよい。
 音声入力部102は、詳細については省略するが、音声を電気信号に変換するマイクロフォンと、変換された音声信号をリアルタイムでデジタル信号に変換するA/D変換器とで構成される。音声取得部104は、音声入力部102から出力されたデジタル音声信号を受信してその音声信号を一時的にメモリに記憶する。この第1実施形態において、音声入力部102と音声取得部104が、問いの音声に関する情報及び前記問いに対する回答の音声に関する情報を受信するように構成された受信部として機能する。
 解析部106は、デジタル信号に変換された音声信号の解析処理を行って発話(問いや回答)の音声特徴(音高や音量など)を抽出するものであり、少なくとも、前記問いの代表的音高及び前記回答の代表的音高を取得するように構成されている。一例として、解析部106は、問いのうち特定区間の音高(ピッチ)を検出し、この検出に基づき問いの音声特徴(典型的には、代表的音高)を取得する第1音高取得部106Aと、回答の音声に含まれる音高を検出し、この検出に基づき回答の音声特徴(典型的には、代表的音高)を取得する第2音高取得部106Bとを備える。
 第1音高取得部106Aは、問いの音声信号において発話開始から発話終了までの発話区間のうち、有声区間における特定区間の音高(問いの代表的音高)を検出し、当該音高(代表的音高)を示すデータを評価部110に供給する。この特定区間とは、問いの音声が持つ音高的特徴を抽出するのに適した代表的区間である。一例として、前記特定区間(代表的区間)は、発話が終了する直前の所定時間の末尾区間(例えば180msec)であり、第1音高取得部106Aは、当該末尾区間における最高音高を前記代表的音高として検出する。この特定区間(代表的区間)は、末尾区間に限らず、発話区間の全部又は一部であってもよい。また、該特定区間(代表的区間)における最高音高に限らず、最低音高あるいは平均音高等を、前記代表的音高として検出するようにしてもよい。
 本実施形態のようにリアルタイムで音声を入力する場合、発話開始は例えば音声信号の音量が閾値以上になったことで判断することができ、発話終了は例えば音声信号の音量が一定期間閾値未満となったことで判断することができる。なお、チャタリングを防止するため、複数の閾値を用い、ヒステリシス特性を付与してもよい。また、有声区間とは、発話区間のうち、音声信号の音高(ピッチ)が検出可能な区間をいう。音高が検出可能な区間とは、音声信号に周期的な部分があって、その部分が検出可能であることを意味する。
 なお、問いの有声区間の末尾区間が無声音(端的にいえば、発声の際に声帯の振動を伴わない音)である場合、直前の有声音部分から、当該無声音部分の音高を推定しても良い。問いの特定区間(代表的区間)については、有声区間の末尾区間に限られるものではなく、例えば語頭区間であっても良い。また、問いのうちのどの部分の音高を特定するかについて、利用者が任意に設定できる構成としても良い。また、有声区間の検出のために音量および音高の2つを用いるのではなく、いずれか一方を用いて検出しても良いし、どれを用いて有声区間の検出をするのかを利用者が選択しても良い。
 第2音高取得部106Bは、回答の音声信号からその音高を検出し、これに基づき該回答の音声の代表的音高(例えば発話区間の平均音高)を取得し、当該代表的音高を示すデータを評価部110に供給する。なお、第2音高取得部106Bは、前記平均音高に限らず、回答の音声の全区間若しくは所定の部分的区間における最高音高又は最低音高を、前記代表的音高として取得するようにしてもよい。また、回答の音声の所定の部分的区間における平均音高を、前記代表的音高として取得するようにしてもよい。あるいは、回答の音声の全区間若しくは所定の部分的区間における音高軌跡をそのまま回答の音声の代表的音高
 解析部106は、前記第1及び第2音高取得部106A,106Bに係る処理を行うに際して、前記音声取得部104によってメモリ内に記憶された音声信号を用いて、特定区間の検出やその特定区間の音高を検出してもよく、あるいは、前記音声取得部104を介してリアルタイムに受信した音声信号を用いて音高を検出してもよい。リアルタイムで問いの音高を検出する場合には、例えば入力した音声信号の音高を、直前の音声信号の音高と比較して高い方の音高を記憶して更新する。これを問いの発話終了まで続けることで、最終的に更新された音高を問いの音高として特定する。これにより、発話終了までで最高の音高を問いの音高として特定できる。また、回答の音高を検出する場合は、音節によって特定してもよい。例えば相槌の回答の場合は第2音節あたりの音高が全体の平均に近くなることが多いので、第2音節開始時の音高を回答の音高として特定するようにしてもよい。
 判別部108は、デジタル信号に変換された発話の音声信号を解析し、文字列に変換する音声認識を行うことで、発話の言葉の意味を特定する。これにより、その発話が問いか回答かを判別し、判別結果を示すデータを解析部106に供給する。判別部108は、発話の意味を特定する際に、その発話の音声信号がどの音素に近いのかを、言語データベース122に予め作成された音素モデルを参照することにより判定して、音声信号で規定される言葉の意味を特定する。このような音素モデルには、例えば隠れマルコフモデルを用いることができる。
 なお、判別部108による発話中の問いと回答の判別は、上記のような言語的意味解析方法に限られるもではなく、非言語的音声特徴に基づいて行うようにしてもよい。例えば語尾区間の音高が上昇した発話であればそれは問いと判別でき、その次の発話の音声が2音節であれば相槌の回答と判別できる。また、通常は発話が問いであれば、次の発話は回答である。このため、判別部108では、少なくとも発話が問いか否かを判別できればよい。その場合、問いと判別された発話の後の発話は該問いに対する回答であると自動的にみなされる。
 ところで、人同士の対話において問いに対して回答する場合、音高以外にも考慮される要素として、問いの終了から回答の開始までの時間(会話間隔)がある。例えば、二択で回答を迫るような問いに対して「いいえ」と回答する場合、慎重を期するために、一呼吸遅れるように間を取る点も、経験上よく見られる行為である。一方、人同士の対話において、二択ではなく、例えばWho(誰が)、What(何を)、When(いつ)、Where(どこで)、Why(なぜ)、How(どのようにして)のような5W1Hの問いに対しては、ゆっくりと時間をかけて具体的内容を回答する場合がある。いずれの場合でも、問いの終了から回答の開始までの時間が空くと、問いを発話した相手に一種の不安感を与えてしまうとともに、以降の会話が弾まない。また、逆に回答までの間が詰まり過ぎると、意識的に被されているかのような感覚、または、人の話をまともに聞いていないのではないかという感覚になり、不快感を与えてしまう。
 そこで、本実施形態では、問いに対する回答の評価を行う際に、音高だけではなく、或る問いの終了時から該問いに対する回答の開始時までの時間間隔(これを「会話間隔」という)を測定して、これを評価できるようにしている。詳細には、会話間隔検出部109において、問いの終了から回答の開始までの時間(会話間隔)を検出する。会話間隔は、会話評価装置10に内蔵されるタイマまたはリアルタイムクロックで計時する。タイマで計時する場合には、問いの終了により計時を開始し、回答の開始により計時を終了することで、その間の時間を会話間隔として検出する。リアルタイムクロックで計時する場合には、問いの終了時と回答の開始時の時刻を取得しておき、その間の時間を会話間隔として検出する。検出された会話間隔の時間データは、評価部110に供給され、上述した問いと回答の音高データとともに評価の対象とされる。
 評価部110は、解析部106からの問いと回答の音高データと、会話間隔検出部109からの時間データにより、問いに対する回答の評価を行って評価点(スコア)を算出する。詳細には、音高データの評価は、問いの代表的音高と回答の代表的音高との差(音程)を求め、この差(音程)が所定の基準値からどれだけ離れているかという観点から音高評価点を算出する。会話間隔の時間データの評価は、会話間隔の時間が所定の基準値(基準間隔)からどれだけ離れているかという観点から会話間隔評価点を算出する。評価部110は、これら音高評価点と会話間隔評価点の合計を最終的な回答の評価点として算出し、表示部112に表示する。これにより、回答者は、問いに対して自らが行った回答の評価を確認することができる。なお、評価部110による評価の詳細は後述する。
 次に、会話評価装置10の動作について説明する。図2は、会話評価装置10における処理動作を示すフローチャートである。はじめに、利用者が所定の操作をしたとき、例えば当該対話のための処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択したとき、CPUが当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムを実行することによって、CPUは、図1で示した機能ブロックを構築する。
 ここでは、1つの音声入力部102のマイクロフォンで2人の自然の会話の音声を入力し、リアルタイムで音声特徴を取得しながら、問いに対する回答の評価を行う場合を例にとって説明する。このように自然の会話を1つの音声入力部102で入力する場合には、発話が問いか回答か不明なため、発話が問いか否かの判別が必要となる。なお、ここでは説明の便宜のため、発話が問いであると判別されれば、その直後の発話は回答であると自動的にみなし、その発話が回答であるか否かの格別の判別処理は行わない。ただし、これに限られるものではなく、問いと判別された発話の直後の発話が回答であるか否かについて格別の判別処理するようにしてもよい。
 まず、ステップSa11において、音声入力部102によって変換された音声信号が音声取得部104を介して解析部106に供給され、発話が開始されたか否かが判断される。例えば発話が開始されたか否かは、音声信号の音量が閾値以上になったか否かで判断される。なお、音声取得部104は音声信号をメモリに記憶する。
 発話が開始されたと判断されると、ステップSa12において、解析部106の第1音高取得部106Aにより、音声取得部104からの音声信号に対して発話の音高を音声特徴として取得する解析処理が行われる。ステップSa11において発話が開始されたと判断されなければ、発話が開始されたと判断されるまでステップSa11が繰り返される。
 ステップSa13において、解析部106によって発話中か否かが判断される。発話中か否かは、閾値以上の音量の音声信号が続いているか否かで判断される。ステップSa13において発話中であると判断されると、ステップSa12に戻り、音高を取得するための解析処理が継続される。ステップSa13において発話中でないと判断されると、ステップSa14において、前記判別部108により最新の発話が問いであると判別されたか否かが判断される。ステップSa14において最新の発話は問いでないと判断されると、ステップSa11に戻り、次の発話の開始待ちとなる。
 これに対して、ステップSa14において最新の発話は問いであると判断されると、ステップSa15において、発話(問い)が終了したか否かを判断する。問いが終了したか否かは、例えば音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判断される。
 ステップSa15において発話(問い)が終了していないと判断されると、ステップSa12に戻り、音高を取得するための解析処理が継続される。第1音高取得部106Aは、音声信号の解析処理によって、発話(問い)の音高(例えば問いの語尾区間の最高音高)を音声特徴として取得すると、その問いの音高データを評価部110に供給する。
 ステップSa15において発話(問い)が終了したと判断されると、ステップSa16において、会話間隔検出部109により会話間隔の計時が開始される。
 次に、ステップSa17において、回答が開始されたか否かが判断される。このときには既に問いの終了後であるため、次の発話は回答になる。このため、回答が開始されたか否かは、問いの終了後の音声信号の音量が閾値以上になったか否かで判断される。
 ステップSa17において回答が開始されたと判断されると、ステップSa18において、会話間隔検出部109により会話間隔の計時が終了される。これにより、問いの終了から回答の開始までの会話間隔の時間を計時することができる。会話間隔検出部109は計時した会話間隔の時間データを評価部110に供給する。
 ステップSa19において、解析部106の第2音高取得部106Bにより、音声取得部104からの音声信号に対して回答の音高を音声特徴として取得する解析処理が行われる。
 ステップSa20において、回答が終了したか否かを判断する。回答が終了したか否かは、例えば音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判断される。
 ステップSa20において回答が終了していないと判断されると、ステップSa19に戻り、音高を取得するための解析処理が継続される。第2音高取得部106Bは、音声信号の解析処理によって、回答の音高(例えば回答の平均音高)を音声特徴として取得すると、その回答の音高データを評価部110に供給する。ステップSa20において発話(回答)が終了したと判断されると、ステップSa21において、評価部110によって会話の評価が実行される。
 図3は、図2におけるステップSa21の会話評価の処理の詳細を示すフローチャートである。まず、ステップSb11において、評価部110は、第1音高取得部106Aから取得した問いの音高データと第2音高取得部106Bから取得した回答の音高データとに基づいて問いの音高(代表的音高)と回答の音高(代表的音高)との差分値(問いの音高から回答の音高を減算した音高減算値の絶対値)を算出する。
 ステップSb12において、評価部110は、算出された音高差分値が所定の範囲内か否かを判断する。この音高差分値が所定の範囲外であると判断されると、ステップSb13において、評価部110は、回答の音高の調整を行う。具体的には、評価部110は、上記音高差分値が所定の範囲内(例えば1オクターブの範囲内)に入るように、回答の音高の音高シフト量をオクターブ単位で決定する。評価部110は、回答の音高を音高シフト量だけ調整して、ステップSb11に戻り、問いの音高とシフト後の回答の音高とにより音高差分値を算出し直す。これによれば、地声が高い音声の人(例えば女性や子供)と地声が低い音声の人(例えば男性)との会話のように、地声で1オクターブ以上の音高差があるような場合においても、その地声などの音高差を修正して、問いに対する回答を適正に評価できるようにしたものである。なお、上述した男性と女性の会話のみならず、男性同士の会話でも、また女性同士の会話においても、地声で1オクターブ以上の音高差がある場合もあるので、このような場合にも、問いに対する回答を適正に評価できる。
 なお、上記音高差分値が所定の範囲内(例えば1オクターブの範囲内)に入るまで、ステップSb13において回答の音高を1オクターブずつ調整するようにしてもよい。また、ここでは、問いの音高はそのままで回答の音高の方を調整する場合を例に挙げたが、これに限られるものではなく、回答の音高はそのままで問いの音高の方を調整するようにしてもよく、あるいは問い及び回答の両方の音高を調整するようにしてもよい。
 ステップSb12において、評価部110は、上記音高差分値が所定の範囲であると判断されると、ステップSb14において、評価部110は、問いの音高から回答の音高を減算した音高減算値に基づいて音高の評価点(スコア)を算出する。このとき、ステップSb13において音高の調整を行った場合には、その音高の調整後の音高減算値を用いて音高の評価点を算出する。ここでの音高減算値は、問いの音高から回答の音高を減算したものであるから、回答の音高が問いの音高より低い場合はプラス値になり、回答の音高が問いの音高より高い場合はマイナス値になる。これは、回答の音高が問いの音高より低い場合を、問いの音高より高い場合よりも高評価にするためである。ステップSb14における音高評価点は、上記音高減算値が所定の基準値からどれだけ離れているかという観点から算出される。例えば所定の基準値を700centとすれば、上記音高減算値が700centのときを満点(100点)とし、上記音高減算値が700centから離れるほど評価点の減算をすることで、問いに対する回答の音高評価点を算出する。これによれば、音高評価点が100点に近いほど、問いに対する回答が良好である。なお、上記音高減算値が所定の基準値に近づくほど評価点の加算をするようにしてもよい。
 次に、ステップSb15において、評価部110は、会話間隔検出部109からの会話間隔の時間データに基づいて、会話間隔の評価点を算出する。このような会話間隔の評価は、問い終了から回答開始までの会話間隔の時間が所定の基準値からどれだけ離れているかという観点から算出される。例えば所定の基準値を180msecとすれば、会話間隔の時間が180msecのときを満点(100点)とし、会話間隔の時間が180msecから離れるほど評価点の減算をすることで、会話間隔評価点を算出する。これによれば、会話間隔評価点が100点に近いほど、問いに対する回答が良好である。なお、会話間隔の時間が所定の基準値に近づくほど評価点の加算をするようにしてもよい。
 続いて、ステップSb16において、評価部110は、問いに対する回答の音高評価点と会話間隔評価点から総合評価点を算出する。総合評価点は、単純に音高評価点と会話間隔評価点を加算して算出する。なお、総合評価点は、音高評価点と会話間隔評価点に所定の重み付けを付加してから加算して算出してもよい。
 次に、ステップSb17において、評価部110は、問いに対する回答の評価結果を表示部112に表示させて、図2のステップSa21に戻る。評価結果は、総合評価点のみを表示させる。これにより、問いに対する回答の評価を、評価点というスコア値で客観的に確認することができる。なお、総合評価点だけでなく、音高評価点と会話間隔評価点とを区別して表示させるようにしてもよい。
 また、問いに対する回答の評価結果の表示は、評価点の数値のみならず、表示部112に評価点に応じたイルミネーションやアニメーションなどの図形又は象徴若しくはマークを表示するようにしてもよい。また、問いに対する回答の評価結果は、表示部112の画面表示だけに限られるものではない。例えば会話評価装置10を携帯端末に適用した場合には、その携帯端末の振動機能や音発生機能を利用して、評価点に応じた振動パターンで会話評価装置10を振動させたり、評価点に応じた音響音を発生させたりするようにしてもよい。
 また、会話評価装置10をぬいぐるみなどの玩具やロボットに適用した場合には、問いに対する回答の評価結果を、ぬいぐるみやロボットの動作(ジェスチャ)で表すようにしてもよい。例えば評価点が高い場合には、ぬいぐるみやロボットにばんざい動作をさせることができ、評価点が低い場合には、ぬいぐるみやロボットにがっかり動作をさせることもできる。これにより、問いに対する回答による会話トレーニングをより楽しく行うことができる。
 ここで、本実施形態における評価部110が行う音高の調整(ステップSb12、Sb13)について図面を参照しながらより詳細に説明する。ここでは、問いと回答の音高差分値が、1オクターブ以内である場合(音高を調整しない場合)と、1オクターブ以内でない場合(音高を調整する場合)とを比較しながら説明する。
 図4と図5はそれぞれ、音声入力された問いと回答との関係を、音高を縦軸にとり、時間を横軸にとって例示した図である。図4は音高差分値が1オクターブ以内である場合であり、図5は音高差分値が1オクターブ以内でない場合である。
 図4および図5において、符号Qで示される実線は、問いの音高変化を簡易的に直線で示している。符号dQは、この問いQにおける特定区間の音高(語尾区間の最高音高)である。また、図4において、符号Aで示される実線は、問いQに対する回答の音高変化を簡易的に直線で示しており、符号dAはこの回答Aの平均音高である。符号Dは、問いQの音高dQと回答Aの音高dAとの差分値である。なお、図4の符号tQは問いQの終了時刻であり、符号tAは回答Aの開始時刻である。符号Tは、tQとtAとの間の時間であり、問いQの終了から回答Aの開始までの時間に相当する。
 図5において、符号A'で示される点線は、回答Aの音高を1オクターブだけシフトさせた音高調整後の回答の音高変化を直線で示したものである。符号dA'はこの音高調整後の回答A'の平均音高である。符号D'は、問いの音高dQと音高調整後の回答A'の音高dA'との差分値である。
 図4においては、音高差分値Dが1オクターブ(1200cent)以内である場合である。この場合には、音高の調整は不要であるため、図3のステップSb11で音高差分値Dが算出された後は、ステップSb13が実行されずに、ステップSb14にて問いQの音高dQから回答Aの音高dAを減算した音高減算値によって音高評価点が算出される。ここでの音高減算値は、回答Aの音高dAが問いQの音高dQよりも低いのでその音高差はプラス値となるため、音高差分値Dと同値になる。
 これに対して、図5においては、音高差分値Dが1オクターブ(1200cent)を超える場合である。この場合には、音高の調整が必要となる。図5では、回答Aの音高が問いQの音高よりも低い方に大きくずれているので、例えば地声が高い人の問いQに対して、1オクターブ以上地声が低い人が回答Aをしたような場合である。このように同じ音量で同じ音声を発した場合でも、地声で1オクターブ以上の音高差がある場合には、そのまま問いと回答の音高差で評価しても、地声の差異の分だけ評価点が大きくずれてしまい、適切な評価ができない可能性がある。そこで、本実施形態においては、図3のステップSb13で回答Aの音高dAを、高い方に1オクターブRだけシフトさせて、回答A'の音高dA'に調整する。このように、問いQの音高dQと調整後の回答の音高dA'との音高差分値D'は、1オクターブ(1200cent)以内にする。これにより、発話機構の影響を少なくすることができるので、適切な音高評価点を算出することができる。なお、音高調整は、音高が高い方にオクターブ単位でシフトする場合に限られず、音高が低い方にオクターブ単位でシフトするようにしてもよい。
 次に、本実施形態における評価部110が行う音高評価点の算出(ステップSb14)について図面を参照しながらより詳細に説明する。図6は、音高評価点の算出基準の具体例を説明するための図であり、横軸には問いと回答との音高減算値Dをとり、縦軸には音高評価点をとっている。図6において、符号D0は、音高減算値の基準値であり、例えば700centである。図6に示す実線は、音高評価点の算出基準線であり、音高減算値Dが高い方にも低い方にも、音高基準値D0から離れるほど評価点が低くなるような直線で示したものである。音高評価点の算出基準線は、基準値D0から所定範囲(下限値DL~上限値DH)外は、音高評価点が0になるように設定されている。このため、例えば音高減算値が基準値D0である場合を100点とすれば、所定範囲(下限値DL~上限値DH)内において基準値D0から離れるほど点数が低くなり、所定範囲(下限値DL~上限値DH)外では0になる。なお、図6の音高評価点の算出基準線は、基準値D0を通る縦軸に平行な直線に対して線対称となる場合を例に挙げているが、必ずしも線対称でなくてもよい。例えば基準値D0の前後で直線の傾きを変えるようにしてもよい。また、音高評価点の算出基準線は、直線に限られるものではなく、曲線であってもよい。また音高評価点の算出基準線は、線形に限られず、非線形であってもよい。
 図6に示す音高評価点の算出基準線によって音高評価点を算出する場合には、算出された問いQの音高から回答Aの音高を減算した音高減算値をDxとすれば、算出基準線でDxに対応するSdxが音高評価点の加算点または減算点となる。例えば初期の音高評価点を0点とすれば、その0点に加算点(減算点)を加算(減算)することによって、音高評価点を算出する。
 音高減算値の基準値D0は、問いに対する最適な回答の音高になるように設定することが好ましい。ここでは、基準値D0を700centに設定した場合を例に挙げている。これは、問いの音高に対して回答の音高が略5度下の関係、すなわち協和音程の関係になる音高減算値である。このように、基準値D0は、問いと回答の音高減算値が協和音程の関係になる音高減算値であることが好ましい。これは人同士の会話において、問いに対して完全肯定をする場合には、問いと回答の音高減算値が協和音程の関係に近いほど、心地良く、安心するような好印象を抱く適切な回答になるからである。これにより、問いの音高から回答の音高を減算した音高減算値が基準値に近いほど、問いに対して良好な回答であると評価できる。なお、問いの音高に対する回答の音高の関係は、上述した略5度下の協和音程の関係に限られるものではなく、略5度下以外の協和音程の関係としてもよい。例えば、完全8度、完全5度、完全4度、長・短3度、長・短6度であっても良い。さらに、協和音程の関係でなくても、経験的に良い印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係にしても良い。
 次に、本実施形態における評価部110が行う会話間隔評価点の算出(ステップSb15)について図面を参照しながらより詳細に説明する。図7は、会話間隔評価点の算出基準の具体例を説明するための図であり、横軸には会話間隔の時間Tをとり、縦軸には会話間隔評価点をとっている。図7において、符号T0は、会話間隔評価の基準値(基準間隔)であり、例えば180msecである。図7に示す実線は、会話間隔評価点の算出基準線であり、会話間隔の時間Tが長くなる方にも短くなる方にも、会話間隔基準値T0から離れるほど評価点が低くなるような直線で示したものである。会話間隔評価点の算出基準線は、基準値T0から所定範囲(下限値TL~上限値TH)外になると、会話間隔評価点が0になるように設定されている。このため、例えば会話間隔の時間が基準値T0である場合を100点とすれば、所定範囲(下限値TL~上限値TH)内において基準値T0から離れるほど点数が低くなり、所定範囲(下限値TL~上限値TH)外では0になる。なお、図7の会話間隔評価点の算出基準線は、基準値T0を通る縦軸に平行な直線に対して線対称となる場合を例に挙げているが、必ずしも線対称でなくてもよい。例えば基準値T0の前後で直線の傾きを変えるようにしてもよい。また、会話間隔評価点の算出基準線は、直線に限られるものではなく、曲線であってもよい。また会話間隔評価点の算出基準線は、線形に限られず、非線形であってもよい。
 図7に示す会話間隔評価点の算出基準線によって会話間隔評価点を算出する場合には、算出された問いQと回答Aの会話間隔時間をTxとすれば、算出基準線でTxに対応するStxが会話間隔評価点の加算点または減算点となる。例えば初期の会話間隔評価点を0点とすれば、その0点に加算点(減算点)を加算(減算)することによって、会話間隔評価点を算出する。
 会話間隔の基準値T0は、問い終了から回答開始までの最適な時間を設定することが好ましい。ここでは、基準値T0を180msecに設定した場合を例に挙げている。これは問いに対する回答が相手に心地良く、安心するような好印象を抱かせる会話間隔の時間である。これによれば、問い終了から回答開始までの会話間隔の時間が、基準値に近いほど、問いに対して良好な回答であると評価できる。
 なお、音高減算値の基準値D0、会話間隔の時間の基準値T0は、必ずしも完全肯定の回答を評価する場合の基準値に限られるものではない。怒りの回答、気のない回答のような感情を伴った回答など回答の種類に応じて会話間隔の基準値T0を変更するようにしてもよい。これにより、問いに対する回答の種類に応じて、適切な回答の評価が可能となる。例えば怒りの回答を評価する場合には、会話間隔の時間の基準値T0を完全肯定の場合(180msec)よりも短くする。これにより、問いに対する回答の怒りの度合いを評価することができる。また気のない回答を評価する場合には、会話間隔の時間の基準値T0を完全肯定の場合(180msec)よりも長くする。これにより、問いに対する回答の気のない度合いを評価することができる。
 また、音高減算値の基準値D0、会話間隔の時間の基準値(基準間隔)T0は、上記のような回答の種類に応じて複数設けるようにしてもよい。例えば完全肯定の回答の場合の基準値(基準間隔)、怒りの回答の場合の基準値(基準間隔)、気のない回答の場合の基準値(基準間隔)を別々に設けるようにしてもよい。
 また、問いと回答の音声特徴として、音高の他に音量についても評価するようにしてもよい。詳細には、例えば問いと回答の音量を音声特徴として取得し、問いの音量と回答の音量の差分値を求め、この差分値が所定の基準値からどれだけ離れているかという観点から音量評価点を算出する。音量評価点は、音高評価点と会話間隔評価点に加算して総合評価点を算出する。音量差分値の基準値についても、上記回答の種類に応じて変更したり、複数の基準値を設けたりしてもよい。例えば気のない回答の場合は、完全肯定の回答の場合よりも基準値を低くする。これにより、問いに対する回答の気のない度合いを評価することができる。
 また、問いと回答を繰り返し音声入力し、各回答について評価点を算出した場合には、図3のステップSb14、Sb15、Sb16においては、各回答について算出した評価点を加算するようにしてもよい。
 以上詳述したように,本実施形態に係る会話評価装置10によれば、問いに対する回答の音声特徴を問いの音声特徴との比較で評価することができる。これにより、その問いに対する回答として相手に与える印象を客観的に確認することができる。また、問いと回答の音声特徴として、問いの音高と回答の音高とは、相手に与える印象に密接な関係があるので、回答の音高を問いの音高との比較で評価することで、問いに対する回答について信頼性の高い評価をすることができる。さらに、問いと回答の音声特徴として、音高の他にも、問いの終了から回答の開始までの時間(会話間隔)は相手に与える印象に密接な関係がある。このため、問いと回答の音高のみならず、問いと回答の会話間隔についても評価することで、問いに対する回答についてより信頼性の高い評価をすることができる。
 なお、第1実施形態にかかる会話評価装置10をスマートフォンや携帯電話機のような端末装置に適用した場合には、音声の入力と特徴の取得は携帯端末で行い、会話の評価については携帯端末とネットワークで接続された外部サーバが行うようにしてもよい。また、音声の入力は携帯端末で行い、入力した音声の特徴の取得と会話の評価については外部サーバが行うようにしてもよい。
<第2実施形態>
 次に、第2実施形態について説明する。図8は、第2実施形態に係る会話評価装置10の構成を示すブロック図である。第1実施形態では、人が発話した問いに対して人が発話した回答を1つの音声入力部102のマイクロフォンで入力してその回答を評価する場合を例に挙げたが、第2実施形態では、合成音声でスピーカ134から再生した問いに対して、人が発話した回答を1つの音声入力部102のマイクロフォンで入力して評価する。なお、第1実施形態に係る会話評価装置10の構成と同様の機能を有する部分については同一符号を付してその詳細な説明を省略する。
 第2実施形態に係る会話評価装置10は、問い選択部130、問い再生部132、問いデータベース124を備える。なお、第2実施形態に係る会話評価装置10では、図1に示す判別部108、言語データベース122が設けられていない。これは、第2実施形態に係る会話評価装置10では、問いは予め音高が決められている音声データが選択され、スピーカ134から再生されるので、発話が問いである否かの判定は不要だからである。
 問いデータベース124は、問いの音声データを、予め複数記憶する。この音声データは、モデルとなる人物の音声を録音したものである。問いの音声データについては、例えばwavやmp3などのフォーマットであり、標準で再生したときの波形サンプル毎(または波形周期毎)の音高と、特定区間(代表的区間)の代表的音高(例えば語尾区間の最高音高)が予め求められていて、その特定区間の代表的音高を示すデータが音声データに対応付けられて問いデータベース124に記憶されている。なお、ここでいう標準で再生とは、音声データを録音時の条件(音高・音量・音色・話速など)と同じ条件で再生する、という意味である。
 なお、問いデータベース124に記憶する問いの音声データについては、人物A、B、C、・のように複数人にわたって、同一内容の問いを記憶させても良い。人物A、B、C、・については例えば有名人、タレント、歌手などとして、各人物毎に音声データをデータベース化する。また、このようにデータベース化する場合、メモリーカードなどの媒体を介して問いの音声データを問いデータベース124に格納させても良いし、会話評価装置10にネットワーク接続機能を持たせて、特定のサーバから問いの音声データをダウンロードし、問いデータベース124に格納させても良い。メモリーカードやサーバから問いの音声データを入手する場合、無償であっても良いし、有償であっても良い。
 また、問いの音声データは、どの人物をモデルとして欲しいのかを、利用者が操作入力部等によって選択可能な構成としても良いし、各種条件(日、週、月など)毎にランダムで決定する構成としても良い。また、問いの音声データは、音声入力部102のマイクロフォンを介して、利用者自身や、当該利用者の家族、知人の音声を録音したもの(または別途の装置によってデータ化したもの)をデータベース化しても良い。このように身近な人物の音声で問いが発話されると、あたかも当該人物と対話しているかのような感覚を得ることができる。
 問い選択部130は、問いの音声データを、問いデータベース124から1つを選択し、当該選択した問いの音声データを、それに対応付けられた前記代表的音高データとともに、読み出して取得する。問い選択部130は、取得した音声データは問い再生部132に供給し、代表的音高データは解析部106に供給する。なお、問い選択部130が、複数の音声データのうち、1つの音声データをどのようなルールで選択するかについては、例えばランダムでも良いし、図示しない操作部から選ぶようにしても良い。問い再生部132は、問い選択部130からの問いの音声データをスピーカ134で再生する。
 次に、このような第2実施形態に係る会話評価装置10の動作について説明する。図9は、第2実施形態に係る会話評価装置10における処理動作を示すフローチャートである。まず、ステップSc11において、問い選択部130は問いデータベース124から問いを選択する。続いて、ステップSc12において、問い選択部130は、選択した問いの音声データと特徴データ(音高データ)を取得する。問い選択部130は、取得した音声データを問い再生部132に供給し、音高データは解析部106に供給する。解析部106の第1音高取得部106Aは、問い選択部130から供給された問いの代表的音高データを取得し、評価部110に供給する。
 続いて、ステップSc13において、問い再生部132は、選択された問いの音声データをスピーカ134で再生する。そして、ステップSc14において、問いの再生が終了したか否かを判断する。ステップSc14において、問いの再生が終了したと判断すると、ステップSc15にて会話間隔の計時を開始する。以降は、回答の発話の処理(ステップSc16~Sc20)であり、図2における回答の発話の処理(ステップSa17~Sa21)と同様である。
 このような第2実施形態に係る会話評価装置10によれば、スピーカ134を介して問いの音声が再生発音され、その問いに対する回答の音声を音声入力部102のマイクロフォンを介して入力すると、その回答の評価値が表示部112に表示される。これによれば、問いがスピーカ134で再生されるので、問いを発話する相手がいなくても、1人で問いに対する回答を訓練することができる。また、問いがスピーカ134で再生されるので、回答だけを音声入力部102のマイクロフォンで入力すれば足りるため、音声入力部102から入力される発話が問いか否かの判別が不要になる。
 なお、本実施形態における解析部106において、第1音高取得部106Aは、音声入力部102を介さずに、問い選択部130により選択された問いの音声データを解析して、当該音声データを標準で再生したときの平均音高を算出し、該算出した平均音高を示すデータを代表的音高データとして評価部110に供給する構成としても良い。この構成によれば、代表的音高データを問いの音声データに予め関連付けて問いデータベース124に記憶させておく必要がなくなる。
 上述した第2実施形態において、音声入力部102及び音声取得部104が、回答の音声の音響信号を受信する受信部として機能し、問い選択部130及び第1音高取得部106Aが、問いの音声を合成するためのデータに関連する音声合成関連データ(前記記憶された代表的音高データ又は前記選択された問いの音声データ)を受信する受信部として機能する。
 なお、第2実施形態の変形例として、上記とは逆に、問いの音声を音声入力部102のマイクロフォンを介して入力し、それに対する回答の音声を合成音声にてスピーカ134を介して再生発音するようにしてもよい。その場合は、音声入力部102及び音声取得部104が、問いの音声の音響信号を受信する受信部として機能し、音声合成すべき回答の音声を選択するための回答選択部及び第2音高取得部106Bが、回答の音声を合成するためのデータに関連する音声合成関連データ(記憶された代表的音高データ又は前記選択された回答の音声データ)を受信する受信部として機能する。
<第3実施形態>
 次に、第3実施形態について説明する。図10は、第3実施形態に係る会話評価装置10の構成を示すブロック図である。第1実施形態では、2人の会話音声を1つの音声入力部102のマイクロフォンで入力する場合を例に挙げたが、第3実施形態では、2人の会話音声を2つの音声入力部102A、102Bのそれぞれのマイクロフォンで別々に入力する。なお、第1実施形態に係る会話評価装置10の構成と同様の機能を有する部分については同一符号を付してその詳細な説明を省略する。
 第3実施形態に係る会話評価装置10では、図1に示す判別部108、言語データベース122が設けられていない。これは、第3実施形態に係る会話評価装置10では、各人の音声を別々の(問い専用及び回答専用の)音声入力部102A、102Bを介して入力するように構成されているので、問いを発する人が問い専用の音声入力部102Aを用い、回答をする人が回答専用の音声入力部102Bを用いるようにすれば、発話が問いである否かの格別の判定処理を行うことは不要だからである。この第3実施形態において、音声入力部102A,102Bと音声取得部104が、問いの音声の音響信号及び回答の音声の音響信号を区別して受信するように構成された受信部として機能する。
 次に、このような第3実施形態に係る会話評価装置10の動作について説明する。図11は、第3実施形態に係る会話評価装置10における処理動作を示すフローチャートである。図11に示すフローチャートは、図2に示すフローチャートから発話が問いか否かの判断処理を除外したものに相当する。さらに図11に示すステップSd11、Sd12、Sd13は、図2に示すステップSa11、Sa12、Sa15において「発話」とあるのを「問い」に変更してある。以降の図11に示すステップSd14~Sd19は、図2に示すステップSa16~Sa21と同様である。
 このような第3実施形態に係る会話評価装置10によれば、問いの音声が音声入力部102Aのマイクロフォンで入力されると、その回答の音声は別の音声入力部102Bのマイクロフォンで入力される。これに応じて、該入力された問いの音声に対する該入力された回答の音声が解析部106及び評価部110によって評価され、回答の評価値が表示部112に表示される。これによれば、問いと回答が音声入力部102A、102Bのそれぞれのマイクロフォンから別々に入力されるので、各音声入力部102A、102Bから入力される発話が問いか否かの判別が不要になる。

Claims (16)

  1.  問いの音声に関する情報及び前記問いに対する回答の音声に関する情報を受信するように構成された受信部と、
     前記受信した情報に基づき、前記問いの代表的音高及び前記回答の代表的音高を取得するように構成された解析部と、
     前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との比較に基づいて、前記問いに対する前記回答を評価するように構成された評価部と、
    を具備することを特徴とする会話評価装置。
  2.  前記評価部は、
     前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との差分値が所定の範囲内に入るか否かを判定し、
     前記所定の範囲内に入らない場合は、前記所定の範囲内に入るように音高シフト量をオクターブ単位で決定し、
     前記問いの代表的音高と前記回答の代表的音高の少なくとも一方を前記音高シフト量だけシフトし、シフト後の前記問い及び前記回答の代表的音高の比較に基づいて前記問いに対する前記回答を評価するように構成されている、請求項1に記載の会話評価装置。
  3.  前記評価部は、前記問いの代表的音高と前記回答の代表的音高との差が所定の基準値からどれだけ離れるかによって、前記問いに対する前記回答を評価するように構成されている、請求項1又は2に記載の会話評価装置。
  4.  前記所定の基準値は協和音程を示す値である、請求項3に記載の会話評価装置。
  5.  前記協和音程は、前記回答の代表的音高が前記問いの代表的音高の5度下となる音程である、請求項4に記載の音声合成装置。
  6.  前記問いが終了してから前記回答が開始するまでの時間である会話間隔を検出する会話間隔検出部を更に備え、
     前記評価部は、更に前記検出された会話間隔に基づいて、前記問いに対する前記回答を評価するように構成されている、請求項1乃至5のいずれかに記載の会話評価装置。
  7.  前記評価部は、前記検出された会話間隔が所定の基準間隔からどれだけ離れるかによって、前記問いに対する前記回答を評価するように構成されている、請求項6に記載の会話評価装置。
  8.  前記所定の基準間隔は特定の回答種類に対応づけられており、
     前記評価部は、前記問いに対する前記回答を、該特定の回答種類を考慮して評価するように構成されている、請求項7に記載の会話評価装置。
  9.  複数回答種類に対応づけて複数の基準間隔が用意されており、
     前記評価部は、各基準間隔に対する前記検出された会話間隔の距離に基づき、前記問いに対する前記回答を、回答種類を考慮して評価するように構成されている、請求項7に記載の会話評価装置。
  10.  前記解析部は、前記問いの音声の代表的区間の音高を解析することに基づき前記問いの代表的音高を取得するように構成されている、請求項1乃至9のいずれかに記載の会話評価装置。
  11.  前記解析部は、前記回答の音声における最高音高又は最低音高若しくは平均音高を解析することに基づき前記回答の代表的音高を取得するように構成されている、請求項1乃至10のいずれかに記載の会話評価装置。
  12.  前記受信部は、前記問いの音声及び前記回答の音声を含む音響信号を受信するように構成され、
     前記解析部は、前記受信した音響信号から前記問いの音声の音響信号及び前記回答の音声の音響信号をそれぞれ抽出し、抽出した各音響信号に基づき、前記問いの代表的音高及び前記回答の代表的音高を取得するように構成されている、請求項1乃至11のいずれかに記載の会話評価装置。
  13.  前記受信部は、前記問いの音声及び前記回答の音声の一方の音響信号を受信し、他方の音声を合成するためのデータに関連する音声合成関連データを受信するように構成され、
     前記解析部は、前記受信した音響信号に基づき前記問い及び回答の一方の代表的音高を取得し、前記受信した音声合成関連データに基づき前記問い及び回答の他方の代表的音高を取得するように構成されている、請求項1乃至11のいずれかに記載の会話評価装置。
  14.  前記受信部は、前記問いの音声の音響信号及び前記回答の音声の音響信号を区別して受信するように構成され、
     前記解析部は、前記受信した問いの音声の音響信号に基づき前記問いの代表的音高を取得し、前記受信した回答の音声の音響信号に基づき前記回答の代表的音高を取得するように構成されている、請求項1乃至11のいずれかに記載の会話評価装置。
  15.  問いの音声に関する情報及び前記問いに対する回答の音声に関する情報を受信することと、
     前記受信した情報に基づき、前記問いの代表的音高及び前記回答の代表的音高を取得することと、
     前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との比較に基づいて、前記問いに対する前記回答を評価すること、
    からなる会話評価のためのコンピュータにより実装される方法。
  16.  非一過性のコンピュータ読み取り可能な記憶媒体であって、会話評価のための方法を実行するためにプロセッサ実行可能な命令群を内容としており、前記方法は、
     問いの音声に関する情報及び前記問いに対する回答の音声に関する情報を受信することと、
     前記受信した情報に基づき、前記問いの代表的音高及び前記回答の代表的音高を取得することと、
     前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との比較に基づいて、前記問いに対する前記回答を評価すること、
    からなる前記記憶媒体。
PCT/JP2015/082435 2014-12-01 2015-11-18 会話評価装置および方法 WO2016088557A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP15864468.2A EP3229233B1 (en) 2014-12-01 2015-11-18 Conversation evaluation device and method
CN201580065339.2A CN107004428B (zh) 2014-12-01 2015-11-18 会话评价装置和方法
US15/609,163 US10229702B2 (en) 2014-12-01 2017-05-31 Conversation evaluation device and method
US16/261,218 US10553240B2 (en) 2014-12-01 2019-01-29 Conversation evaluation device and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-243327 2014-12-01
JP2014243327A JP6464703B2 (ja) 2014-12-01 2014-12-01 会話評価装置およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/609,163 Continuation US10229702B2 (en) 2014-12-01 2017-05-31 Conversation evaluation device and method

Publications (1)

Publication Number Publication Date
WO2016088557A1 true WO2016088557A1 (ja) 2016-06-09

Family

ID=56091507

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/082435 WO2016088557A1 (ja) 2014-12-01 2015-11-18 会話評価装置および方法

Country Status (5)

Country Link
US (2) US10229702B2 (ja)
EP (1) EP3229233B1 (ja)
JP (1) JP6464703B2 (ja)
CN (1) CN107004428B (ja)
WO (1) WO2016088557A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190355352A1 (en) * 2018-05-18 2019-11-21 Honda Motor Co., Ltd. Voice and conversation recognition system
KR102268496B1 (ko) * 2018-05-29 2021-06-23 주식회사 제네시스랩 기계학습에 기초한 비언어적 평가 방법, 시스템 및 컴퓨터-판독가능 매체
US11017790B2 (en) * 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences
CN110060702B (zh) * 2019-04-29 2020-09-25 北京小唱科技有限公司 用于演唱音高准确性检测的数据处理方法及装置
CN112628695B (zh) * 2020-12-24 2021-07-27 深圳市轻生活科技有限公司 一种语音控制台灯的控制方法和系统
JP7049010B1 (ja) * 2021-03-02 2022-04-06 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
JP7017822B1 (ja) * 2021-08-27 2022-02-09 株式会社インタラクティブソリューションズ コンピュータを用いた会話支援方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004514178A (ja) * 2000-11-17 2004-05-13 フォルスカーパテント アイ エスワイディ アクチボラゲット 音声の分析の方法及び装置
JP2010054568A (ja) * 2008-08-26 2010-03-11 Oki Electric Ind Co Ltd 感情識別装置、感情識別方法およびプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US7315821B2 (en) * 2002-01-31 2008-01-01 Sanyo Electric Co., Ltd. System and method for health care information processing based on acoustic features
EP1435606A1 (en) * 2003-01-03 2004-07-07 Hung Wen Hung Electronic baby-soothing device
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
US20050003873A1 (en) * 2003-07-01 2005-01-06 Netro Corporation Directional indicator for antennas
EP1628288A1 (en) * 2004-08-19 2006-02-22 Vrije Universiteit Brussel Method and system for sound synthesis
US20070136671A1 (en) * 2005-12-12 2007-06-14 Buhrke Eric R Method and system for directing attention during a conversation
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
JP4786384B2 (ja) * 2006-03-27 2011-10-05 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
CN101751923B (zh) * 2008-12-03 2012-04-18 财团法人资讯工业策进会 语音情绪的分类方法及其情绪语意模型的建立方法
US8676574B2 (en) * 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
US20130066632A1 (en) * 2011-09-14 2013-03-14 At&T Intellectual Property I, L.P. System and method for enriching text-to-speech synthesis with automatic dialog act tags
CN103366760A (zh) * 2012-03-26 2013-10-23 联想(北京)有限公司 一种数据处理方法、装置及系统
CN103546503B (zh) * 2012-07-10 2017-03-15 百度在线网络技术(北京)有限公司 基于语音的云社交系统、方法及云分析服务器
US8914285B2 (en) * 2012-07-17 2014-12-16 Nice-Systems Ltd Predicting a sales success probability score from a distance vector between speech of a customer and speech of an organization representative
US9672815B2 (en) * 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
US9286899B1 (en) * 2012-09-21 2016-03-15 Amazon Technologies, Inc. User authentication for devices using voice input or audio signatures
US20140338516A1 (en) * 2013-05-19 2014-11-20 Michael J. Andri State driven media playback rate augmentation and pitch maintenance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004514178A (ja) * 2000-11-17 2004-05-13 フォルスカーパテント アイ エスワイディ アクチボラゲット 音声の分析の方法及び装置
JP2010054568A (ja) * 2008-08-26 2010-03-11 Oki Electric Ind Co Ltd 感情識別装置、感情識別方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3229233A4 *

Also Published As

Publication number Publication date
JP2016105142A (ja) 2016-06-09
CN107004428A (zh) 2017-08-01
CN107004428B (zh) 2020-11-06
US20190156857A1 (en) 2019-05-23
JP6464703B2 (ja) 2019-02-06
EP3229233A1 (en) 2017-10-11
EP3229233B1 (en) 2021-05-26
US10553240B2 (en) 2020-02-04
US10229702B2 (en) 2019-03-12
EP3229233A4 (en) 2018-06-06
US20170263270A1 (en) 2017-09-14

Similar Documents

Publication Publication Date Title
JP6464703B2 (ja) 会話評価装置およびプログラム
US10789937B2 (en) Speech synthesis device and method
JP4327241B2 (ja) 音声強調装置および音声強調方法
US10854219B2 (en) Voice interaction apparatus and voice interaction method
WO2014192959A1 (ja) 音声合成を用いて発言に応答する技術
US20180130462A1 (en) Voice interaction method and voice interaction device
JP6270661B2 (ja) 音声対話方法、及び音声対話システム
JP2004021121A (ja) 音声対話制御装置
JP6343895B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6375605B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6566076B2 (ja) 音声合成方法およびプログラム
JP6424419B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6522679B2 (ja) 発話制御装置、方法、発話システム、及びプログラム
JP2015064480A (ja) 音声合成装置およびプログラム
JP6648786B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6343896B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP2018151661A (ja) 音声制御装置、音声制御方法およびプログラム
JP4437224B2 (ja) 同調度検出装置および同調度検出プログラム
JP2020091381A (ja) 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15864468

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2015864468

Country of ref document: EP