WO2021172039A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2021172039A1
WO2021172039A1 PCT/JP2021/005167 JP2021005167W WO2021172039A1 WO 2021172039 A1 WO2021172039 A1 WO 2021172039A1 JP 2021005167 W JP2021005167 W JP 2021005167W WO 2021172039 A1 WO2021172039 A1 WO 2021172039A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
information
information processing
processing unit
dialogue
Prior art date
Application number
PCT/JP2021/005167
Other languages
English (en)
French (fr)
Inventor
裕美 倉沢
侑理 網本
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021172039A1 publication Critical patent/WO2021172039A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, and more particularly to an information processing device, an information processing method, and a program capable of providing more useful information as information related to interpersonal communication.
  • Patent Document 1 discloses an operator-customer conversation automatic scoring device that scores based on the input of evaluation parameters as a method for evaluating a conversation between a call center operator and a customer according to the characteristics of the call center.
  • this device performs linguistic analysis, dialogue analysis, and sentiment analysis.
  • linguistic analysis predetermined keywords are detected, and in dialogue analysis, duplication of dialogue, speech ratio, silence, and speaking speed are detected.
  • the sentiment level is detected from the pitch and volume of the voice.
  • This technology was made in view of such a situation, and makes it possible to provide more useful information as information on interpersonal communication.
  • the information processing device of one aspect of the present technology analyzes the dialogue action and the classification for each dialogue action based on the input data related to the speeches of a plurality of speakers, and outputs the output information according to the analysis result of the target speaker. It is an information processing device including a processing unit for generating.
  • the information processing device analyzes the dialogue action and the classification for each dialogue action based on the input data related to the speeches of a plurality of speakers, and obtains the analysis result of the target speaker. It is an information processing method that generates output information according to the situation.
  • the program of one aspect of the present technology analyzes the dialogue action and the classification for each dialogue action based on the input data related to the utterances of a plurality of speakers, and the output information according to the analysis result of the target speaker. It is a program that functions as an information processing device including a processing unit that generates.
  • the dialogue action and the classification for each dialogue action are analyzed based on the input data related to the speeches of a plurality of speakers, and the target speaker's classification is analyzed. Output information is generated according to the analysis result.
  • the information processing device on one aspect of the present technology may be an independent device or an internal block constituting one device.
  • FIG. 1 shows a configuration example of an embodiment of an information processing device to which the present technology is applied.
  • the information processing device is configured as a dialogue scoring device for scoring dialogue.
  • This information processing device has an input unit 101, a feature information group processing unit 102, a score calculation unit 103, an output unit 104, and a first knowledge database 117.
  • the input unit 101 inputs text data according to the utterance of the user (speaker) to the feature information group processing unit 102.
  • This text data is obtained by analyzing the voice of the utterance collected by the microphone.
  • speaker information may be added to the input text data, or the speaker determination unit may perform speaker determination.
  • the feature information group processing unit 102 includes one or more components for analyzing various features with respect to the text data input from the input unit 101. In the feature information group processing unit 102, analysis processing is performed on the text data by one or more components, and the processing result is supplied to the score calculation unit 103. Further, the feature information group processing unit 102 can acquire and use the information stored in the first knowledge database 117.
  • the score calculation unit 103 calculates a score based on the processing result supplied from the feature information group processing unit 102, and supplies the calculation result of the score to the output unit 104. Further, the score calculation unit 103 does not immediately output the score calculation result, but receives the input of the text data according to the next utterance, calculates the repeated score based on the analysis results of various features, and calculates the score repeatedly. The calculation result may be output at the end.
  • the output unit 104 generates output information based on the calculation result supplied from the score calculation unit 103.
  • the output unit 104 outputs the generated output information by displaying it on a display or the like.
  • the text data from the input unit 101 may be supplied to the output unit 104 to output the text. Further, the output unit 104 may use information other than the score calculation result when generating the output information.
  • FIG. 2 shows a detailed configuration example of the feature information group processing unit 102 of FIG.
  • the feature information group processing unit 102 includes a dialogue action estimation unit 105, a scene determination unit 106, a difficulty level measurement unit 107, an empathy measurement unit 108, a politeness measurement unit 109, an understanding level confirmation status determination unit 110, and a scene switching appropriateness determination. It has a unit 111, an adultness measurement unit 112, a gender directivity determination unit 113, a personality directivity determination unit 114, and a confirmation item determination unit 115.
  • the dialogue action estimation unit 105 includes greetings (GRT: Greeting), information disclosure (DEC: Description), questions (QUE: Question), responses (RES: Response), desires (DSR: Desire), requests (REQ: Request), Estimate dialogue activities such as.
  • classification labels such as "GRT”, “DEC”, “QUE”, “RES”, “DSR”, and “REQ” are used on the condition of the utterance sentence to be judged and the utterance sentence before it.
  • a method such as machine learning and estimation can be used.
  • the scene determination unit 106 determines which of the scenes assumed in the entire dialogue belongs. In this scene determination, the switching may be determined based on the presence or absence of a characteristic sentence that is a scene switching sentence, and the scene before and after that may be a specific scene, or the switching sentence for a specific scene may be determined.
  • the method can be used. In this determination, feature words may be used, or machine learning for determining switching may be performed.
  • a method may be used in which the scene classification is machine-learned for each sentence, and the scene is determined for a plurality of sentence blocks based on the estimation result of the entire scene based on the scene classification estimation result of each sentence.
  • a method may be used in which a plurality of sentences are given as inputs and the scene is determined for the plurality of sentences that are the parts.
  • Difficulty level measuring unit 107 measures the level of difficulty based on the number of technical terms, idioms, etc., many words that are not used in everyday vocabulary, and the characteristics of explanatory expressions. When measuring this difficulty level, for example, I hope that you will avoid using "relieve” in the sense of “curing” and “improving” as expressions that do not require the use of technical terms. In this case, it is possible to use a method in which such technical terms are registered in advance in a dictionary and points are deducted when the technical terms are used.
  • the empathy measuring unit 108 measures the high degree of empathy from the characteristic vocabulary such as "It's hard", the vocabulary that praises the other party's behavior, and the act of repeating the other party's words. ..
  • the characteristic vocabulary such as "It's hard”
  • the vocabulary that praises the other party's behavior and the act of repeating the other party's words. ..
  • a method of adding points by determining the degree can be used.
  • the machine As a condition based on the speaker's behavior estimation as to whether or not he / she took a sympathy method to convey the state of recovery or desire for another speaker as his / her own desire, the machine said whether he / she said the expressions intended for "desire (DSR)" and "recovery". You may use a method of judging by learning or the like and adding points.
  • the politeness measuring unit 109 measures how much polite expression is used from the characteristics of honorifics and polite words. In measuring the politeness, the politeness may be learned by machine learning.
  • the comprehension confirmation status determination unit 110 confirms that the explanation is not continued unilaterally, but that the person talks while taking a break (waiting for the other party's response, etc.), or that he / she gives an aizuchi when listening to the other party's explanation. By confirming the understanding of the other party and showing one's own understanding, such as by showing, it is confirmed whether the communication is successful. When confirming the degree of comprehension, it is possible to measure and determine the timing at which "RES" is entered in the dialogue action estimation unit 105 and the ratio of the continuity of "DEC".
  • the scene switching appropriateness determination unit 111 confirms whether or not the scene has changed rather than suddenly when proceeding to a different scene.
  • confirming the appropriateness of scene switching for example, in cooperation with the scene determination unit 106 and the confirmation item determination unit 115, it is determined that the appropriate scene has been switched when the main subject is entered from the greeting scene.
  • the confirmation item is stated in a scene different from the usual possible combination, it is determined that the appropriate scene switching has not been performed.
  • the adultness measurement unit 112 Since the adultness measurement unit 112 requires adultness such as in a business scene, it may be better to give a feeling of familiarity to an infant or the like. taking measurement.
  • the degree of adulthood For example, utterances that show adultness, childhood, etc. are given these labels and machine learning is performed, and overall adulthood depends on what kind of utterance tendency is relatively high. The degree can be determined.
  • the gender directivity determination unit 113 determines whether or not the speaker is conscious of gender characteristics such as masculinity and americanity, and estimates the bias toward each gender. In determining the directivity of this gender, machine learning is performed by assigning those labels to the utterances showing the gender tendency, and the overall gender tendency is determined according to what kind of utterance tendency is relatively high. A method such as determination can be used.
  • the personality orientation determination unit 114 estimates, for example, an analytical, empathetic, or subjective personality tendency. In determining the directivity of this personality, the utterances showing the personality tendency are given those labels and machine learning is performed, and the overall personality tendency is determined by what kind of utterance tendency is relatively high. A method such as determination can be used.
  • the confirmation item determination unit 115 hears specific information from the other party and determines whether or not the related items to be confirmed have been confirmed.
  • the confirmation item determination unit 115 can refer to the information stored in the first knowledge database 117 as appropriate when determining the confirmation item.
  • the first knowledge database 117 functions as knowledge attached to the confirmation item determination unit 115. In determining this confirmation item, determination may be made based on the appearance of characteristic keywords or phrases, or estimation may be performed by machine learning.
  • the feature information group processing unit 102 configured as described above has one or more of the dialogue action estimation unit 105 and the confirmation item determination unit 115, and analyzes various features based on the input text data. Will be done.
  • the dialogue action estimation unit 105 to the confirmation item determination unit 115 are examples of components for analyzing features, and other components may be included.
  • FIG. 3 shows another configuration example of the information processing apparatus of FIG.
  • the information processing apparatus has a sentence division unit in addition to the input unit 101, the feature information group processing unit 102, the score calculation unit 103, the output unit 104, and the first knowledge database 117, as compared with the configuration of FIG. It further has 116 and a score storage unit 118.
  • the sentence division unit 116 divides the input text into a predetermined unit such as a sentence unit based on the text data input from the input unit 101, and supplies the divided text data to the feature information group processing unit 102.
  • the divided text is also referred to as a divided text to distinguish it from the input text.
  • the feature information group processing unit 102 analyzes various features based on the divided text data supplied from the sentence division unit 116, and supplies the processing result to the score calculation unit 103.
  • the score calculation unit 103 can record information such as the calculated score in the score storage unit 118 when calculating the score based on the processing result supplied from the feature information group processing unit 102.
  • the divided text data from the sentence dividing unit 116 may be supplied to the output unit 104 so that the divided text is output.
  • FIG. 4 shows yet another configuration example of the information processing device of FIG.
  • the information processing device is configured as a dialogue scoring device or the like using voice or image as input.
  • this information processing device includes an input unit 101, a feature information group processing unit 102, a score calculation unit 103, an output unit 104, and a first knowledge database 117, as well as a voice recognition unit 201 and voice. It further has a feature information group processing unit 202 and an image feature information group processing unit 203.
  • the input unit 101 inputs voice data according to the speaker's utterance to the voice recognition unit 201 and the voice feature information group processing unit 202. Further, the input unit 101 inputs image data obtained by photographing the speaker and its surroundings to the image feature information group processing unit 203.
  • the voice recognition unit 201 performs voice recognition processing on the voice data input from the input unit 101, and supplies the text data of the recognition result to the feature information group processing unit 102.
  • the feature information group processing unit 102 analyzes various features based on the text data supplied from the voice recognition unit 201, and the processing result is supplied to the score calculation unit 103.
  • the voice feature information group processing unit 202 includes one or more components for analyzing various voice features with respect to the voice data input from the input unit 101. In the voice feature information group processing unit 202, analysis processing is performed on the voice data by one or more components, and the processing result is supplied to the score calculation unit 103.
  • the voice feature information group processing unit 202 has a volume determination unit 204, a first emotion determination unit 205, and a speech speed measurement unit 206, as shown in FIG.
  • the volume determination unit 204 analyzes the voice data and measures the volume of the speaker's utterance.
  • the first emotion determination unit 205 analyzes voice data, estimates recognizable emotion information from the voice of the speaker, and outputs a score for each emotion.
  • the speaking speed measuring unit 206 analyzes the voice data and measures the speaking speed of the speaker.
  • the voice feature information group processing unit 202 has one or more of the volume determination unit 204 and the speech speed measurement unit 206, and analyzes various voice features based on the input voice data. Will be done.
  • the volume determination unit 204 to the speech speed measurement unit 206 are examples of components for analyzing the characteristics of voice, and other components may be included.
  • the image feature information group processing unit 203 includes one or more components for analyzing various image features with respect to the image data input from the input unit 101.
  • the image feature information group processing unit 203 performs analysis processing on the image data by one or more components, and the processing result is supplied to the score calculation unit 103.
  • the image feature information group processing unit 203 has a smile determination unit 207, a line-of-sight determination unit 208, and a second emotion determination unit 209, as shown in FIG.
  • the smile determination unit 207 measures the smileiness of the speaker by smile recognition using the analysis result obtained by analyzing the image data.
  • the line-of-sight determination unit 208 analyzes the image data, measures the line of sight of the speaker, and determines where the speaker to be scored is looking.
  • the second emotion determination unit 209 analyzes the image data, estimates the emotion information that can be seen from the facial expression of the speaker, and outputs the score for each emotion.
  • the image feature information group processing unit 203 has one or more of the smile determination unit 207 and the second emotion determination unit 209, and various image features are provided based on the input image data. Be analyzed.
  • the smile determination unit 207 to the second emotion determination unit 209 are examples of components for analyzing the features of the image, and other components may be included.
  • the score calculation unit 103 calculates the score based on the processing results supplied from the feature information group processing unit 102, the voice feature information group processing unit 202, and the image feature information group processing unit 203, and calculates the score.
  • the calculation result of the score is supplied to the output unit 104.
  • a sentence dividing unit 116 and a score storage unit 118 included in the configuration of FIG. 3 may be further provided.
  • the sentence dividing unit 116 is provided after the voice recognition unit 201.
  • step S103 using one or more components included in the feature information group processing unit 102, one or more classification names and their scores from each of the components are obtained as an output result for the divided text tj to be processed. Be done.
  • step S104 the feature information group processing unit 102 searches for the item of the first knowledge database 117 corresponding to the combination of the output results of the plurality of components obtained in the process of step S103, and obtains the value obtained from the item. get.
  • step S107 the output unit 104 generates and outputs output information based on the value obtained in the process of step S104.
  • a specific example of the process of step S104 will be described later with reference to the flowchart of FIG. 8 or FIG. 31.
  • the flow of the first process has been explained above.
  • this first process one or more classification names and their scores obtained from each of the one or more components included in the feature information group processing unit 102 are obtained for the input text, and the classification name and the classification name are obtained.
  • the item of the first knowledge database 117 corresponding to the combination of the output results of the plurality of components of the score is searched, the value obtained from the item is acquired, and the output information is generated based on the acquired value.
  • steps S201 to S203 as in steps S101 to S103 of FIG. 7, the input text Ti is divided, and for the divided text tj to be processed, one or more classification names and their scores from each of the components are used. Is obtained as the output result.
  • step S203 the process proceeds to step S204.
  • step S204 the score calculation unit 103 searches for the item of the first knowledge database 117 that corresponds to the combination of the output results of the plurality of components, and acquires the scoring score obtained from the item. Subsequently, in step S205, the score calculation unit 103 records the acquired scoring score in the score storage unit 118.
  • step S204 embodies the process of step S104 of FIG. 7, and is an example in which a scoring score is acquired as a obtained value.
  • the process proceeds to step S206.
  • the processing of steps S206 to S208 is not an essential processing, and may proceed directly from step S206 to step S209.
  • step S206 it is determined whether the dialogue act is a question (QUE), a response (RES), or another (Other).
  • step S206 is an example of branching when the dialogue act is a question (QUE). Based on some other condition, while performing flag processing or the like, further recording may be performed in the score storage unit 118 under the condition of continuous series.
  • the dialogue action detects a continuous flow of the first speaker's question (QUE), the second speaker's information disclosure (DEC), and the first speaker's response (RES), when the self asks a question.
  • the scoring score shall be calculated assuming that it is a polite dialogue attitude that the other party answers the answer and responds to it.
  • step S206 If it is determined in the determination process of step S206 that the dialogue act is a question (QUE), the process proceeds to step S207.
  • step S207 the score calculation unit 103 raises a flag (period flag) until the scoring target person becomes a speaker again after the speaker change and the speaker change occurs, and is held in the score storage unit 118. Increase the QUE counter by one.
  • step S208 when the flag (period flag) that may be raised in the process of step S207 is raised, the score calculation unit 103 follows the flow of question (QUE), information disclosure (DEC), and response (RES). As applicable, the RES counter held in the score storage unit 118 is incremented by one.
  • QUE flow of question
  • DEC information disclosure
  • RES response
  • step S206 If it is determined in the determination process of step S206 that the dialogue action does not correspond to either the question (QUE) or the response (RES), the process proceeds to step S209.
  • steps S209 and S210 the processes of steps S201 to S210 are repeated for the input text Ti to be processed, and further, step S203 is performed for the divided text tj to be processed, as in steps S105 and S106 of FIG. The process of S209 is repeated.
  • the second speaker may include not only one information disclosure (DEC) but also a response (RES) and a desire (DSR) in addition to the information disclosure (DEC).
  • DEC information disclosure
  • DSR desire
  • This second process is a process that embodies the first process of FIG. 7 described above, and acquires a scoring score as a value obtained in the process of step S104 of FIG. 7.
  • the output unit 104 In the information processing device shown in FIG. 1, the output unit 104 generates output information expressed in a display format including at least one of numerical values, sentences, tables, graphs, and figures based on the score calculation result and the like. Will be done. Next, an example of output information will be described with reference to FIGS. 9 to 15.
  • FIG. 9 shows a first example of output information.
  • the output information 401 is displayed on the screen of the display by the output unit 104.
  • the output information 401 shows the overall score and the judgment result such as "87 points" and "judgment A”.
  • the display format shown in FIG. 9 is an example, and the score may be expressed in a format such as the number of successfully completed items for all the items to be evaluated.
  • FIG. 10 shows a second example of output information.
  • the output information 402 shows the skill of the speaker to be scored from several viewpoints by the radar chart displayed on the screen of the display.
  • Output information 402 shows each of the five skills A to E on a five-point scale.
  • the average skill shown by the broken line in the figure is also shown.
  • an ideal score distribution may be shown in addition to the average skill.
  • Each skill of skills A to E is summed and displayed as one skill for each viewpoint such as balance by dialogue components, general dialogue skill by rough evaluation, and knowledge skill based on individual contents. It doesn't matter. In this way, it is possible to display the output information according to the analysis result of another person as well as the output information according to the analysis result of oneself obtained at the present time.
  • FIG. 11 shows a third example of output information.
  • the output information 403 shows the ratio of the elements representing the utterance characteristics of the speaker to be scored by the bar graph displayed on the screen of the display.
  • the output information 403 as elements expressing the utterance characteristics of the speaker to be scored, greetings (GRT), requests (REQ), questions (QUE), explanations as information disclosure (DEC), and aizuchi as responses (RES)
  • the proportion of is shown by a bar graph.
  • the bar graph showing the ratio of the elements representing the own speech characteristics in addition to the bar graph showing the ratio of the average element is also shown.
  • an ideal distribution may be shown as the ratio of the elements shown for comparison with the ratio of the elements representing the self-speech characteristics.
  • a plurality of distributions calculated for each of a plurality of condition items such as for each scene may be displayed. In this way, it is possible to display the output information according to the analysis result of another person as well as the output information according to the analysis result of oneself obtained at the present time.
  • FIG. 12 shows a fourth example of output information.
  • the output information 404 shows a schematic evaluation of the entire dialogue by the list displayed on the screen of the display.
  • the rough evaluation of the entire dialogue is not limited to the case of expressing it in binary, and for example, the scoring result may be shown numerically for each.
  • FIG. 13 shows a fifth example of output information.
  • the output information 405 shows the evaluation of the dialogue content by the list displayed on the screen of the display.
  • the evaluation of the dialogue content is not limited to the case of expressing it in binary, and for example, the scoring result may be shown numerically for each. Further, in the output information 405, the scoring status for the question about "pain” may be displayed in detail, or some items that are scoring finely internally may be collectively “confirmed about pain". It may be displayed as a whole, such as.
  • FIG. 14 shows a sixth example of output information.
  • the output information 406 shows a change in the scoring measurement time and the scoring result in time series by a line graph displayed on the screen of the display.
  • the change in the scoring result on a monthly basis within a predetermined period such as one year is shown by a line graph.
  • the total score may be shown, or individual skill items, outline evaluation, and content evaluation may be shown individually. In this way, it is possible to display the output information according to the self-analysis result obtained at the present time and the output information according to the self-analysis result obtained in the past.
  • FIG. 15 shows a seventh example of output information.
  • the output information 407 indicates a general comment by a sentence displayed on the screen of the display.
  • the first element of the first sentence is the skill that has the highest evaluation among the own skills (skills A to E) in the output information 402 of FIG. Select (for example, skill D).
  • the second element of the first sentence is the skill (skills A to E) that has the lowest evaluation among the own skills (skills A to E) in the output information 402 of FIG. For example, select skill E).
  • FIG. 16 shows a first example of knowledge information.
  • knowledge information 501 shows an example of knowledge about greeting scoring.
  • Knowledge information 501 shows an example of scoring greetings under three conditions: scene, dialogue action, and classification for each dialogue action.
  • a dialogue act that is a greeting (GRT)
  • Intro in the scene of the first introduction
  • a greeting corresponding to "Hello” was given, or the final closing (Closing).
  • the score will be 1 point each.
  • the scene is determined by the scene determination unit 106
  • the dialogue action is determined by the dialogue action estimation unit 105
  • the classification for each dialogue action is determined by the confirmation item determination unit 115.
  • FIG. 17 shows a second example of knowledge information.
  • knowledge information 502 shows an example of knowledge regarding self-introduction scoring.
  • Knowledge information 502 shows an example of scoring self-introduction under three conditions of scene, dialogue action, and classification for each dialogue action.
  • a dialogue act that is information disclosure (DEC) in the scene of the first introduction (Intro), in the content of self-introduction, whether you said a name, a title, or a name Determine if you said both titles.
  • DEC information disclosure
  • Intro information disclosure
  • the points will be 3 points.
  • the scene is determined by the scene determination unit 106
  • the dialogue action is determined by the dialogue action estimation unit 105
  • the classification for each dialogue action is determined by the confirmation item determination unit 115.
  • FIG. 18 shows a third example of knowledge information.
  • knowledge information 503 shows an example of knowledge regarding scoring whether allergies could be confirmed.
  • Knowledge information 503 shows an example of scoring whether allergies could be confirmed under the three conditions of scene, dialogue action, and classification for each dialogue action.
  • knowledge information 503 is used to determine "YN” or "WHAT” as the question type as a dialogue act that is a question (QUE) in the interview (History Taking) scene, and a question about allergies.
  • QUE a question
  • WHAT means a WHAT format question.
  • the score will be 1 point each.
  • the scene is determined by the scene determination unit 106
  • the dialogue action is determined by the dialogue action estimation unit 105
  • the classification for each dialogue action is determined by the confirmation item determination unit 115.
  • FIG. 19 shows a fourth example of knowledge information.
  • the knowledge information 504 shows an example of knowledge regarding the scoring of whether or not the symptom was confirmed.
  • Knowledge information 504 shows an example of scoring whether or not the symptom was confirmed under the three conditions of scene, dialogue action, and classification for each dialogue action.
  • knowledge information 504 is used to determine "WHEN” or "YN” as the question type as a dialogue act that is a question (QUE) in the interview (History Taking) scene, and the onset of eczema or eczema. Determine that the question is about illness.
  • QUE a question
  • YN means a question in Yes / No format.
  • the score will be 1 point each.
  • the scene is determined by the scene determination unit 106
  • the dialogue action is determined by the dialogue action estimation unit 105
  • the classification for each dialogue action is determined by the confirmation item determination unit 115.
  • FIG. 20 shows a fifth example of knowledge information.
  • knowledge information 505 shows an example of knowledge about empathy scoring.
  • Knowledge information 505 shows an example of scoring empathy under three conditions of scene, dialogue action, and classification for each dialogue action.
  • knowledge information 505 was used to sympathize with recovery and the sick as a dialogue act such as desire (DSR) and greeting (GRT) in any scene, or "sick" in the final closing (Closing) scene. Determine if you have made a greeting equivalent to "Goodbye”.
  • DSR desire
  • GRT greeting
  • Closing final closing
  • the score will be 1 point each.
  • the scene is determined by the scene determination unit 106
  • the dialogue action is determined by the dialogue action estimation unit 105
  • the classification for each dialogue action is determined by the confirmation item determination unit 115.
  • knowledge information 501 and 502 there is knowledge that is always used regardless of the dialogue content such as knowledge information 501 and 502, and depending on the scenario provided such as knowledge information 503 to 505. Some things need to change the knowledge used. So to speak, the former knowledge information is the knowledge represented by a fixed table, and the latter knowledge information is the knowledge represented by a dynamic table.
  • FIG. 21 shows an example of dialogue between the speaker to be scored and the patient and its analysis.
  • the first speaker who is the speaker to be scored and the second speaker who is the patient, which are distinguished by "1" and “2" in the "speaker” column, are “eczema”. And “Ointment (colloid)”, but the utterance of the first speaker in the "Utterance” column is the subject of analysis.
  • the column of "scene switching sentence” describes a circle ( ⁇ ) for the utterance including the sentence that triggered the scene switching among the utterances.
  • scenes such as introduction (Intro), interview (History Taking), explanation (Explanation), and closing (Closing) are given.
  • the scene determination unit 106 determines which of the scenes assumed in the entire dialogue belongs to each utterance. In addition, the scene determination unit 106 detects utterances that trigger scene switching, such as those marked with a circle ( ⁇ ) in the “scene switching sentence” column, by detecting characteristic words from each utterance. do.
  • the scenes should be assigned to the same speaker range by going back from the found scene switching sentence. Specifically, when the utterance "I think the locoid is good, as the teacher said" by the first speaker is detected as a trigger, this scene switching sentence is shown by the upward arrow in the figure. A scene that is an explanation (Explanation) is assigned to the utterance of the first speaker.
  • the method of finding the sentence that is the point of switching the scene is shown, but other methods such as the method of determining that the scene is switched to a specific scene may be used.
  • a method of determining whether or not the utterance of the first speaker includes a sentence that serves as a starting point for a medical history (History Taking) can be used.
  • a method may be used in which the scene classification is machine-learned for each sentence, and the scene is determined for a plurality of sentence blocks based on the estimation result of the entire scene based on the scene classification estimation result of each sentence.
  • a method may be used in which a plurality of sentences are given as inputs and the scene is determined for the plurality of sentences that are the parts.
  • the dialogue action estimation unit 105 estimates a dialogue action such as a greeting from the content of the utterance, and assigns a label such as a greeting (GRT) to each sentence based on the estimation result.
  • the first speaker who is the speaker to be scored, asks for specific information from the second speaker, who is the patient, and asks questions (QUE), information disclosure (DEC), and other confirmation items. Determine if confirmed.
  • QUE information disclosure
  • DEC information disclosure
  • the dialogue between the speaker to be scored and the patient is analyzed with reference to the knowledge information stored in the first knowledge database 117, and the scene, the dialogue act, and the classification for each dialogue act are classified under the three conditions. The judgment is made, and the scoring score obtained from the points assigned according to the judgment result is acquired.
  • each label may be treated as a classification for each dialogue act as in the example of FIG. 21, or a label independent of the dialogue act, not as a subordinate concept of the dialogue act. You may prepare as. It may also be analyzed by a combination of type and content as shown in the question (QUE) and information disclosure (DEC), or by assigning a single label such as greeting (GRT). I do not care.
  • QUE question
  • DEC information disclosure
  • GRT greeting
  • the scene is not always indispensable, and at least the two conditions of the dialogue action and the classification for each dialogue action are set. It may be used.
  • This setting information includes information related to the condition setting when the speaker to be scored sets the condition of the person (patient) to talk to.
  • FIGS. 22 to 24 show a first example of setting information.
  • the setting information 801 to 803 show an example of the setting relating to the background of the patient.
  • values for attributes such as age, gender, allergies, family medical history, medical history, pregnancy, breastfeeding, smoking, alcohol, medication, and detailed values are set.
  • the setting information 801 of FIG. 22 it is set that an infant (girl) has an egg allergy or has childhood asthma as a background. Further, in the setting information 802 of FIG. 23, as a background of an adult woman, it is set that she has never had a major illness and drinks about 500 ml three times a week. Further, in the setting information 803 of FIG. 24, as a background of an adult male, there is a history of hypertension and an allergy to pollen, and it is set to drink about 500 ml three times a week.
  • FIG. 25 shows a second example of setting information.
  • the setting information 804 shows an example of the question amount and knowledge that change depending on the value for each attribute.
  • the setting information 804 shows an example of the amount of questions and knowledge that change depending on the value of each attribute as the degree of influence on the corresponding knowledge for each attribute shown in FIGS. 22 to 24.
  • the degree of influence on the corresponding knowledge differs depending on whether it is a child (0-18 years old), an adult (18-65 years old), or an elderly person (65 years old-).
  • the patient's gender is female, the number of questions that the speaker to be scored should ask increases, but the questions are a group of questions that are routinely determined such as pregnancy and breastfeeding, and the questions to be answered are interpreted. I just need to be able to score.
  • FIG. 26 shows a third example of setting information.
  • the setting information 805 shows an example of individual knowledge.
  • the setting information 801 of FIG. 22 it was set that there was an egg allergy as a background of a certain infant, but the items to be heard by the speaker to be scored are the degree of allergy when ingested and the age at which the onset occurs. It corresponds to the case where there are items to be asked, such as whether or not you are taking any special therapy or medication, and the response is different from cat allergies, etc., and it is assumed that individual knowledge will be prepared for each value.
  • the degree of urticaria is mild, it appears 30 minutes after eating the egg, it is about 7 months after the onset, and some special therapy or medication is taken. It is set that it is not.
  • FIGS. 27 and 28 show a fourth example of setting information.
  • the setting information 806 and 807 show an example of setting conditions of a partner (patient) to whom a speaker to be scored with different knowledge talks based on a scenario (problem) specified in advance. ..
  • values are set for attributes such as start time, presence / absence of illness, and site as attributes when talking on the premise that the disease (symptom) is eczema.
  • the start time is one year ago, there is no illness, and the onset site is the face.
  • the setting information 807 of FIG. 28 as a type of eczema patient, it is set that the start time is one month before, the patient is affected, and the onset site is the back.
  • FIG. 29 shows a fifth example of setting information.
  • the setting information 808 shows an example of the question amount and knowledge that change depending on the value for each attribute.
  • the setting information 808 shows an example of the amount of questions and knowledge that change depending on the value of each attribute as the degree of influence on the corresponding knowledge for each attribute shown in FIGS. 27 and 28.
  • the start time and the site do not change, and the number of questions increases only when there is an illness. A group of questions is included.
  • a dialogue scoring device for scoring dialogue will be mainly described, and a human (speaker to be scored) will have a dialogue with a human (patient).
  • a human speech to be scored
  • the dialogue partner is not limited to a human but a machine (anthropomorphic agent, character). , Avata, chatbot, etc.), and the person's speech may be evaluated.
  • FIG. 30 shows another configuration example of an embodiment of the information processing apparatus to which the present technology is applied.
  • the information processing device is configured as a response generation device capable of returning a response when evaluating the dialogue skill of the user (speaker).
  • this information processing device further includes a response generation unit 601, a second knowledge database 602, and a voice synthesis unit 603, in addition to the voice recognition unit 201.
  • the response generation unit 601 generates a response sentence (response text data) for the input sentence (text data) while using the feature information group used for scoring from the feature information group processing unit 102, and supplies the response sentence (response text data) to the speech synthesis unit 603. do.
  • the response generation unit 601 may use the knowledge information for the response stored in the second knowledge database 602.
  • this knowledge information can be used when answering a question.
  • the knowledge information at this time may be the same as the knowledge information and setting information stored in the first knowledge database 117.
  • the question about the Yes / No type allergy in the knowledge information 503 of FIG. 18 corresponds to answering the value of the allergy in the setting information 801 to 803 of FIGS. 22 to 24, and the presence / absence of this value is indicated. It can be used for Yes / No answers. Further, the detailed value “egg" when this value is "yes” corresponds to the answer to the question about allergy in WHAT form in the knowledge information 503 of FIG.
  • Such processing is possible in a form that can be used to answer the judgment condition used at the time of scoring and the value set in the judgment condition, and the first knowledge database 117 and the second knowledge database 602 have the same knowledge. It is said that it is held in a form.
  • the knowledge may be such that a specific response message is returned for a specific utterance content. For example, when asked “Are you allergic to something?", You can simply answer “It's an egg.”
  • it may be a response to a feature, such as preparing some response to a specific dialogue action. For example, in response to a request (REQ), a response that always gives an aizuchi with "yes” may be used.
  • REQ request
  • a response that always gives an aizuchi with "yes” may be used. It should be noted that a plurality of combinations of the above-mentioned various response methods may be used.
  • the voice synthesis unit 603 converts the response text data supplied from the response generation unit 601 into voice data and supplies it to the output unit 104.
  • the voice synthesis unit 603 may be able to specify a voice color or the like when converting text to voice.
  • the output unit 104 outputs a voice (sound) corresponding to the voice data supplied from the voice synthesis unit 603 from a speaker or the like.
  • steps S301 to S303 as in steps S101 to S103 of FIG. 7, the input text Ti is divided, and for the divided text tj to be processed, one or more classification names and their scores from each of the components are used. Is obtained as the output result.
  • step S303 the process proceeds to step S304.
  • step S304 the response generation unit 601 searches the item of the second knowledge database 602 corresponding to the combination of the output results of the plurality of components, and acquires the response value obtained from the item.
  • step S305 when the response generation unit 601 generates a response pattern corresponding to a combination of output results of a plurality of components or corresponding to an input text, a response statement is generated using the acquired response value. do.
  • steps S304 and S305 embody the process of step S104 of FIG. 7, and are examples in which a response value is acquired as the obtained value, and the response value acquired in the process of step S304 is used. Then, when the response generation unit 601 generates the response statement, the entire response statement can be generated by embedding the response value or using the result of further searching the item of the second knowledge database 602. can.
  • steps S306 and S307 the processes of steps S301 to S307 are repeated for the input text Ti to be processed, and further, step S303 is performed for the divided text tj to be processed, as in steps S105 and S106 of FIG. The process of S306 is repeated.
  • step S308 the response text data is converted into voice data as output information, and the voice is output.
  • a machine such as a response generator returns a response by voice.
  • anthropomorphic agents, characters, avatars, and the like may be displayed so that they can respond by voice.
  • the response sentence corresponding to the response text data may be displayed as a chatbot or the like without converting the text to the voice.
  • CG Computer Graphics
  • This third process is a process that embodies the first process of FIG. 7 described above, and acquires a response value as a value obtained in the process of step S104 of FIG. 7.
  • a response generator that generates a response related to dialogue will be mainly described, and a human (speaker to be scored) dialogue skill will be evaluated. I explained the case where the machine returns a response when doing so.
  • the information processing device such as the dialogue scoring device and the response generation device is described as being configured as a single device, but it may be configured to be composed of a plurality of devices via a network such as the Internet. No.
  • FIG. 32 shows a configuration example of an embodiment of an information processing system to which the present technology is applied.
  • the information processing system is composed of an information processing device 10 and an information processing device 20.
  • the information processing device 10 and the information processing device 20 are connected to each other via a network 30.
  • the information processing device 10 is a device such as a PC (Personal Computer), a tablet terminal, a smartphone, and a dedicated terminal, and is configured as an interactive scoring device, a response generation device, and the like.
  • the information processing device 10 is composed of a processing unit 11, a communication unit 12, an input unit 101, and an output unit 104.
  • the processing unit 11 is a central control device (processing device) that controls the operation of each unit and performs various arithmetic processing.
  • the processing unit 11 is composed of a processor such as a CPU (Central Processing Unit).
  • the processing unit 11 includes at least one component of the feature information group processing unit 102 and the score calculation unit 103 in the configuration of FIG. As shown in FIG. 3, the processing unit 11 may include the sentence dividing unit 116.
  • the processing unit 11 in addition to the feature information group processing unit 102 and the score calculation unit 103, the processing unit 11 includes a voice recognition unit 201, a voice feature information group processing unit 202, and an image feature information group processing unit. Of 203, at least one component may be included. Further, as shown in FIG. 30, the processing unit 11 may include at least one component of the response generation unit 601 and the speech synthesis unit 603 in addition to the feature information group processing unit 102 and the score calculation unit 103. good.
  • the communication unit 12 communicates with other devices such as the information processing device 20 via the network 30 according to the control from the processing unit 11.
  • the communication unit 12 is configured as a communication module that supports wireless communication such as wireless LAN (Local Area Network), cellular communication (for example, LTE-Advanced, 5G, etc.), or wired communication.
  • wireless LAN Local Area Network
  • cellular communication for example, LTE-Advanced, 5G, etc.
  • wired communication wired communication.
  • the input unit 101 and the output unit 104 correspond to the input unit 101 and the output unit 104 of FIG. 1 and the like described above, they may be included in the processing unit 11.
  • the input unit 101 is configured to include an input interface and various processing units, and may also be configured to include an input device such as a microphone, a camera, and a sensor.
  • the output unit 104 may include various control units and an output interface, and may also include an output device such as a display, a speaker, and a projector. Note that these input devices and output devices may be provided as external devices.
  • the information processing device 20 is composed of a processing unit 21, a communication unit 22, and a database 23.
  • the processing unit 21 is a central control device (processing device) that controls the operation of each unit and performs various arithmetic processing.
  • the processing unit 21 is composed of a processor such as a CPU.
  • the processing unit 21 includes at least one component of the feature information group processing unit 102 and the score calculation unit 103 in the configuration of FIG. As shown in FIG. 3, the processing unit 21 may include the sentence dividing unit 116. Further, the processing unit 21 may include some functions of the input unit 101 and the output unit 104.
  • the processing unit 21 in addition to the feature information group processing unit 102 and the score calculation unit 103, the processing unit 21 includes a voice recognition unit 201, a voice feature information group processing unit 202, and an image feature information group processing unit. Of 203, at least one component may be included. Further, as shown in FIG. 30, the processing unit 21 may include at least one component of the response generation unit 601 and the speech synthesis unit 603 in addition to the feature information group processing unit 102 and the score calculation unit 103. good.
  • the processing unit 21 on the information processing device 20 side is provided with components other than the components provided on the processing unit 11 on the information processing device 10 side among all the components.
  • the communication unit 22 communicates with other devices such as the information processing device 10 via the network 30 under the control of the processing unit 21.
  • the communication unit 22 is configured as a communication module corresponding to wireless communication such as wireless LAN, cellular communication, or wired communication.
  • the database 23 is stored in an auxiliary storage device composed of an HDD (Hard Disk Drive), a semiconductor memory, or the like.
  • the database 23 may be configured as internal storage or may be external storage.
  • the database 23 includes a first knowledge database 117 as shown in FIG. 1, a score storage unit 118 as shown in FIG. 3, and a second knowledge database 602 as shown in FIG. 30 and the like. A part or all of the database 23 may be provided on the information processing apparatus 10 side.
  • the network 30 is configured to include a communication network such as the Internet, an intranet, or a mobile phone network, and enables interconnection between devices using a communication protocol such as TCP / IP (Transmission Control Protocol / Internet Protocol). ..
  • a communication protocol such as TCP / IP (Transmission Control Protocol / Internet Protocol).
  • machine learning As the machine learning method described above, for example, a neural network or deep learning (deep learning) is used.
  • a neural network is a model that imitates a human brain neural circuit, and consists of three types of layers: an input layer, an intermediate layer (hidden layer), and an output layer. Further, deep learning is a model using a neural network having a multi-layer structure, and it is possible to learn a complicated pattern hidden in a large amount of data by repeating characteristic learning in each layer.
  • machine learning problem settings include supervised learning, unsupervised learning, semi-supervised learning, reinforcement learning, reverse reinforcement learning, active learning, and transfer learning.
  • supervised learning features are learned based on given labeled learning data (teacher data). This makes it possible to derive labels for unknown data.
  • image was explained, but since the image is composed of a plurality of image frames, "image” may be read as "image”.
  • the information processing apparatus based on the input data (for example, text data, voice data, or image data) related to the speech of a plurality of speakers (for example, the speaker and the patient to be scored), Dialogues (eg greetings (GRT), information disclosure (DEC), etc.) and their classification by dialogue (eg Hello / Goodbye, self-introduction / name, title, etc.) are analyzed and targeted.
  • Output information for example, output information 401 to 407 of FIGS. 9 to 15
  • more useful information can be provided as information on interpersonal communication.
  • scoring is performed based on the input of evaluation parameters as a method for evaluating the conversation between the call center operator and the customer according to the characteristics of the call center.
  • language analysis the utterance ratio, silence, and speaking speed are detected, and the time and the like are quantified.
  • Sentiment analysis uses voice pitch, volume, etc. to quantify voice swelling, lively tongue, voice volume, pitch, etc.
  • Sentiment analysis is based on acoustic information
  • dialogue analysis is based on time information or judgment by the speaker.
  • the information based on the utterance content and the expression style of the utterance is not considered.
  • the amount of words such as keywords is assumed in linguistic analysis, only the presence or absence and frequency of characteristic words can be known from these, and they are expressed by the flow of sentences and dialogues according to the utterance content and the expression style of the utterance. Information cannot be considered.
  • it is possible to perform scoring in consideration of various information such as whether the content to be referred to is properly spoken or the impression by the expression method for the text information.
  • OSCE Objective Structured Clinical Examination
  • sales positions differ in the direction of what kind of explanation and behavior is preferable depending on the items to be sold.
  • OSCE Objective Structured Clinical Examination
  • relatively one-way dialogues such as speech practice, it is difficult for one person to evaluate with the practice partner.
  • the series of processes of the information processing device described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer of each device.
  • FIG. 33 is a block diagram showing a configuration example of the hardware of a computer that executes the above-mentioned series of processes programmatically.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 1005 is further connected to the bus 1004.
  • An input unit 1006, an output unit 1007, a storage unit 1008, a communication unit 1009, and a drive 1010 are connected to the input / output interface 1005.
  • the input unit 1006 includes a microphone, a keyboard, a mouse, and the like.
  • the output unit 1007 includes a speaker, a display, and the like.
  • the storage unit 1008 includes a hard disk, a non-volatile memory, and the like.
  • the communication unit 1009 includes a network interface and the like.
  • the drive 1010 drives a removable recording medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 1001 loads the program recorded in the ROM 1002 and the storage unit 1008 into the RAM 1003 via the input / output interface 1005 and the bus 1004 and executes the above-mentioned series. Is processed.
  • the program executed by the computer (CPU1001) can be recorded and provided on the removable recording medium 1011 as a package medium or the like, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 1008 via the input / output interface 1005 by mounting the removable recording medium 1011 in the drive 1010. Further, the program can be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the storage unit 1008. In addition, the program can be pre-installed in the ROM 1002 or the storage unit 1008.
  • the processing performed by the computer according to the program does not necessarily have to be performed in chronological order in the order described as the flowchart. That is, the processing performed by the computer according to the program also includes processing executed in parallel or individually (for example, parallel processing or processing by an object).
  • the program may be processed by one computer (processor) or may be distributed processed by a plurality of computers.
  • the program may be transferred to a distant computer for execution.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • the embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
  • the present technology can have a cloud computing configuration in which one function is shared and jointly processed by a plurality of devices via a network.
  • each step in the above flowchart can be executed by one device or shared by a plurality of devices. Further, when a plurality of processes are included in one step, the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • the dialogue action and the classification for each dialogue action are analyzed.
  • the processing unit Obtain a scoring score based on the analysis result of the target speaker, The information processing device according to (1) or (2) above, which generates output information according to the acquired scoring score.
  • the processing unit Obtain the response value based on the analysis result of the target speaker, The information processing device according to (1) or (2) above, which generates output information according to the acquired response value.
  • the processing unit The Dialogue Estimate Department, which estimates the dialogue by the speaker, A scene judgment unit that determines which of the scenes assumed in the entire dialogue belongs to, According to the classification, the feature information group processing unit including a confirmation item determination unit for determining whether the first speaker to be scored has confirmed the items to be confirmed for the second speaker ( The information processing apparatus according to any one of 2) to (4).
  • the feature information group processing unit Difficulty measurement unit that measures the difficulty level according to a specific expression including technical terms, Empathy measuring unit, which measures empathy according to a specific expression including empathy vocabulary, Politeness measuring unit that measures politeness according to a specific expression including honorific or polite words, Comprehension confirmation status determination unit that determines the comprehension confirmation status according to a specific action including aizuchi or aizuchi, Scene switching appropriateness determination unit that determines the appropriateness of the switching when switching scenes, Adultness measurement unit that measures adulthood according to the expression of utterance, Gender directivity determination unit that determines gender directivity according to the expression of utterance, and The information processing device according to (5) above, further including at least one of the personality directivity determining units that determine the personality directivity according to the expression of the utterance.
  • the processing unit It has a score calculation unit that calculates a score using the scoring score.
  • the information processing apparatus according to (3) above which generates output information according to the calculated score.
  • the processing unit An input unit for inputting the input data and The information processing device according to any one of (1) to (7) above, further comprising an output unit that generates and outputs the output information.
  • the input data includes text data and includes text data.
  • the information processing device according to (8) above, wherein the processing unit analyzes the dialogue action and the classification for each dialogue action based on the input text data.
  • the processing unit It further has a sentence division unit that divides the text into sentence units based on the input text data.
  • the information processing device which analyzes dialogue actions and classifications for each dialogue action based on the divided text data.
  • the input data includes voice data.
  • the processing unit It further has a voice recognition unit that converts the input voice data into text data.
  • the information processing device according to (8) above, which analyzes dialogue actions and classifications for each dialogue action based on the converted text data.
  • the input data includes voice data.
  • the processing unit It further has a voice feature information group processing unit that analyzes the voice of the utterance based on the input voice data.
  • the information processing device according to (8) above, which generates output information according to the analysis result of the spoken voice.
  • the input data includes image data and includes image data.
  • the processing unit It further has an image feature group processing unit that analyzes the speaker included in the image based on the input image data.
  • the information processing device according to (8) above, which generates output information according to the analysis result of the speaker included in the image.
  • the output unit controls display so that the output information is displayed in a predetermined display format including at least one of numerical values, sentences, tables, graphs, and figures. Device.
  • the output unit displays output information according to the self-analysis result obtained at the present time, output information according to the self-analysis result obtained in the past, or output information according to the analysis result of another person.
  • the information processing apparatus according to (14).
  • the processing unit It further has a response generation unit that generates a response statement using the response value.
  • the information processing device which generates output information according to the generated response statement.
  • the processing unit It also has a voice synthesis unit that synthesizes the response sentence by voice.
  • the information processing device according to (16), wherein the synthesized sound obtained by voice synthesis is output as the output information.
  • the information processing device (18)
  • the information processing device (16) or (17), wherein a still image, a moving image, or CG of an object is output as the output information together with the response sentence.
  • Information processing device Based on the input data related to the utterances of multiple speakers, the dialogue action and the classification for each dialogue action are analyzed. An information processing method that generates output information according to the analysis results of the target speaker.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本技術は、対人コミュニケーションに関する情報として、より有用な情報を提供することができるようにする情報処理装置、情報処理方法、及びプログラムに関する。 複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する処理部を備える情報処理装置が提供される。本技術は、例えば、対話を採点する対話採点装置、又は対話に応じた応答を生成する応答生成装置に適用することができる。

Description

情報処理装置、情報処理方法、及びプログラム
 本技術は、情報処理装置、情報処理方法、及びプログラムに関し、特に、対人コミュニケーションに関する情報として、より有用な情報を提供することができるようにした情報処理装置、情報処理方法、及びプログラムに関する。
 医療現場の専門職では、対人コミュニケーションに関する試験がある。また、営業職や、介護、保育、医療従事者など、その職種によっても、好ましい表現方法や話し方がある。
 このように、様々な職種ごとに、様々な対人スキルをトレーニングする必要があり、対人トレーニングはコストが高く、また、何を直すべきかを客観的に評価することが一人では難しい。
 特許文献1には、コールセンタのオペレータと顧客の会話をコールセンタの特徴に合わせて評価できる方法として、評価パラメータの入力を元に採点を行うオペレータ対顧客会話自動採点装置が開示されている。
 この装置では、採点時には、言語分析、対話分析、及び感情分析が行われるが、言語分析では、あらかじめ定められたキーワードを検出し、対話分析では、対話の重複や発話割合、沈黙、話速を検出し、感情分析では、声の高さや音量から感情レベルを検出している。
特開2014-123813号公報
 特許文献1に開示されている技術では、採点時に、言語分析、対話分析、及び感情分析を行っているが、これらの分析からは会話の表面的な様子はうかがい知ることができるものの発話内容や発話の表現スタイルなどは考慮されておらず、対人コミュニケーションの評価に際して必要とされる情報として十分あるとは言い難い。そのため、対人コミュニケーションに関する情報として、有用な情報を提供することが求められていた。
 本技術はこのような状況に鑑みてなされたものであり、対人コミュニケーションに関する情報として、より有用な情報を提供することができるようにするものである。
 本技術の一側面の情報処理装置は、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する処理部を備える情報処理装置である。
 本技術の一側面の情報処理方法は、情報処理装置が、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する情報処理方法である。
 本技術の一側面のプログラムは、コンピュータを、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する処理部を備える情報処理装置として機能させるプログラムである。
 本技術の一側面の情報処理装置、情報処理方法、及びプログラムにおいては、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類が解析され、対象の話者の解析結果に応じた出力情報が生成される。
 なお、本技術の一側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
本技術を適用した情報処理装置の一実施の形態の構成例を示すブロック図である。 図1の特徴情報群処理部の詳細な構成例を示すブロック図である。 図1の情報処理装置の他の構成例を示すブロック図である。 図1の情報処理装置のさらに他の構成例を示すブロック図である。 図4の音声特徴情報群処理部の詳細な構成例を示すブロック図である。 図4の画像特徴情報群処理部の詳細な構成例を示すブロック図である。 第1の処理の流れを説明するフローチャートである。 第2の処理の流れを説明するフローチャートである。 出力情報の第1の例を示す図である。 出力情報の第2の例を示す図である。 出力情報の第3の例を示す図である。 出力情報の第4の例を示す図である。 出力情報の第5の例を示す図である。 出力情報の第6の例を示す図である。 出力情報の第7の例を示す図である。 知識情報の第1の例を示す図である。 知識情報の第2の例を示す図である。 知識情報の第3の例を示す図である。 知識情報の第4の例を示す図である。 知識情報の第5の例を示す図である。 話者と患者による対話とその解析の例を示す図である。 設定情報の第1の例を示す図である。 設定情報の第1の例を示す図である。 設定情報の第1の例を示す図である。 設定情報の第2の例を示す図である。 設定情報の第3の例を示す図である。 設定情報の第4の例を示す図である。 設定情報の第4の例を示す図である。 設定情報の第5の例を示す図である。 本技術を適用した情報処理装置の一実施の形態の他の構成例を示すブロック図である。 第3の処理の流れを説明するフローチャートである。 本技術を適用した情報処理システムの一実施の形態の構成例を示すブロック図である。 コンピュータの構成例を示すブロック図である。
<1.第1の実施の形態>
(装置の構成)
 図1は、本技術を適用した情報処理装置の一実施の形態の構成例を示している。
 図1において、情報処理装置は、対話を採点する対話採点装置などとして構成される。この情報処理装置は、入力部101、特徴情報群処理部102、スコア計算部103、出力部104、及び第1知識データベース117を有する。
 入力部101は、ユーザ(話者)の発話に応じたテキストデータを、特徴情報群処理部102に入力する。このテキストデータは、マイクロフォンにより集音された発話の音声を解析することで得られるものである。入力部101では、入力されるテキストデータに対し、話者情報を付加したり、あるいは、話者判定部により話者判定を行ったりしてもよい。
 特徴情報群処理部102は、入力部101から入力されたテキストデータに対し、様々な特徴を解析する構成要素を1つ以上含んでいる。特徴情報群処理部102では、1以上の構成要素により、テキストデータに対する解析処理が施され、その処理結果が、スコア計算部103に供給される。また、特徴情報群処理部102は、第1知識データベース117に格納された情報を取得して利用することができる。
 スコア計算部103は、特徴情報群処理部102から供給される処理結果に基づいて、スコアを計算し、そのスコアの計算結果を出力部104に供給する。また、スコア計算部103では、スコアの計算結果を直ぐには出力せず、次の発話に応じたテキストデータの入力を受けて、様々な特徴の解析結果に基づき、繰り返しスコアを計算して、その計算結果を最後に出力してもよい。
 出力部104は、スコア計算部103から供給される計算結果に基づいて、出力情報を生成する。出力部104は、生成した出力情報を、ディスプレイに表示するなどして出力する。
 なお、図1においては、入力部101からのテキストデータが、出力部104に供給され、テキストが出力されるようにしてもよい。また、出力部104は、出力情報を生成するに際して、スコアの計算結果以外の情報を用いてもよい。
 図2は、図1の特徴情報群処理部102の詳細な構成例を示している。
 特徴情報群処理部102は、対話行為推定部105、シーン判定部106、難易度測定部107、共感度測定部108、丁寧度測定部109、理解度確認状況判定部110、シーン切替適切度判定部111、大人度測定部112、性別指向性判定部113、性格指向性判定部114、及び確認事項判定部115を有する。
 対話行為推定部105は、挨拶(GRT:Greeting)、情報開示(DEC:Description)、質問(QUE:Question)、応答(RES:Response)、願望(DSR:Desire)、依頼(REQ:Request)、などの対話行為を推定する。この対話行為の推定に際しては、判定対象の発話文やその前の発話文を条件として、"GRT"、"DEC"、"QUE"、"RES"、"DSR"、"REQ"といった分類ラベルを機械学習して推定するなどの方法を用いることができる。
 シーン判定部106は、対話全体で想定されるシーンのいずれに属するかを判定する。このシーン判定に際しては、シーンの切り替え文となる特徴的な文の存在の有無により切り替わりを判定し、その前後を特定のシーンとしてもよいし、あるいは、特定のシーンのための切り替わり文を判定する方法を用いることができる。この判定では、特徴語を用いてもよいし、切り替わりを判断するための機械学習を行ってもよい。あるいは、各文に対しシーン分類を機械学習し、各文のシーン分類推定結果を元に、全体のシーンの推定結果を元に複数の文の塊に対しシーンを判定する方法でもよい。あるいは、複数の文を入力として与え、その部分となる複数の文に対しシーンを判定する方法でもよい。
 難易度測定部107は、専門用語や熟語等の多さ、日常語彙で使わない語を多く含む、説明表現の特徴などから難易度の高さを測定する。この難易度の測定に際しては、例えば、専門用語を使わずとも済むような表現として、「治る」、「改善する」といった意味合いで、「寛解する」を使うことを避けて説明することを期待する場合に、このような専門用語を辞書にあらかじめ登録しておき、専門用語を使った場合に減点していくといった方法を用いることができる。
 共感度測定部108は、「おつらいですね」などの特徴的な共感語彙や、相手の行動を褒めるような語彙、相手の言葉を繰り返す行為などの特徴から、共感性の高さを測定する。この共感度の測定に際しては、共感的な定型表現リストを辞書に保持しておき、その定型表現の出現により加点する方法や、直前の別の話者の内容と高類似の内容を話したかの類似度判定により加点する方法などを用いることができる。あるいは、回復や別の話者を望む状態を自己の願望として伝える共感方法をとったかという話者行為推定による条件として、「願望(DSR)」と「回復」を意図する表現を言ったかを機械学習等により判定して加点する方法などを用いても構わない。
 丁寧度測定部109は、敬語や丁寧語の特徴から、どの程度の丁寧な表現を使ったかを測定する。この丁寧度の測定に際しては、機械学習により丁寧度合いを学習してもよい。
 理解度確認状況判定部110は、一方的に説明をし続けるのではなく間を取りながら話をする(相手の応答を待つなど)、又は相手の説明を聞く際に相槌を打つなどの確認を示すといった、相手の理解の確認や自分の理解を示すことにより、コミュニケーションのやり取りが上手くいっているかを確認する。理解度の確認に際しては、対話行為推定部105での"RES"の入るタイミングや、"DEC"の連続性などの割合を測定して判定することができる。具体的には、"RES"の入るタイミングの測定では、相手が"DEC"を連続している間に適宜"RES"を挟んでいるかを判定したり、"DEC"の連続性の測定では、自分が"DEC"/"REQ"を連続している間に、"QUE"をして相手の発話を促したり、自然と相手が"RES"を挟んだりしたかを判定したりすることができる。
 シーン切替適切度判定部111は、異なるシーンに進む場合に、唐突ではなく移り変わっているかを確認する。シーン切替の適切度の確認に際しては、例えば、シーン判定部106と確認事項判定部115と連携して、挨拶のシーンから本題に入るなどの場合には適切なシーンの切り替えがされていると判定する一方で、通常起こりうる組み合わせと異なるシーンで確認事項が発言された場合には、適切なシーンの切り替えがされていないと判定する。
 大人度測定部112は、ビジネスシーンなどの大人っぽさを必要とする場合から、幼児などを相手にするような親近感を抱かせた方が良い場合もあり、発言の表現から大人らしさを測定する。大人度の測定に際しては、例えば、大人らしさ、幼児性などが表れている発話にそれらのラベルを付与して機械学習を行い、どのような発話傾向が比較的に高いかにより、全体的な大人度を判定することができる。
 性別指向性判定部113は、男性らしさ、女性らしさといった性別的特徴を意識した話し方をしているかを判定し、それぞれの性別に対する偏りを推定する。この性別の指向性の判定に際しては、性別傾向が表れている発話にそれらのラベルを付与して機械学習を行い、どのような発話傾向が比率的に高いかによって、全体的な性別の傾向を判定するなどの方法を用いることができる。
 性格指向性判定部114は、例えば分析的、共感的、主観的などの性格的な傾向を推定する。この性格の指向性の判定に際しては、性格傾向が表れている発話にそれらのラベルを付与して機械学習を行い、どのような発話傾向が比率的に高いかによって、全体的な性格の傾向を判定するなどの方法を用いることができる。
 確認事項判定部115は、相手から特定の情報を聞き出し、関連する確認すべき事項を確認したかを判定する。確認事項判定部115は、確認事項の判定に際して、適宜、第1知識データベース117に格納された情報を参照することができる。第1知識データベース117は、確認事項判定部115に付属する知識として機能する。この確認事項の判定に際しては、特徴的なキーワードやフレーズの出現による判定を行ったり、あるいは、機械学習により推定したりしてもよい。
 以上のように構成される特徴情報群処理部102では、対話行為推定部105乃至確認事項判定部115のうち、いずれか1以上を有し、入力されるテキストデータに基づき、様々な特徴が解析される。なお、対話行為推定部105乃至確認事項判定部115は、特徴を解析する構成要素の一例であり、他の構成要素が含まれても構わない。
 なお、特徴情報群処理部102において、対話行為推定部105、シーン判定部106、及び確認事項判定部115による解析の詳細な例は、後述する図21の対話例を参照しながら説明する。
(装置の他の構成)
 図3は、図1の情報処理装置の他の構成例を示している。
 なお、以下の説明において、同一の符号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
 図3において、情報処理装置は、図1の構成と比べて、入力部101、特徴情報群処理部102、スコア計算部103、出力部104、及び第1知識データベース117のほかに、文分割部116及びスコア記憶部118をさらに有している。
 文分割部116は、入力部101から入力されたテキストデータに基づき、入力テキストを文単位等の所定の単位で分割し、分割したテキストデータを、特徴情報群処理部102に供給する。以下、分割したテキストを分割テキストとも称し、入力テキストと区別する。
 特徴情報群処理部102では、文分割部116から供給される分割テキストデータに基づき、様々な特徴が解析され、その処理結果が、スコア計算部103に供給される。
 スコア計算部103は、特徴情報群処理部102から供給される処理結果に基づいて、スコアを計算する際に、計算したスコア等の情報を、スコア記憶部118に記録することができる。
 なお、図3においては、入力部101からのテキストデータのほかに、文分割部116からの分割テキストデータが、出力部104に供給され、分割テキストが出力されるようにしてもよい。
 図4は、図1の情報処理装置のさらに他の構成例を示している。
 図4において、情報処理装置は、音声や画像を入力に用いた対話採点装置などとして構成される。この情報処理装置は、図1の構成と比べて、入力部101、特徴情報群処理部102、スコア計算部103、出力部104、及び第1知識データベース117のほかに、音声認識部201、音声特徴情報群処理部202、及び画像特徴情報群処理部203をさらに有している。
 入力部101は、話者の発話に応じた音声データを、音声認識部201、及び音声特徴情報群処理部202に入力する。また、入力部101は、話者やその周辺を撮影した画像データを、画像特徴情報群処理部203に入力する。
 音声認識部201は、入力部101から入力される音声データに対し、音声認識処理を行い、その認識結果のテキストデータを、特徴情報群処理部102に供給する。
 特徴情報群処理部102は、音声認識部201から供給されるテキストデータに基づき、様々な特徴が解析され、その処理結果が、スコア計算部103に供給される。
 音声特徴情報群処理部202は、入力部101から入力される音声データに対し、様々な音声の特徴を解析する構成要素を1つ以上含んでいる。音声特徴情報群処理部202では、1つ以上の構成要素により、音声データに対する解析処理が施され、その処理結果がスコア計算部103に供給される。
 例えば、音声特徴情報群処理部202は、図5に示すように、音量判定部204、第1感情判定部205、及び話速測定部206を有する。
 音量判定部204は、音声データを解析して話者の発話の音量を測定する。第1感情判定部205は、音声データを解析して話者の声から認識可能な感情情報を推定し、感情ごとのスコアを出力する。話速測定部206は、音声データを解析して話者の話す速度を測定する。
 以上のように、音声特徴情報群処理部202では、音量判定部204乃至話速測定部206のうち、いずれか1以上を有し、入力される音声データに基づき、様々な音声の特徴が解析される。なお、音量判定部204乃至話速測定部206は、音声の特徴を解析する構成要素の一例であり、他の構成要素が含まれても構わない。
 図4に戻り、画像特徴情報群処理部203は、入力部101から入力される画像データに対し、様々な画像の特徴を解析する構成要素を1つ以上含んでいる。画像特徴情報群処理部203では、1つ以上の構成要素により、画像データに対する解析処理が施され、その処理結果がスコア計算部103に供給される。
 例えば、画像特徴情報群処理部203は、図6に示すように、笑顔判定部207、目線判定部208、及び第2感情判定部209を有する。
 笑顔判定部207は、画像データを解析しての解析結果を用いて笑顔認識により話者の笑顔らしさを測定する。目線判定部208は、画像データを解析して、話者の目線を測定し、採点対象の話者がどこを見ているかを判定する。第2感情判定部209は、画像データを解析して、話者の顔の表情から分かる感情情報を推定し、感情ごとのスコアを出力する。
 以上のように、画像特徴情報群処理部203では、笑顔判定部207乃至第2感情判定部209のうち、いずれか1以上を有し、入力される画像データに基づき、様々な画像の特徴が解析される。なお、笑顔判定部207乃至第2感情判定部209は、画像の特徴を解析する構成要素の一例であり、他の構成要素が含まれても構わない。
 図4に戻り、スコア計算部103は、特徴情報群処理部102、音声特徴情報群処理部202、及び画像特徴情報群処理部203から供給される処理結果に基づいて、スコアを計算し、そのスコアの計算結果を出力部104に供給する。
 なお、図4においては、図3の構成に含まれる文分割部116と、スコア記憶部118をさらに設けても構わない。その場合、文分割部116は、音声認識部201の後段に設けられる。
(処理の流れ)
 次に、図7のフローチャートを参照して、情報処理装置により実行される第1の処理の流れを説明する。
 情報処理装置では、入力部101に入力されたテキストTi(0 < i <= N)を、入力として受け付ける(S101)。また、文分割部116が、テキストTiを、tj(0 < j <= n)に分割する(S102)。ここでは、まず、先頭の分割テキストtjが処理対象とされる。
 ステップS103では、特徴情報群処理部102に1つ以上含まれる構成要素を用い、処理対象の分割テキストtjに対し、当該構成要素それぞれから1つ以上の分類名とそのスコアが、出力結果として得られる。
 ステップS104では、特徴情報群処理部102が、ステップS103の処理で得られた複数の構成要素の出力結果の組み合わせに該当する、第1知識データベース117の項目を検索し、そこから得られる値を取得する。
 ステップS105の判定処理で、j < n であると判定された場合、処理は、ステップS103に戻り、jの値をインクリメント(j = j + 1)して、次の分割テキストtjを処理対象として、上述したステップS103,S104の処理が繰り返される。そして、j = n であると判定された場合、すなわち、最後の分割テキストまで処理対象となった場合、ステップS103乃至S105の繰り返しを終了して、処理は、ステップS106に進められる。
 ステップS106の判定処理で、i < N であると判定された場合、処理は、ステップS101に戻り、iの値をインクリメント(i = i + 1)して、次の入力テキストTiを処理対象として、上述したステップS101乃至S105の処理が実行される。そして、i = N であると判定された場合、ステップS101乃至S106の繰り返しを終了して、処理は、ステップS107に進められる。
 ステップS107では、出力部104が、ステップS104の処理で得られた値に基づき、出力情報を生成して出力する。ステップS104の処理の具体的な例は、図8又は図31のフローチャートを参照して後述する。ステップS107の処理で、出力情報が出力されると、第1の処理は終了する。
 なお、図7では、文分割部116を設けた図3の構成に対応した処理の流れを説明したが、図1の構成に対応する場合には、ステップS102の処理をスキップして、n=1と読み替えればよい。
 以上、第1の処理の流れを説明した。この第1の処理では、入力されたテキストに対し、特徴情報群処理部102に1つ以上含まれる構成要素のそれぞれから得られる1つ以上の分類名とそのスコアが得られ、当該分類名とそのスコアの複数の構成要素の出力結果の組み合わせに該当する第1知識データベース117の項目が検索され、そこから得られる値が取得され、取得された値に基づき出力情報が生成される。
 次に、図8のフローチャートを参照して、図1の情報処理装置により実行される第2の処理の流れを説明する。
 ステップS201乃至S203においては、図7のステップS101乃至S103と同様に、入力されたテキストTiが分割され、処理対象の分割テキストtjに対し、当該構成要素それぞれから1つ以上の分類名とそのスコアが出力結果として得られる。ステップS203が終了すると、処理は、ステップS204に進められる。
 ステップS204では、スコア計算部103が、複数の構成要素の出力結果の組み合わせに該当する、第1知識データベース117の項目を検索し、そこから得られる採点スコアを取得する。続いて、ステップS205では、スコア計算部103が、取得した採点スコアを、スコア記憶部118に記録する。
 すなわち、ステップS204の処理は、図7のステップS104の処理を具体化したもので、得られる値として、採点スコアが取得される例である。ステップS205で、採点スコアが記録されると、処理は、ステップS206に進められる。なお、ステップS206乃至S208の処理は、必須の処理ではなく、ステップS206からステップS209に、直接進んでも構わない。
 ステップS206では、対話行為が、質問(QUE)、応答(RES)、又はその他(Other)のいずれであるかが判定される。
 すなわち、ステップS206の判定処理は、対話行為が質問(QUE)である場合の分岐の例となる。これ以外の何らかの条件に基づき、フラグ処理等を行いながら、連続する系列の条件により、さらにスコア記憶部118に記録してもよい。
 例えば、対話行為が、第1話者の質問(QUE)、第2話者の情報開示(DEC)、第1話者の応答(RES)という連続した流れを検出した場合、自己が質問した場合に相手が回答内容を答え、それを受けて応答することは丁寧な対話姿勢であるとして、採点スコアを計算するものとする。
 ステップS206の判定処理で、対話行為が質問(QUE)であると判定された場合、処理は、ステップS207に進められる。ステップS207では、スコア計算部103が、話者交代の後に、採点対象者が再度話者になり、さらに話者交代が起こるまでのフラグ(期間フラグ)を上げるとともに、スコア記憶部118に保持されるQUEカウンタを1つ増やす。
 一方で、ステップS206の判定処理で、対話行為が応答(RES)であると判定された場合、処理は、ステップS208に進められる。ステップS208では、スコア計算部103が、ステップS207の処理で上げられる可能性があるフラグ(期間フラグ)が上がっている場合、質問(QUE)、情報開示(DEC)、応答(RES)の流れに該当するとして、スコア記憶部118に保持されるRESカウンタを1つ増やす。
 なお、ステップS206の判定処理で、対話行為が質問(QUE)と応答(RES)のいずれにも該当しないと判定された場合、処理は、ステップS209に進められる。
 ステップS209,S210においては、図7のステップS105,S106と同様に、処理対象の入力テキストTiに対し、ステップS201乃至S210の処理が繰り返され、さらに、処理対象の分割テキストtjに対し、ステップS203乃至S209の処理が繰り返される。
 ステップS201で受け付けた入力テキストTiに対する処理が終了して、ステップS210の判定処理で、i = N であると判定された場合、処理は、ステップS211に進められる。
 ステップS211においては、出力情報が生成されるが、ここでは、スコア記憶部118に保持されるRESカウンタとQUEカウンタの割合によって、適切な丁寧度であるかを判定してその判定結果が利用される。なお、第2話者は、情報開示(DEC)を1回だけでなく、情報開示(DEC)に加えて、応答(RES)や願望(DSR)などを含めても構わない。
 なお、図8においても、文分割部116を設けた図3の構成に対応した処理の流れを説明したが、図1の構成に対応する場合には、ステップS202の処理をスキップして、n=1と読み替えればよい。
 以上、第2の処理の流れを説明した。この第2の処理は、上述した図7の第1の処理を具体化した処理であり、図7のステップS104の処理で得られる値として、採点スコアを取得するものである。
(出力情報の例)
 図1等の情報処理装置において、出力部104では、スコアの計算結果等に基づき、数値、文章、表、グラフ、及び図形のうち、少なくとも1つを含む表示形式で表現された出力情報が生成される。次に、図9乃至図15を参照して、出力情報の例を説明する。
(a)第1の例
 図9は、出力情報の第1の例を示している。
 図9において、出力情報401は、出力部104によって、ディスプレイの画面に表示される。出力情報401では、「87点」、「判定A」などの総合的な得点や判定結果を示している。
 なお、図9に示した表示形式は一例であり、評価対象の全項目数分の上手くできた項目数などのような形式で得点を表現しても構わない。
(b)第2の例
 図10は、出力情報の第2の例を示している。
 図10において、出力情報402は、ディスプレイの画面に表示されるレーダチャートにより、採点対象の話者のスキルを幾つかの観点で示している。
 出力情報402では、スキルA乃至Eの5つのスキルのそれぞれについて、5段階の評価で示している。出力情報402では、図中の一点鎖線で示した自己のスキルのほかに、図中の破線で示した平均のスキルが合わせて示される。なお、自己のスキルとの比較のために示されるスキルとしては、平均のスキルのほかにも、例えば、理想的なスコア分布などを示してもよい。
 スキルA乃至Eの各スキルは、例えば、対話構成要素によるバランス、概略評価による一般的な対話スキル、個別内容に基づく知識のスキル、といった観点ごとに1つのスキルとして総和をとって、表示しても構わない。このように、現時点で得られた自己の解析結果に応じた出力情報とともに、他人の解析結果に応じた出力情報を表示することができる。
(c)第3の例
 図11は、出力情報の第3の例を示している。
 図11において、出力情報403は、ディスプレイの画面に表示される棒グラフにより、採点対象の話者の発話特徴を表す要素の割合を示している。
 出力情報403では、採点対象の話者の発話特徴を表す要素として、挨拶(GRT)、依頼(REQ)、質問(QUE)、情報開示(DEC)としての説明、及び応答(RES)としての相槌の割合が、棒グラフにより示されている。出力情報403では、自己の発話特徴を表す要素の割合を示した棒グラフのほかに、平均的な要素の割合を示した棒グラフが合わせて示される。
 なお、自己の発話特徴を表す要素の割合との比較のために示される要素の割合としては、平均的な分布のほかにも、例えば、理想的な分布などを示してもよいし、あるいは、シーンごとなどの複数の条件項目ごとに算出された分布を複数表示しても構わない。このように、現時点で得られた自己の解析結果に応じた出力情報とともに、他人の解析結果に応じた出力情報を表示することができる。
(d)第4の例
 図12は、出力情報の第4の例を示している。
 図12において、出力情報404は、ディスプレイの画面に表示されるリストにより、対話全体での概略評価を示している。
 出力情報404では、対話全体での概略評価として、「挨拶をした」、「自己紹介をした」、「共感を示した」、「丁寧に接した」、及び「分かりやすく説明した」のように、評価対象とする特徴について文章で説明し、それに対して出来ていた、又は出来ていなかったという2値で表現している。
 なお、対話全体での概略評価は、2値で表現する場合に限らず、例えば、それぞれに対して数値で採点結果を示しても構わない。
(e)第5の例
 図13は、出力情報の第5の例を示している。
 図13において、出力情報405は、ディスプレイの画面に表示されるリストにより、対話内容の評価を示している。
 出力情報405では、対話内容の評価として、「既往歴を確認した」、「痛みの開始時期を確認した」、「痛みの程度を確認した」、及び「家族の病歴を確認した」のように、評価対象とする内容について、言及すべき項目がある場合に、それらの項目について文章で説明し、それに対して出来ていた、又は出来ていなかったという2値で表現している。
 なお、対話内容の評価は、2値で表現する場合に限らず、例えば、それぞれに対して数値で採点結果を示しても構わない。また、出力情報405では、「痛み」についての質問事項に対する採点状態を細かく表示してもよいし、あるいは、内部的に細かく採点しているいくつかの項目をまとめて「痛みについて確認できていた」などのように総括して表示してもよい。
(f)第6の例
 図14は、出力情報の第6の例を示している。
 図14において、出力情報406は、ディスプレイの画面に表示される折れ線グラフにより、採点計測時期と採点結果の時系列の変化を示している。
 出力情報406では、スキルA乃至Cの3つのスキルのそれぞれについて、例えば1年間などの所定の期間内での月単位での採点結果の変化が、折れ線グラフにより示されている。なお、採点結果の時系列の変化を示す際には、総合得点について示してもよいし、あるいは、個別のスキル項目や概略評価、内容評価について個別に表しても構わない。このように、現時点で得られた自己の解析結果に応じた出力情報とともに、過去に得られた自己の解析結果に応じた出力情報を表示することができる。
(g)第7の例
 図15は、出力情報の第7の例を示している。
 図15において、出力情報407は、ディスプレイの画面に表示される文章により、総括コメントを示している。
 出力情報407では、総括コメントとして、「全体的に傾聴姿勢をもって取り組めていますが、服薬指導など専門知識が十分に発揮できていません。患者さんに対して十分な情報を提供できるように心がけましょう。」のように、2文構成で出力されている。
 すなわち、この2文構成の出力では、前段の1文目で、1要素目として出来ていることを、2要素目として出来ていないことを出力する。また、その後段の2文目で、出来ていないことを改善するアドバイスを表示する。
 ここでは、文テンプレートとして、「全体的に、<要素1>取り組めていますが、<要素2>が十分に発揮できていません。<要素3>」といったものをあらかじめ用意しておくようにする。次に、1文目の1要素目は、図10の出力情報402で自己のスキル(スキルA乃至E)の中で最も高い評価になる、あるいは、平均に比べて乖離して強いと言えるスキル(例えばスキルD)を選択する。また、1文目の2要素目は、図10の出力情報402で自己のスキル(スキルA乃至E)の中で最も低い評価になる、あるいは、平均に比べて乖離して低いと言えるスキル(例えばスキルE)を選択する。
 また、具体的な事例として、それぞれのスキルに該当する個別項目で、特に評価の高いものを選択し、<要素1>に「傾聴姿勢をもって」、<要素2>に「服薬指導など専門知識」といったあらかじめ用意されたワードで、文テンプレートの文中に埋め込む。<要素3>は、<要素2>で選ばれたものに対してのアドバイスをあらかじめ用意しておき、その前段の文と当てはめる。
(知識の例)
 次に、図16乃至図20を参照して、特徴情報群処理部102の確認事項判定部115により用いられる第1知識データベース117に格納される知識情報の例を説明する。
(a)第1の例
 図16は、知識情報の第1の例を示している。
 図16において、知識情報501は、挨拶の採点に関する知識の例を示している。
 知識情報501では、シーンと対話行為と対話行為ごとの分類の3条件で、挨拶の採点を行う例を示している。この例では、知識情報501を用い、挨拶(GRT)である対話行為として、最初の導入部(Intro)のシーンで、「こんにちは(Hello)」に相当する挨拶をしたか、最後の終結(Closing)のシーンで、「さようなら(Goodbye)」に相当する挨拶をしたかを判定する。
 「こんにちは」と「さようなら」である挨拶をしたと判定された場合の配点は、それぞれ1点とされる。なお、シーンはシーン判定部106で、対話行為は対話行為推定部105で、対話行為ごとの分類は確認事項判定部115でそれぞれ判定される。
(b)第2の例
 図17は、知識情報の第2の例を示している。
 図17において、知識情報502は、自己紹介の採点に関する知識の例を示している。
 知識情報502では、シーンと対話行為と対話行為ごとの分類の3条件で、自己紹介の採点を行う例を示している。この例では、知識情報502を用い、最初の導入部(Intro)のシーンでの情報開示(DEC)である対話行為として、自己紹介の内容で、名前を言ったか、肩書を言ったか、名前と肩書きの両方を言ったかを判定する。
 自己紹介で名前を言ったと判定された場合の配点は2点、自己紹介で肩書を言ったと判定された場合の配点は1点、自己紹介で名前と肩書きの両方を言ったと判定された場合の配点は3点とされる。なお、シーンはシーン判定部106で、対話行為は対話行為推定部105で、対話行為ごとの分類は確認事項判定部115でそれぞれ判定される。
(c)第3の例
 図18は、知識情報の第3の例を示している。
 図18において、知識情報503は、アレルギーについて確認できたかの採点に関する知識の例を示している。
 知識情報503では、シーンと対話行為と対話行為ごとの分類の3条件で、アレルギーについて確認できたかの採点を行う例を示している。この例では、知識情報503を用い、問診(History Taking)のシーンでの質問(QUE)である対話行為として、質問タイプとして"YN"や"WHAT"を判定するとともに、アレルギーについての質問であることを判定する。ここで、"YN"は、Yes/No形式の質問を意味し、"WHAT"は、WHAT形式の質問を意味する。
 問診でYes/No形式とWHAT形式のアレルギーに関する質問をしたと判定された場合の配点は、それぞれ1点とされる。なお、シーンはシーン判定部106で、対話行為は対話行為推定部105で、対話行為ごとの分類は確認事項判定部115でそれぞれ判定される。
(d)第4の例
 図19は、知識情報の第4の例を示している。
 図19において、知識情報504は、症状について確認できたかの採点に関する知識の例を示している。
 知識情報504では、シーンと対話行為と対話行為ごとの分類の3条件で、症状について確認できたかの採点を行う例を示している。この例では、知識情報504を用い、問診(History Taking)のシーンでの質問(QUE)である対話行為として、質問タイプとして"WHEN"や"YN"を判定するとともに、湿疹の開始や湿疹の罹患についての質問であることを判定する。ここで、"WHEN"はWHEN形式の質問を意味し、"YN"は、Yes/No形式の質問を意味する。
 問診でWHEN形式とYes/No形式の湿疹の症状に関する質問をしたと判定された場合の配点は、それぞれ1点とされる。なお、シーンはシーン判定部106で、対話行為は対話行為推定部105で、対話行為ごとの分類は確認事項判定部115でそれぞれ判定される。
(e)第5の例
 図20は、知識情報の第5の例を示している。
 図20において、知識情報505は、共感の採点に関する知識の例を示している。
 知識情報505では、シーンと対話行為と対話行為ごとの分類の3条件で、共感の採点を行う例を示している。この例では、知識情報505を用い、任意のシーンでの願望(DSR)や挨拶(GRT)等の対話行為として回復や病人向けの共感をしたか、最後の終結(Closing)のシーンで「病人向けのさようなら(Goodbye)」に相当する挨拶をしたかを判定する。なお、図20の表において、シーンで「-」が記述されているレコードは、どのシーンでも構わないことを表している。
 回復や病人向けの共感をしたと判定された場合、及び「病人向けのさようなら」である挨拶をしたと判定された場合の配点は、それぞれ1点とされる。なお、シーンはシーン判定部106で、対話行為は対話行為推定部105で、対話行為ごとの分類は確認事項判定部115でそれぞれ判定される。
 なお、上述した知識情報のうち、知識情報501,502のようにどのような対話内容であっても、常に利用するような知識もあれば、知識情報503乃至505のように提供されたシナリオによって使用する知識を変える必要があるものがある。いわば、前者の知識情報は、固定的な表で表される知識であり、後者の知識情報は、動的な表で表される知識である。
(対話と解析の例)
 図21は、採点対象の話者と患者による対話とその解析の例を示している。
 図21においては、「話者」の列で"1"と"2"で区別される、採点対象の話者である第1話者と、患者である第2話者とが、「湿疹」と「塗り薬(コロイド)」に関する対話を行っているが、「発話」の列のうち、第1話者の発話が、解析対象となる。
 「シーン切り替え文」の列は、発話のうち、シーンを切り替えるトリガとなった文を含む発話に対し、丸印(○)を記述している。「シーン」の列には、導入部(Intro)、問診(History Taking)、説明(Explanation)、終結(Closing)などのシーンが付与されている。
 シーン判定部106では、各発話が、対話全体で想定されるシーンのいずれに属するかを判定する。また、シーン判定部106では、各発話から特徴語を検出するなどして、「シーン切り替え文」の列で丸印(○)を付しているような、シーンを切り替えるトリガとなる発話を検出する。
 具体的には、第1話者による「えー、では、先ほどコロイドについてのご相談でしたが、湿疹の症状について教えて下さい」である発話がトリガとして検出され、シーンが最初の導入部(Intro)から問診(History Talking)に切り替わっている。
 また、話者単位でシーンをまとめて扱う場合には、この見つけたシーン切り替え文から遡って、同一の話者の範囲に対してシーンを割り振るようにする。具体的には、第1話者による「先生のおっしゃる通り、ロコイドが良いと思います」である発話がトリガとして検出された場合、図中の上向きの矢印で示したように、このシーン切り替え文から遡って、第1話者の発話に対し、説明(Explanation)であるシーンが割り振られる。
 この例では、シーンの切り替えのポイントとなる文を見つける方法を示したが、特定のシーンに切り替わることを判定する方法など、他の方法を用いてもよい。例えば、第1話者の発話が、問診(History Taking)の開始ポイントとなる文を含むかどうかを判定する方法を用いることができる。あるいは、各文に対しシーン分類を機械学習し、各文のシーン分類推定結果を元に、全体のシーンの推定結果を元に複数の文の塊に対しシーンを判定する方法でもよい。あるいは、複数の文を入力として与え、その部分となる複数の文に対しシーンを判定する方法でもよい。
 次に、「対話行為」の列には、挨拶(GRT)、情報開示(DEC)、質問(QUE)、応答(RES)、願望(DSR)、及び依頼(REQ)などのラベルが付与されている。対話行為推定部105では、発話の内容から、挨拶等の対話行為を推定し、その推定結果に基づき、各文に対して、挨拶(GRT)等のラベルを付与する。
 次に、「対話行為ごとの分類」には、質問(QUE)、情報開示(DEC)、挨拶(GRT)、応答(RES)、依頼(REQ)、及び願望(DSR)であるラベルの列ごとに、確認事項の判定結果が記述されている。ただし、質問(QUE)と情報開示(DEC)には、タイプと内容の組み合わせからなる。
 確認事項判定部115では、採点対象の話者である第1話者が、患者である第2話者から特定の情報を聞き出して、質問(QUE)や情報開示(DEC)等の確認事項を確認したかを判定する。
 具体的には、導入部(Intro)において、第1話者による「こんにちは」である発話から、対話行為として、"Hello"である挨拶(GRT)が行われたことが判定される。また、第1話者による「本日担当の薬剤師です」である発話から、"自己紹介"で"肩書き"である情報開示(DEC)がなされ、「今日はどうされましたか」である発話から、"来院"の"理由"である質問(QUE)がなされたと判定される。
 また、導入部(Intro)において、第1話者による「なるほど」と「分かりました」である発話から、"相槌"である応答(RES)がなされたと判定される。さらに、第1話者による「早く良くなるようにしたいですね」である発話から、"回復"である願望(DSR)がなされ、「それではこちらにおかけください」である発話から、"着席"である依頼(REQ)がなされたと判定される。
 その後、問診(History Talking)において、第1話者による「えー、では、先ほどコロイドについてのご相談でしたが、湿疹の症状について教えて下さい」である発話から、"説明"である依頼(REQ)がなされたと判定される。また、第1話者による「いつ頃始まりましたか?」である発話から、"When"の"開始(湿疹)"である質問(QUE)がなされたと判定される。
 また、問診(History Talking)において、第1話者による「今までかかったことがありますか?」と「何かアレルギーがありますか?」である発話から、"YN"の"罹患(湿疹)"又は"アレルギー"である質問(QUE)がなされたと判定される。
 その後、説明(Explanation)において、第1話者による「なるほど」である発話から、"相槌"である応答(RES)がなされ、「ありがとうございます」である発話から、"Thanks"である挨拶(GRT)がなされたと判定される。また、第1話者による「1ヶ月ほど前から湿疹が続いていて、今まで治療はされていないということですね」である発話から、"確認"として"情報整理"である情報開示(DEC)がなされたと判定される。
 また、説明(Explanation)において、第1話者による「先生のおっしゃる通り、ロコイドが良いと思います」である発話から、"薬の選択"である情報開示(DEC)がなされたと判定される。また、第1話者による「使い方についてご説明します」と「使う前には手を石鹸で洗ってください」である発話から、"服薬指導"である情報開示(DEC)がなされたと判定される。
 そして、終結(Closing)において、第1話者による「お大事に」である発話から、"病気の人向けのGoodbye"である挨拶(GRT)が行われたことが判定される。
 以上のようにして、採点対象の話者と患者による対話が、第1知識データベース117に格納される知識情報を参照しながら解析されて、シーンと対話行為と対話行為ごとの分類の3条件で判定され、その判定結果に応じた配点から得られる採点スコアが取得される。
 なお、確認事項判定部115では、各ラベルを、図21の例のように対話行為ごとの分類として扱ってもよいし、あるいは、対話行為の下位概念としてではなく、対話行為とは独立したラベルとして用意しても構わない。また、質問(QUE)や情報開示(DEC)として示したように、タイプと内容の組み合わせで解析してもよし、あるいは、挨拶(GRT)等のように、単一のラベルを割り振るといった方法でも構わない。
 さらに、図21の例では、シーンと対話行為と対話行為ごとの分類の3条件を用いた場合を例示したが、シーンは必ずしも必須ではなく、少なくとも対話行為と対話行為ごとの分類の2条件を用いていればよい。
(条件設定の例)
 次に、図22乃至図29を参照して、確認事項判定部115により用いられる第1知識データベース117に格納される設定情報の例を説明する。この設定情報では、採点対象の話者が話しかける相手(患者)の条件設定を行う場合に、その条件設定に関する情報が含まれる。
(a)第1の例
 図22乃至図24は、設定情報の第1の例を示している。
 図22乃至図24において、設定情報801乃至803は、患者の背景に関する設定の例を示している。この患者の背景の設定では、年齢、性別、アレルギー、家族の病歴、既往歴、妊娠、授乳、喫煙、アルコール、服薬などの属性に対する値と、詳細な値が設定される。
 例えば、図22の設定情報801では、ある幼児(女の子)の背景として、卵アレルギーがあることや、小児喘息にかかっていることなどが設定されている。また、図23の設定情報802では、ある成人女性の背景として、これまでに大きな病気にかかったことがなく、週3回、500ml程度飲酒することなどが設定されている。また、図24の設定情報803では、ある成人男性の背景として、高血圧の病歴と、花粉のアレルギーがあり、週3回、500ml程度飲酒することなどが設定されている。
(b)第2の例
 図25は、設定情報の第2の例を示している。
 図25において、設定情報804は、属性ごとの値により変化する質問量や知識についての例を示している。設定情報804では、図22乃至図24に示した属性ごとの対応知識への影響度として、属性ごとの値によって変化する質問量や知識などの例を示している。
 例えば、年齢である属性に関して、子供(0~18歳)、大人(18~65歳)、高齢者(65歳~)の別で、対応知識への影響度が異なる。また、患者の性別が女性の場合には、採点対象の話者が聞くべき質問が増えるが、その質問は、妊娠、授乳の有無など定型的に決まる質問群であり、それに対する質問を解釈し採点できればよい。
 また、アレルギーや既往歴、服薬などがある患者の場合、採点対象の話者には個別知識が必要となる。家族の病歴、喫煙、アルコールがある場合、採点対象の話者が聞くべき質問が増える。
(c)第3の例
 図26は、設定情報の第3の例を示している。
 図26において、設定情報805は、個別知識の例を示している。図22の設定情報801では、ある幼児の背景として、卵アレルギーがあることが設定されていたが、採点対象の話者が聞くべき項目として、摂取した際のアレルギーの程度や何歳頃に発症したか、何か特別な療法や服薬をしているかなど聞くべき項目があり、猫アレルギーなどとは対応が異なる、といった場合に相当し、値ごとに個別知識を用意することが想定される。
 設定情報805では、ある幼児の卵アレルギーに関して、蕁麻疹の程度は軽く、卵を食べた30分後に出ることと、発症してから7ヶ月程度であること、何か特別な療法や服薬はしていないことなどが設定されている。
(d)第4の例
 図27,図28は、設定情報の第4の例を示している。
 図27,図28において、設定情報806,807は、あらかじめ指定されたシナリオ(問題)に基づき、知識が異なるタイプの採点対象の話者が話しかける相手(患者)の条件設定の例を示している。この患者のタイプの設定では、湿疹という病気(症状)である前提で話をする際の属性として、開始時期、罹患有無、及び部位といった属性に対し、それぞれ値が設定されている。
 例えば、図27の設定情報806では、ある湿疹患者のタイプとして、開始時期が1年前で、罹患はなく、発症部位は顔であることなどが設定されている。また、図28の設定情報807では、ある湿疹患者のタイプとして、開始時期が1ヶ月前で、罹患しており、発症部位は背中であることなどが設定されている。
(e)第5の例
 図29は、設定情報の第5の例を示している。
 図29において、設定情報808は、属性ごとの値によって変化する質問量や知識についての例を示している。設定情報808では、図27,図28に示した属性ごとの対応知識への影響度として、属性ごとの値によって変化する質問量や知識などの例を示している。
 設定情報808では、開始時期と部位は変化せず、罹患がある場合のみ質問が増えるとなっているが、例えば、いつ頃(何歳ごろ)にかかったことがあるか、といった定型的に決まる質問群が含まれる。
 以上、第1の実施の形態では、本技術を適用した情報処理装置として、対話に関する採点を行う対話採点装置を中心に説明し、人間(採点対象の話者)が、人間(患者)と対話を行う場合に、その人間(採点対象の話者)の発話の評価(対話の採点)を行う事例を説明した。
 なお、第1の実施の形態では、人間(採点対象の話者)が、人間(患者)と対話する場合を中心に説明したが、対話の相手は人間に限らず、機械(擬人エージェント、キャラクタ、アバタ、又はチャットボットなどを含む)と会話を行う場合で、その人間の発話の評価を行うようにしても構わない。
<2.第2の実施の形態>
(装置の構成)
 図30は、本技術を適用した情報処理装置の一実施の形態の他の構成例を示している。
 図30において、情報処理装置は、ユーザ(話者)の対話スキルの評価を行うに際して応答を返すことが可能な応答生成装置として構成される。この情報処理装置は、図1の構成と比べて、音声認識部201のほかに、応答生成部601、第2知識データベース602、及び音声合成部603をさらに有している。
 応答生成部601は、入力文(テキストデータ)に対し、特徴情報群処理部102からの採点に用いる特徴情報群を用いながら、応答文(応答テキストデータ)を生成し、音声合成部603に供給する。応答生成部601は、第2知識データベース602に格納された応答用の知識情報を用いても構わない。
 例えば、第2知識データベース602に、自分の名前や既病歴などの知識情報を保持しておくことで、質問に答える際にこの知識情報を利用することができる。なお、このときの知識情報が、第1知識データベース117に格納された知識情報や設定情報と同一であってもよい。
 例えば、図18の知識情報503におけるYes/No形式のアレルギーに関する質問は、図22乃至図24の設定情報801乃至803におけるアレルギーの値を回答することに相当し、この値のあり/なしを、Yes/Noの回答に用いることができる。さらに、この値が"あり"の場合の詳細な値の"卵"は、図18の知識情報503におけるWHAT形式のアレルギーに関する質問の回答に相当する。
 このような処理が可能となるのは、採点時に用いる判定条件とその判定条件に設定された値を回答するのに使える形で、第1知識データベース117と第2知識データベース602が同一の知識の形で保持されている場合とされる。
 あるいは、特定の発話内容に関しては、特定の応答メッセージを返すような知識でもよい。例えば、「何かアレルギーはありますか」と聞かれたら、「卵です」と答えるような単純な知識でもよい。あるいは、特定の対話行為に対し、何らかの応答を用意しておくなど、特徴に対する応答でもよい。例えば、依頼(REQ)に対しては、必ず、「はい」と相槌を打つような応答でもよい。なお、上記の様々な応答方法の複数の組み合わせであっても構わない。
 音声合成部603は、応答生成部601から供給される応答テキストデータを音声データに変換し、出力部104に供給する。音声合成部603では、テキストから音声への変換に際して、声色などを指定できるようにしてもよい。出力部104は、音声合成部603から供給される音声データに応じた音声(音)を、スピーカなどから出力する。
(処理の流れ)
 次に、図31のフローチャートを参照して、図30の情報処理装置により実行される第3の処理の流れを説明する。
 ステップS301乃至S303においては、図7のステップS101乃至S103と同様に、入力されたテキストTiが分割され、処理対象の分割テキストtjに対し、当該構成要素それぞれから1つ以上の分類名とそのスコアが出力結果として得られる。ステップS303が終了すると、処理は、ステップS304に進められる。
 ステップS304では、応答生成部601が、複数の構成要素の出力結果の組み合わせに該当する、第2知識データベース602の項目を検索し、そこから得られる応答値を取得する。
 ステップS305では、応答生成部601が、複数の構成要素の出力結果の組み合わせに該当する、あるいは、入力テキストに対応する応答パターンを生成する際に、取得した応答値を利用して応答文を生成する。
 すなわち、ステップS304,S305は、図7のステップS104の処理を具体化したもので、得られる値として、応答値が取得される例であって、ステップS304の処理で取得された応答値を用いて、応答生成部601で応答文を生成する際に、当該応答値を埋め込んだり、そこからさらに第2知識データベース602の項目を検索した結果を用いたりして、応答文全体を生成することができる。
 ステップS306,S307においては、図7のステップS105,S106と同様に、処理対象の入力テキストTiに対し、ステップS301乃至S307の処理が繰り返され、さらに、処理対象の分割テキストtjに対し、ステップS303乃至S306の処理が繰り返される。
 ステップS301で受け付けた入力テキストTiに対する処理が終了して、ステップS307の判定処理で、i = N であると判定された場合、処理は、ステップS308に進められる。ステップS308においては、出力情報として、応答テキストデータが音声データに変換され、その音声が出力される。
 すなわち、話者の対話スキルの評価を行うに際して、応答生成装置等の機械が、音声により応答を返すことになる。このとき、擬人エージェント、キャラクタ、アバタなどを表示して、それらが音声により応答を返すようにしてもよい。ただし、ここでは、テキストから音声への変換を行わずに、応答テキストデータに応じた応答文が、チャットボットなどとして表示されるようにしても構わない。このように、物体(人の顔又は全身等を含む)の静止画、動画、又はCG(Computer Graphics)などが、応答文とともに、出力情報として出力されることになる。
 なお、図31においても、文分割部116を設けた図3の構成に対応した処理の流れを説明したが、図1の構成に対応する場合には、ステップS302の処理をスキップして、n=1と読み替えればよい。
 以上、第3の処理の流れを説明した。この第3の処理は、上述した図7の第1の処理を具体化した処理であり、図7のステップS104の処理で得られる値として、応答値を取得するものである。
 以上、第2の実施の形態では、本技術を適用した情報処理装置として、対話に関する応答の生成を行う応答生成装置を中心に説明し、人間(採点対象の話者)の対話スキルの評価を行う際に、機械が応答を返す事例を説明した。
<3.変形例>
(システムの構成)
 上述した説明では、対話採点装置や応答生成装置等の情報処理装置が、単独の装置として構成されるとして説明したが、インターネット等のネットワークを介して複数の装置から構成されるようにしても構わない。
 図32は、本技術を適用した情報処理システムの一実施の形態の構成例を示している。
 図32において、情報処理システムは、情報処理装置10と情報処理装置20から構成される。情報処理装置10と情報処理装置20は、ネットワーク30を介して相互に接続される。
 情報処理装置10は、PC(Personal Computer)、タブレット型端末、スマートフォン、専用の端末などの機器であり、対話採点装置や応答生成装置等として構成される。情報処理装置10は、処理部11、通信部12、入力部101、及び出力部104から構成される。
 処理部11は、各部の動作の制御や各種の演算処理を行う中心的な制御装置(処理装置)である。処理部11は、CPU(Central Processing Unit)等のプロセッサから構成される。
 処理部11は、図1の構成のうち、特徴情報群処理部102及びスコア計算部103のうち、少なくとも1つの構成要素を含む。なお、図3に示したように、処理部11は、文分割部116を含んでも構わない。
 また、図4に示したように、処理部11は、特徴情報群処理部102及びスコア計算部103のほかに、音声認識部201、音声特徴情報群処理部202、及び画像特徴情報群処理部203のうち、少なくとも1つの構成要素を含んでもよい。さらに、図30に示したように、処理部11は、特徴情報群処理部102及びスコア計算部103のほかに、応答生成部601及び音声合成部603のうち、少なくとも1つの構成要素を含んでもよい。
 通信部12は、処理部11からの制御に従い、ネットワーク30を介して、情報処理装置20等の他の機器と通信を行う。通信部12は、無線LAN(Local Area Network)などの無線通信や、セルラー方式の通信(例えばLTE-Advancedや5G等)、又は有線通信に対応した通信モジュールとして構成される。
 入力部101と出力部104は、上述した図1等の入力部101と出力部104に対応しているが、処理部11に含まれるようにしてもよい。
 また、入力部101は、入力インタフェースや各種の処理部を含んで構成されるほか、マイクロフォン、カメラ、センサなどの入力デバイスを含んで構成されてもよい。出力部104は、各種の制御部や出力インタフェースを含んで構成されるほか、ディスプレイ、スピーカ、プロジェクタなどの出力デバイスを含んで構成されてもよい。なお、これらの入力デバイスと出力デバイスは、外部装置として設けても構わない。
 情報処理装置20は、処理部21、通信部22、及びデータベース23から構成される。
 処理部21は、各部の動作の制御や各種の演算処理を行う中心的な制御装置(処理装置)である。処理部21は、CPU等のプロセッサから構成される。
 処理部21は、図1の構成のうち、特徴情報群処理部102及びスコア計算部103のうち、少なくとも1つの構成要素を含む。なお、図3に示したように、処理部21は、文分割部116を含んでも構わない。また、処理部21は、入力部101と出力部104の一部の機能を含んでも構わない。
 また、図4に示したように、処理部21は、特徴情報群処理部102及びスコア計算部103のほかに、音声認識部201、音声特徴情報群処理部202、及び画像特徴情報群処理部203のうち、少なくとも1つの構成要素を含んでもよい。さらに、図30に示したように、処理部21は、特徴情報群処理部102及びスコア計算部103のほかに、応答生成部601及び音声合成部603のうち、少なくとも1つの構成要素を含んでもよい。
 すなわち、情報処理装置20側の処理部21では、全ての構成要素のうち、情報処理装置10側の処理部11に設けられた構成要素を除いた構成要素が設けられる。
 通信部22は、処理部21からの制御に従い、ネットワーク30を介して、情報処理装置10等の他の機器と通信を行う。通信部22は、無線LANなどの無線通信や、セルラー方式の通信、又は有線通信に対応した通信モジュールとして構成される。
 データベース23は、HDD(Hard Disk Drive)や半導体メモリ等から構成される補助記憶装置に記憶される。データベース23は、内部ストレージとして構成されてもよいし、外部ストレージであってもよい。
 データベース23は、図1等の第1知識データベース117、図3等のスコア記憶部118、及び図30等の第2知識データベース602を含む。なお、データベース23の一部又は全部を、情報処理装置10側に設けても構わない。
 ネットワーク30は、インターネット、イントラネット、又は携帯電話網などの通信網を含んで構成され、TCP/IP(Transmission Control Protocol / Internet Protocol)等の通信プロトコルを用いた機器間の相互接続を可能にしている。
(採点対象の他の例)
 上述した説明では、採点対象の話者による患者との対話を採点して、試験や対人スキルのトレーニング等に用いる例を説明したが、例えば、特定の品物を売る営業職を対象として顧客との対話に関する対人トレーニングに用いたり、ホテルのレストランでの接客作業を担当する従業員を対象として客との対話に関する対人トレーニングに用いたり、幼児や高齢者などの特定のカテゴリの相手に話す保育や介護などの対人トレーニングに用いたりしても構わない。第1知識データベース117や第2知識データベース602には、対人トレーニングの内容に応じた知識情報等の情報が格納される。
(機械学習の例)
 上述した機械学習の方法としては、例えば、ニューラルネットワークや、ディープラーニング(深層学習)が用いられる。
 ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層(隠れ層)、出力層の3種類の層からなる。また、ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。
 また、機械学習の問題設定には、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等がある。教師あり学習では、与えられたラベル付きの学習データ(教師データ)に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。
 なお、上述した説明では、画像に関する説明を行ったが、映像は、複数の画像フレームから構成されるものであるため、「画像」を、「映像」と読み替えても構わない。
 以上のように、本技術を適用した情報処理装置では、複数の話者(例えば採点対象の話者と患者)の発話に関する入力データ(例えばテキストデータ、音声データ、又は画像データ)に基づいて、対話行為(例えば挨拶(GRT)や情報開示(DEC)等)とその対話行為ごとの分類(例えばこんにちは(Hello)/さようなら(Goodbye)や、自己紹介/名前、肩書等)が解析され、対象の話者の解析結果に応じた出力情報(例えば図9乃至図15の出力情報401乃至407)が生成される。これにより、対人コミュニケーションに関する情報として、より有用な情報を提供することができる。
 なお、上述した特許文献1では、コールセンタのオペレータと顧客の会話をコールセンタの特徴に合わせて評価できる方法として、評価パラメータの入力を元に採点を行うものとしている。また、採点時には、言語分析、対話分析、及び感情分析を行うとしている。対話分析では、発話割合、沈黙、話速を検出し、時間などの数値化を行ったものである。感情分析は、声の高さ、音量などを用い、声のはり、活舌、声の大きさ、高さなどを数値化したものである。言語分析では、キーワード、アクセントなどである。
 感情分析は音響情報を元に、また、対話分析は時間情報又は話者による判定を想定している。しかしながら、これらの分析からは、会話の表面的な様子はうかがい知ることができるものの、発話内容や発話の表現スタイルによる情報は考慮されない。また、言語分析でキーワードなど単語量を想定しているが、これらからは特徴的な単語の出現の有無や頻度しか分からず、発話内容や発話の表現スタイルによる文や対話の流れによって表現される情報は考慮できない。本技術を適用した情報処理装置では、テキスト情報を対象に、言及すべき内容を適切に話したかや表現方法による印象など、様々な情報を考慮した採点を行うことができる。
 例えば、医療現場の専門職については、医師、看護師、薬剤師などでは、客観的臨床能力試験(OSCE:Objective Structured Clinical Examination)という試験の中で、対人コミュニケーションに関する試験がある。また、営業職では、売る品物によってどのような説明の仕方や振る舞い方が好ましいかという方向性が異なる。さらに、幼児や高齢者など特定のカテゴリの相手に話す保育や介護、あるいは医療従事者において、好ましい表現方法や話し方がある。このように様々な職種ごとに、様々な対人スキルをトレーニングする必要があり、対人トレーニングはコストが高くまた何を直すべきかを客観的に評価することが一人では難しい。また、スピーチの練習など比較的一方通行の対話に関しても、練習相手と評価を行うのに一人では難しい。
 そこで、本技術を適用した情報処理装置では、様々な対人スキルを測定し採点できるように、様々な観点の特徴の測定とターゲットとなる対人スキルに向けた指標の重要度を鑑みた採点を可能にしている。
<4.コンピュータの構成>
 上述した情報処理装置の一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。
 図33は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、入力部1006、出力部1007、記憶部1008、通信部1009、及び、ドライブ1010が接続されている。
 入力部1006は、マイクロフォン、キーボード、マウスなどよりなる。出力部1007は、スピーカ、ディスプレイなどよりなる。記憶部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインタフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体1011を駆動する。
 以上のように構成されるコンピュータでは、CPU1001が、ROM1002や記憶部1008に記録されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものでもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されてもよい。
 さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートの各ステップは、1つの装置で実行するほか、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行するほか、複数の装置で分担して実行することができる。
 また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 なお、本技術は、以下のような構成をとることができる。
(1)
 複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
 対象の話者の解析結果に応じた出力情報を生成する
 処理部を備える
 情報処理装置。
(2)
 前記処理部は、
  前記発話がなされたシーンをさらに解析し、
  前記シーン、前記対話行為、及び前記分類の解析結果に応じた出力情報を生成する
 前記(1)に記載の情報処理装置。
(3)
 前記処理部は、
  対象の話者の解析結果に基づいて、採点スコアを取得し、
  取得した前記採点スコアに応じた出力情報を生成する
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記処理部は、
  対象の話者の解析結果に基づいて、応答値を取得し、
  取得した前記応答値に応じた出力情報を生成する
 前記(1)又は(2)に記載の情報処理装置。
(5)
 前記処理部は、
  話者による対話行為を推定する対話行為推定部と、
  対話全体で想定されるシーンのいずれに属するかを判定するシーン判定部と、
  前記分類に応じて、採点対象の第1の話者が第2の話者に対して確認すべき事項を確認したかを判定する確認事項判定部と
 を含む特徴情報群処理部を有する
 前記(2)乃至(4)のいずれかに記載の情報処理装置。
(6)
 前記特徴情報群処理部は、
  専門用語を含む特定の表現に応じた難易度を測定する難易度測定部、
  共感語彙を含む特定の表現に応じた共感度を測定する共感度測定部、
  敬語又は丁寧語を含む特定の表現に応じた丁寧度を測定する丁寧度測定部、
  間又は相槌を含む特定の動作に応じた理解度の確認状況を判定する理解度確認状況判定部、
  シーンを切り替えるに際して当該切り替えの適切度を判定するシーン切り替え適切度判定部、
  発話の表現に応じた大人度を測定する大人度測定部、
  発話の表現に応じた性別指向性を判定する性別指向性判定部、及び、
  発話の表現に応じた性格指向性を判定する性格指向性判定部
 のうち、少なくとも1つをさらに含む
 前記(5)に記載の情報処理装置。
(7)
 前記処理部は、
  前記採点スコアを用いて、スコアを計算するスコア計算部を有し、
  計算した前記スコアに応じた出力情報を生成する
 前記(3)に記載の情報処理装置。
(8)
 前記処理部は、
  前記入力データを入力する入力部と、
  前記出力情報を生成して出力する出力部と
 をさらに有する前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記入力データは、テキストデータを含み、
 前記処理部は、入力された前記テキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
 前記(8)に記載の情報処理装置。
(10)
 前記処理部は、
  入力された前記テキストデータに基づいて、テキストを文単位に分割する文分割部をさらに有し、
  分割したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
 前記(9)に記載の情報処理装置。
(11)
 前記入力データは、音声データを含み、
 前記処理部は、
  入力された前記音声データを、テキストデータに変換する音声認識部をさらに有し、
  変換したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
 前記(8)に記載の情報処理装置。
(12)
 前記入力データは、音声データを含み、
 前記処理部は、
  入力された前記音声データに基づいて、発話の音声に関する解析を行う音声特徴情報群処理部をさらに有し、
  発話の音声の解析結果に応じた出力情報を生成する
 前記(8)に記載の情報処理装置。
(13)
 前記入力データは、画像データを含み、
 前記処理部は、
  入力された前記画像データに基づいて、画像に含まれる話者に関する解析を行う画像特徴群処理部をさらに有し、
  画像に含まれる話者の解析結果に応じた出力情報を生成する
 前記(8)に記載の情報処理装置。
(14)
 前記出力部は、前記出力情報を、数値、文章、表、グラフ、及び図形のうち、少なくとも1つを含む所定の表示形式で表示するように表示を制御する
 前記(8)に記載の情報処理装置。
(15)
 前記出力部は、現時点で得られた自己の解析結果に応じた出力情報とともに、過去に得られた自己の解析結果に応じた出力情報、又は他人の解析結果に応じた出力情報を表示する
 前記(14)に記載の情報処理装置。
(16)
 前記処理部は、
  前記応答値を用いて、応答文を生成する応答生成部をさらに有し、
  生成した前記応答文に応じた出力情報を生成する
 前記(4)に記載の情報処理装置。
(17)
 前記処理部は、
 前記応答文を音声合成する音声合成部をさらに有し、
 音声合成で得られた合成音が、前記出力情報として出力される
 前記(16)に記載の情報処理装置。
(18)
 物体の静止画、動画、又はCGが、前記応答文とともに、前記出力情報として出力される
 前記(16)又は(17)に記載の情報処理装置。
(19)
 情報処理装置が、
 複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
 対象の話者の解析結果に応じた出力情報を生成する
 情報処理方法。
(20)
 コンピュータを、
 複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
 対象の話者の解析結果に応じた出力情報を生成する
 処理部を備える
 情報処理装置として機能させるプログラム。
 10,20 情報処理装置, 30 ネットワーク, 11 処理部, 12 通信部, 21 処理部, 22 通信部, 23 データベース, 101 入力部, 102 特徴情報群処理部, 103 スコア計算部, 104 出力部, 105 対話行為推定部, 106 シーン判定部, 107 難易度測定部, 108 共感度測定部, 109 丁寧度測定部, 110 理解度確認状況判定部, 111 シーン切替適切度判定部, 112 大人度測定部, 113 性別指向性判定部, 114 性格指向性判定部, 115 確認事項判定部, 116 文分割部, 117 第1知識データベース, 118 スコア記憶部, 201 音声認識部, 202 音声特徴情報群処理部, 203 画像特徴情報群処理部, 204 音量判定部, 205 第1感情判定部, 206 話速測定部, 207 笑顔判定部, 208 目線判定部, 209 第2感情判定部, 601 応答生成部, 602 第2知識データベース, 603 音声合成部, 1001 CPU

Claims (20)

  1.  複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
     対象の話者の解析結果に応じた出力情報を生成する
     処理部を備える
     情報処理装置。
  2.  前記処理部は、
      前記発話がなされたシーンをさらに解析し、
      前記シーン、前記対話行為、及び前記分類の解析結果に応じた出力情報を生成する
     請求項1に記載の情報処理装置。
  3.  前記処理部は、
      対象の話者の解析結果に基づいて、採点スコアを取得し、
      取得した前記採点スコアに応じた出力情報を生成する
     請求項1に記載の情報処理装置。
  4.  前記処理部は、
      対象の話者の解析結果に基づいて、応答値を取得し、
      取得した前記応答値に応じた出力情報を生成する
     請求項1に記載の情報処理装置。
  5.  前記処理部は、
      話者による対話行為を推定する対話行為推定部と、
      対話全体で想定されるシーンのいずれに属するかを判定するシーン判定部と、
      前記分類に応じて、採点対象の第1の話者が第2の話者に対して確認すべき事項を確認したかを判定する確認事項判定部と
     を含む特徴情報群処理部を有する
     請求項2に記載の情報処理装置。
  6.  前記特徴情報群処理部は、
      専門用語を含む特定の表現に応じた難易度を測定する難易度測定部、
      共感語彙を含む特定の表現に応じた共感度を測定する共感度測定部、
      敬語又は丁寧語を含む特定の表現に応じた丁寧度を測定する丁寧度測定部、
      間又は相槌を含む特定の動作に応じた理解度の確認状況を判定する理解度確認状況判定部、
      シーンを切り替えるに際して当該切り替えの適切度を判定するシーン切り替え適切度判定部、
      発話の表現に応じた大人度を測定する大人度測定部、
      発話の表現に応じた性別指向性を判定する性別指向性判定部、及び、
      発話の表現に応じた性格指向性を判定する性格指向性判定部
     のうち、少なくとも1つをさらに含む
     請求項5に記載の情報処理装置。
  7.  前記処理部は、
      前記採点スコアを用いて、スコアを計算するスコア計算部を有し、
      計算した前記スコアに応じた出力情報を生成する
     請求項3に記載の情報処理装置。
  8.  前記処理部は、
      前記入力データを入力する入力部と、
      前記出力情報を生成して出力する出力部と
     をさらに有する請求項1に記載の情報処理装置。
  9.  前記入力データは、テキストデータを含み、
     前記処理部は、入力された前記テキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
     請求項8に記載の情報処理装置。
  10.  前記処理部は、
      入力された前記テキストデータに基づいて、テキストを文単位に分割する文分割部をさらに有し、
      分割したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
     請求項9に記載の情報処理装置。
  11.  前記入力データは、音声データを含み、
     前記処理部は、
      入力された前記音声データを、テキストデータに変換する音声認識部をさらに有し、
      変換したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
     請求項8に記載の情報処理装置。
  12.  前記入力データは、音声データを含み、
     前記処理部は、
      入力された前記音声データに基づいて、発話の音声に関する解析を行う音声特徴情報群処理部をさらに有し、
      発話の音声の解析結果に応じた出力情報を生成する
     請求項8に記載の情報処理装置。
  13.  前記入力データは、画像データを含み、
     前記処理部は、
      入力された前記画像データに基づいて、画像に含まれる話者に関する解析を行う画像特徴群処理部をさらに有し、
      画像に含まれる話者の解析結果に応じた出力情報を生成する
     請求項8に記載の情報処理装置。
  14.  前記出力部は、前記出力情報を、数値、文章、表、グラフ、及び図形のうち、少なくとも1つを含む所定の表示形式で表示するように表示を制御する
     請求項8に記載の情報処理装置。
  15.  前記出力部は、現時点で得られた自己の解析結果に応じた出力情報とともに、過去に得られた自己の解析結果に応じた出力情報、又は他人の解析結果に応じた出力情報を表示する
     請求項14に記載の情報処理装置。
  16.  前記処理部は、
      前記応答値を用いて、応答文を生成する応答生成部をさらに有し、
      生成した前記応答文に応じた出力情報を生成する
     請求項4に記載の情報処理装置。
  17.  前記処理部は、
     前記応答文を音声合成する音声合成部をさらに有し、
     音声合成で得られた合成音が、前記出力情報として出力される
     請求項16に記載の情報処理装置。
  18.  物体の静止画、動画、又はCGが、前記応答文とともに、前記出力情報として出力される
     請求項16に記載の情報処理装置。
  19.  情報処理装置が、
     複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
     対象の話者の解析結果に応じた出力情報を生成する
     情報処理方法。
  20.  コンピュータを、
     複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
     対象の話者の解析結果に応じた出力情報を生成する
     処理部を備える
     情報処理装置として機能させるプログラム。
PCT/JP2021/005167 2020-02-28 2021-02-12 情報処理装置、情報処理方法、及びプログラム WO2021172039A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-034198 2020-02-28
JP2020034198A JP2021135960A (ja) 2020-02-28 2020-02-28 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2021172039A1 true WO2021172039A1 (ja) 2021-09-02

Family

ID=77491492

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/005167 WO2021172039A1 (ja) 2020-02-28 2021-02-12 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2021135960A (ja)
WO (1) WO2021172039A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861680A (zh) * 2022-05-27 2022-08-05 马上消费金融股份有限公司 对话处理方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7313518B1 (ja) 2022-07-07 2023-07-24 株式会社エクサウィザーズ 評価方法、評価装置、および、評価プログラム
WO2024203147A1 (ja) * 2023-03-31 2024-10-03 ソニーグループ株式会社 情報処理システム及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015178078A1 (ja) * 2014-05-22 2015-11-26 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2019021157A (ja) * 2017-07-20 2019-02-07 凸版印刷株式会社 情報提示システム、情報提示方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015178078A1 (ja) * 2014-05-22 2015-11-26 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2019021157A (ja) * 2017-07-20 2019-02-07 凸版印刷株式会社 情報提示システム、情報提示方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114861680A (zh) * 2022-05-27 2022-08-05 马上消费金融股份有限公司 对话处理方法及装置
CN114861680B (zh) * 2022-05-27 2023-07-25 马上消费金融股份有限公司 对话处理方法及装置

Also Published As

Publication number Publication date
JP2021135960A (ja) 2021-09-13

Similar Documents

Publication Publication Date Title
WO2021172039A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Bull Posture & Gesture: Posture & Gesture
Waitzkin et al. Narratives of aging and social problems in medical encounters with older persons
Kavakli et al. Towards the development of a virtual counselor to tackle students' exam stress
Cohn et al. Expressiveness Influences Human Vocal Alignment Toward voice-AI.
Walker et al. Using ASR technology in language training for specific purposes: A perspective from Quebec, Canada
Boumans et al. Voice-enabled intelligent virtual agents for people with amnesia: Systematic review
Maharjan et al. What is the difference? investigating the self-report of wellbeing via conversational agent and web app
Lyakso et al. Recognition of the emotional state of children with down syndrome by video, audio and text modalities: human and automatic
Rykova et al. AphaDIGITAL–Digital Speech Therapy Solution for Aphasia Patients with Automatic Feedback Provided by a Virtual Assistant
KR20160142949A (ko) 컨택 센터를 위한 감성 분석 장치 및 그 방법
Graci Towards an extended notion of Common Ground in aphasiology
Rydeman The growth of phrases. User-centred design for activity-based voice output communication aids
Grant Participant-created documents as an elicitation tool: Things we might not have otherwise been told
Hyppa-Martin et al. A large-scale comparison of two voice synthesis techniques on intelligibility, naturalness, preferences, and attitudes toward voices banked by individuals with amyotrophic lateral sclerosis
Orii et al. Designing for Speech Practice Systems: How Do User-Controlled Voice Manipulation and Model Speakers Impact Self-Perceptions of Voice?
Alghowinem et al. Beyond the words: analysis and detection of self-disclosure behavior during robot positive psychology interaction
Frankowska et al. Rear negativity: Verbal messages coming from behind are perceived as more negative
Desai et al. Understanding and Enhancing The Role of Speechreading in Online d/DHH Communication Accessibility
Gamel Performing Sex, Gender and Power in Roman Elegy
Pennington et al. Beyond the Language Classroom: Wider Applications of Pronunciation Research and Practice
May A person-centred AAC intervention to support interpersonal interaction in persons with dementia: An exploratory study
Akter et al. Toward Effective Communication of AI-Based Decisions in Assistive Tools: Conveying Confidence or Doubt to People with Visual Impairments at Accelerated Speech
Martini et al. “I Am All-Inclusive.” But Not Really: An Exploration on the Influence of Gender and Conversational Contexts on Intelligent Voice Assistants.
Wagnon The shaping of motherhood: How raising a child who stutters impacts identity

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21760974

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21760974

Country of ref document: EP

Kind code of ref document: A1