WO2023286224A1 - 会話処理プログラム、会話処理システムおよび会話型ロボット - Google Patents

会話処理プログラム、会話処理システムおよび会話型ロボット Download PDF

Info

Publication number
WO2023286224A1
WO2023286224A1 PCT/JP2021/026535 JP2021026535W WO2023286224A1 WO 2023286224 A1 WO2023286224 A1 WO 2023286224A1 JP 2021026535 W JP2021026535 W JP 2021026535W WO 2023286224 A1 WO2023286224 A1 WO 2023286224A1
Authority
WO
WIPO (PCT)
Prior art keywords
response
conversation
evaluation
song
negative
Prior art date
Application number
PCT/JP2021/026535
Other languages
English (en)
French (fr)
Inventor
和也 高橋
洋輝 森
弘太郎 重冨
Original Assignee
ザ・ハーモニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ザ・ハーモニー株式会社 filed Critical ザ・ハーモニー株式会社
Priority to JP2022507774A priority Critical patent/JP7142403B1/ja
Priority to PCT/JP2021/026535 priority patent/WO2023286224A1/ja
Publication of WO2023286224A1 publication Critical patent/WO2023286224A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Definitions

  • the present invention relates to a conversation processing program, a conversation processing system, and a conversational robot, and more particularly to playing back a song during conversation.
  • Patent Literature 1 discloses an interactive pet robot that promotes conversation while enhancing the sense of communication of a conversation partner. Specifically, when the content of the question is output by voice, a plurality of options are displayed on the display as candidates for answering the question. When any of these options are spoken by the user, voice recognition identifies the option. Then, the action corresponding to this option is determined as the next reaction that the interactive pet robot should take.
  • Patent Document 2 describes a life support system for people with brain dysfunction that can be easily handled in nursing care facilities such as nursing homes for the elderly and supports the lives of elderly people with brain dysfunction.
  • An apparatus is disclosed.
  • background music (BGM) is output during a call using a tablet terminal having a call function.
  • BGM songs that the elderly liked when they were young are played back in order to promote recovery of brain function.
  • the present invention has been made in view of such circumstances, and its purpose is to increase the continuity of conversation without boring the conversation partner.
  • the first invention provides a conversation processing program that causes a computer to execute the following steps.
  • the conversation partner's response obtained from the microphone is analyzed in response to the question output from the speaker.
  • the response to each question is evaluated and assigned a rating value according to predetermined criteria that indicate whether the response is negative or not.
  • the third step when the cumulative evaluation value obtained by accumulating the evaluation values in chronological order reaches a predetermined threshold value, an instruction to reproduce the song from the speaker is given during the conversation.
  • voice is acquired from the microphone when the song is played back by the speaker, and by calculating the difference between the voice waveform acquired from the microphone and the voice waveform of the song, conversation during playback of the song is performed.
  • a fourth step of identifying the opponent's reaction may be provided.
  • the response when the response is determined to be negative, a first evaluation value having a sign of either plus or minus is given as the evaluation value, and the response is If it is determined not to be negative, it is preferable to assign a second evaluation value having a sign opposite to that of the first evaluation value as the evaluation value.
  • the second step may determine whether or not the response is negative based on whether or not the response contains negative words registered in advance. Moreover, the second step may determine whether or not the response is negative based on the time required from the question to the response. In the second step, whether or not the response is negative may be determined based on the voice volume of the conversation partner acquired from the microphone with reference to the beginning of the conversation. Also, the second step may determine whether or not the response is negative based on the facial expression of the conversation partner captured by the camera. Further, the second step may determine whether the response is negative based on the conversation partner's pulse obtained by a pulse sensor.
  • the third step may change the length or type of song to be reproduced from the speaker according to the evaluation value.
  • a fifth step of adjusting the presentation frequency of the question corresponding to a certain response may be provided according to the sign of the evaluation value related to this response.
  • a sixth step of instructing the action of the character conversing with the human according to the evaluation value may be provided.
  • a second invention provides a conversation processing system having a question generation section, a response analysis section, a response evaluation section, and a song instruction section.
  • the question generator generates questions to be output from the speaker.
  • the response analysis unit analyzes the conversational partner's response obtained from the microphone in response to the question output from the speaker.
  • the response evaluator evaluates the response to each question according to predetermined evaluation criteria indicating whether the response is negative or not, and assigns an evaluation value.
  • the song instruction unit instructs that a song should be reproduced from the speaker during conversation when an evaluation accumulated value obtained by accumulating evaluation values in time series reaches a predetermined threshold value.
  • the response analysis unit acquires the voice from the microphone when the song is played back by the speaker, and calculates the difference between the voice waveform acquired from the microphone and the voice waveform of the song. A conversation partner's reaction when the song is played may be identified.
  • the response evaluation unit when the response is determined to be negative, assigns a sign of either plus or minus as an evaluation value, and when the response is determined to be non-negative, evaluates As a value, it is preferable to assign a sign opposite to that of the first evaluation value.
  • the response evaluation unit may determine whether or not the response is negative based on whether or not the response includes a pre-registered negative word. Further, the response evaluation section may determine whether or not the response is negative based on the time required from the question to the response. Further, the response evaluation unit may determine whether or not the response is negative based on the volume of the conversation partner's voice acquired from the microphone with reference to the beginning of the conversation. Further, the response evaluation unit may determine whether or not the response is negative based on the facial expression of the conversation partner captured by the camera. Further, the response evaluation unit may determine whether or not the response is negative based on the conversation partner's pulse obtained by a pulse sensor.
  • the song instruction section may change the length or type of song to be reproduced from the speaker according to the evaluation value.
  • the question generation unit may adjust the presentation frequency of the question corresponding to a certain response according to the sign of the evaluation value regarding the response.
  • an action instructing section may be provided for instructing the action of the character that converses with the human according to the evaluation value.
  • a third invention provides a conversational robot having a speaker, a microphone, and a song reproducing section.
  • the speaker outputs questions and songs to the conversation partner.
  • a microphone acquires a conversation partner's response to a question output from a speaker.
  • the song reproducing unit inserts a song in the middle of conversation and reproduces it from the speaker at the timing when the cumulative evaluation value reaches a predetermined threshold value.
  • the cumulative evaluation value is a value obtained by accumulating the evaluation values in time series.
  • the evaluation value is a value obtained by evaluating the response to each question according to a predetermined evaluation criterion indicating whether or not the response obtained from the microphone is negative.
  • the song reproducing section selects one of a plurality of songs registered in advance based on a reproduction instruction from a server connected to the conversational robot via a network, and outputs the selected song from a speaker.
  • the conversational partner's response is evaluated according to predetermined evaluation criteria, and when the accumulated evaluation value obtained by accumulating the evaluation values in chronological order reaches a predetermined threshold value, the song is reproduced.
  • FIG. 1 is an overall configuration diagram of the conversation processing system according to this embodiment.
  • the conversation processing system 1 is used to realize a conversation with an elderly person (including a person who has developed dementia, a person suspected of having dementia, a person who is hard of hearing, etc.). 2 and a conversation processing server 3 as main components.
  • the conversational robot 2 and conversation processing server 3 are connected to a network such as the Internet and communicate necessary data.
  • the reason for separating the conversational robot 2 and the conversation processing server 3 is solely to minimize the functions of the conversational robot 2 and provide the conversational robot 2 at a low cost. Therefore, from a technical point of view, there is no need to separate the two, and the configuration may be such that all or part of the functions of the conversation processing server 3 are performed by the conversational robot 2 .
  • the conversational robot 2 is an article (physical structure) that has the appearance of a person, an animal, the main character of an anime, etc., and is installed at a care site such as a facility for the elderly.
  • the conversational robot 2 has at least a function of asking a conversation partner a question and a function of obtaining the conversation partner's response to the question as an interface for conversing with an elderly conversation partner.
  • the conversational robot 2 has a speaker 2a, a microphone 2b, and a song reproducing section 2c.
  • the speaker 2a outputs a question to the conversation partner and a song inserted during the conversation.
  • the microphone 2b acquires the conversation partner's response to the question output from the speaker 2a.
  • the song reproducing unit 2c inserts a song during conversation and reproduces it from the speaker 2a.
  • the conversational robot 2 has a camera 2e, a pulse sensor 2f, and an actuator 2g in order to implement additional or extended functions to be described later.
  • the camera 2e photographs the face of the conversation partner in order to read the facial expression of the conversation partner.
  • the pulse sensor 2f obtains the pulse of the conversation partner.
  • the actuator 2g moves the arms, legs, and head of the conversational robot 2 in order to produce rich expressions in the process of conversation.
  • the data communication unit 2d transmits voice data (response) acquired by the microphone 2b, image data (conversation partner's facial expression) acquired by the camera 2e, and pulse data (conversation partner's pulse) acquired by the pulse sensor 2f. to the conversation processing server 3.
  • the data communication unit 2d also receives voice data (question) output from the speaker 2a, a reproduction instruction to reproduce a song, and operation data for operating the actuator 2g from the conversation processing server 3.
  • the conversation processing server 3 performs various processes necessary to establish a conversation with the conversation partner.
  • the conversation processing server 3 mainly includes a question generation section 3a, a response analysis section 3b, a response evaluation section 3c, and a song instruction section 3d.
  • the question generator 3a generates a question to be output from the speaker 2a on the side of the conversational robot 2, in other words, to be presented to the conversation partner.
  • the response analysis unit 3b analyzes the conversation partner's response obtained from the microphone 2b of the conversational robot 2 in response to the question output from the speaker 2a.
  • speech (response) analysis uses techniques such as speech recognition, text conversion, and natural language processing.
  • the question generation unit 3a generates the next question according to the presence or absence of a response.
  • the response evaluation unit 3c evaluates the responses to each question according to predetermined evaluation criteria indicating whether or not the responses analyzed by the response analysis unit 3b are negative, and assigns an evaluation value as an index. At the same time, the response evaluation unit 3c calculates an accumulated evaluation value by accumulating the evaluation values in time series as the conversation progresses.
  • the song instructing unit 3d instructs the conversational robot 2 to reproduce a song from the speaker 2a during conversation when the accumulated evaluation value reaches a predetermined threshold value.
  • the song reproducing section 2c on the side of the conversational robot 2 identifies the song to be reproduced based on the reproduction instruction from the song instruction section 3d, and outputs the song from the speaker 2a.
  • the song is reproduced in the flow of conversation at the timing of the reproduction instruction from the song instruction unit 3d, in other words, at the timing when the accumulated evaluation value reaches the predetermined threshold value.
  • Candidates for songs to be played back include nursery rhymes that are familiar to the elderly and easy to sing. .
  • the conversation processing server 3 also has an action instruction section 3g that instructs the action of the conversational robot 2 when the conversational robot 2 is equipped with a camera 2e. Furthermore, a storage unit 3f may be provided to store the evaluation values given by the response evaluation unit 3c in chronological order, and the stored data may be used for dementia screening or the like.
  • the data communication unit 3e transmits the voice data (question) generated by the question generation unit 3a and the reproduction instruction of the song instruction unit 3d to the conversational robot 2.
  • the data communication unit 3e also receives voice data (response) acquired by the microphone 2b, image data from the camera 2e, and pulse data from the pulse sensor 2f from the conversational robot 2.
  • the conversation processing server 3 side (song instruction unit 3d) only issues an instruction to reproduce a song, and the reproduction process based on this instruction (accompanied by acquisition of voice data of the song) is This is performed on the side of the conversational robot 2 (song reproducing section 2c).
  • the conversation processing server 3 may transmit the voice data of the song to be reproduced each time. In this case, when the song instructing unit 3d transmits the voice data, it is considered that the song is instructed to be reproduced, and the conversational robot 2 directly outputs the received voice data from the speaker 2a.
  • FIG. 2 is a code table of evaluation values given by the response evaluation unit 3c.
  • the rating value is given based on a predetermined rating scale indicating whether or not the response is negative, but with either a plus or minus sign.
  • an anxiety value that is an index of the conversation partner's "anxiety” is used, and a positive response is given a plus sign indicating that the conversation partner is feeling anxious. .
  • the cumulative evaluation value obtained by accumulating the evaluation values in time series increases (in the direction of increasing “anxiety”).
  • non-negative responses that is, positive responses
  • are given a minus sign indicating that the conversation partner's emotions are in the direction of reassuring.
  • the cumulative evaluation value acts in the direction of decreasing (in the direction of decreasing "anxiety").
  • the evaluation criteria for determining whether or not the response is negative are predetermined by the system, and the following examples can be used alone or in combination.
  • Negative words and positive words are registered in advance as a system dictionary, and are determined by referring to this.
  • the second is the response time required from a certain question to its response. If this response time is longer than the predetermined threshold Tth1, the question is considered difficult to answer, and a positive evaluation value is given. On the other hand, when the response time is shorter than the predetermined threshold value Tth1, it is considered that the conversation partner is enjoying the conversation, so a negative evaluation value is given. Also, if there is no response, that is, if the response time is longer than a predetermined threshold value Tth2 (Tth2>Tth1), it can be considered that the person is at a loss for an answer, or that the conversation partner has another interest. A positive evaluation value is given.
  • Third is the volume of the response. Specifically, when the volume of the voice becomes smaller than a predetermined threshold with reference to the beginning of the conversation, it can be considered that the conversation partner is showing confidence or is in a state of fatigue, so a positive evaluation value is given. is given. On the other hand, if the decrease in voice volume is within a predetermined threshold value, or if the voice volume has increased since the beginning of the conversation, it can be considered that the conversation partner is having fun, so a negative evaluation value is given. Granted.
  • the facial expression of the conversation partner can be determined by applying a well-known image recognition technique to the image captured by the camera 2e.
  • the pulse of the conversation partner Specifically, a positive evaluation value is given when the pulse is increasing with reference to the beginning of the conversation, and a negative evaluation value is given when the pulse is decreasing.
  • a conversation partner's pulse is identified by the pulse sensor 2f.
  • an evaluation value (anxiety value) focused on the "anxiety" of the conversation partner is used, and positive is the direction of anxiety and negative is the direction of security. (reassurance) may be used. In this case, plus indicates the direction of comfort and minus indicates the direction of anxiety, meaning that anxiety increases as the cumulative evaluation value decreases.
  • the weighting of the evaluation values may be the same (for example, the amount of increase or decrease for all evaluation criteria is 1), but different weighting may be performed according to the type of evaluation criteria. For example, an increase/decrease of 2 is applied to the word being answered, and an increase/decrease of 1 is applied to the voice volume of the response.
  • FIG. 3 is a flowchart of conversation processing.
  • step 1 the response (voice data) of the conversation partner obtained from the microphone 2b is input.
  • step 2 the response analysis unit 3b analyzes the response of the conversation partner based on the voice data input in step 1.
  • FIG. 1 the response (voice data) of the conversation partner obtained from the microphone 2b is input.
  • step 3 the response evaluation unit 3c determines whether or not the conversation partner's response is negative according to the evaluation criteria described above. If the determination in step 3 is affirmative, that is, if the response is determined to be negative, the response evaluation unit 3c gives a positive evaluation value (step 4). On the other hand, if the determination in step 3 is negative, that is, if the response is determined not to be negative, the response evaluation unit 3c gives a negative evaluation value (step 5).
  • step 6 the response evaluation unit 3c updates the current accumulated evaluation value based on the evaluation values given in steps 4 and 5. As a result, the accumulated evaluation value increases when a positive evaluation value is given, and decreases when a negative evaluation value is given.
  • step 7 it is determined whether or not the accumulated evaluation value updated in step 6 has reached a predetermined threshold value (eg +5).
  • the threshold may be a fixed value or a variable value. For example, when the cumulative evaluation value of a certain conversation partner is stably low, it is determined that the person likes to talk, and the threshold value is set higher than usual (for example, +10). If the determination in step 7 is negative, the question generator 3a generates a new question and outputs its voice data (step 8). On the other hand, if the determination in step 7 is affirmative, that is, if the accumulated evaluation value reaches the threshold value, the song instruction unit 3d instructs that the song should be reproduced (step 9), The accumulated value is reset to the initial value (step 10).
  • step 11 the voice data of the question generated in step 8 or the instruction to reproduce the song generated in step 9 is output. This causes the conversational robot 2 to reproduce the question or the song. The series of steps 1 to 11 as described above is repeated until the end of the conversation is instructed by the conversation partner.
  • the response of the conversation partner for example, whether or not the conversation partner is singing along with the song may be specified. Specifically, first, voice is acquired from the microphone 2b when the song is reproduced by the speaker 2a. Next, the response analysis unit 3b calculates the difference between the voice waveform acquired by the microphone 2b and the voice waveform of the song (uniquely identified from the voice data of the song). As a result, the reaction of the conversation partner during the song reproduction can be obtained as a difference waveform. Then, the response analysis unit 3b evaluates the similarity between this difference waveform and the voice waveform of the song.
  • this evaluation result or the data (a set of difference waveforms and voice waveforms of a song) that is the premise of this evaluation is stored in the storage unit 3f, it can be used for dementia screening or the like.
  • FIG. 4 is a time chart of evaluation values as an example.
  • positive and negative evaluation values are given by repeating a set of questions by the conversational robot 2 and responses from the conversation partner, and the cumulative evaluation value increases or decreases according to the progress of the conversation. . Then, when the cumulative evaluation value reaches a threshold value (for example, +5) at timing t1, the conversational robot 2 starts singing instead of asking questions. This allows the song to be inserted in the flow of conversation.
  • a threshold value for example, +5
  • the response of the conversation partner is predetermined. Evaluation is performed according to evaluation criteria, and a song is output when a value obtained by accumulating evaluation values generated for each response (evaluation accumulated value) reaches a predetermined threshold value.
  • the song instruction unit 3d changes the length or type of song to be output from the speaker 2a according to the results of analyzing the chronological transition of the evaluation value. For example, in the time chart illustrated in FIG. 4, when the cumulative evaluation value increases rapidly in the process of reaching the threshold value, the conversational robot 2 will play a long song to attract the interest of the conversation partner. , or sing a song categorized for it. Conversely, if the cumulative evaluation value is slowly increasing with appropriate responses, the conversational robot 2 sings shorter songs or songs classified accordingly.
  • the song reproduction instruction by the song instruction unit 3d also includes designation of the length or type of the song.
  • the question generation unit 3a adjusts the presentation frequency of the question corresponding to a certain response according to the type of sign of the evaluation value related to this response. For example, as shown in FIG. 5, when Mr. A's response to the question "Do you like dogs?" , reduce the frequency of asking this question. Conversely, as shown in FIG. 6, when Mr. B's response to the same question reduces the accumulated evaluation value (when a negative evaluation value is given), Mr. B is asked to present this question Raise
  • the motion instruction unit 3g instructs the conversational robot 2 to move according to the result of analyzing the time-series transition of the evaluation value. For example, as shown in FIG. 7, when the cumulative evaluation value increases, an instruction is issued to shake the conversational robot 2 or nod its head in order to attract the interest of the conversation partner.
  • the evaluation values given as needed by the response evaluation unit 3c are stored in the storage unit 3f in chronological order.
  • the data stored in the storage unit 3f can be used for dementia screening and the like. As shown in FIG. 8, when the evaluation value for the same question changes from negative to positive over time, this can be used as an index of progression of dementia.
  • the present invention can be regarded as a conversation processing program that causes a computer to execute the procedure shown in the flowchart of FIG.
  • the controlled object is not limited to conversational robots, but can be widely applied to characters in general.
  • the term “character” refers to a person with whom a person converses, and is not only a physical structure such as a robot, but also a virtual subject (person, animal, etc.) displayed on a screen such as a mobile terminal. , representations of anime protagonists, etc.).
  • the conversation processing system 1 for the elderly has been described, but from the technical point of view of the mechanism of conversation processing, conversation partners other than the elderly (for example, infants) may be targeted. .
  • conversation partners other than the elderly (for example, infants) may be targeted.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Toys (AREA)

Abstract

【課題】会話相手を飽きさせることなく会話の持続性を高める。 【解決手段】質問生成部3aは、スピーカ2aより出力すべき質問を生成する。応答解析部3bは、スピーカ2aより出力された質問に対して、マイク2bより取得された会話相手の応答を解析する。応答評価部3cは、解析された応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して、その指標となる評価値を付与する。歌指示部3dは、評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、会話途中において、スピーカ2aより歌を再生すべき旨を指示する。

Description

会話処理プログラム、会話処理システムおよび会話型ロボット
 本発明は、会話処理プログラム、会話処理システムおよび会話型ロボットに係り、特に、会話途中における歌の再生に関する。
 従来、スピーカより質問を発し、会話相手の回答をマイクより取得することで、会話を成立させる会話システムが知られている。例えば、特許文献1には、会話相手のコミュニケーション感を高めつつ、会話を促進する対話型ペットロボットが開示されている。具体的には、質問の内容が音声出力された場合、この質問に対する返答の候補として、複数の選択肢がディスプレイに表示される。これらの選択肢のうちのいずれかがユーザによって発話された場合、音声認識によって選択肢が特定される。そして、対話型ペットロボットが次にとるべき反応として、この選択肢に対応するアクションが決定される。
 また、このような会話システムに関するものではないが、特許文献2には、介護老人ホームなどの介護施設で手軽に扱えて、脳機能障害を有する高齢者の生活を支援する脳機能障害者生活支援装置が開示されている。この支援装置では、通話機能を有するタブレット端末を用いて、通話中にバックグランドミュージック(BGM)が出力される。BGMとしては、脳機能の回復を促進すべく、高齢者が若い頃に好きだった曲が再生される。
特開2006-68489号公報 特開2015-192844号公報
 近年、高齢者施設などの介護現場では、認知症を伴う高齢者や耳の遠い高齢者を対象としたコミュニケーションツールとして、会話型ロボットに代表される会話システムが注目されている。発明者らが介護現場に赴いて実際にロボットを試したところ、単に短い質問を繰り返しただけでは、高齢者が短時間で飽きてしまったり、疲れてしまうといった事態が多発して、会話の持続性に難があることが判明した。また、耳が遠い方には質問を聞き取ってもらえず、認知症の方には不安感を与えてしまうといった問題も散見された。そこで、施設で普段流している歌を質問と同じ声で作成し、所定の間隔で繰り返し再生するといった実験を行ったところ、歌が流れ始めると皆が笑顔で一緒に歌ってくれ、歌い終わりには拍手もしてくれた。この実験結果を通じて、本発明者らは、高齢者向けに特化した場合、会話相手(高齢者)を飽きさせないための手段として、会話途中に歌を挿入することが有効であるとの知得を得るに至った。
 本発明は、かかる事情に鑑みてなされたものであり、その目的は、会話相手を飽きさせることなく会話の持続性を高めることである。
 かかる課題を解決すべく、第1の発明は、以下のステップをコンピュータに実行させる会話処理プログラムを提供する。第1のステップでは、スピーカより出力された質問に対して、マイクより取得された会話相手の応答を解析する。第2のステップでは、応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して評価値を付与する。第3のステップでは、評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、会話途中において、スピーカより歌を再生すべき旨を指示する。
 ここで、第1の発明において、スピーカによる歌の再生時にマイクより音声を取得し、マイクより取得された音声波形と、歌の音声波形との差分を算出することによって、歌の再生時における会話相手の反応を特定する第4のステップを設けてもよい。
 第1の発明において、上記第2のステップは、応答がネガティブであると判断された場合、上記評価値として、プラスおよびマイナスの一方の符号を有する第1の評価値を付与するとともに、応答がネガティブでないと判断された場合、上記評価値として、第1の評価値とは反対の符号を有する第2の評価値を付与することが好ましい。
 第1の発明において、上記第2のステップは、予め登録されたネガティブなワードが応答中に含まれているか否かに基づいて、応答がネガティブであるか否かを判断してもよい。また、上記第2のステップは、質問から応答までに要した時間に基づいて、応答がネガティブであるか否かを判断してもよい。また、上記第2のステップは、会話当初を基準とした、マイクより取得された会話相手の声量に基づいて、応答がネガティブであるか否かを判断してもよい。また、上記第2のステップは、カメラによって撮影された会話相手の表情に基づいて、応答がネガティブであるか否かを判断してもよい。さらに、上記第2のステップは、脈拍センサによって取得された会話相手の脈拍に基づいて、応答がネガティブであるか否かを判断してもよい。
 第1の発明において、上記第3のステップは、上記評価値に応じて、スピーカより再生すべき歌の長さまたは種類を変えてもよい。また、ある応答に関する評価値の符号に応じて、この応答に対応する質問の提示頻度を調整する第5のステップを設けてもよい。さらに、上記評価値に応じて、人間と会話するキャラクターの動作を指示する第6のステップを設けてもよい。
 第2の発明は、質問生成部と、応答解析部と、応答評価部と、歌指示部とを有する会話処理システムを提供する。質問生成部は、スピーカより出力すべき質問を生成する。応答解析部は、スピーカより出力された質問に対して、マイクより取得された会話相手の応答を解析する。応答評価部は、応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して評価値を付与する。歌指示部は、評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、会話途中において、スピーカより歌を再生すべき旨を指示する。
 ここで、第2の発明において、上記応答解析部は、スピーカによる歌の再生時にマイクより音声を取得し、マイクより取得された音声波形と、歌の音声波形との差分を算出することによって、歌の再生時における会話相手の反応を特定してもよい。
 第2の発明において、上記応答評価部は、応答がネガティブであると判断された場合、評価値として、プラスおよびマイナスの一方の符号を付与するとともに、応答がネガティブでないと判断された場合、評価値として、第1の評価値とは反対の符号を付与することが好ましい。
 第2の発明において、上記応答評価部は、予め登録されたネガティブなワードが応答中に含まれているか否かに基づいて、応答がネガティブであるか否かを判断してもよい。また、上記応答評価部は、質問から応答までに要した時間に基づいて、応答がネガティブであるか否かを判断してもよい。また、上記応答評価部は、会話当初を基準とした、マイクより取得された会話相手の声量に基づいて、応答がネガティブであるか否かを判断してもよい。また、上記応答評価部は、カメラによって撮影された会話相手の表情に基づいて、応答がネガティブであるか否かを判断してもよい。さらに、上記応答評価部は、脈拍センサによって取得された会話相手の脈拍に基づいて、応答がネガティブであるか否かを判断してもよい。
 第2の発明において、上記歌指示部は、上記評価値に応じて、スピーカより再生すべき歌の長さまたは種類を変えてもよい。また、上記質問生成部は、ある応答に関する評価値の符号に応じて、当該応答に対応する質問の提示頻度を調整してもよい。さらに、上記評価値に応じて、人間と会話するキャラクターの動作を指示する動作指示部を設けてもよい。
 第3の発明は、スピーカと、マイクと、歌再生部とを有する会話型ロボットを提供する。スピーカは、会話相手に対して質問および歌を出力する。マイクは、スピーカより出力された質問に対する会話相手の応答を取得する。歌再生部は、評価累積値が所定のしきい値に到達したタイミングにおいて、会話途中で歌を挿入してスピーカより再生する。ここで、評価累積値は、評価値を時系列的に累積した値である。また、評価値は、マイクより取得された応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価した値である。
 ここで、第3の発明において、上記歌再生部は、会話型ロボットにネットワーク接続されたサーバからの再生指示に基づいて、予め登録された複数の歌のいずれかを選択し、スピーカより出力してもよい。
 本発明によれば、会話相手の応答を所定の評価基準に従って評価し、評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、歌を再生する。このように会話途中で歌を挿入することで、会話相手を飽きさせることなく会話の持続性を高めることができる。
会話処理システムの全体構成図 評価値の符号表 会話処理のフローチャート 第1の例に係る評価値のタイムチャート 第2の例に係る評価値のタイムチャート 第3の例に係る評価値のタイムチャート 第4の例に係る評価値のタイムチャート 第5の例に係る評価値のタイムチャート
 図1は、本実施形態に係る会話処理システムの全体構成図である。本実施形態において、会話処理システム1は、高齢者(認知症を発症した者、その疑いがある者、耳の遠い者などを含む。)との会話を実現するために用いられ、会話型ロボット2と、会話処理サーバ3とを主体に構成されている。会話型ロボット2および会話処理サーバ3は、インターネット等のネットワークに接続されており、必要なデータの通信を行う。会話型ロボット2および会話処理サーバ3を分離する理由は、もっぱら、会話型ロボット2の機能を最低限に留めて、会話型ロボット2を安価に提供するためである。したがって、技術的な観点でいえば、両者を分離する必要はなく、会話処理サーバ3の機能のすべてまたはその一部を会話型ロボット2に担わせる構成であってもよい。
 会話型ロボット2は、人、動物、アニメの主人公などの外観を有する物品(物理的な構造体)であり、高齢者施設などの介護現場に設置されている。会話型ロボット2は、高齢者である会話相手と会話を行うためのインターフェースとして、会話相手に対して質問を発する機能と、この質問に対する会話相手の応答を取得する機能とを少なくとも備えている。会話型ロボット2は、スピーカ2aと、マイク2bと、歌再生部2cとを有する。スピーカ2aは、会話相手に対する質問と、会話途中で挿入される歌とを出力する。マイク2bは、スピーカ2aより出力された質問に対する会話相手の応答を取得する。歌再生部2cは、会話途中で歌を挿入してスピーカ2aより再生する。
 また、会話型ロボット2は、後述する付加的または拡張的な機能を実現すべく、カメラ2eと、脈拍センサ2fと、アクチュエータ2gとを有する。カメラ2eは、会話相手の顔の表情を読み取るために、会話相手の顔を撮影する。脈拍センサ2fは、会話相手の脈拍を取得する。アクチュエータ2gは、会話の過程において豊かな表現を演出すべく、会話型ロボット2の手足や頭を動作させる。
 データ通信部2dは、マイク2bによって取得された音声データ(応答)、カメラ2eによって取得された画像データ(会話相手の表情)、および、脈拍センサ2fによって取得された脈拍データ(会話相手の脈拍)を会話処理サーバ3に送信する。また、データ通信部2dは、スピーカ2aより出力される音声データ(質問)、歌を再生すべき旨の再生指示、および、アクチュエータ2gを動作させるための動作データを会話処理サーバ3より受信する。
 一方、会話処理サーバ3は、会話相手との会話を成立させるために必要な各種の処理を行う。この会話処理サーバ3は、質問生成部3aと、応答解析部3bと、応答評価部3cと、歌指示部3dとを主体に構成されている。質問生成部3aは、会話型ロボット2側のスピーカ2aより出力、換言すれば、会話相手に提示すべき質問を生成する。応答解析部3bは、スピーカ2aより出力された質問に対して、会話型ロボット2側のマイク2bより取得された会話相手の応答を解析する。周知のとおり、音声(応答)の解析では、音声認識、テキスト化、および、自然言語処理といった手法が用いられる。質問生成部3aは、応答の有無等に応じて、次の質問を生成する。応答評価部3cは、応答解析部3bによって解析された応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して、その指標となる評価値を付与する。それとともに、応答評価部3cは、会話の進捗に伴い、評価値を時系列的に累積した評価累積値を算出する。歌指示部3dは、評価累積値が所定のしきい値に到達した場合、会話途中において、スピーカ2aより歌を再生すべき旨を会話型ロボット2に指示する。
 会話型ロボット2側の歌再生部2cは、歌指示部3dからの再生指示に基づいて、再生すべき歌を特定し、スピーカ2aより歌を出力する。これにより、歌指示部3dからの再生指示のタイミング、換言すれば、評価累積値が所定のしきい値に到達したタイミングで、会話の流れの中で歌が再生されることになる。再生される歌の候補は、高齢者にとって馴染みがあり、かつ、歌いやすい童謡などが会話型ロボット2側に予め複数登録されており、いずれかが適宜の選択手法(例えばランダム)で選択される。
 また、会話処理サーバ3は、会話型ロボット2がカメラ2eを備えている場合、会話型ロボット2の動作を指示する動作指示部3gを有する。さらに、応答評価部3cによって随時付与された評価値を時系列的に保存する記憶部3fを設けて、保存されたデータを認知症のスクリーニングなどに用いてもよい。
 データ通信部3eは、質問生成部3aによって生成された音声データ(質問)、および、歌指示部3dの再生指示を会話型ロボット2に送信する。また、データ通信部3eは、マイク2bによって取得された音声データ(応答)、および、カメラ2eの画像データ、および、脈拍センサ2fの脈拍データを会話型ロボット2より受信する。
 なお、本実施形態では、会話処理サーバ3側(歌指示部3d)は歌を再生すべき旨の指示のみを行い、この指示に基づく再生処理(歌の音声データの取得を伴う。)は、会話型ロボット2側(歌再生部2c)にて行っている。これは、歌の音声データを会話型ロボット2側に予め記憶しておくことで、この音声データそのものの通信を不要にして、通信データ量を低減するためである。したがって、通信データ量を考慮する必要がないのであれば、再生すべき歌の音声データを会話処理サーバ3がその都度送信してもよい。この場合、歌指示部3dが音声データを送信したことを以て、歌の再生を指示したものとみなされ、会話型ロボット2では、受信した音声データがそのままスピーカ2aより出力される。
 図2は、応答評価部3cによって付与される評価値の符号表である。上述したように、評価値は、応答がネガティブであるか否かを示す所定の評価基準に基づき付与されるものであるが、プラスおよびマイナスのどちらかの符号を伴う。本実施形態では、評価値の一例として、会話相手の「不安」の指標となる不安値を用い、ポジティブな応答については、会話相手の感情が不安であることを示すプラスの符号が付与される。これにより、評価値を時系列的に累積した累積評価値は増加する方向(「不安」が増す方向)に作用する。一方、ネガティブでない応答、すなわち、ポジティブな応答については、会話相手の感情が安心方向であることを示すマイナスの符号が付与される。これにより、累積評価値は減少する方向(「不安」が減る方向)に作用する。
 応答がネガティブであるか否かを判断するための評価基準は、システム上予め定められており、以下に例示するものを単独または組み合わせて用いることができる。
 第1に、ネガティブなワード(表現)が応答中に含まれているかである。例えば、「わからない」、「難しい」、「帰りたい」といったネガティブなワードが含まれている場合、プラスの評価値が付与される。一方、「楽しい」、「元気です」といったポジティブなワードが含まれている場合、マイナスの評価値が付与される。ネガティブなワードやポジティブなワードは、システム辞書として予め登録されており、これを参照することよって判別される。
 第2に、ある質問からその応答までに要した応答時間である。この応答時間が所定のしきい値Tth1よりも長い場合、回答が難しい質問であると考えられるので、プラスの評価値が付与される。一方、応答時間が所定のしきい値Tth1よりも短い場合、会話相手が会話を楽しんでいる状態と考えられるので、マイナスの評価値が付与される。また、応答がなかった場合、すなわち、応答時間が所定のしきい値Tth2(Tth2 >Tth1)よりも長い場合、回答に詰まった状態、または、会話相手の興味が別にある状態と考えられるので、プラスの評価値が付与される。
 第3に、応答の声量である。具体的には、会話当初を基準として所定のしきい値を超えて声量が小さくなった場合、会話相手が自信を奏した状態、または、疲労している状態を考えられるので、プラスの評価値が付与される。一方、声量の低下が所定のしきい値内に収まっている場合、あるいは、会話当初よりも声量が増大している場合、会話相手が楽しくなっている状態と考えられるので、マイナスの評価値が付与される。
 第4に、会話相手の表情である。具体的には、会話相手の表情が不安であると判断された場合にはプラスの評価値が付与され、これが安心であると判断された場合にはマイナスの評価値が付与される。会話相手の表情は、カメラ2eによって撮影された画像に対して周知の画像認識技術を適用することによって判断することができる。
 第5に、会話相手の脈拍である。具体的には、会話当初を基準として脈拍が増大している場合にはプラスの評価値が付与され、脈拍が減少している場合にはマイナスの評価値が付与される。会話相手の脈拍は、脈拍センサ2fによって特定される。
 なお、本実施形態では、会話相手の「不安」に着目した評価値(不安値)を用い、プラスを不安方向、マイナスを安心方向としているが、会話相手の「安心」に着目して評価値(安心度)を用いてもよい。この場合、プラスが安心方向、マイナスが不安方向となり、累積評価値が減少するほど不安が増すことを意味する。また、評価値の重み付けは同一(例えば全評価基準の増減量が1)であってもよいが、評価基準の種類に応じて、異なる重み付けを行ってもよい。例えば、応答中のワードについては増減量2、応答の声量については増減量1にするといった如くである。
 図3は、会話処理のフローチャートである。まず、ステップ1において、マイク2bより取得された会話相手の応答(音声データ)が入力される。つぎに、ステップ2において、応答解析部3bは、ステップ1で入力された音声データに基づいて、会話相手の応答を解析する。
 ステップ3において、応答評価部3cは、上述した評価基準に従って、会話相手の応答がネガティブであるか否かを判断する。ステップ3の判断が肯定の場合、すなわち、応答がネガティブであると判断した場合、応答評価部3cはプラスの評価値を付与する(ステップ4)。これに対して、ステップ3の判断が否定の場合、すなわち、応答がネガティブでないと判断された場合、応答評価部3cはマイナスの評価値を付与する(ステップ5)。
 ステップ6において、応答評価部3cは、ステップ4,5で付与された評価値に基づいて、現在の評価累積値を更新する。これにより、プラスの評価値が付与された場合には評価累積値が増加し、マイナスの評価値が付与された場合には評価累積値が減少する。
 ステップ7において、ステップ6で更新された評価累積値が所定のしきい値(例えば+5)に到達したか否かが判断される。ここで、しきい値は、固定値であってもよいが可変値としてもよい。例えば、ある会話相手に関する累積評価値が安定的に低い場合、その者はお喋り好きと判断して、通常よりもしきい値を高め(例えば+10)に設定するといった如くである。ステップ7の判断が否定の場合、質問生成部3aは、新たな質問を生成して、その音声データを出力する(ステップ8)。これに対して、ステップ7の判断が肯定の場合、すなわち、評価累積値がしきい値に到達した場合、歌指示部3dは、歌を再生すべき旨を指示するとともに(ステップ9)、評価累積値が初期値にリセットされる(ステップ10)。
 ステップ11において、ステップ8で生成された質問の音声データ、または、ステップ9で生成された歌の再生指示が出力される。これによって、会話型ロボット2において、質問または歌が再生される。以上のような一連のステップ1~11は、会話相手によって会話の終了が指示されるまで繰り返される。
 なお、会話型ロボット2(スピーカ2a)による歌の再生時において、会話相手の反応、例えば、会話相手が歌に併せて歌っているか否かを特定してもよい。具体的には、まず、スピーカ2aによる歌の再生時にマイク2bより音声が取得される。つぎに、応答解析部3bは、マイク2bによって取得された音声波形と、歌の音声波形(歌の音声データから一義的に特定される。)との差分を算出する。これにより、歌の再生時における会話相手の反応が差分波形として得られる。そして、応答解析部3bは、この差分波形と、歌の音声波形との類似性を評価する。両者の類似性が高いほど、会話相手が再生された歌に併せて歌っていると判断できる。この評価結果、あるいは、この評価の前提となるデータ(差分波形および歌の音声波形のセット)を記憶部3fに記憶しておけば、認知症のスクリーニングなどに利用することができる。
 図4は、一例としての評価値のタイムチャートである。図3に示したフローチャートにおいて、会話型ロボット2による質問と、会話相手の応答とのセットが繰り返されることでプラスおよびマイナスの評価値が付与され、会話の進捗に応じて評価累積値が増減する。そして、タイミングt1において評価累積値がしきい値(例えば+5)に到達すると、会話型ロボット2は、質問に代えて歌を歌い始める。これにより、会話の流れの中で歌が挿入されることになる。
 このように、本実施形態によれば、高齢者である会話相手を飽きさせないための手段として、会話途中に歌を挿入することが有効であるとの知得に基づき、会話相手の応答を所定評価基準に従って評価し、応答毎に生成される評価値を累積した値(評価累積値)が所定のしきい値に到達した場合に歌を出力する。会話の流れの中で歌を挿入することで、会話相手を飽きさせることなく会話の持続性を高めることができる。その結果、介護を必要とする者に対する介護の省力化を図ることができる。
 なお、本発明は、上述した実施形態に限定されるものではなく、以下のような変形例(バリエーション)を適用してもよい。
 第1の変形例として、歌指示部3dは、評価値の時系列的な推移を分析した結果に応じて、スピーカ2aより出力すべき歌の長さまたは種類を変える。例えば、図4に例示したタイムチャートにおいて、しきい値に到達するまでの過程で評価累積値が急激に増加している場合、会話型ロボット2は、会話相手の興味を惹くために長めの歌、あるいは、それ用に分類された歌を歌う。逆に、適切な応答を伴いつつ評価累積値が緩慢に増加している場合、会話型ロボット2は、短めの歌、あるいは、それ用に分類された歌を歌う。なお、第1の変形例の場合、歌指示部3dによる歌の再生指示には、歌の長さまたは種類についての指定も含まれる。
 第2の変形例として、質問生成部3aは、ある応答に関する評価値の符号の種別に応じて、この応答に対応する質問の提示頻度を調整する。例えば、図5に示すように、「犬は好きですか?」という質問に対するAさんの応答によって評価累積値が増加した場合(プラスの評価値が付与された場合)、Aさんに対しては、この質問の提示頻度を下げる。逆に、図6に示すように、同一の質問に対するBさんの応答によって評価累積値が減少した場合(マイナスの評価値が付与された場合)、Bさんに対しては、この質問の提示頻度を上げる。
 第3の変形例として、動作指示部3gは、評価値の時系列的な推移を分析した結果に応じて、会話型ロボット2の動作を指示する。例えば、図7に示すように、評価累積値が増大した場合、会話相手の興味を惹くべく、会話型ロボット2の首を振ったり、頷いたりする旨の指示を行う。
 第4の変形例として、応答評価部3cによって随時付与された評価値を記憶部3fに時系列的に保存する。記憶部3fに保存されたデータは、認知症のスクリーニングなどに利用することができる。図8に示すように、時間の経過により、同じ質問についての評価値がマイナスからプラスに転じた場合、これを認知症の進行の指標とすることができる。
 また、本発明は、図3のフローチャートに示した手順をコンピュータに実行させる会話処理プログラムとして捉えることができる。本発明を会話処理プログラムおよび会話処理サーバとして捉えた場合、その制御対象は、会話型ロボットに限定されず、キャラクター全般に広く適用することができる。本明細書において、「キャラクター」とは、人間と会話する相手方を指し、ロボットのような物理的な構造体のみならず、携帯端末などの画面上に表示される仮想的な主体(人、動物、アニメの主人公などを表現したもの)を含む概念をいう。
 さらに、上述した実施形態では、高齢者向けの会話処理システム1について説明したが、会話処理の仕組みという技術的観点でいえば、高齢者以外の会話相手(例えば幼児など)を対象にしてもよい。ただし、上述したように、発明者らが実験を通じて得た知得によれば、高齢者向けとするのが最も効果的であろう。
 1 会話処理システム
 2 会話型ロボット
 2a スピーカ
 2b マイク
 2c 歌再生部
 2d データ通信部
 2e カメラ
 2f 脈拍センサ
 2g アクチュエータ
 3 会話処理サーバ
 3a 質問生成部
 3b 応答解析部
 3c 応答評価部
 3d 歌指示部
 3e データ通信部
 3f 記憶部
 3g 動作指示部

 

Claims (24)

  1.  会話処理プログラムにおいて、
     スピーカより出力された質問に対して、マイクより取得された会話相手の応答を解析する第1のステップと、
     前記応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して評価値を付与する第2のステップと、
     前記評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、会話途中において、前記スピーカより歌を再生すべき旨を指示する第3のステップと、
    を有する処理をコンピュータに実行させることを特徴とする会話処理プログラム。
  2.  前記スピーカによる歌の再生時に前記マイクより音声を取得し、前記マイクより取得された音声波形と、前記歌の音声波形との差分を算出することによって、歌の再生時における会話相手の反応を特定する第4のステップをさらに有することを特徴とする請求項1に記載された会話処理プログラム。
  3.  前記第2のステップは、前記応答がネガティブであると判断された場合、前記評価値として、プラスおよびマイナスの一方の符号を有する第1の評価値を付与するとともに、前記応答がネガティブでないと判断された場合、前記評価値として、前記第1の評価値とは反対の符号を有する第2の評価値を付与することを特徴とする請求項1または2に記載された会話処理プログラム。
  4.  前記第2のステップは、予め登録されたネガティブなワードが前記応答中に含まれているか否かに基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項3に記載された会話処理プログラム。
  5.  前記第2のステップは、前記質問から前記応答までに要した時間に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項3に記載された会話処理プログラム。
  6.  前記第2のステップは、会話当初を基準とした、前記マイクより取得された会話相手の声量に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項3に記載された会話処理プログラム。
  7.  前記第2のステップは、カメラによって撮影された会話相手の表情に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項3に記載された会話処理プログラム。
  8.  前記第2のステップは、脈拍センサによって取得された会話相手の脈拍に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項3に記載された会話処理プログラム。
  9.  前記第3のステップは、前記評価値に応じて、前記スピーカより再生すべき歌の長さまたは種類を変えることを特徴とする請求項1に記載された会話処理プログラム。
  10.  ある応答に関する前記評価値の符号に応じて、当該応答に対応する質問の提示頻度を調整する第5のステップをさらに有することを特徴とする請求項1に記載された会話処理プログラム。
  11.  前記評価値に応じて、人間と会話するキャラクターの動作を指示する第6のステップをさらに有することを特徴とする請求項1に記載された会話処理プログラム。
  12.  会話処理システムにおいて、
     スピーカより出力すべき質問を生成する質問生成部と、
     前記スピーカより出力された質問に対して、マイクより取得された会話相手の応答を解析する応答解析部と、
     前記応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価して評価値を付与する応答評価部と、
     前記評価値を時系列的に累積した評価累積値が所定のしきい値に到達した場合、会話途中において、前記スピーカより歌を再生すべき旨を指示する歌指示部と
    を有することを特徴とする会話処理システム。
  13.  前記応答解析部は、前記スピーカによる歌の再生時に前記マイクより音声を取得し、前記マイクより取得された音声波形と、前記歌の音声波形との差分を算出することによって、歌の再生時における会話相手の反応を特定することを特徴とする請求項12に記載された会話処理システム。
  14.  前記応答評価部は、前記応答がネガティブであると判断された場合、前記評価値として、プラスおよびマイナスの一方の符号を付与するとともに、前記応答がネガティブでないと判断された場合、前記評価値として、前記第1の評価値とは反対の符号を付与することを特徴とする請求項12または13に記載された会話処理システム。
  15.  前記応答評価部は、予め登録されたネガティブなワードが前記応答中に含まれているか否かに基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項14に記載された会話処理システム。
  16.  前記応答評価部は、前記質問から前記応答までに要した時間に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項14に記載された会話処理システム。
  17.  前記応答評価部は、会話当初を基準とした、前記マイクより取得された会話相手の声量に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項14に記載された会話処理システム。
  18.  前記応答評価部は、カメラによって撮影された会話相手の表情に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項14に記載された会話処理システム。
  19.  前記応答評価部は、脈拍センサによって取得された会話相手の脈拍に基づいて、前記応答がネガティブであるか否かを判断することを特徴とする請求項14に記載された会話処理システム。
  20.  前記歌指示部は、前記評価値に応じて、前記スピーカより再生すべき歌の長さまたは種類を変えることを特徴とする請求項12に記載された会話処理システム。
  21.  前記質問生成部は、ある応答に関する前記評価値の符号に応じて、当該応答に対応する質問の提示頻度を調整することを特徴とする請求項12に記載された会話処理システム。
  22.  前記評価値に応じて、人間と会話するキャラクターの動作を指示する動作指示部をさらに有することを特徴とする請求項12に記載された会話処理システム。
  23.  会話型ロボットにおいて、
     会話相手に対して質問および歌を出力するスピーカと、
     前記スピーカより出力された質問に対する会話相手の応答を取得するマイクと、
     評価累積値が所定のしきい値に到達したタイミングにおいて、会話途中で歌を挿入して前記スピーカより再生する歌再生部とを有し、
     前記評価累積値は、評価値を時系列的に累積した値であって、
     前記評価値は、前記マイクより取得された応答がネガティブであるか否かを示す所定の評価基準に従って、それぞれの質問に対する応答を評価した値であることを特徴とする会話型ロボット。
  24.  前記歌再生部は、前記会話型ロボットにネットワーク接続されたサーバからの再生指示に基づいて、予め登録された複数の歌のいずれかを選択し、前記スピーカより出力することを特徴とする請求項23に記載された会話型ロボット。

     
PCT/JP2021/026535 2021-07-14 2021-07-14 会話処理プログラム、会話処理システムおよび会話型ロボット WO2023286224A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022507774A JP7142403B1 (ja) 2021-07-14 2021-07-14 会話処理プログラム、会話処理システムおよび会話型ロボット
PCT/JP2021/026535 WO2023286224A1 (ja) 2021-07-14 2021-07-14 会話処理プログラム、会話処理システムおよび会話型ロボット

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/026535 WO2023286224A1 (ja) 2021-07-14 2021-07-14 会話処理プログラム、会話処理システムおよび会話型ロボット

Publications (1)

Publication Number Publication Date
WO2023286224A1 true WO2023286224A1 (ja) 2023-01-19

Family

ID=83436666

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/026535 WO2023286224A1 (ja) 2021-07-14 2021-07-14 会話処理プログラム、会話処理システムおよび会話型ロボット

Country Status (2)

Country Link
JP (1) JP7142403B1 (ja)
WO (1) WO2023286224A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351305A (ja) * 2001-05-23 2002-12-06 Apollo Seiko Ltd 語学研修用ロボット
JP2004267525A (ja) * 2003-03-10 2004-09-30 Fujitsu Ltd 患者監視方法
JP2015184563A (ja) * 2014-03-25 2015-10-22 シャープ株式会社 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム
JP2018181008A (ja) * 2017-04-14 2018-11-15 株式会社Nttドコモ サーバ装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351305A (ja) * 2001-05-23 2002-12-06 Apollo Seiko Ltd 語学研修用ロボット
JP2004267525A (ja) * 2003-03-10 2004-09-30 Fujitsu Ltd 患者監視方法
JP2015184563A (ja) * 2014-03-25 2015-10-22 シャープ株式会社 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム
JP2018181008A (ja) * 2017-04-14 2018-11-15 株式会社Nttドコモ サーバ装置

Also Published As

Publication number Publication date
JPWO2023286224A1 (ja) 2023-01-19
JP7142403B1 (ja) 2022-09-27

Similar Documents

Publication Publication Date Title
US20240054117A1 (en) Artificial intelligence platform with improved conversational ability and personality development
KR102334942B1 (ko) 돌봄 로봇을 위한 데이터 처리 방법 및 장치
JP4629560B2 (ja) 対話型情報システム
US11151997B2 (en) Dialog system, dialog method, dialog apparatus and program
US9724824B1 (en) Sensor use and analysis for dynamic update of interaction in a social robot
IL229370A (en) Interface system and method for providing user interaction with network entities
JPWO2018168427A1 (ja) 学習装置、学習方法、音声合成装置、音声合成方法
JP6391386B2 (ja) サーバ、サーバの制御方法およびサーバ制御プログラム
JPWO2018030149A1 (ja) 情報処理装置及び情報処理方法
WO2016088557A1 (ja) 会話評価装置および方法
JP6833209B2 (ja) 発話促進装置
CN112634886B (zh) 一种智能设备的交互方法、服务器、计算设备及存储介质
WO2023286224A1 (ja) 会話処理プログラム、会話処理システムおよび会話型ロボット
US11749270B2 (en) Output apparatus, output method and non-transitory computer-readable recording medium
JP2021114004A (ja) 情報処理装置及び情報処理方法
JPWO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7307576B2 (ja) プログラム及び情報処理装置
JP6217003B2 (ja) 端末装置、睡眠言動記録方法及び睡眠言動記録プログラム
JP6516805B2 (ja) 決定装置、決定方法、及び決定プログラム
JP2004184788A (ja) 音声対話システムおよびプログラム
JP6838739B2 (ja) 近時記憶支援装置
JPWO2020026799A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2020189340A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
Legát et al. Wizard of Oz data collection for the Czech senior companion dialogue system
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2022507774

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21950163

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE