WO2022054687A1 - プログラム、情報処理装置及び情報処理方法 - Google Patents

プログラム、情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2022054687A1
WO2022054687A1 PCT/JP2021/032289 JP2021032289W WO2022054687A1 WO 2022054687 A1 WO2022054687 A1 WO 2022054687A1 JP 2021032289 W JP2021032289 W JP 2021032289W WO 2022054687 A1 WO2022054687 A1 WO 2022054687A1
Authority
WO
WIPO (PCT)
Prior art keywords
question
answer
answers
questions
server
Prior art date
Application number
PCT/JP2021/032289
Other languages
English (en)
French (fr)
Inventor
康之 本間
直之 前田
貴之 内田
Original Assignee
テルモ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テルモ株式会社 filed Critical テルモ株式会社
Priority to CN202180058332.3A priority Critical patent/CN116096301A/zh
Priority to EP21866646.9A priority patent/EP4205666A4/en
Priority to JP2022547538A priority patent/JPWO2022054687A1/ja
Publication of WO2022054687A1 publication Critical patent/WO2022054687A1/ja
Priority to US18/178,303 priority patent/US20230207073A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0002Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network
    • A61B5/0015Remote monitoring of patients using telemetry, e.g. transmission of vital signals via a communication network characterised by features of the telemetry system
    • A61B5/0022Monitoring a patient using a global network, e.g. telephone networks, internet
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0077Devices for viewing the surface of the body, e.g. camera, magnifying lens
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/0205Simultaneously evaluating both cardiovascular conditions and different types of body conditions, e.g. heart and respiratory condition
    • A61B5/02055Simultaneously evaluating both cardiovascular condition and temperature
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/163Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state by tracking eye movement, gaze, or pupil change
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing

Definitions

  • the present invention relates to a program, an information processing device, and an information processing method.
  • Patent Document 1 There is a technology to support the diagnosis of brain dysfunction such as dementia.
  • Patent Document 1 it is possible that the subject has developed dementia by converting the spoken voice answered by the subject to a predetermined question into text data and calculating the editing distance from the comparison text data.
  • a dementia diagnostic device for determining whether or not there is sex is disclosed.
  • Patent Document 1 has not yet estimated the possibility of brain dysfunction in consideration of the difference in symptoms of various brain dysfunctions such as dementia and aphasia.
  • One aspect is to provide a program or the like that can suitably estimate the possibility of brain dysfunction.
  • the program outputs the first question by voice, accepts the answer to the first question from the subject, outputs the second question by text, and outputs the answer to the second question. Accepted from the subject, it is determined whether or not the answers to the first and second questions are correct, and based on the correctness of the answers to the first and second questions, the subject's brain dysfunction Let the computer perform the process of estimating the possibility of.
  • the possibility of brain dysfunction can be suitably estimated.
  • FIG. It is explanatory drawing which shows the configuration example of a dialogue system. It is a block diagram which shows the configuration example of a server. It is a block diagram which shows the configuration example of a mobile terminal. It is a block diagram which shows the configuration example of a speaker terminal. It is explanatory drawing which shows the outline of Embodiment 1.
  • FIG. It is explanatory drawing which shows the example of the display screen of a message. It is a flowchart which shows the processing procedure which a server executes. It is a block diagram which shows the configuration example of the server which concerns on Embodiment 2. It is explanatory drawing which shows an example of the record layout of the answer history DB. It is explanatory drawing which shows the display screen example of a speaker terminal.
  • FIG. 1 is an explanatory diagram showing a configuration example of a dialogue system.
  • a dialogue system for determining the presence or absence of an abnormality, preferably brain dysfunction, of the subject based on the spoken voice input by the subject will be described.
  • the dialogue system includes an information processing device 1, a mobile terminal 2, and a speaker terminal 3. Each device is communicatively connected to a network N such as the Internet.
  • the information processing device 1 is an information processing device capable of transmitting and receiving various types of information processing and information, and is, for example, a server computer, a personal computer, or the like. In the present embodiment, it is assumed that the information processing apparatus 1 is a server computer, and in the following, it will be read as server 1 for the sake of brevity.
  • the server 1 determines whether or not there is a possibility of brain dysfunction from the spoken voice input by the subject. Specifically, as will be described later, the server 1 is a chatbot system that operates based on an utterance voice input by the target person as a message to a chat group in which a plurality of users including the target person participate, or a predetermined dialogue engine. Detects abnormal parts suspected of having brain dysfunction from the spoken voice input by the subject.
  • the target brain dysfunction is not particularly limited, but examples thereof include dementia and aphasia.
  • the server 1 detects abnormal utterances (unclear words, speech errors, etc.) caused by dementia, aphasia, etc., and other users (for example, the subject's family, medical staff who treat the subject, etc.) , The user related to the target person) is presented with the abnormal part.
  • the mobile terminal 2 is an information processing terminal used by each user including the target person, and is, for example, a smartphone, a tablet terminal, or the like. Although only one mobile terminal 2 is shown in FIG. 1, it is assumed that the mobile terminal 2 of the target person and other users is connected to the server 1.
  • the server 1 acquires the utterance voice input by the target person as a message to the chat group from the mobile terminal 2 and converts it into text. Then, the server 1 detects the abnormal part from the converted text.
  • the speaker terminal 3 is an audio input / output terminal installed at the target person's home or the like, and is a so-called smart speaker.
  • the speaker terminal 3 is not limited to what is called a smart speaker, and may have an audio input / output function and an image display function. Further, the installation location of the speaker terminal 3 is not limited to the home of the target person, and may be a facility other than the home (for example, a nursing care facility).
  • the speaker terminal 3 functions as a terminal device of the chatbot system and has a dialogue with the target person. As will be described later, the server 1 may acquire the spoken voice of the target person from the speaker terminal 3 and detect the abnormal portion.
  • the mobile terminal 2 and the speaker terminal 3 are mentioned as the terminal device that cooperates with the server 1, but other forms of the terminal device (for example, a robot type device) may be used.
  • the terminal device may be a local terminal having an audio input / output function, an image display function, and the like, and the form thereof is not particularly limited.
  • FIG. 2 is a block diagram showing a configuration example of the server 1.
  • the server 1 includes a control unit 11, a main storage unit 12, a communication unit 13, and an auxiliary storage unit 14.
  • the control unit 11 has one or more CPUs (Central Processing Units), MPUs (Micro-Processing Units), GPUs (Graphics Processing Units) and other arithmetic processing units, and stores the program P1 stored in the auxiliary storage unit 14. By reading and executing, various information processing, control processing, etc. are performed.
  • the main storage unit 12 is a temporary storage area for SRAM (Static Random Access Memory), DRAM (Dynamic Random Access Memory), flash memory, etc., and temporarily stores data necessary for the control unit 11 to execute arithmetic processing.
  • SRAM Static Random Access Memory
  • DRAM Dynamic Random Access Memory
  • flash memory etc.
  • the communication unit 13 is a communication module for performing processing related to communication, and transmits / receives information to / from the outside.
  • the auxiliary storage unit 14 is a non-volatile storage area such as a large-capacity memory or a hard disk, and stores the program P1 and other data necessary for the control unit 11 to execute processing.
  • the auxiliary storage unit 14 may be an external storage device connected to the server 1. Further, the server 1 may be a multi-computer composed of a plurality of computers, or may be a virtual machine virtually constructed by software.
  • the server 1 is not limited to the above configuration, and may include, for example, an input unit that accepts operation input, a display unit that displays an image, and the like. Further, the server 1 includes a reading unit for reading a portable storage medium 1a such as a CD (CompactDisk) -ROM, a DVD (DigitalVersatileDisc) -ROM, and reads and executes a program P1 from the portable storage medium 1a. You can do it. Alternatively, the server 1 may read the program P1 from the semiconductor memory 1b.
  • a portable storage medium 1a such as a CD (CompactDisk) -ROM, a DVD (DigitalVersatileDisc) -ROM
  • FIG. 3 is a block diagram showing a configuration example of the mobile terminal 2.
  • the mobile terminal 2 includes a control unit 21, a main storage unit 22, a communication unit 23, a display unit 24, an input unit 25, a voice output unit 26, a voice input unit 27, an image pickup unit 28, and an auxiliary storage unit 29.
  • the control unit 21 has one or a plurality of arithmetic processing units such as CPUs and MPUs, and performs various information processing, control processing, and the like by reading and executing the program P2 stored in the auxiliary storage unit 29.
  • the main storage unit 22 is a temporary storage area such as a RAM, and temporarily stores data necessary for the control unit 21 to execute arithmetic processing.
  • the communication unit 23 is a communication module for performing processing related to communication, and transmits / receives information to / from the outside.
  • the display unit 24 is a display screen such as a liquid crystal display and displays an image.
  • the input unit 25 is an operation interface such as a touch panel, and receives operation input from the user.
  • the audio output unit 26 is a speaker and outputs audio.
  • the voice input unit 27 is a microphone and receives voice input from the user.
  • the image pickup unit 28 is a camera provided with an image pickup element such as CMOS (Complementary MOS) and captures an image.
  • the auxiliary storage unit 29 is a non-volatile storage area such as a hard disk and a large-capacity memory, and stores the program P2 and other data necessary for the control unit 21 to execute processing.
  • the mobile terminal 2 may include a reading unit that reads a portable storage medium 2a such as a CD-ROM, and may read the program P2 from the portable storage medium 2a and execute the program P2. Alternatively, the mobile terminal 2 may read the program P2 from the semiconductor memory 2b.
  • a reading unit that reads a portable storage medium 2a such as a CD-ROM, and may read the program P2 from the portable storage medium 2a and execute the program P2.
  • the mobile terminal 2 may read the program P2 from the semiconductor memory 2b.
  • FIG. 4 is a block diagram showing a configuration example of the speaker terminal 3.
  • the speaker terminal 3 includes a control unit 31, a main storage unit 32, a communication unit 33, a display unit 34, an input unit 35, a voice output unit 36, a voice input unit 37, an image pickup unit 38, and an auxiliary storage unit 39.
  • the control unit 31 has one or more CPUs, MPUs, and other arithmetic processing devices, and performs various information processing, control processing, and the like by reading and executing the program P3 stored in the auxiliary storage unit 39.
  • the main storage unit 32 is a temporary storage area such as a RAM, and temporarily stores data necessary for the control unit 31 to execute arithmetic processing.
  • the communication unit 33 is a communication module for performing processing related to communication, and transmits / receives information to / from the outside.
  • the display unit 34 is a display screen such as a liquid crystal display and displays an image.
  • the input unit 35 is an operation interface such as a touch panel, and receives operation input from the user.
  • the audio output unit 36 is a speaker and outputs audio.
  • the voice input unit 37 is a microphone and receives voice input from the user.
  • the image pickup unit 38 is a camera provided with an image pickup element such as CMOS, and captures an image.
  • the auxiliary storage unit 39 is a non-volatile storage area such as a hard disk and a large-capacity memory, and stores the program P3 and other data necessary for the control unit 31 to execute processing.
  • the speaker terminal 3 may include a reading unit that reads a portable storage medium 2a such as a CD-ROM, and may read the program P3 from the portable storage medium 3a and execute the program P3. Alternatively, the speaker terminal 3 may read the program P3 from the semiconductor memory 3b.
  • a reading unit that reads a portable storage medium 2a such as a CD-ROM, and may read the program P3 from the portable storage medium 3a and execute the program P3.
  • the speaker terminal 3 may read the program P3 from the semiconductor memory 3b.
  • FIG. 5 is an explanatory diagram showing an outline of the first embodiment. An outline of the present embodiment will be described with reference to FIG.
  • the server 1 determines whether or not the state of the target person is abnormal from a message or the like to a chat group in which a plurality of users including the target person participate.
  • FIG. 5 illustrates a dialogue image in a chat group.
  • the right side of FIG. 5 represents a message from the target person, and the left side represents a message from another user (for example, a family member) and the system (server 1).
  • the target person can also input a message by voice by using the text input or the voice recognition function.
  • the server 1 converts the voice input by the target person into text, and detects an abnormal part from the converted text.
  • an abnormal part In the example of FIG. 5, the case where the server 1 converts the voice of the target person into the text "I went to the top today" in response to the message "Where did you go today?" From another user is illustrated. ing. In this case, the server 1 detects the abnormal part "Touen" from the text.
  • the specific method for detecting an abnormal part is not particularly limited, but for example, the server 1 performs morphological analysis, divides the text into a plurality of character strings (words), and stores a large number of words in a word dictionary (database not shown). Refer to to compare each string with each word in the word dictionary.
  • the division unit of the text is a word, but it may be divided into a unit longer than the word (for example, a phrase) or a unit shorter than the word.
  • the server 1 detects a character string that is not stored in the word dictionary as an abnormal part.
  • the server 1 may specify a word with a low frequency of appearance (for example, a word other than a common word) in a word dictionary, and detect a word with a low frequency of appearance as an abnormal part.
  • the server 1 may store the text related to the voice input by the target person and detect the abnormal part based on the past text. For example, the server 1 stores (registers) a character string obtained by dividing a text by morphological analysis as a new word in a word dictionary, and constructs a word dictionary for each target person. Then, when the server 1 receives the voice input from the target person and converts it into text, the server 1 detects the abnormal portion by referring to the word dictionary corresponding to the target person. As a result, it is possible to improve the detection accuracy of the abnormal portion in consideration of the tendency of the subject's remarks.
  • the abnormal part was detected using the word dictionary, but the method for detecting the abnormal part is not limited to this.
  • the server 1 may detect an abnormal part by performing a text parsing, a semantic analysis, and the like. Further, the detection method is not limited to the rule base.
  • the server 1 prepares a trained machine learning model (for example, a neural network) so as to detect an abnormal part when a text is input, and converts the spoken voice. The text may be input to the model to detect an abnormal part.
  • the method for detecting the abnormal portion is not particularly limited.
  • the server 1 When an abnormal part is detected, the server 1 generates an interrogative sentence to listen back to the abnormal part and outputs it to the target person's mobile terminal 2.
  • the question is preferably in the form of any of 6W3H (Who, Who, Where, Where, What, Why, How, How many, How Much).
  • the server 1 applies the character string corresponding to the abnormal part to the template of the interrogative sentence in any format of 6W3H, and generates the interrogative sentence.
  • the server 1 outputs an interrogative sentence as a message in the chat group and displays it on the mobile terminal 2. For example, the server 1 may convert the interrogative sentence into voice and output it to the mobile terminal 2.
  • Server 1 accepts the input of the answer to the above question from the target person.
  • the answer accepts the input by voice in the same way as when inputting the message.
  • the server 1 converts the input response voice into text, and determines whether or not the subject's condition is abnormal, specifically, whether or not there is a possibility of brain dysfunction.
  • FIG. 5 illustrates patterns 1 to 3 as response examples.
  • the server 1 determines that the state of the target person is normal.
  • the server 1 determines that the state of the target person is abnormal.
  • the server 1 recognizes that the target person's state is normal because the correct sentence is recognized from the voice in view of the context. judge.
  • the server 1 determines the state of the target person from the answer to the question sentence.
  • the server 1 may determine the state of the target person from data other than voice.
  • the mobile terminal 2 captures an image of the target person at the time of inputting an answer to the above question sentence, and the server 1 determines the state of the target person from the captured image (for example, a moving image).
  • the server 1 recognizes the target person's face from the image and determines the target person's state from the left-right asymmetry of the face. For example, when cerebral dysfunction occurs due to cerebral infarction, cerebral hemorrhage, etc., asymmetrical states and movements are observed on the left and right sides of the face, such as different movements on the left and right sides of the face, lowering on one side, and distortion on one side.
  • the server 1 divides the face area in the image into two areas on the left and right, specifies the state (coordinates of each feature point such as the edge of the eyes and the mouth) and the movement (movement of the feature point) of each area, and then Determine if the left-right state and / or movement of the face is asymmetric. If it is determined to be asymmetric, the server 1 determines that the state of the target person is abnormal.
  • the target person is imaged when the answer to the interrogative sentence is input, but the target person is imaged when the voice of the initial message (message in which the abnormal part is detected) is input, and when the message (voice) is input.
  • the left-right asymmetry of the face may be determined from the image. That is, the time when the image is captured is not limited to the time when the answer to the question is input, but may be the time when the message is input by voice.
  • the abnormality of the target person is determined by combining the image and the sound, but the abnormality of the target person may be determined only from the voice (text).
  • the server 1 detects an abnormal part suspected of having brain dysfunction from the voice text input by the subject as a message to the chat group, listens back to the abnormal part, and answers the question.
  • the state of the subject is determined from the voice and / or the image at the time of answer input.
  • the server 1 may detect an abnormal part from the input voice when the target person interacts with the chatbot realized based on a predetermined dialogue engine.
  • the chat bot may input / output voice with a mobile terminal 2 such as a smartphone, but input / output voice with a speaker terminal 3 (smart speaker) installed at the target person's home or the like. May be.
  • a speaker terminal 3 smart speaker installed at the target person's home or the like. May be.
  • the speaker terminal 3 receives the voice input from the target person and outputs the response voice.
  • the speaker terminal 3 accepts various voice inputs such as daily greetings (such as "good morning"), information output requests (for example, today's weather, schedule, etc.), and device (home appliances, etc.) operation requests.
  • the speaker terminal 3 performs various information processing (for example, output a greeting response voice when a greeting is input, output a device operation signal when a device operation voice is input, etc.) with respect to these input voices. ..
  • the server 1 acquires the voice input to the speaker terminal 3 and converts it into text, and detects an abnormal portion.
  • the method for detecting an abnormal part is the same as above.
  • the server 1 may call the target person from the system side via the speaker terminal 3 and accept the voice input.
  • the server 1 outputs a voice asking a predetermined item (such as "What is the weather today?") To the speaker terminal 3 at regular intervals, and accepts a voice input of an answer from the target person.
  • a predetermined item such as "What is the weather today?"
  • the server 1 may detect the abnormal part from the dialogue voice with the chatbot. That is, the voice to be detected at the abnormal portion is not limited to a message to another user, and may be any uttered voice.
  • FIG. 6 is an explanatory diagram showing an example of a message display screen.
  • FIG. 6 illustrates how a message (text) in which an abnormal part is detected is displayed in a group chat.
  • FIG. 6 illustrates a chat screen displayed by a mobile terminal 2 of another user (family, etc.) who exchanges messages with the target person.
  • messages from the target person and the system are shown on the left side, and messages from other users are shown on the right side.
  • the server 1 When the server 1 detects an abnormal part from the message of the target person, the server 1 displays the character string corresponding to the abnormal part in a display mode different from other character strings. For example, the server 1 changes the display color of the character string corresponding to the abnormal portion and changes (highlights) the background color of the abnormal portion. In FIG. 6, for convenience of illustration, the state in which the display color of the character string is changed is shown in bold, and the state in which the background color is changed is shown by hatching. Further, the server 1 displays the interrogative sentence output from the system side (server 1) and the answer of the target person to the interrogative sentence together.
  • the server 1 displays the object 61 corresponding to the abnormal part in the message of the target person.
  • the object 61 may be an example of a display mode showing a character string corresponding to an abnormal portion, or may be an icon for reproducing a voice input by a target person.
  • the server 1 outputs the input voice to the mobile terminal 2 and reproduces it.
  • other users family members, etc.
  • the server 1 may be able to reproduce not only the initial voice when the abnormal portion is detected but also the answer voice for the subsequent interrogative sentence.
  • the server 1 determines that the subject may have brain dysfunction
  • the server 1 notifies other users of the determination result. For example, as shown in FIG. 6, the server 1 outputs a comment (information) to the effect that there is a possibility of brain dysfunction to the subject and displays it on the mobile terminal 2.
  • the server 1 displays a comment prompting a medical institution to receive a medical examination and a test for examining whether or not the patient has brain dysfunction.
  • the server 1 displays a button for selecting test execution or non-execution in the comment and accepts an operation input to the "test" button, the target person's mobile terminal 2 (or another)
  • the test data is output to the user's mobile terminal 2).
  • the test data is, for example, a calculation test such as addition or subtraction, or a test of hitting an object shown in a photograph, but is not particularly limited.
  • the server 1 may notify not only other users (family members, etc.) related to the subject but also the subject himself / herself of the determination result that there is a possibility of brain dysfunction.
  • the subject's abnormality can be easily detected and a medical examination at a medical institution, etc. Can be encouraged.
  • the server 1 When displaying the message in which the abnormal part is detected, the server 1 changes the display mode of the abnormal part according to the state of the target person determined from the answer to the question sentence and / or the image at the time of inputting the answer. You may. For example, when the server 1 determines that the state of the target person is abnormal from the answer voice to the question sentence, the server 1 displays the character string corresponding to the abnormal part in red. On the other hand, when the abnormal part is detected from the message but the state of the target person is determined to be normal from the answer voice to the question sentence, the server 1 displays the character string corresponding to the abnormal part in blue. As a result, it is possible to present the abnormal part to other users by giving a light weight to the degree of abnormality, such as when a simple error is made.
  • FIG. 7 is a flowchart showing a processing procedure executed by the server 1.
  • the processing contents executed by the server 1 will be described with reference to FIG. 7.
  • the control unit 11 of the server 1 accepts voice input from the target person (step S11).
  • the voice is, for example, a message to a chat group in which a plurality of users including a target person participate, but may be an input voice to a chatbot based on a predetermined dialogue engine.
  • the control unit 11 converts the input voice into text (step S12).
  • the control unit 11 detects an abnormal part from the converted text (step S13). For example, the control unit 11 performs morphological analysis of the text, divides it into a plurality of character strings, compares each word stored in a predetermined word dictionary with each character string, and detects the character string corresponding to the abnormal part. do.
  • the control unit 11 determines whether or not an abnormal part has been detected in the text (step S14). When it is determined that the abnormal portion is not detected (S14: NO), the control unit 11 outputs the converted text as a message of the target person to the mobile terminal 2 of another user and displays it (step S15). When it is determined that the abnormal part is detected (S14: YES), the control unit 11 outputs a question sentence for listening back to the character string corresponding to the abnormal part to the mobile terminal 2 of the target person (step S16). The control unit 11 receives the voice input of the answer to the question sentence from the target person (step S17). Further, the control unit 11 acquires an image of the target person at the time of inputting the answer from the mobile terminal 2 (step S18).
  • the control unit 11 determines whether or not the state of the subject is abnormal based on the voice input in step S17 and / or the image acquired in step S18 (step S19). Specifically, the control unit 11 determines whether or not the subject has a possibility of brain dysfunction. For example, the control unit 11 converts the input voice into text and divides it into a plurality of character strings as in step S14, compares it with each word in the word dictionary, and determines whether or not there is a character string corresponding to the abnormal portion. do. Further, the control unit 11 recognizes the face of the subject from the image captured in step S18, and determines whether or not the left-right state and / or movement of the face is asymmetric. If it is determined that there is no abnormality (S19: NO), the control unit 11 shifts the process to step S15.
  • the control unit 11 sends a message (text) indicating the character string corresponding to the abnormal part in a display mode different from that of other character strings to the mobile terminal 2 of another user.
  • Display step S20. Specifically, as described above, the control unit 11 changes the display color of the character string corresponding to the abnormal portion, and changes the background color of the character string to display the character string. Further, the control unit 11 displays an object 61 for reproducing the voice input by the target person.
  • the control unit 11 determines whether or not to reproduce the input voice in response to the operation input to the object 61 (step S21). When it is determined to reproduce the input voice (S21: YES), the control unit 11 causes the mobile terminal 2 of another user to reproduce the voice input by the target person (step S22). After executing the process of step S22, or if NO in step S21, the control unit 11 ends a series of processes.
  • the server 1 executes processing such as text conversion of input voice and detection of abnormal parts, but some or all of the processing is performed by the local mobile terminal 2 (or speaker). Terminal 3) may execute.
  • the mobile terminal 2 may perform text conversion, and the server 1 may detect an abnormal portion.
  • the processing entity of the series of processing is not particularly limited.
  • the voice input by the subject is converted into text to detect the abnormal part, and the character string corresponding to the abnormal part is displayed in a display mode different from other character strings.
  • the voice input by the subject is converted into text to detect the abnormal part
  • the character string corresponding to the abnormal part is displayed in a display mode different from other character strings.
  • the first embodiment it is possible to detect an abnormality of the target person from the normal dialogue voice of the target person such as a dialogue message in a chat group and an input voice to the chatbot.
  • the accuracy of detecting an abnormal part can be improved by referring to the text related to the past input voice of the target person.
  • a question sentence for listening back to the abnormal part is output and an input of an answer is accepted, so that it is more preferable whether or not the state of the subject is abnormal. Can be determined.
  • the first embodiment by determining the left-right asymmetry of the face from the image of the subject at the time of inputting the answer, it is possible to more preferably determine the abnormality of the subject related to the brain dysfunction. Can be done.
  • the display mode of the character string corresponding to the abnormal portion is changed according to the answer to the question sentence and / or the state of the subject determined from the image obtained by capturing the subject. By doing so, it is possible to give a light weight to the degree of abnormality and present the abnormal part to other users.
  • another user can easily grasp the state of the target person by playing back the voice input by the target person.
  • FIG. 8 is a block diagram showing a configuration example of the server 1 according to the second embodiment.
  • the auxiliary storage unit 14 of the server 1 according to the present embodiment stores the response history DB 141.
  • the answer history DB 141 is a database that stores the answer of the subject to the question described later and the estimation result of the possibility of brain dysfunction based on the answer.
  • FIG. 9 is an explanatory diagram showing an example of the record layout of the response history DB 141.
  • the response history DB 141 includes a date / time column, a target person column, a voice column, a text column, a reaction column, an estimation result column, and an image string.
  • the date and time column stores the answer date and time when the subject answered the question.
  • the target person column, voice column, text column, reaction column, estimation result column, and image column are associated with the answer date and time, respectively, and the answer to the answer subject name and voice question (first question described later).
  • 10A and 10B are explanatory views showing an example of a display screen of the speaker terminal 3.
  • 11A and 11B are explanatory views showing an example of a display screen of a message according to the second embodiment. An outline of the present embodiment will be described with reference to FIGS. 10A, 10B, 11A and 11B.
  • the server 1 detects an abnormal part from the voice input by the target person and presents it to another user.
  • the server 1 asks the target person a question by voice or text. Then, the server 1 estimates the possibility of brain dysfunction based on the subject's answer to the question.
  • the server 1 outputs the first question by voice and the second question by text to the speaker terminal 3, and causes the speaker terminal 3 to perform voice output and image display corresponding to each question.
  • 10A and 10B show a screen example when the first question is asked and a screen example when the second question is asked, respectively.
  • the server 1 displays the answer options for each question on the speaker terminal 3, and accepts the input of the answer by accepting the screen operation for selecting one from the displayed options.
  • the question is asked via the speaker terminal 3, but the question may be asked via the mobile terminal 2.
  • FIG. 11A illustrates a chat screen displayed by another user's mobile terminal 2 as in FIG. 6.
  • the mobile terminal 2 displays a message of the target person in which the abnormal part is detected, as in the first embodiment.
  • the server 1 When the server 1 detects an abnormal part in the present embodiment, it accepts the input of a message to the target person from another user via the screen.
  • the content of the message is not particularly limited, but it is preferable to accept the input of the message including the image.
  • a message including an image of a close relative (for example, a grandchild) of the target person is input as a message to the target person.
  • the server 1 analyzes the messages input from other users and extracts the data for generating the first and second questions. For example, the server 1 extracts a proper noun in the text (for example, a person's name, a grandson's name "Taro" in the examples of FIGS. 11A and 11B), and an image. The server 1 generates the first and second questions based on the extracted data and outputs them to the speaker terminal 3.
  • a proper noun in the text for example, a person's name, a grandson's name "Taro" in the examples of FIGS. 11A and 11B
  • the server 1 generates the first and second questions based on the extracted data and outputs them to the speaker terminal 3.
  • the server 1 generates a first question by voice and outputs it to the speaker terminal 3. For example, as shown in FIG. 10A, the server 1 outputs an image extracted from a message of another user and another image different from the image to the speaker terminal 3 for display, and selects one of the images. Outputs a voice prompting screen operation.
  • the server 1 extracts an image area in which a person (grandchild) appears from an image extracted from a message, generates a thumbnail image, and displays it on the speaker terminal 3. Further, the server 1 displays an irrelevant image prepared in advance as another option. In the example of FIG. 10A, the number of displayed images is two, but three or more may be displayed. Further, in the present embodiment, an image input by another user is displayed. For example, an image is prepared (registered) in a database in advance for each target person, and the image prepared in the database is displayed. May be good. The server 1 applies the proper noun (grandchild's name) extracted from the message to the question sentence of the template, generates a voice prompting the selection of the image of the person corresponding to the proper noun, and outputs it to the speaker terminal 3.
  • the server 1 applies the proper noun (grandchild's name) extracted from the message to the question sentence of the template, generates a voice prompting the selection of the image of the person corresponding to the proper noun, and outputs it to the speaker
  • Server 1 accepts the input of the answer to the first question. Specifically, the server 1 accepts a screen operation for selecting one from a plurality of images displayed on the speaker terminal 3. The input of the answer may be accepted by voice or the like.
  • the server 1 When the input of the answer to the first question is accepted, the server 1 outputs the second question by text. For example, as shown in FIG. 10B, the server 1 displays a question text asking whether or not to browse an image (photograph), and also displays an object (button) for selecting whether or not to browse. Note that FIG. 10B illustrates the case where the correct image (grandchild's image) is selected on the screen of FIG. 10A. In this case, “Do you want to see a picture?" Is displayed as a question. When an incorrect image is selected on the screen of 10A, "Would you like to see a picture?" Is displayed as a question.
  • Server 1 accepts screen operations to select either "view photo” or “do not view photo”.
  • View Photo the server 1 outputs a message of another user to the speaker terminal 3. Specifically, the server 1 causes the speaker terminal 3 to display an image input by another user. Of course, text other than the image may be displayed.
  • Do not see photo the server 1 waits for a predetermined time, and when the predetermined time has elapsed, the series of processes is completed without displaying a message. do.
  • the server 1 determines whether or not the answers to the first and second questions are correct. Then, the server 1 estimates the possibility of brain dysfunction based on the correctness of the answers to the first and second questions. Specifically, the server 1 estimates whether or not there is a possibility of brain dysfunction and estimates the type of possible brain dysfunction based on the combination of correctness and incorrectness of each answer.
  • the brain dysfunction to be estimated is not particularly limited, but in this embodiment, aphasia and dementia (or transient cognitive decline due to cerebral infarction or the like) are estimated.
  • the server 1 estimates whether or not there is a possibility of aphasia and whether or not there is a possibility of dementia based on the combination of correctness and incorrectness of each answer.
  • the server 1 presumes that there is a possibility of aphasia when the answer to the first question by voice is an incorrect answer and the answer to the second question by text is a correct answer. .. Further, the server 1 presumes that there is a possibility of dementia when both the answers to the first and second questions are incorrect. If both the first and second questions are correct, it is presumed to be normal, and if only the second question is incorrect, it is treated as an accidental answer error.
  • aphasia is a disorder that impairs language ability
  • dementia is a disorder that generally impairs cognitive ability including non-verbal ability.
  • Responses to voice and text differ depending on which symptom is present. Therefore, in the present embodiment, the first question by voice and the second question by text are performed, and aphasia and dementia are identified according to the combination of correct and incorrect answers to each question.
  • the server 1 estimates the possibility of brain dysfunction based on the image of the subject at the time of answering. For example, when the speaker terminal 3 outputs the first question and / or the second question, the speaker terminal 3 simultaneously captures an image of the subject. The server 1 acquires the answer to each question from the speaker terminal 3, and also acquires the image at the time of the answer and makes an estimation.
  • the server 1 estimates the possibility of brain dysfunction based on the left-right asymmetry of the subject's face, as in the first embodiment. That is, the server 1 divides the face area in the image into two areas on the left and right, and specifies the state (coordinates of each feature point such as the eyes and the edge of the mouth) and the movement (movement of the feature point) of each area. It is determined whether or not the left-right state and / or movement of the face is asymmetric. As a result, the server 1 can detect a situation in which brain dysfunction is caused by cerebral infarction or the like.
  • the server 1 estimates the possibility of brain dysfunction by determining from the image whether or not the subject is in a state of being in need of answer, in addition to the left-right asymmetry of the face. .. Specifically, as described below, the server 1 detects a specific event applicable to the distressed state from the image.
  • the server 1 detects the target person's hand (finger) or the target person's line-of-sight direction from the image, and determines whether or not the movement of the target person's hand or the line-of-sight direction corresponds to a specific movement. Specifically, in the server 1, since the target person is uncertain about the selection of the option, the target person's hand or line-of-sight direction goes back and forth between each option (image in the first question, button in the second question). Detects the movement to be done.
  • the server 1 can detect aphasia, for example, by detecting the hand or line-of-sight direction from the image at the time of answering the first question by voice and determining whether or not the hand or line-of-sight direction moves back and forth between the images. Estimate sex.
  • the server 1 may recognize the facial expression of the target person and determine whether or not it corresponds to a specific facial expression (worried, impatient, troubled, etc.). Even in this case, similarly to the above, it can be determined whether or not the answer is in a difficult state.
  • the server 1 may determine the distressed state by estimating the biological information of the target person from the image.
  • the biological information is, for example, the degree of opening of the pupil, the pulse, the temperature of the face (body temperature), the blood flow velocity, and the like.
  • the server 1 estimates these biometric information from the image and detects changes in the biometric information (for example, pupil opening, pulse speeding up, etc.) to determine whether or not the answer is in need.
  • the server 1 may determine whether or not it is in a distressed state based on the response time to the question in addition to the image. Specifically, the server 1 measures the response time from the output of the question (for example, the first question) to the input of the answer, and determines whether or not the response time is equal to or greater than a predetermined threshold value. .. As a result, it is possible to detect a situation in which it takes a long time to answer because the person is in a difficult state.
  • the server 1 estimates the possibility of brain dysfunction from the image of the subject and / or the response time in addition to the answers to the first and second questions.
  • the answers to the first and second questions are both correct, and even when the subject is presumed to be normal, the left-right movement and / or state of the face is asymmetric. If it is determined that the patient is in distress, it is presumed that there is a possibility of brain dysfunction. Or even if the answer to the first question is a correct answer and the answer to the second question is an incorrect answer and it is treated as an accidental answer mistake by the subject, the left and right sides of the face are similarly treated. If the movement and / or state of the face is asymmetrical, or if it is determined that the state is in need, the question text may be changed to repeat the question.
  • the server 1 outputs the estimation result to the mobile terminal 2 of another user and displays it.
  • FIG. 11B illustrates a chat screen when the estimation result is displayed.
  • the server 1 displays a text indicating an estimation result (determination result) and displays a score obtained by quantifying the estimation result.
  • the server 1 calculates the scores of the "voice” corresponding to the first question, the "text” corresponding to the second question, and the "reaction” corresponding to the image and the response time, and displays them on the mobile terminal 2. ..
  • the method for calculating the score is not particularly limited, but for example, the server 1 aggregates the correctness of the answers to the first and second questions asked in the past predetermined period (for example, one week), and determines the voice recognition ability and the character recognition ability.
  • the score evaluated for each (for example, the correct answer rate in a predetermined period) is calculated and output as the score of "voice" and "text”. Further, for example, the server 1 calculates the degree of distress from the image and / or the response time, and outputs it as a score of "reaction".
  • FIG. 12 is an explanatory diagram showing another example of the chat screen when the estimation result is displayed.
  • FIG. 12 illustrates a chat screen when it is presumed that there is a high possibility of brain dysfunction.
  • the server 1 notifies the mobile terminal 2 of another user of the estimation result and displays it on the chat screen.
  • the server 1 displays a score obtained by quantifying the estimation result as in FIG. 11B, and displays a text indicating that there is a high possibility of brain dysfunction. For example, as shown in FIG. 12, the server 1 indicates the type of brain dysfunction presumed to be highly probable, and displays a comment prompting a medical institution for consultation.
  • the server 1 may notify not only other users (family members, etc.) related to the subject but also the subject himself / herself of the estimation result that there is a possibility of brain dysfunction.
  • Server 1 further displays a link 121 for viewing (confirming) the response history of the target person on the chat screen.
  • the link 121 is an object for outputting (displaying) history information indicating the answers to the past first and second questions by the subject and the history of the estimation result of the possibility of brain dysfunction, and FIG. 13 It is an object for transitioning to the history screen of.
  • the mobile terminal 2 transitions to the history screen of FIG.
  • history information may be viewable even when the target person's condition is estimated to be normal (FIG. 11B). In addition to transitioning from the chat screen, it is of course possible that the history information can be viewed at any time.
  • FIG. 13 is an explanatory diagram showing an example of the history screen.
  • the history screen displays a series of historical information such as the correctness of the subject's answer to the first and second questions, the captured image of the subject captured at the time of the answer, the answer and the estimation result of brain dysfunction based on the image. It is a screen.
  • the server 1 stores various types of history information in the response history DB 141, and outputs the history information in response to a request from the mobile terminal 2.
  • the history screen includes a response history table 131, an image display field 132, and a score graph 133.
  • the answer history table 131 shows the degree of distress of the subject as determined based on the correctness of the answers to the first and second questions (“voice” and “text”) at each time in the past, the captured image at the time of answer, and the like. (Score of "response") and estimation result of brain dysfunction ("judgment”) are shown in a list. Further, in the response history table 131, the reproduction button 1311 for reproducing the captured image (moving image) is displayed in association with each time point.
  • the image display field 132 is a display field for displaying an image of the subject when answering the first and / or the second question.
  • the mobile terminal 2 displays the image (moving image) captured at the corresponding time point.
  • the score graph 133 is a graph showing each score exemplified in FIGS. 11B and 12 in chronological order.
  • the mobile terminal 2 has a "voice” that evaluates the voice recognition ability based on the correctness of the answer to the first question, a "text” that evaluates the character recognition ability based on the correctness of the answer to the second question, and a captured image.
  • a graph (for example, a line graph) showing each score of the "reaction” that evaluates the state of the subject based on the above is displayed, and the change of the subject is presented to the user.
  • the server 1 detects an abnormal part from the voice of the subject, it outputs the first and second questions, and the brain function is based on the correctness of the answer to each question and the image at the time of answering. Estimate the possibility of failure. This makes it possible to detect abnormalities in the subject at an early stage and analyze brain dysfunction.
  • step S22 After executing the process of step S22, or if NO in step S21, the server 1 executes the following process.
  • the control unit 11 of the server 1 accepts an input of a message including an image from another user (step S23).
  • the control unit 11 analyzes the message, extracts an image included in the message, and extracts a proper noun or the like in the text (step S24).
  • the control unit 11 outputs the first voice question to the speaker terminal 3 based on the message analyzed in step S24 (step S25). For example, the control unit 11 displays a thumbnail image obtained by extracting a part of an image and another image different from the image as an option on the speaker terminal 3, and outputs a voice prompting a screen operation to select one of the images.
  • the control unit 11 accepts the input of the answer to the first question (step S26). Specifically, as described above, the control unit 11 receives an operation input for selecting one from a plurality of displayed images (options).
  • the control unit 11 outputs the second textual question to the speaker terminal 3 (step S27). For example, the control unit 11 displays a button for selecting whether or not to browse the image as an option, and causes the speaker terminal 3 to display a text asking whether or not to browse the image selected in step S26.
  • the control unit 11 accepts the input of the answer to the second question (step S28). For example, the control unit 11 accepts an operation input for selecting one from a plurality of displayed buttons (choices).
  • the control unit 11 determines whether or not the answer to the second question is a correct answer (step S29). For example, the control unit 11 determines whether or not a selection input for viewing an image has been accepted. When it is determined that the answer is correct (S29: YES), the control unit 11 outputs a message (image) from another user to the speaker terminal 3 (step S30).
  • step S31 determines whether or not a predetermined time has elapsed since the second question was output. If it is determined that the predetermined time has not elapsed (S31: NO), the control unit 11 returns the process to step S29. After executing the process of step S30, or if YES in step S31, the control unit 11 acquires an image of the target person at the time of answering in step S26 and / or step S28 from the speaker terminal 3 (step S32).
  • the control unit 11 estimates the possibility of brain dysfunction of the subject based on the answers to the first and second questions, and the image and / or the response time of the subject at the time of answering (step S33). Specifically, the control unit 11 estimates whether or not there is a possibility of brain dysfunction, and estimates the types of brain dysfunction (aphasia and dementia). For example, if the answer to the first question is an incorrect answer and the answer to the second question is a correct answer, the control unit 11 presumes that there is a high possibility of aphasia. Further, the control unit 11 presumes that there is a high possibility of dementia when both the answers to the first and second questions are incorrect.
  • control unit 11 determines whether or not the left-right state and / or the movement of the face is asymmetrical from the image of the target person at the time of answering. Further, the control unit 11 determines whether or not the target person is in a distressed state from the image and / or the response time of the target person.
  • the control unit 11 has a brain function according to the left-right asymmetry of the face and / or the determination result of the distressed state even when it is presumed to be normal from the answers to the first and second questions. Estimate that there is a possibility of failure.
  • the control unit 11 stores in the response history DB 141 the correctness of the answers to the first and second questions, the captured image of the subject at the time of the answer, the estimation result of the possibility of brain dysfunction, and the like (step S34).
  • the control unit 11 outputs the estimation result to the mobile terminal 2 of another user (step S35). For example, the control unit 11 displays the estimation result of whether or not there is a possibility of brain dysfunction, answers to the first question (voice), answers to the second question (text), and at the time of answering.
  • the score obtained by evaluating the subject based on the image and / or the response time of the subject is calculated and displayed on the mobile terminal 2.
  • the control unit 11 determines whether or not to output history information indicating the answers to the past first and second questions by the subject and the history of the estimation result of the possibility of brain dysfunction based on the answers (the control unit 11). Step S36). For example, the control unit 11 determines whether or not the operation input to the link 121 is accepted on the chat screen illustrated in FIG. When it is determined to output the history information (S36: YES), the control unit 11 outputs the history information to the mobile terminal 2 of another user and displays it (step S37). Specifically, as described above, the control unit 11 answers the first and second questions at each time in the past, estimates the results of brain dysfunction, and images of the subject as historical information. Display. After executing the process of step S36, or if NO in step S36, the control unit 11 ends a series of processes.
  • the first and second questions are output by receiving input from a message from another user, but the present embodiment is not limited to this.
  • the server 1 may output the first and second questions to the speaker terminal 3 at regular intervals and accept the input of the answer regardless of the presence or absence of a message from another user.
  • the server 1 may prepare an image for questioning (an image of a grandchild in the above example) or the like in a database in advance, and generate the first and second questions using the image or the like. In this way, the first and second questions may be output regardless of the presence or absence of messages from other users.
  • the possibility of brain dysfunction can be suitably estimated by asking the first question by voice and the second question by text.
  • the type of brain dysfunction preferably aphasia and dementia
  • the type of brain dysfunction preferably aphasia and dementia
  • the answer is suitably given even when the cognitive ability is deteriorated due to the brain dysfunction. You can be prompted to enter.
  • the question when an abnormal part is detected from the dialogue voice of the subject, the question is started. This makes it possible to detect brain dysfunction at an early stage.
  • the first and second questions are generated from the messages of other users who are the dialogue partners of the target person. This makes it possible to ask questions according to the target person.
  • the possibility of brain dysfunction is estimated based on the image of the subject at the time of answering and / or the answering time in addition to the answer itself. This makes it possible to detect a state in which a cerebral infarction or the like has occurred (left-right asymmetry of the face) or a state in which it is difficult to answer, and it is possible to more preferably estimate the possibility of brain dysfunction.
  • Control unit 11 Control unit 12 Main storage unit 13 Communication unit 14 Auxiliary storage unit P1 Program 141 Answer history DB 2 Mobile terminal 21 Control unit 22 Main storage unit 23 Communication unit 24 Display unit 25 Input unit 26 Audio output unit 27 Audio input unit 28 Imaging unit 29 Auxiliary storage unit P2 Program 3 Speaker terminal 31 Control unit 32 Main storage unit 33 Communication unit 34 Display 35 Input 36 Audio output 37 Audio input 38 Imaging 39 Auxiliary storage P3 program

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Psychiatry (AREA)
  • Physiology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Primary Health Care (AREA)
  • Neurology (AREA)
  • Cardiology (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Developmental Disabilities (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychology (AREA)
  • Geometry (AREA)
  • Evolutionary Computation (AREA)

Abstract

プログラムは、音声による第1の問いかけを出力し、前記第1の問いかけに対する回答を対象者から受け付け、テキストによる第2の問いかけを出力し、前記第2の問いかけに対する回答を前記対象者から受け付け、前記第1及び第2の問いかけへの回答が正答であるか否かを判定し、前記第1及び第2の問いかけへの回答の正誤に基づき、前記対象者の脳機能障害の可能性を推定する処理をコンピュータに実行させる。

Description

プログラム、情報処理装置及び情報処理方法
 本発明は、プログラム、情報処理装置及び情報処理方法に関する。
 認知症等の脳機能障害の診断を支援する技術がある。例えば特許文献1では、所定の質問に対して対象者が回答した発話音声をテキストデータに変換し、比較用テキストデータとの編集距離を算出して、対象者が認知症を発症している可能性があるか否かを判定する認知症診断装置が開示されている。
特開2020-483号公報
 しかしながら、特許文献1に係る発明は、認知症、失語症等の種々の脳機能障害の症状の違いを考慮して脳機能障害の可能性を推定するに至っていない。
 一つの側面では、脳機能障害の可能性を好適に推定することができるプログラム等を提供することを目的とする。
 一つの側面に係るプログラムは、音声による第1の問いかけを出力し、前記第1の問いかけに対する回答を対象者から受け付け、テキストによる第2の問いかけを出力し、前記第2の問いかけに対する回答を前記対象者から受け付け、前記第1及び第2の問いかけへの回答が正答であるか否かを判定し、前記第1及び第2の問いかけへの回答の正誤に基づき、前記対象者の脳機能障害の可能性を推定する処理をコンピュータに実行させる。
 一つの側面では、脳機能障害の可能性を好適に推定することができる。
対話システムの構成例を示す説明図である。 サーバの構成例を示すブロック図である。 携帯端末の構成例を示すブロック図である。 スピーカ端末の構成例を示すブロック図である。 実施の形態1の概要を示す説明図である。 メッセージの表示画面例を示す説明図である。 サーバが実行する処理手順を示すフローチャートである。 実施の形態2に係るサーバの構成例を示すブロック図である。 回答履歴DBのレコードレイアウトの一例を示す説明図である。 スピーカ端末の表示画面例を示す説明図である。 スピーカ端末の表示画面例を示す説明図である。 実施の形態2に係るメッセージの表示画面例を示す説明図である。 実施の形態2に係るメッセージの表示画面例を示す説明図である。 推定結果表示時のチャット画面の他例を示す説明図である。 履歴画面の一例を示す説明図である。 実施の形態2に係るサーバが実行する処理手順の一例を示すフローチャートである。 実施の形態2に係るサーバが実行する処理手順の一例を示すフローチャートである。
 以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
 図1は、対話システムの構成例を示す説明図である。本実施の形態では、対象者が入力する発話音声に基づき、対象者の異常、好適には脳機能障害の有無を判定する対話システムについて説明する。対話システムは、情報処理装置1、携帯端末2、スピーカ端末3を含む。各装置は、インターネット等のネットワークNに通信接続されている。
 情報処理装置1は、種々の情報処理、情報の送受信が可能な情報処理装置であり、例えばサーバコンピュータ、パーソナルコンピュータ等である。本実施の形態では情報処理装置1がサーバコンピュータであるものとし、以下では簡潔のためサーバ1と読み替える。サーバ1は、対象者が入力した発話音声から、脳機能障害の可能性があるか否かを判定する。具体的には後述の如く、サーバ1は、対象者を含む複数のユーザが参加するチャットグループへのメッセージとして対象者が入力する発話音声、あるいは所定の対話エンジンに基づいて動作するチャットボットシステムに対象者が入力する発話音声などから、脳機能障害の可能性が疑われる異常箇所を検出する。
 対象とする脳機能障害は特に限定されないが、例えば認知症、失語症などが挙げられる。サーバ1は、認知症、失語症などに起因して生じる異常な発話(不明瞭な単語、言い間違いなど)を検知し、他のユーザ(例えば対象者の家族、対象者を診療する医療従事者など、対象者に関係するユーザ)に異常箇所を提示する。
 携帯端末2は、対象者を含む各ユーザが使用する情報処理端末であり、例えばスマートフォン、タブレット端末等である。なお、図1では携帯端末2を一台のみ図示してあるが、対象者及び他のユーザそれぞれの携帯端末2がサーバ1に接続されているものとする。サーバ1は、チャットグループへのメッセージ等として対象者が入力した発話音声を携帯端末2から取得し、テキストに変換する。そしてサーバ1は、変換したテキストから異常箇所を検出する。
 スピーカ端末3は、対象者の自宅等に設置された音声入出力端末であり、いわゆるスマートスピーカである。なお、スピーカ端末3はスマートスピーカと呼ばれるものに限定されず、音声の入出力機能と、画像表示機能とを備えていればよい。また、スピーカ端末3の設置場所は対象者の自宅に限定されず、自宅以外の施設(例えば介護施設)などであってもよい。スピーカ端末3はチャットボットシステムの端末装置として機能し、対象者との対話を行う。後述のように、サーバ1は、スピーカ端末3から対象者の発話音声を取得して異常箇所を検出してもよい。
 なお、本実施の形態ではサーバ1と協働する端末装置として携帯端末2、スピーカ端末3を挙げるが、その他の形態の端末装置(例えばロボット型の装置)であってもよい。端末装置は音声入出力機能、画像表示機能等を備えたローカル端末であればよく、その形態は特に限定されない。
 図2は、サーバ1の構成例を示すブロック図である。サーバ1は、制御部11、主記憶部12、通信部13、及び補助記憶部14を備える。
 制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムP1を読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。補助記憶部14は、大容量メモリ、ハードディスク等の不揮発性記憶領域であり、制御部11が処理を実行するために必要なプログラムP1、その他のデータを記憶している。
 なお、補助記憶部14はサーバ1に接続された外部記憶装置であってもよい。また、サーバ1は複数のコンピュータからなるマルチコンピュータであっても良く、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
 また、本実施の形態においてサーバ1は上記の構成に限られず、例えば操作入力を受け付ける入力部、画像を表示する表示部等を含んでもよい。また、サーバ1は、CD(Compact Disk)-ROM、DVD(Digital Versatile Disc)-ROM等の可搬型記憶媒体1aを読み取る読取部を備え、可搬型記憶媒体1aからプログラムP1を読み取って実行するようにしても良い。あるいはサーバ1は、半導体メモリ1bからプログラムP1を読み込んでも良い。
 図3は、携帯端末2の構成例を示すブロック図である。携帯端末2は、制御部21、主記憶部22、通信部23、表示部24、入力部25、音声出力部26、音声入力部27、撮像部28、補助記憶部29を備える。
 制御部21は、一又は複数のCPU、MPU等の演算処理装置を有し、補助記憶部29に記憶されたプログラムP2を読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部22は、RAM等の一時記憶領域であり、制御部21が演算処理を実行するために必要なデータを一時的に記憶する。通信部23は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。表示部24は、液晶ディスプレイ等の表示画面であり、画像を表示する。
 入力部25は、タッチパネル等の操作インターフェイスであり、ユーザから操作入力を受け付ける。音声出力部26はスピーカであり、音声を出力する。音声入力部27はマイクであり、ユーザから音声の入力を受け付ける。撮像部28は、CMOS(Complementary MOS)等の撮像素子を備えたカメラであり、画像を撮像する。補助記憶部29は、ハードディスク、大容量メモリ等の不揮発性記憶領域であり、制御部21が処理を実行するために必要なプログラムP2、その他のデータを記憶している。
 なお、携帯端末2は、CD-ROM等の可搬型記憶媒体2aを読み取る読取部を備え、可搬型記憶媒体2aからプログラムP2を読み取って実行するようにしても良い。あるいは携帯端末2は、半導体メモリ2bからプログラムP2を読み込んでも良い。
 図4は、スピーカ端末3の構成例を示すブロック図である。スピーカ端末3は、制御部31、主記憶部32、通信部33、表示部34、入力部35、音声出力部36、音声入力部37、撮像部38、補助記憶部39を備える。
 制御部31は、一又は複数のCPU、MPU等の演算処理装置を有し、補助記憶部39に記憶されたプログラムP3を読み出して実行することにより、種々の情報処理、制御処理等を行う。主記憶部32は、RAM等の一時記憶領域であり、制御部31が演算処理を実行するために必要なデータを一時的に記憶する。通信部33は、通信に関する処理を行うための通信モジュールであり、外部と情報の送受信を行う。表示部34は、液晶ディスプレイ等の表示画面であり、画像を表示する。
 入力部35は、タッチパネル等の操作インターフェイスであり、ユーザから操作入力を受け付ける。音声出力部36はスピーカであり、音声を出力する。音声入力部37はマイクであり、ユーザから音声の入力を受け付ける。撮像部38は、CMOS等の撮像素子を備えたカメラであり、画像を撮像する。補助記憶部39は、ハードディスク、大容量メモリ等の不揮発性記憶領域であり、制御部31が処理を実行するために必要なプログラムP3、その他のデータを記憶している。
 なお、スピーカ端末3は、CD-ROM等の可搬型記憶媒体2aを読み取る読取部を備え、可搬型記憶媒体3aからプログラムP3を読み取って実行するようにしても良い。あるいはスピーカ端末3は、半導体メモリ3bからプログラムP3を読み込んでも良い。
 図5は、実施の形態1の概要を示す説明図である。図5に基づき、本実施の形態の概要を説明する。
 上述の如く、サーバ1は、対象者を含む複数のユーザが参加するチャットグループへのメッセージ等から、対象者の状態が異常であるか否かを判定する。図5では、チャットグループにおける対話イメージを図示している。図5の右側は対象者からのメッセージを表し、左側は他のユーザ(例えば家族)及びシステム(サーバ1)からのメッセージを表す。なお、対象者はテキスト入力、または音声認識機能を利用して、音声によりメッセージを入力することもできる。
 サーバ1は、対象者が入力した音声をテキストに変換し、変換したテキストから異常箇所を検出する。図5の例では、他のユーザからのメッセージ「今日はどこに行ったの?」に対し、サーバ1が対象者の発話音声をテキスト「今日はとうえんに行ったよ」に変換した場合を図示している。この場合、サーバ1は、当該テキストから異常箇所「とうえん」を検出する。
 具体的な異常箇所の検出方法は特に限定されないが、例えばサーバ1は、形態素解析を行ってテキストを複数の文字列(単語)に分割し、多数の単語を格納した単語辞書(データベース不図示)を参照して、各文字列を単語辞書の各単語と比較する。なお、本実施の形態ではテキストの分割単位を単語とするが、単語よりも長い単位(例えば文節)で分割してもよく、単語よりも短い単位で分割してもよい。サーバ1は、単語辞書に格納されていない文字列を異常箇所として検出する。なお、例えばサーバ1は、出現頻度が低い単語(例えば常用語以外の単語)を単語辞書で規定しておき、出現頻度が低い単語を異常箇所として検出するなどしてもよい。
 また、サーバ1は、対象者が入力した音声に係るテキストを記憶しておき、過去のテキストに基づいて異常箇所を検出してもよい。例えばサーバ1は、形態素解析によりテキストを分割して得た文字列を新たな単語として単語辞書に格納(登録)し、対象者毎に単語辞書を構築する。そしてサーバ1は、対象者から音声の入力を受け付けてテキストに変換した場合に、当該対象者に対応する単語辞書を参照して異常箇所を検出する。これにより、対象者の発言の傾向を考慮して、異常箇所の検出精度を向上させることができる。
 なお、上記では単語辞書を用いて異常箇所を検出したが、異常箇所の検出方法はこれに限定されるものではない。例えばサーバ1は、テキストの構文解析、意味解析等も行って異常箇所を検出してもよい。また、検出方法はルールベースに限定されず、例えばサーバ1は、テキストを入力した場合に異常箇所を検出するよう学習済みの機械学習モデル(例えばニューラルネットワーク)を用意しておき、発話音声を変換したテキストを当該モデルに入力して異常箇所を検出してもよい。このように、異常箇所の検出方法は特に限定されない。
 異常箇所を検出した場合、サーバ1は、異常箇所を聞き返す疑問文を生成して対象者の携帯端末2に出力する。当該疑問文は、6W3H(Who、Whom、When、Where、What、Why、How、How many、How Much)のいずれかの形式とすると好適である。サーバ1は、異常箇所に対応する文字列を6W3Hのいずれかの形式の疑問文のテンプレートに当てはめて、疑問文を生成する。サーバ1は、チャットグループ内のメッセージとして疑問文を出力し、携帯端末2に表示させる。なお、例えばサーバ1は、疑問文を音声に変換して携帯端末2に出力してもよい。
 サーバ1は、上記の疑問文に対する回答の入力を対象者から受け付ける。当該回答はメッセージの入力時と同様に、音声で入力を受け付ける。サーバ1は、入力された回答音声をテキストに変換し、対象者の状態が異常であるか否か、具体的には脳機能障害の可能性があるか否かを判定する。
 図5では回答例としてパターン1~3を図示している。パターン1の場合、正しい単語「公園(こうえん)」を音声から認識したため、サーバ1は、対象者の状態が正常であるものと判定する。一方、パターン2の場合、異常箇所「とうえん」を音声から再度認識したため、サーバ1は、対象者の状態が異常であると判定する。また、パターン3の場合、「とうえん(桃園)」という文字列が含まれるものの、前後の文脈から見て正しい文章を音声から認識したため、サーバ1は、対象者の状態が正常であるものと判定する。
 このように、サーバ1は、疑問文への回答から対象者の状態を判定する。この場合にサーバ1は、音声以外のデータから対象者の状態を判定してもよい。例えば携帯端末2は、上記の疑問文に対する回答入力時の対象者を撮像し、サーバ1は、撮像画像(例えば動画像)から対象者の状態を判定する。
 具体的には、サーバ1は、画像から対象者の顔を認識し、顔の左右の非対称性から対象者の状態を判定する。例えば脳梗塞、脳出血等によって脳機能障害が生じた場合、顔の左右で動きが異なる、片側が下がる、片側に歪みが生じるなど、顔の左右で非対称な状態及び動きが観察される。サーバ1は、画像中の顔領域を左右の2つの領域に分割し、各領域の状態(目、口の端などの各特徴点の座標)及び動き(特徴点の移動)を特定して、顔の左右の状態及び/又は動きが非対称であるか否かを判定する。非対称であると判定した場合、サーバ1は、対象者の状態が異常と判定する。
 なお、上記では疑問文に対する回答入力時に対象者を撮像するものとしたが、当初のメッセージ(異常箇所を検出したメッセージ)の音声入力時に対象者を撮像し、当該メッセージ(音声)の入力時の画像から顔の左右の非対称性を判定してもよい。すなわち、画像の撮像時点は疑問文への回答入力時に限定されず、メッセージの音声入力時であってもよい。
 また、本実施の形態では画像及び音声を組み合わせて対象者の異常を判定するものとするが、音声(テキスト)のみから対象者の異常を判定してもよい。
 上述の如く、サーバ1は、対象者がチャットグループへのメッセージとして入力した音声のテキストから、脳機能障害の可能性が疑われる異常箇所を検出し、異常箇所を聞き返して、疑問文への回答音声、及び/又は回答入力時の画像から対象者の状態を判定する。
 なお、上記では対象者が他のユーザとグループチャットを行う場合を一例に説明を行ったが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、所定の対話エンジンに基づいて実現されるチャットボットと対象者が対話する際の入力音声から異常箇所を検出してもよい。
 チャットボットは、スマートフォン等の携帯端末2で音声の入出力を行うものであってもよいが、対象者の自宅等に設置されているスピーカ端末3(スマートスピーカ)で音声の入出力を行うものであってもよい。ここではスピーカ端末3が対象者から音声の入力を受け付け、応答音声を出力するものとして説明する。
 スピーカ端末3は、例えば日々の挨拶(「おはよう」等)、情報の出力要求(例えば今日の天気、予定等)、デバイス(家電等)の操作要求など、種々の音声の入力を受け付ける。スピーカ端末3は、これらの入力音声に対し種々の情報処理(例えば挨拶が入力されたら挨拶の応答音声を出力する、デバイス操作の音声が入力されたらデバイスの操作信号を出力する、など)を行う。サーバ1は、スピーカ端末3に入力された音声を取得してテキストに変換し、異常箇所を検出する。異常箇所の検出方法は上記と同様である。
 また、サーバ1は、スピーカ端末3を介してシステム側から対象者に呼びかけを行い、音声の入力を受け付けるようにしてもよい。例えばサーバ1は、所定の事項を問いかける音声(「今日の天気は?」など)を一定期間毎にスピーカ端末3に出力し、対象者から回答の音声入力を受け付ける。これにより、例えば対象者が独居高齢者である場合に、定期的に会話するよう促すことができると同時に、会話内容から対象者の異常を検知することができる。
 このように、サーバ1は、チャットボットとの対話音声から異常箇所を検出してもよい。すなわち、異常箇所の検出対象とする音声は他のユーザへのメッセージに限定されず、任意の発話音声であってよい。
 図6は、メッセージの表示画面例を示す説明図である。図6では、異常箇所が検出されたメッセージ(テキスト)がグループチャットに表示される様子を図示している。具体的には、図6では、対象者とメッセージを交換する他のユーザ(家族等)の携帯端末2が表示するチャット画面を図示している。図6では、対象者及びシステムからのメッセージを左側に、他のユーザからのメッセージを右側に図示している。
 サーバ1は、対象者のメッセージから異常箇所を検出した場合、異常箇所に対応する文字列を、他の文字列と異なる表示態様で表示させる。例えばサーバ1は、異常箇所に対応する文字列の表示色を変更すると共に、当該異常箇所の背景色を変更(ハイライト)する。なお、図6では図示の便宜上、文字列の表示色が変更されている様子を太字で、背景色が変更されている様子をハッチングで図示している。また、サーバ1は、システム側(サーバ1)から出力した疑問文と、当該疑問文に対する対象者の回答とを併せて表示させる。
 また、サーバ1は、対象者のメッセージ中の異常箇所に対応してオブジェクト61を表示させる。オブジェクト61は、異常箇所に対応する文字列を示す表示態様の一例であってもよく、対象者が入力した音声を再生させるためのアイコンであってもよい。オブジェクト61への操作入力を受け付けた場合、サーバ1は、入力音声を携帯端末2に出力し、再生させる。これにより、他のユーザ(家族等)は入力音声を聞いて対象者の状態を確認することができる。なお、サーバ1は、異常箇所を検出した当初の音声だけでなく、その後の疑問文に対する回答音声も再生可能としてもよい。
 さらにサーバ1は、対象者に脳機能障害の可能性があると判定した場合、判定結果を他のユーザに通知する。例えば図6に示すように、サーバ1は、対象者に脳機能障害の可能性がある旨のコメント(情報)を出力して携帯端末2に表示させる。具体的には、サーバ1は、医療機関での受診を促すと共に、脳機能障害であるか否かを検査するためのテストの実施を促すコメントを表示させる。例えばサーバ1は、当該コメント中にテストの実施又は不実施を選択するためのボタンを表示させ、「テストする」のボタンへの操作入力を受け付けた場合、対象者の携帯端末2(あるいは他のユーザの携帯端末2)にテストデータを出力する。テストデータは、例えば足し算、引き算などの計算テスト、写真に写っている物体を当てるテストなどであるが、特に限定されない。
 なお、サーバ1は、対象者に関係する他のユーザ(家族等)だけでなく、対象者本人に脳機能障害の可能性がある旨の判定結果を通知してもよいことは勿論である。
 以上より、対象者の普段の対話音声(チャットグループへのメッセージ、チャットボットへの入力音声など)から異常箇所を検出することで、対象者の異常を簡易に検知して医療機関での受診等を促すことができる。
 なお、サーバ1は、異常箇所を検出したメッセージを表示させる際に、疑問文への回答、及び/又は回答入力時の画像から判定した対象者の状態に応じて、異常箇所の表示態様を変更してもよい。例えばサーバ1は、疑問文への回答音声から対象者の状態が異常と判定した場合、異常箇所に対応する文字列を赤色で表示させる。一方、メッセージから異常箇所を検出したものの、疑問文への回答音声から対象者の状態が正常と判定した場合、サーバ1は、異常箇所に対応する文字列を青色で表示させる。これにより、単純な言い間違いをした場合など、異常度合いに軽重を付けて他のユーザに異常箇所を提示することができる。
 図7は、サーバ1が実行する処理手順を示すフローチャートである。図7に基づき、サーバ1が実行する処理内容について説明する。
 サーバ1の制御部11は、対象者から音声の入力を受け付ける(ステップS11)。上述の如く、当該音声は例えば対象者を含む複数のユーザが参加するチャットグループへのメッセージであるが、所定の対話エンジンに基づくチャットボットへの入力音声であってもよい。制御部11は、入力された音声をテキストに変換する(ステップS12)。制御部11は、変換したテキストから異常箇所を検出する(ステップS13)。例えば制御部11は、テキストの形態素解析を行って複数の文字列に分割し、所定の単語辞書に格納されている各単語と各文字列を比較して、異常箇所に対応する文字列を検出する。
 制御部11は、テキストから異常箇所が検出された否かを判定する(ステップS14)。異常箇所が検出されなかったと判定した場合(S14:NO)、制御部11は、変換したテキストを対象者のメッセージとして他のユーザの携帯端末2に出力し、表示させる(ステップS15)。異常箇所が検出されたと判定した場合(S14:YES)、制御部11は、異常箇所に対応する文字列を聞き返す疑問文を対象者の携帯端末2に出力する(ステップS16)。制御部11は、疑問文に対する回答の音声入力を対象者から受け付ける(ステップS17)。また、制御部11は、回答の入力時の対象者を撮像した画像を携帯端末2から取得する(ステップS18)。
 制御部11は、ステップS17で入力された音声、及び/又はステップS18で取得した画像に基づき、対象者の状態が異常であるか否かを判定する(ステップS19)。具体的には、制御部11は、対象者に脳機能障害の可能性があるか否かを判定する。例えば制御部11は、ステップS14と同じく入力音声をテキストに変換して複数の文字列に分割し、単語辞書の各単語と比較して、異常箇所に対応する文字列があるか否かを判定する。また、制御部11は、ステップS18で撮像した画像から対象者の顔を認識し、顔の左右の状態及び/又は動きが非対称であるか否かを判定する。異常でないと判定した場合(S19:NO)、制御部11は処理をステップS15に移行する。
 異常であると判定した場合(S19:YES)、制御部11は、異常箇所に対応する文字列を他の文字列と異なる表示態様で示すメッセージ(テキスト)を、他のユーザの携帯端末2に表示させる(ステップS20)。具体的には上述の如く、制御部11は、異常箇所に対応する文字列の表示色を変更し、かつ、当該文字列の背景色を変更して表示させる。また、制御部11は、対象者が入力した音声を再生させるためのオブジェクト61を表示させる。
 制御部11は、オブジェクト61への操作入力に応じて、入力音声を再生させるか否かを判定する(ステップS21)。入力音声を再生させると判定した場合(S21:YES)、制御部11は、対象者が入力した音声を他のユーザの携帯端末2に再生させる(ステップS22)。ステップS22の処理を実行後、又はステップS21でNOの場合、制御部11は一連の処理を終了する。
 なお、本実施の形態では説明の便宜上、入力音声のテキスト変換、異常箇所の検出等の処理をサーバ1が実行するものとしたが、一部又は全部の処理をローカルの携帯端末2(又はスピーカ端末3)が実行してもよい。例えば携帯端末2がテキスト変換を行い、サーバ1が異常箇所の検出を行うようにしてもよい。このように、一連の処理の処理主体は特に限定されない。
 以上より、本実施の形態1によれば、対象者が入力した音声をテキストに変換して異常箇所を検出し、異常箇所に対応する文字列を他の文字列と異なる表示態様で表示し、他のユーザに提示する。これにより、他のユーザは対象者の異常を容易に把握することができる。
 また、本実施の形態1によれば、チャットグループでの対話メッセージ、チャットボットへの入力音声など、対象者の普段の対話音声から対象者の異常を検知することができる。
 また、本実施の形態1によれば、対象者の過去の入力音声に係るテキストを参照することで、異常箇所の検出精度を向上させることができる。
 また、本実施の形態1によれば、異常箇所を検出した場合に異常箇所を聞き返す疑問文を出力して回答の入力を受け付けることで、対象者の状態が異常であるか否か、より好適に判定することができる。
 また、本実施の形態1によれば、回答入力時の対象者を撮像した画像から顔の左右の非対称性を判定することで、脳機能障害に関わる対象者の異常をより好適に判定することができる。
 また、本実施の形態1によれば、疑問文への回答、及び/又は対象者を撮像した画像から判定される対象者の状態に応じて、異常箇所に対応する文字列の表示態様を変更することで、異常度合いに軽重を付けて他のユーザに異常箇所を提示することができる。
 また、本実施の形態1によれば、対象者が入力した音声を再生することで、他のユーザは対象者の状態を容易に把握することができる。
(実施の形態2)
 実施の形態1では、対象者が入力した音声から異常箇所を検出する形態について説明した。本実施の形態では、異常箇所が検出された場合に、音声及びテキストによる問いかけを行って脳機能障害の可能性を推定する形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
 図8は、実施の形態2に係るサーバ1の構成例を示すブロック図である。本実施の形態に係るサーバ1の補助記憶部14は、回答履歴DB141を記憶している。回答履歴DB141は、後述する問いかけへの対象者の回答と、当該回答に基づく脳機能障害の可能性の推定結果とを格納するデータベースである。
 図9は、回答履歴DB141のレコードレイアウトの一例を示す説明図である。回答履歴DB141は、日時列、対象者列、音声列、テキスト列、反応列、推定結果列、画像列を含む。日時列は、問いかけに対して対象者が回答した回答日時を記憶している。対象者列、音声列、テキスト列、反応列、推定結果列、及び画像列はそれぞれ、回答日時と対応付けて、回答した対象者名、音声による問いかけ(後述の第1の問いかけ)への回答の正誤、テキストによる問いかけ(後述の第2の問いかけ)への回答の正誤、問いかけに対する対象者の反応、回答に基づいて推定した脳機能障害の可能性の推定結果、及び回答時に対象者を撮像した撮像画像(例えば動画)を記憶している。反応列には、後述するように対象者の撮像画像から判定される顔の左右の対称性、指又は視線方向の動き、表情などの判定結果のほか、問いかけを出力してから回答が入力されるまでの回答時間などが記憶されている。
 図10A及び図10Bは、スピーカ端末3の表示画面例を示す説明図である。図11A及び図11Bは、実施の形態2に係るメッセージの表示画面例を示す説明図である。図10A、図10B、図11A及び図11Bに基づき、本実施の形態の概要を説明する。
 実施の形態1で説明したように、サーバ1は、対象者が入力した音声から異常箇所を検出し、他のユーザに提示する。本実施の形態でサーバ1は、異常箇所が検出された場合に、音声及びテキストによる問いかけを対象者に行う。そしてサーバ1は、問いかけに対する対象者の回答に基づき、脳機能障害の可能性を推定する。
 具体的には、サーバ1は、音声による第1の問いかけと、テキストによる第2の問いかけとをスピーカ端末3に出力し、各問いかけに対応する音声出力、及び画像表示を行わせる。図10A、Bではそれぞれ、第1の問いかけを行う場合の画面例と、第2の問いかけを行う場合の画面例とを図示している。サーバ1は、各問いかけについて回答の選択肢をスピーカ端末3に表示させ、表示された選択肢からいずれかを選択する画面操作を受け付けることで、回答の入力を受け付ける。
 なお、本実施の形態ではスピーカ端末3を介して問いかけを行うものとするが、携帯端末2を介して問いかけを行ってもよい。
 図10A及び図10Bについて説明する前に、図11Aに基づいて説明を行う。図11Aでは図6と同様に、他のユーザの携帯端末2が表示するチャット画面を図示している。対象者が入力した音声に係るテキストから異常箇所が検出された場合、携帯端末2は実施の形態1と同様に、異常箇所が検出された対象者のメッセージを表示する。
 本実施の形態でサーバ1は、異常箇所を検出した場合、当該画面を介して対象者へのメッセージの入力を他のユーザから受け付ける。メッセージ内容は特に限定されないが、好適には画像を含むメッセージの入力を受け付けると好適である。図11Aの例では、対象者へのメッセージとして、対象者の近親者(例えば孫)の画像を含むメッセージが入力されている。
 サーバ1は、他のユーザから入力されたメッセージを解析し、第1及び第2の問いかけを生成するためのデータを抽出する。例えばサーバ1は、テキスト中の固有名詞(例えば人名、図11A及び図11Bの例では孫の氏名「太郎」)、及び画像を抽出する。サーバ1は、抽出したデータに基づいて第1及び第2の問いかけを生成し、スピーカ端末3に出力する。
 図10A及び図10Bに戻って説明を続ける。サーバ1はまず、音声による第1の問いかけを生成してスピーカ端末3に出力する。例えばサーバ1は、図10Aに示すように、他のユーザのメッセージから抽出した画像と、当該画像と異なる別の画像とをスピーカ端末3に出力して表示させると共に、いずれかの画像を選択する画面操作を促す音声を出力する。
 例えばサーバ1は、メッセージから抽出した画像から人物(孫)が写る画像領域を抽出してサムネイル画像を生成し、スピーカ端末3に表示させる。また、サーバ1は、予め用意されている無関係の画像を別の選択肢として表示させる。なお、図10Aの例では表示画像が2つであるが、3つ以上であってもよい。また、本実施の形態では他のユーザが入力した画像を表示させるものとするが、例えば対象者毎に予め画像をデータベースに用意(登録)しておき、データベースに用意された画像を表示させてもよい。サーバ1は、メッセージから抽出した固有名詞(孫の氏名)をテンプレートの質問文に当てはめて、固有名詞に対応する人物の画像の選択を促す音声を生成し、スピーカ端末3に出力する。
 サーバ1は、第1の問いかけに対する回答の入力を受け付ける。具体的には、サーバ1は、スピーカ端末3に表示されている複数の画像からいずれかを選択する画面操作を受け付ける。なお、回答の入力は音声等で受け付けてもよい。
 第1の問いかけへの回答の入力を受け付けた場合、サーバ1は、テキストによる第2の問いかけを出力する。例えばサーバ1は、図10Bに示すように、画像(写真)を閲覧するか否かを問う質問文を表示させると共に、閲覧するか否かを選択するためのオブジェクト(ボタン)を表示させる。なお、図10Bでは図10Aの画面において正解の画像(孫の画像)が選択された場合を図示しており、この場合は質問文として「写真を見ますか?」が表示されるが、図10Aの画面において不正解の画像が選択された場合、質問文として「写真を見ませんか?」と表示される。
 サーバ1は、「写真を見る」又は「写真を見ない」の2つの選択肢からいずれかを選択する画面操作を受け付ける。「写真を見る」が選択された場合、サーバ1は、他のユーザのメッセージをスピーカ端末3に出力する。具体的には、サーバ1は、他のユーザが入力した画像をスピーカ端末3に表示させる。なお、画像以外のテキストも表示してもよいことは勿論である。「写真を見ない」が選択された場合(又はいずれのボタンも操作されない場合)、サーバ1は所定時間処理を待機し、所定時間が経過した場合はメッセージを表示せずに一連の処理を終了する。
 サーバ1は、第1及び第2の問いかけへの回答が正答であるか否かを判定する。そしてサーバ1は、第1及び第2の問いかけへの回答の正誤に基づき、脳機能障害の可能性を推定する。具体的には、サーバ1は、各回答の正誤の組み合わせに基づき、脳機能障害の可能性があるか否かを推定すると共に、可能性がある脳機能障害の種類を推定する。
 推定対象とする脳機能障害は特に限定されないが、本実施の形態では、失語症と認知症(又は脳梗塞等による一過性の認知機能の低下)とを推定対象とする。サーバ1は、各回答の正誤の組み合わせに基づき、失語症の可能性があるか否か、及び認知症の可能性があるか否かを推定する。
 具体的には、サーバ1は、音声による第1の問いかけへの回答が誤答であり、かつ、テキストによる第2の問いかけへの回答が正答である場合、失語症の可能性があると推定する。また、サーバ1は、第1及び第2の問いかけへの回答が双方とも誤答である場合、認知症の可能性があると推定する。なお、第1及び第2の問いかけの双方が正答である場合は正常であると推定し、第2の問いかけのみ誤答である場合は偶発的な回答ミスとして処理する。
 失語症及び認知症は混同されることが多いが、失語症は言語能力に支障を来たす障害であり、認知症は非言語能力を含む認知能力一般に支障を来たす障害である。いずれの症状であるかに応じて、音声及びテキストへの反応が異なる。そこで本実施の形態では、音声による第1の問いかけと、テキストによる第2の問いかけとを行い、各問いかけへの回答の正誤の組み合わせに応じて失語症及び認知症を識別する。
 サーバ1は、第1及び第2の問いかけへの回答のほかに、回答時の対象者を撮像した画像に基づいて脳機能障害の可能性を推定する。例えばスピーカ端末3は、第1の問いかけ及び/又は第2の問いかけを出力する場合に、同時に対象者を撮像している。サーバ1は、スピーカ端末3から各問いかけへの回答を取得すると共に、回答時の画像を取得して推定を行う。
 例えばサーバ1は、実施の形態1と同様に、対象者の顔の左右の非対称性に基づき、脳機能障害の可能性を推定する。すなわち、サーバ1は、画像中の顔領域を左右の2つの領域に分割し、各領域の状態(目、口の端などの各特徴点の座標)及び動き(特徴点の移動)を特定して、顔の左右の状態及び/又は動きが非対称であるか否かを判定する。これによりサーバ1は、脳梗塞等によって脳機能障害が生じている事態を検知することができる。
 本実施の形態でサーバ1は、顔の左右の非対称性以外に、対象者が回答に困窮している状態であるか否かを画像から判定することで、脳機能障害の可能性を推定する。具体的には以下のように、サーバ1は、困窮状態に当てはまる特定の事象を画像から検知する。
 例えばサーバ1は、画像から対象者の手(指)、又は対象者の視線方向を検知し、対象者の手又は視線方向の動きが特定の動きに該当するか否かを判定する。具体的には、サーバ1は、対象者が選択肢の選択を迷っているため、対象者の手又は視線方向が各選択肢(第1の問いかけでは画像、第2の問いかけではボタン)の間を行き来する動きを検知する。例えばブローカ失語の場合、複数の選択肢から正しい選択を行うよう口頭で命令した場合、命令内容の不理解のため回答に困窮し、選択肢を迷う事象が観察される。そこでサーバ1は、例えば音声による第1の問いかけへの回答時の画像から手又は視線方向を検知し、手又は視線方向が画像間を行き来しているか否かを判定することで、失語症の可能性を推定する。
 また、例えばサーバ1は、対象者の顔の表情を認識し、特定の表情(悩んでいる、焦っている、困っている等)に該当するか否かを判定してもよい。この場合でも上記と同様に、回答に困窮している状態であるか否かを判定することができる。
 また、例えばサーバ1は、画像から対象者の生体情報を推定することで、困窮状態を判定してもよい。生体情報は、例えば瞳孔の開き具合、脈拍、顔の温度(体温)、血流速度などである。サーバ1は、これらの生体情報を画像から推定し、生体情報の変化(例えば瞳孔が開く、脈拍が速くなる等)を検知することで、回答に困窮しているか状態か否かを判定する。
 上記では困窮状態であるか否かを画像から判定することにしたが、例えばサーバ1は、画像以外に、問いかけに対する回答時間に基づいて困窮状態であるか否かを判定してもよい。具体的には、サーバ1は、問いかけ(例えば第1の問いかけ)を出力してから回答が入力されるまでの回答時間を計測し、回答時間が所定の閾値以上であるか否かを判定する。これにより、困窮状態にあるため回答に時間が掛かる事態を検知することができる。
 サーバ1は、上記のように、第1及び第2の問いかけへの回答以外に、対象者を撮像した画像、及び/又は回答時間から脳機能障害の可能性を推定する。例えばサーバ1は、第1及び第2の問いかけへの回答が双方とも正答であり、対象者が正常であると推定した場合であっても、顔の左右の動き及び/又は状態が非対称である場合、あるいは困窮状態であると判定した場合は、脳機能障害の可能性があると推定する。または第1の問いかけへの回答が正答であり、かつ、第2の問いかけへの回答が誤答であり、対象者による偶発的な回答ミスとして処理した場合であっても、同様に顔の左右の動き及び/又は状態が非対称である場合、あるいは困窮状態であると判定した場合は、質問文を変えるなどをして問いかけを重ねる処理をしてもよい。
 サーバ1は、推定結果を他のユーザの携帯端末2に出力し、表示させる。図11Bは、推定結果表示時のチャット画面を図示している。例えばサーバ1は、推定結果(判定結果)を示すテキストを表示させると共に、推定結果を数値化したスコアを表示させる。
 サーバ1は、第1の問いかけに対応する「音声」、第2の問いかけに対応する「テキスト」、並びに画像及び回答時間に対応する「反応」それぞれのスコアを算出し、携帯端末2に表示させる。スコアの算出方法は特に限定されないが、例えばサーバ1は、過去所定期間(例えば1週間)に行った第1及び第2の問いかけそれぞれの回答の正誤を集計し、音声認識能力及び文字認識能力をそれぞれ評価したスコア(例えば所定期間での正答率)を算出し、「音声」及び「テキスト」のスコアとして出力する。また、例えばサーバ1は、画像及び/又は回答時間から困窮状態の度合いを算出し、「反応」のスコアとして出力する。
 図12は、推定結果表示時のチャット画面の他例を示す説明図である。図12では、脳機能障害の可能性が高いと推定された場合のチャット画面を図示している。脳機能障害の可能性が高いと推定した場合、サーバ1は、推定結果を他のユーザの携帯端末2に通知してチャット画面に表示させる。
 具体的には、サーバ1は、図11Bと同様に推定結果を数値化したスコアを表示させると共に、脳機能障害の可能性が高い旨のテキストを表示させる。例えばサーバ1は、図12に示すように、可能性が高いと推定された脳機能障害の種類を示すと共に、医療機関での受診を促すコメントを表示する。
 なお、サーバ1は、対象者に関係する他のユーザ(家族等)だけでなく、対象者本人に脳機能障害の可能性がある旨の推定結果を通知してもよいことは勿論である。
 サーバ1はさらに、対象者の回答履歴を閲覧(確認)するためのリンク121をチャット画面に表示させる。リンク121は、対象者による過去の第1及び第2の問いかけへの回答、及び脳機能障害の可能性の推定結果の履歴を示す履歴情報を出力(表示)するためのオブジェクトであり、図13の履歴画面に遷移するためのオブジェクトである。リンク121への操作入力を受け付けた場合、携帯端末2は、図13の履歴画面に遷移する。
 なお、対象者の状態が正常と推定された場合(図11B)でも履歴情報を閲覧可能としてもよい。また、チャット画面から遷移するだけではなく、履歴情報を何時でも閲覧可能としてもよいことは勿論である。
 図13は、履歴画面の一例を示す説明図である。履歴画面は、第1及び第2の問いかけに対する対象者の回答の正誤、回答時に撮像した対象者の撮像画像、回答及び画像に基づく脳機能障害の推定結果など、一連の履歴情報を表示する表示画面である。サーバ1は、各種の履歴情報を回答履歴DB141に記憶しており、携帯端末2からの要求に応じて履歴情報を出力する。例えば履歴画面は、回答履歴表131、画像表示欄132、スコアグラフ133を含む。
 回答履歴表131は、過去の各時点における第1及び第2の問いかけ(「音声」及び「テキスト」)への回答の正誤、回答時の撮像画像等に基づき判定した対象者の困窮状態の度合い(「反応」のスコア)、並びに脳機能障害の推定結果(「判定」)を一覧で示す表である。また、回答履歴表131には各時点と対応付けて、撮像画像(動画)を再生するための再生ボタン1311が表示される。
 画像表示欄132は、第1及び/又は第2の問いかけへの回答時に対象者を撮像した画像を表示する表示欄である。再生ボタン1311への操作入力を受け付けた場合、携帯端末2は、対応する時点に撮像した画像(動画)を表示する。
 スコアグラフ133は、図11B、図12で例示した各スコアを時系列で示すグラフである。携帯端末2は、第1の問いかけへの回答の正誤に基づき音声認識能力を評価した「音声」、第2の問いかけへの回答の正誤に基づき文字認識能力を評価した「テキスト」、及び撮像画像等に基づき対象者の状態を評価した「反応」それぞれのスコアを示すグラフ(例えば折れ線グラフ)を表示し、対象者の変化をユーザに提示する。
 上述の如く、サーバ1は、対象者の発話音声から異常箇所を検出した場合に、第1及び第2の問いかけを出力し、各問いかけへの回答の正誤、及び回答時の画像等から脳機能障害の可能性を推定する。これにより、対象者の異常を早期に発見し、脳機能障害の分析を行うことができる。
 図14及び図15は、実施の形態2に係るサーバ1が実行する処理手順の一例を示すフローチャートである。ステップS22の処理を実行後、又はステップS21でNOの場合、サーバ1は以下の処理を実行する。
 サーバ1の制御部11は、他のユーザから、画像を含むメッセージの入力を受け付ける(ステップS23)。制御部11は当該メッセージを解析し、メッセージに含まれる画像を抽出すると共に、テキスト中の固有名詞等を抽出する(ステップS24)。
 制御部11は、ステップS24で解析したメッセージに基づき、音声による第1の問いかけをスピーカ端末3に出力する(ステップS25)。例えば制御部11は、画像の一部を抽出したサムネイル画像、及び当該画像と異なる別の画像を選択肢としてスピーカ端末3に表示させ、いずれかの画像を選択する画面操作を促す音声を出力する。制御部11は、第1の問いかけに対する回答の入力を受け付ける(ステップS26)。具体的には上述の如く、制御部11は、表示された複数の画像(選択肢)からいずれかを選択する操作入力を受け付ける。
 制御部11は、テキストによる第2の問いかけをスピーカ端末3に出力する(ステップS27)。例えば制御部11は、画像を閲覧するか否かを選択するためのボタンを選択肢として表示させると共に、ステップS26で選択された画像を閲覧するか否かを問うテキストをスピーカ端末3に表示させる。制御部11は、第2の問いかけに対する回答の入力を受け付ける(ステップS28)。例えば制御部11は、表示された複数のボタン(選択肢)からいずれかを選択する操作入力を受け付ける。
 制御部11は、第2の問いかけへの回答が正答であるか否かを判定する(ステップS29)。例えば制御部11は、画像を閲覧する旨の選択入力を受け付けたか否かを判定する。正答であると判定した場合(S29:YES)、制御部11は、他のユーザからのメッセージ(画像)をスピーカ端末3に出力する(ステップS30)。
 正答でないと判定した場合(S29:NO)、制御部11は、第2の問いかけを出力してから所定時間が経過したか否かを判定する(ステップS31)。所定時間が経過していないと判定した場合(S31:NO)、制御部11は処理をステップS29に戻す。ステップS30の処理を実行後、又はステップS31でYESの場合、制御部11は、ステップS26及び/又はステップS28の回答時の対象者を撮像した画像をスピーカ端末3から取得する(ステップS32)。
 制御部11は、第1及び第2の問いかけへの回答、並びに回答時の対象者の画像及び/又は回答時間に基づき、対象者の脳機能障害の可能性を推定する(ステップS33)。具体的には、制御部11は、脳機能障害の可能性があるか否かを推定すると共に、脳機能障害の種類(失語症及び認知症)を推定する。例えば制御部11は、第1の問いかけへの回答が誤答であり、かつ、第2の問いかけへの回答が正答である場合、失語症の可能性が高いと推定する。また、制御部11は、第1及び第2の問いかけへの回答が双方とも誤答である場合、認知症の可能性が高いと推定する。
 さらに制御部11は、回答時の対象者の画像から、顔の左右の状態及び/又は動きが非対称であるか否かを判定する。また、制御部11は、対象者の画像及び/又は回答時間から、対象者が困窮状態にあるか否かを判定する。制御部11は、第1及び第2の問いかけへの回答から正常であると推定される場合であっても、顔の左右の非対称性、及び/又は困窮状態の判定結果に応じて、脳機能障害の可能性があると推定する。制御部11は、第1及び第2の問いかけへの回答の正誤、回答時の対象者の撮像画像、脳機能障害の可能性の推定結果等を回答履歴DB141に記憶する(ステップS34)。
 制御部11は、推定結果を他のユーザの携帯端末2に出力する(ステップS35)。例えば制御部11は、脳機能障害の可能性があるか否かの推定結果を表示させると共に、第1の問いかけ(音声)への回答、第2の問いかけ(テキスト)への回答、並びに回答時の対象者の画像及び/又は回答時間に基づいて対象者を評価したスコアを算出し、携帯端末2に表示させる。
 制御部11は、対象者による過去の第1及び第2の問いかけへの回答、及び回答に基づく脳機能障害の可能性の推定結果の履歴を示す履歴情報を出力するか否かを判定する(ステップS36)。例えば制御部11は、図12で例示したチャット画面においてリンク121への操作入力を受け付けたか否かを判定する。履歴情報を出力すると判定した場合(S36:YES)、制御部11は、他のユーザの携帯端末2に履歴情報を出力し、表示させる(ステップS37)。具体的には上述の如く、制御部11は、過去の各時点における第1及び第2の問いかけへの回答、脳機能障害に係る推定結果のほか、対象者を撮像した画像などを履歴情報として表示させる。ステップS36の処理を実行後、又はステップS36でNOの場合、制御部11は一連の処理を終了する。
 なお、上記では他のユーザからのメッセージに入力を受けて第1及び第2の問いかけを出力するものとしたが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、他のユーザのメッセージの有無に関わらず、一定期間毎に第1及び第2の問いかけをスピーカ端末3に出力して回答の入力を受け付けるようにしてもよい。この場合、サーバ1は問いかけ用の画像(上記の例では孫の画像)等を予めデータベースに用意しておき、当該画像等を用いて第1及び第2の問いかけを生成すればよい。このように、第1及び第2の問いかけは他のユーザからのメッセージの有無に関わらず出力されてもよい。
 以上より、本実施の形態2によれば、音声による第1の問いかけと、テキストによる第2の問いかけとを行うことで、脳機能障害の可能性を好適に推定することができる。
 また、本実施の形態2によれば、各問いかけへの回答の正誤の組み合わせに基づき、脳機能障害の種類(好適には失語症及び認知症)を推定することができる。
 また、本実施の形態2によれば、スピーカ端末3に回答の選択肢を表示し、画面操作により回答の入力を受け付けることで、脳機能障害により認識能力が低下している場合でも、好適に回答の入力を促すことができる。
 また、本実施の形態2によれば、対象者の対話音声から異常箇所を検出した場合に問いかけを開始する。これにより、脳機能障害を早期に発見することができる。
 また、本実施の形態2によれば、対象者の対話相手である他のユーザのメッセージから第1及び第2の問いかけを生成する。これにより、対象者に応じた問いかけを行うことができる。
 また、本実施の形態2によれば、回答自体のほかに、回答時の対象者の画像、及び/又は回答時間に基づいて脳機能障害の可能性を推定する。これにより、脳梗塞等が生じた状態(顔の左右の非対称性)、あるいは回答に困窮している状態を検知することができ、より好適に脳機能障害の可能性を推定することができる。
 今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
 1   サーバ(情報処理装置)
 11  制御部
 12  主記憶部
 13  通信部
 14  補助記憶部
 P1  プログラム
 141 回答履歴DB
 2   携帯端末
 21  制御部
 22  主記憶部
 23  通信部
 24  表示部
 25  入力部
 26  音声出力部
 27  音声入力部
 28  撮像部
 29  補助記憶部
 P2  プログラム
 3   スピーカ端末
 31  制御部
 32  主記憶部
 33  通信部
 34  表示部
 35  入力部
 36  音声出力部
 37  音声入力部
 38  撮像部
 39  補助記憶部
 P3  プログラム
 

Claims (15)

  1.  音声による第1の問いかけを出力し、
     前記第1の問いかけに対する回答を対象者から受け付け、
     テキストによる第2の問いかけを出力し、
     前記第2の問いかけに対する回答を前記対象者から受け付け、
     前記第1及び第2の問いかけへの回答が正答であるか否かを判定し、
     前記第1及び第2の問いかけへの回答の正誤に基づき、前記対象者の脳機能障害の可能性を推定する
     処理をコンピュータに実行させるプログラム。
  2.  前記第1及び第2の問いかけそれぞれの回答の正誤の組み合わせに応じて、前記脳機能障害の可能性と、前記脳機能障害の種類とを推定する
     請求項1に記載のプログラム。
  3.  前記第1の問いかけへの回答が誤答であり、かつ、前記第2の問いかけへの回答が正答である場合、失語症の可能性があると推定し、
     前記第1及び第2の問いかけへの回答の双方が誤答である場合、認知症の可能性があると推定する
     請求項2に記載のプログラム。
  4.  前記第1及び第2の問いかけへの回答の選択肢を表示部に表示し、
     表示された選択肢からいずれかを選択する画面操作を受け付けることで、前記第1及び第2の問いかけへの回答の入力を受け付ける
     請求項1~3のいずれか1項に記載のプログラム。
  5.  前記対象者から入力された音声を変換したテキストを取得し、
     前記テキストから異常箇所を検出し、
     前記異常箇所を検出した場合、前記第1及び第2の問いかけを出力する
     請求項1~4のいずれか1項に記載のプログラム。
  6.  前記対象者を含む複数のユーザが参加するチャットグループへのメッセージの音声入力を前記対象者から受け付け、
     前記メッセージを前記テキストに変換して前記異常箇所を検出し、
     前記異常箇所を検出した場合、前記異常箇所に対応する文字列を他の文字列と異なる表示態様で示す前記テキストを他のユーザの端末装置に表示する
     請求項5に記載のプログラム。
  7.  前記テキストを表示した前記他のユーザの端末装置からメッセージの入力を受け付け、
     前記他のユーザのメッセージに基づいて前記第1及び第2の問いかけを生成し、
     生成した前記第1及び第2の問いかけを出力する
     請求項6に記載のプログラム。
  8.  前記第1又は第2の問いかけへの回答時における前記対象者を撮像した画像を取得し、
     前記第1及び第2の問いかけへの回答の正誤と、前記画像とに基づいて前記脳機能障害の可能性を推定する
     請求項1~7のいずれか1項に記載のプログラム。
  9.  前記画像に基づき、前記対象者の顔の左右の動き又は状態が非対称であるか否かを判定し、
     非対称であると判定した場合、前記脳機能障害の可能性があると推定する
     請求項8に記載のプログラム。
  10.  前記画像に基づき、前記対象者が回答に困窮している状態であるか否かを判定し、
     回答に困窮している状態であると判定した場合、前記脳機能障害の可能性があると推定する
     請求項8又は9に記載のプログラム。
  11.  前記第1又は第2の問いかけを出力してから回答の入力を受け付けるまでの回答時間を計測し、
     前記第1及び第2の問いかけへの回答の正誤と、前記回答時間とに基づいて前記脳機能障害の可能性を推定する
     請求項1~10のいずれか1項に記載のプログラム。
  12.  前記脳機能障害の可能性の推定結果を、前記対象者又は該対象者に関係する他のユーザに通知する
     請求項1~11のいずれか1項に記載のプログラム。
  13.  前記第1及び第2の問いかけへの回答と、該回答の正誤に基づく前記脳機能障害の推定結果とを記憶部に記憶し、
     前記回答及び推定結果の履歴を示す履歴情報を出力する
     請求項1~12のいずれか1項に記載のプログラム。
  14.  音声による第1の問いかけを出力する第1出力部と、
     前記第1の問いかけに対する回答を対象者から受け付ける第1受付部と、
     テキストによる第2の問いかけを出力する第2出力部と、
     前記第2の問いかけに対する回答を前記対象者から受け付ける第2受付部と、
     前記第1及び第2の問いかけへの回答が正答であるか否かを判定する判定部と、
     前記第1及び第2の問いかけへの回答の正誤に基づき、前記対象者の脳機能障害の可能性を推定する推定部と
     を備える情報処理装置。
  15.  音声による第1の問いかけを出力し、
     前記第1の問いかけに対する回答を対象者から受け付け、
     テキストによる第2の問いかけを出力し、
     前記第2の問いかけに対する回答を前記対象者から受け付け、
     前記第1及び第2の問いかけへの回答が正答であるか否かを判定し、
     前記第1及び第2の問いかけへの回答の正誤に基づき、前記対象者の脳機能障害の可能性を推定する
     処理をコンピュータが実行する情報処理方法。
     
PCT/JP2021/032289 2020-09-08 2021-09-02 プログラム、情報処理装置及び情報処理方法 WO2022054687A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202180058332.3A CN116096301A (zh) 2020-09-08 2021-09-02 程序、信息处理装置以及信息处理方法
EP21866646.9A EP4205666A4 (en) 2020-09-08 2021-09-02 PROGRAM, INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD
JP2022547538A JPWO2022054687A1 (ja) 2020-09-08 2021-09-02
US18/178,303 US20230207073A1 (en) 2020-09-08 2023-03-03 Program, information processing device, and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020150747 2020-09-08
JP2020-150747 2020-09-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/178,303 Continuation US20230207073A1 (en) 2020-09-08 2023-03-03 Program, information processing device, and information processing method

Publications (1)

Publication Number Publication Date
WO2022054687A1 true WO2022054687A1 (ja) 2022-03-17

Family

ID=80632351

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/032289 WO2022054687A1 (ja) 2020-09-08 2021-09-02 プログラム、情報処理装置及び情報処理方法

Country Status (5)

Country Link
US (1) US20230207073A1 (ja)
EP (1) EP4205666A4 (ja)
JP (1) JPWO2022054687A1 (ja)
CN (1) CN116096301A (ja)
WO (1) WO2022054687A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023189309A1 (ja) * 2022-03-28 2023-10-05 テルモ株式会社 コンピュータプログラム、情報処理方法及び情報処理装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002349A1 (ja) * 2012-06-29 2014-01-03 テルモ株式会社 情報処理装置及び情報処理方法
US20160314784A1 (en) * 2013-12-17 2016-10-27 Koninklijke Philips N.V. System and method for assessing the cognitive style of a person
JP2017217051A (ja) * 2016-06-03 2017-12-14 一生 重松 認知症診断支援装置とその作動方法および作動プログラム、並びに認知症診断支援システム
JP2020000483A (ja) 2018-06-28 2020-01-09 株式会社アルム 認知症診断装置、および認知症診断システム
JP6729923B1 (ja) * 2020-01-15 2020-07-29 株式会社エクサウィザーズ 難聴判定装置、難聴判定システム、コンピュータプログラム及び認知機能レベル補正方法
JP2020525061A (ja) * 2017-05-31 2020-08-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 可能性のある発話障害および関連する神経障害を識別するための患者の言語使用のモニタリング

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002349A1 (ja) * 2012-06-29 2014-01-03 テルモ株式会社 情報処理装置及び情報処理方法
US20160314784A1 (en) * 2013-12-17 2016-10-27 Koninklijke Philips N.V. System and method for assessing the cognitive style of a person
JP2017217051A (ja) * 2016-06-03 2017-12-14 一生 重松 認知症診断支援装置とその作動方法および作動プログラム、並びに認知症診断支援システム
JP2020525061A (ja) * 2017-05-31 2020-08-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 可能性のある発話障害および関連する神経障害を識別するための患者の言語使用のモニタリング
JP2020000483A (ja) 2018-06-28 2020-01-09 株式会社アルム 認知症診断装置、および認知症診断システム
JP6729923B1 (ja) * 2020-01-15 2020-07-29 株式会社エクサウィザーズ 難聴判定装置、難聴判定システム、コンピュータプログラム及び認知機能レベル補正方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4205666A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023189309A1 (ja) * 2022-03-28 2023-10-05 テルモ株式会社 コンピュータプログラム、情報処理方法及び情報処理装置

Also Published As

Publication number Publication date
US20230207073A1 (en) 2023-06-29
EP4205666A4 (en) 2024-02-21
JPWO2022054687A1 (ja) 2022-03-17
CN116096301A (zh) 2023-05-09
EP4205666A1 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
McCabe et al. Do people with schizophrenia display theory of mind deficits in clinical interactions?
Schmitt et al. Interaction quality: assessing the quality of ongoing spoken dialog interaction by experts—and how it relates to user satisfaction
JP2018015139A (ja) 認知症検査システム
Bild et al. Sound and credibility in the virtual court: Low audio quality leads to less favorable evaluations of witnesses and lower weighting of evidence.
US20210186370A1 (en) Automated and objective symptom severity score
JP6667907B2 (ja) 認知症診断装置、および認知症診断システム
US20200258510A1 (en) Optimizing speech to text conversion and text summarization using a medical provider workflow model
WO2022054687A1 (ja) プログラム、情報処理装置及び情報処理方法
Luperto et al. Evaluating the acceptability of assistive robots for early detection of mild cognitive impairment
Barnes et al. Everyday conversation after right hemisphere damage: A methodological demonstration and some preliminary findings
Boumans et al. Voice-enabled intelligent virtual agents for people with amnesia: Systematic review
Chenausky et al. Review of methods for conducting speech research with minimally verbal individuals with autism spectrum disorder
WO2022054675A1 (ja) プログラム、情報処理装置及び情報処理方法
JP2010054549A (ja) 回答音声認識システム
WO2020116280A1 (ja) 学習支援装置、学習支援方法および記録媒体
WO2021130953A1 (ja) 会話支援装置、会話支援システム、会話支援方法及び記録媒体
Hailpern et al. A3: Hci coding guideline for research using video annotation to assess behavior of nonverbal subjects with computer-based intervention
TWI659429B (zh) 互動式健康狀態評估系統及其方法
WO2019146199A1 (ja) 情報処理装置、及び情報処理方法
Albers Peer interaction and language acquisition in German kindergartens
JP2021089576A (ja) 情報処理装置、情報処理方法およびプログラム
Pan et al. Assessing Joint Engagement Between Children With Autism Spectrum Disorder and Their Parents During The Home Intervention Sessions From the Expressive Language Aspect
Guhan et al. Developing an effective and automated patient engagement estimator for telehealth: A machine learning approach
WO2022054677A1 (ja) プログラム、情報処理装置、情報処理方法及び情報処理システム
WO2023220005A1 (en) Telemedicine or telehealth assisting device and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21866646

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022547538

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2021866646

Country of ref document: EP

Effective date: 20230331

NENP Non-entry into the national phase

Ref country code: DE