WO2024095550A1 - 状況表示装置、方法及びプログラム - Google Patents

状況表示装置、方法及びプログラム Download PDF

Info

Publication number
WO2024095550A1
WO2024095550A1 PCT/JP2023/028072 JP2023028072W WO2024095550A1 WO 2024095550 A1 WO2024095550 A1 WO 2024095550A1 JP 2023028072 W JP2023028072 W JP 2023028072W WO 2024095550 A1 WO2024095550 A1 WO 2024095550A1
Authority
WO
WIPO (PCT)
Prior art keywords
subject
display
situation
information
status
Prior art date
Application number
PCT/JP2023/028072
Other languages
English (en)
French (fr)
Inventor
博子 武藤
隆朗 福冨
健一 森本
太一 浅見
宏 佐藤
崇史 森谷
昇 宮崎
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Publication of WO2024095550A1 publication Critical patent/WO2024095550A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • the disclosed technology relates to technology that displays the subject's status.
  • Patent Document 1 The technology for displaying a two-dimensional graph of the amount of speech of a target person versus the time axis is described in, for example, Figure 7 of Patent Document 1.
  • the technology in Patent Document 1 is intended to grasp the detailed situation in a meeting.
  • Figure 7 in Patent Document 1 is intended to grasp the amount of speech of each participant in the meeting.
  • Patent Document 2 A technology for estimating and displaying the theme and content of a conversation based on the content of speech by multiple people is described in Patent Document 2.
  • the technology in Patent Document 2 like the technology in Patent Document 1, is intended to grasp the detailed situation in a meeting.
  • the technology specifically described in Patent Document 2 is a technology for estimating the theme for each partial section of a conversation between multiple people.
  • Patent Document 1 and Patent Document 2 are intended to grasp the detailed situation in a meeting, the situation in which the subject is placed in these documents is, naturally, "in a meeting.” Although Patent Document 1 and Patent Document 2 can grasp the detailed situation in a meeting, they do not anticipate estimating or visualizing the situation in which the subject who spoke is placed.
  • Patent Document 2 describes a technology that estimates and displays the topic and content of a conversation based on the content of speech by multiple people. However, Patent Document 2 does not anticipate estimating or visualizing the situation in which a single person who has spoken is placed.
  • the purpose of the disclosed technology is to clearly display the situation in which a particular subject finds himself or herself.
  • the situation display device which is one aspect of the disclosed technology, has a display unit that, for a single person who is the subject of the situation display, displays a diagram showing the situation of the subject in each of the partial time intervals, which are time intervals included in the specified time interval, in association with the partial time intervals, near a two-dimensional graph showing the amount of speech of the subject per unit time in the specified time interval.
  • the situation display device which is one aspect of the disclosed technology, has a display unit that, for a single person who is the subject of the situation display, displays a visual representation showing at least one of the subject's situation, state, and behavior in each of the partial time intervals, which are time intervals included in the specified time interval, in association with the partial time intervals, near a visualized summary result showing the status of human activity obtained from the subject's voice per unit time in the specified time interval.
  • the disclosed technology makes it possible to clearly display the situation a particular subject finds himself in.
  • FIG. 1 is a diagram illustrating an example of a functional configuration of a status display device.
  • FIG. 2 is a diagram showing an example of a processing procedure of the status display method.
  • FIG. 3 is a diagram showing an example of the functional configuration of an apparatus in which the status display device is realized.
  • FIG. 4 is a diagram illustrating an example of a functional configuration of the model generating device.
  • FIG. 5 is a diagram showing an example of the display.
  • FIG. 6 is a diagram showing an example of the display.
  • FIG. 7 is a diagram illustrating an example of a functional configuration of a computer.
  • the situation display device includes, for example, a voice recognition unit 1, an utterance amount acquisition unit 2, a situation estimation unit 3, a display information generation unit 4, and a display unit 5.
  • the status display method is realized, for example, by each component of the status display device performing the processes of steps S1 to S5 shown in FIG. 2.
  • the status display device is, for example, a device configured in a smartphone, phablet, tablet, smartwatch, mobile phone, PDA, portable game console, etc.
  • the device in which the status display device is configured is preferably, in particular, a device that can move together with the subject of the status display (hereinafter referred to as the "subject"), such as the mobile device 100 illustrated in FIG. 3, and that is equipped with sensors that acquire not only sound and positional information, but also biometric information of the subject.
  • An example of the mobile device 100 is a smartwatch. For example, when the subject wears the mobile device 100, the mobile device 100 can move together with the subject.
  • the mobile device 100 includes a sound acquisition unit 101, a position information acquisition unit 102, a biometric information acquisition unit 103, a signal processing unit 104, a storage unit 105, a display unit 106, and an input unit 107.
  • the sound acquisition unit 101 is composed of, for example, a microphone and an AD converter.
  • the sound acquisition unit 101 picks up sounds generated in the surrounding space with the microphone, converts the picked up sounds into AD signals with the AD converter, and outputs the resulting digital sound signals to the signal processing unit 104.
  • the location information acquisition unit 102 is composed of, for example, a GPS antenna and a GPS module.
  • the location information acquisition unit 102 outputs location information that identifies the location of the mobile device 100 to the signal processing unit 104.
  • the biometric information acquisition unit 103 is composed of, for example, a biometric information sensor and a biometric information output module.
  • the biometric information acquisition unit 103 outputs biometric information that specifies information about the body of the subject wearing the mobile device 100 to the signal processing unit 104.
  • the biometric information is physiological or anatomical information of the subject, such as heart rate, blood pressure, body temperature, electrocardiogram information, and sweat rate.
  • An acceleration sensor may also function as the biometric information acquisition unit 103.
  • the biometric information may include the acceleration measured by the biometric information acquisition unit 103, which is also an acceleration sensor, the subject's activity level estimated from the acceleration, and the like.
  • the sound signal, location information, and biometric information are sensor information acquired by sensors (sound acquisition unit 101, location information acquisition unit 102, and biometric information acquisition unit 103) provided in the mobile device 100.
  • the signal processing unit 104 is, for example, a central processing unit (CPU: Central Processing Unit).
  • the signal processing unit 104 generates display information from the input sound signal, position information, and biometric information, and outputs the display information to the display unit 106.
  • the memory unit 105 is a main memory device such as a RAM (Random Access Memory).
  • the display unit 106 is a display device having a screen such as a liquid crystal display (LCD) or an organic light emitting display (OLED).
  • the display unit 106 performs display based on input display information.
  • the display unit 106 is also the display unit 5 described below.
  • the display device 200 shown by the dashed line in FIG. 3 may be provided outside the mobile device 100.
  • the display device 200 is a display device having a screen such as a liquid crystal display (LCD) or an organic light emitting display (OLED).
  • the signal processing unit 104 may output display information to the display device 200.
  • the display device 200 performs display based on the input display information.
  • the input unit 107 is an input device such as a touch panel or a pointing device such as a mouse or a trackball.
  • selection information which will be described later, is generated.
  • the generated selection information is input to the signal processing unit 104.
  • the display unit 106 and the input unit 107 may be the same hardware, such as a touch screen.
  • the part of the components of the mobile device 100 is considered to be included in the mobile device 100.
  • the sound signal output by the sound acquisition unit 101, the location information output by the location information acquisition unit 102, and the biometric information output by the biometric information acquisition unit 103 are input to the signal processing unit 104, the display unit 106, the input unit 107, etc. to process each component of the situation display device (speech recognition unit 1, speech volume acquisition unit 2, situation estimation unit 3, display information generation unit 4, and display unit 5), thereby realizing a situation display device on the mobile device 100.
  • a sound signal of a predetermined time period which is a time period for displaying the subject's situation, is input to the voice recognition unit 1.
  • the predetermined time period is 24 hours from 0:00 to 24:00 on that day.
  • the voice recognition unit 1 performs voice recognition processing on the input sound signal to obtain a voice recognition result.
  • the obtained speech recognition result is output to the speech volume acquisition unit 2.
  • the obtained speech recognition result may be output to the situation estimation unit 3 and the display information generation unit 4 as necessary.
  • the voice recognition result output to the speech volume acquisition unit 2 is used by the speech volume acquisition unit 2 to acquire the speech volume of the target person as described below, and is therefore the voice recognition result of the target person, for example, a representation of the target person's voice as a string of letters, phonemes, etc. Since the sound signal input to the voice recognition unit 1 includes sounds generated in the space around the microphone, the sound signal input to the voice recognition unit 1 may also include a voice signal spoken by a person other than the target person. Therefore, the voice recognition unit 1 obtains a voice recognition result for the target person's voice signal contained in the input sound signal using a recognition technology that obtains the voice recognition result of a specific speaker (step S1).
  • the speech recognition result may be input to the speech volume acquisition unit 2 in association with the time when the speech on which the speech recognition result is based was uttered, that is, in association with the time when the sound acquisition unit 101 acquired the sound.
  • the mobile device 100 may be provided with a built-in clock (not shown), or a GPS module of the location information acquisition unit 102 may acquire time so that the sound signal output by the sound acquisition unit 101 is associated with time, and the time may be used to associate the speech recognition result output by the speech recognition unit 1 with the time.
  • the time used by each component described later may also be acquired from, for example, a built-in clock or a GPS module.
  • the speech amount acquisition unit 2 receives the speech recognition result of the target person for a predetermined time period obtained by the speech recognition unit 1 .
  • the speech volume acquisition unit 2 acquires the speech volume of the subject per unit time in the specified time period using the voice recognition results of the subject in the specified time period (step S2).
  • the acquired amount of speech of the subject per unit time is associated with a representative time of each unit time and output to the display information generating unit 4.
  • the acquired amount of speech of the subject per unit time and the representative time of each unit time may be output to the situation estimating unit 3 as necessary.
  • Examples of representative times for a unit time are times at specific positions within the unit time, such as the time in the middle of the unit time, the time at the beginning of the unit time, and the time at the end of the unit time.
  • Examples of the amount of speech include the number of words, the number of words of a particular part of speech, the number of characters, the number of phonemes, etc.
  • a particular part of speech is a part of speech other than particles and auxiliary verbs, such as a noun, verb, adjective, adverb, etc.
  • the speech amount acquisition unit 2 performs processing such as morphological analysis on the voice recognition results, and uses the results of this morphological analysis processing to acquire the amount of speech.
  • the unit time is a time that is determined in advance according to how the two-dimensional graph is displayed, which will be described later.
  • the situation estimation unit 3 estimates the situation the subject is in.
  • the situation the subject is in can be estimated from information sensed from the subject, such as the subject's voice, the subject's speech, the subject's position, the subject's biological state, sounds emitted around the subject, the voice of the subject's interlocutor, and the subject's interlocutor's speech, and/or information sensed from around the subject. Therefore, the situation estimation unit 3 estimates the situation the subject is in from information sensed from the subject and/or information sensed from around the subject.
  • the voice of the subject, the speech of the subject, sounds emitted around the subject, the voice of the subject's interlocutor, and the speech of the subject's interlocutor are included in the sound signal, which is sensor information acquired by the sound acquisition unit 101, which is one of the sensors provided in the mobile device 100. Therefore, the situation estimation unit 3 may receive the sound signal acquired by the sound acquisition unit 101 of the mobile device 100 and input to the situation estimation device. Note that the speech recognition result obtained by the speech recognition unit 1 and the speech volume acquired by the speech volume acquisition unit 2 are part of the information on the subject's speech. Therefore, as shown by the two-dot chain line in FIG.
  • the speech recognition result obtained by the speech recognition unit 1 and the speech volume acquired by the speech volume acquisition unit 2 may be input to the situation estimation unit 3.
  • the speech recognition result obtained by the speech recognition unit 1 and the speech volume acquired by the speech volume acquisition unit 2 are also treated as sensor information, like other sensor information.
  • the position of the subject is the position of the mobile device 100 that moves with the subject. Therefore, the situation estimation unit 3 may receive the position information acquired by the position information acquisition unit 102 of the mobile device 100 and input to the situation estimation device.
  • the subject's biological condition can be acquired by the mobile device 100 worn by the subject. Therefore, the situation estimation unit 3 may receive biological information acquired by the biological information acquisition unit 103 of the mobile device 100 and input to the situation estimation device.
  • the situation estimation unit 3 only needs to receive sensor information acquired by at least one sensor provided in the mobile device 100 that acquired the sound signal from which the amount of speech of the subject is acquired and input to the situation estimation device.
  • the situation estimation unit 3 uses information sensed from the subject and/or information sensed from around the subject, specifically, sensor information acquired by the mobile device 100 worn by the subject, to acquire information representing the subject's situation for each partial time interval, which is a time interval during which the subject is in the same situation during a specified time interval (step S3).
  • Information representing the subject's status in each partial time interval is associated with the representative time of each partial time interval and output to the display information generating unit 4.
  • the information representing the subject's status is a picture showing the subject's status.
  • the information representing the subject's status may also include information other than a picture. That is, the information representing the subject's status may also include, in addition to a picture showing the subject's status, a symbol showing the subject's status, a number showing the subject's status, a character string showing the subject's status, an identifier showing the subject's status, etc.
  • Examples of the representative time of a partial time interval are the time at a specific position included in the partial time interval, such as the time at the center of the partial time interval, the time at the start of the partial time interval, or the time at the end of the partial time interval.
  • the situation estimation unit 3 estimates information representing the subject's situation for each unit time interval for which the situation is to be estimated (hereinafter referred to as the "estimated unit time interval") for a specified time interval (step S3-1), identifies consecutive time intervals in which the information representing the subject's situation is the same as a partial time interval, which is a time interval in which the subject is in the same situation (step S3-2), obtains information representing the subject's situation in each partial time interval (step S3-3), and obtains a representative time for each partial time interval (step S3-4).
  • step S3-1 the situation estimation unit 3 performs processing using an estimation model read from an estimation model storage unit 31 provided in the situation estimation unit 3, with sensor information as input, to estimate the most likely candidate from among multiple predetermined candidates for information representing a person's situation as information representing the subject's situation.
  • the estimation model stored in the estimation model storage unit 31 is an estimation model that has been learned in advance, for example, by the model learning device 300 shown in FIG. 4, before processing is performed by the situation display device and method.
  • the model learning device 300 includes a learning unit 301 as shown in FIG. 4.
  • Learning data is input to the learning unit 301.
  • the sensor information is, for example, at least one of a sound signal acquired by the sound acquisition unit 101 of the mobile device 100 worn by the learning subject, location information acquired by the location information acquisition unit 102 of the mobile device 100 worn by the learning subject, and biometric information of the learning subject acquired by the biometric information acquisition unit 103 of the mobile device 100 worn by the learning subject.
  • the learning unit 301 uses the input learning data to learn an estimation model that obtains information that represents the most appropriate situation as the situation of the person corresponding to the input sensor information as information that represents the situation of the person corresponding to the input sensor information.
  • the learned estimation model is stored in the estimation model storage unit 31 shown by the dashed line in FIG. 1.
  • a well-known learning technique may be used to learn the estimation model.
  • the amount of learning data may be a sufficient amount for learning the estimation model. Note that if the estimation model is learned with learning data of many people as learning subjects, estimation with a certain degree of accuracy for various subjects becomes possible, and if the estimation model is learned with learning data of a specific person as a learning subject, the estimation accuracy when the specific person is the target can be very high. Therefore, the learning data may be prepared appropriately according to the expected usage situation of the situation display device and method.
  • the type of information contained in the sensor information used in the learning stage is the same as the type of information contained in the sensor information used in the estimation stage.
  • the learning unit 301 performs learning using sensor information on the learning subject, which consists of all of the sound signals acquired by the sensors worn by the learning subject, the position information of the learning subject, and the biological information of the learning subject
  • the situation estimation unit 3 uses sensor information on the estimated subject, which consists of all of the sound signals acquired by the sensors worn by the estimated subject, the position information of the estimated subject, and the biological information of the estimated subject.
  • the biometric information included in the sensor information indicates that the subject tends to be asleep
  • the location information included in the sensor information indicates that the subject has been at home for a long time, then the subject is likely to be asleep.
  • the location information included in the sensor information indicates that the subject is in a specific location where the subject usually exercises, such as a sports gym, and it can be determined from the sound signal included in the sensor information that the subject is talking about exercise with a specific person with whom the subject is involved while exercising, such as an instructor, then the subject's situation is likely to be exercising.
  • Whether or not the subject is showing a tendency to be exercising can be estimated, for example, from the acceleration, heart rate, amount of sweat, etc., of the biometric information included in the sensor information.
  • the sound signal included in the sensor information it can be determined from the sound signal included in the sensor information that the subject is engaged in a conversation with a specific person related to him/her during a meeting and is talking about specific topics that will be discussed at the meeting, and if the sound signal location information included in the sensor information indicates that the subject is in the office, it is highly likely that the subject is in a meeting.
  • the volume of the sound signal included in the sensor information is equal to or greater than a predetermined volume, and the location information included in the sensor information indicates that the subject is moving outdoors, then the subject's situation is likely to be on the move.
  • the location information included in the sensor information indicates that the subject has been in a specific place for a certain period of time where meals are eaten, and the amount of speech included in the sensor information indicates that the subject is likely to be eating, then the subject's situation is likely to be eating. Whether or not the subject is showing a tendency to be eating can be estimated, for example, from the content of the speech obtained from the sound signal included in the sensor information, the person the subject is speaking to, etc.
  • the sound signals contained in the sensor information indicate that the subject is speaking but has no one to talk to, it is highly likely that the subject is talking to himself or herself.
  • the situation estimation unit 3 can use an estimation model trained using a set of sensor information about the subject, consisting of all of the sound signals acquired by sensors worn by the subject, the positional information of the subject, and the biometric information of the subject, as learning data, and the situation of the subject, to estimate the most likely candidate from among predetermined candidates of information that represents the person's situation as information that represents the subject's situation, using sensor information input about the subject, consisting of all of the sound signals acquired by sensors worn by the subject, the positional information of the subject, and the biometric information of the subject.
  • the situation estimation unit 3 can estimate the subject's situation with high accuracy by using sensor information acquired by another sensor provided in the mobile device 100, which is provided with a sound acquisition unit 101 that acquires a sound signal from which the speech amount acquisition unit 2 acquires the subject's speech amount, specifically, by using sensor information acquired by the position information acquisition unit 102 and biometric information acquisition unit 103 provided in the mobile device 100.
  • the subject's speech amount by performing voice recognition on the sound acquired by a microphone provided in the mobile device 100 worn by the subject, and to obtain the subject's situation from sensor information acquired by one or more sensors other than the microphone provided in the mobile device 100 worn by the subject.
  • the situation estimation unit 3 can estimate the subject's situation with high accuracy. Therefore, the sensors used for the subject's situation should preferably include a sensor that acquires position information provided on the mobile device 100 worn by the subject.
  • the situation estimation unit 3 may perform a process of correcting the information representing the subject's situation obtained in step S3-1 for each estimated unit time interval included in the specified time interval, using information representing the subject's situation obtained in step S3-1 for the adjacent estimated unit time interval (step S3-1.1).
  • the situation estimation unit 3 may treat each estimated unit time interval included in the specified time interval as a "processing target interval", denoting the information representing the subject's situation as "subject situation information” for the sake of convenience, and may perform the process of step S3-1.1A or step S3-1.1B below as the process of step S3-1.1, where K is a positive integer, L is a positive integer, M is a positive integer, and N is a positive integer.
  • Step S3-1.1A For each processing section, the situation estimation unit 3 determines the most frequent subject status information of the processing section among the subject status information obtained in step S3-1 of the processing section, the subject status information obtained in step S3-1 of the K consecutive estimated unit time sections immediately preceding the processing section, and the subject status information obtained in step S3-1 of the L consecutive estimated unit time sections immediately following the processing section as the subject status information of the processing section.
  • K may be set to a value smaller than L if the processing section is near the start of the specified time section
  • L may be set to a value smaller than K if the processing section is near the end of the specified time section
  • K may be set to 0 as an exception if the processing section is the start of the specified time section
  • L may be set to 0 as an exception if the processing section is the end of the specified time section.
  • Step S3-1.1B For each processing section, if the subject status information obtained in step S3-1 for the M consecutive estimated unit time sections immediately preceding the processing section and the subject status information obtained in step S3-1 for the N consecutive estimated unit time sections immediately following the processing section are all the same, the situation estimation unit 3 determines that the same subject status information (i.e., the subject status information obtained in step S3-1 for the M consecutive estimated unit time sections immediately preceding the processing section and the N consecutive estimated unit time sections immediately following the processing section) is the subject status information for the processing section.
  • the same subject status information i.e., the subject status information obtained in step S3-1 for the M consecutive estimated unit time sections immediately preceding the processing section and the N consecutive estimated unit time sections immediately following the processing section
  • M and N are the same value, but in order to complete the processing of step S3-1.1B using only information within the specified time interval, M may be set to a value smaller than N if the section to be processed is near the start of the specified time interval, N may be set to a value smaller than M if the section to be processed is near the end of the specified time interval, M may be set to 0 as an exception if the section to be processed is the start of the specified time interval, or N may be set to 0 as an exception if the section to be processed is the end of the specified time interval.
  • step S3-1 If the situation estimation unit 3 performs the process of estimating the subject situation information using an estimation model as the process of step S3-1, the subject situation information for each estimation unit time interval can be estimated with high accuracy, but there is a possibility that estimation errors will occur at a low frequency.
  • the process of step S3-1.1 corrects this estimation error by taking advantage of the fact that a person's situation rarely changes to various situations in a short period of time.
  • ⁇ Display Information Generator 4> The amount of speech of the subject per unit time and the representative time of each unit time acquired by the speech amount acquisition unit 2 are input to the display information generation unit 4. In addition, information indicating the situation of the subject in each partial time interval estimated by the situation estimation unit 3 and the representative time of each partial time interval are input to the display information generation unit 4.
  • the display information generating unit 4 generates display information to be displayed on the display unit 5 using the amount of speech of the subject per unit time and the representative time of each unit time, information about the subject's situation in each partial time interval and the representative time of each partial time interval (step S4).
  • the generated display information is output to the display unit 5.
  • the display unit 5 performs display based on the display information.
  • the display information generation unit 4 uses the subject's speech volume per unit time and the representative time of each unit time to generate a two-dimensional graph showing the subject's speech volume per unit time in a specified time interval, and uses information representing the subject's status in each partial time interval and the representative time of each partial time interval to generate display information, which is an image for displaying on the display unit 5 in correspondence with the partial time intervals near the generated two-dimensional graph, the picture showing the subject's status in each partial time interval, which is a time interval included in the specified time interval.
  • a two-dimensional graph G showing the amount of speech of the subject per unit time within a specified time interval is displayed at the top of the screen of the display unit 5.
  • the specified time interval is 24 hours from midnight to midnight.
  • the horizontal axis of the two-dimensional graph G is the time axis, and the vertical axis of the two-dimensional graph G shows the amount of speech of the subject per unit time.
  • a picture showing the subject's status in each of the partial time intervals, which are time intervals included in the specified time interval is displayed below the two-dimensional graph G. However, it is not essential that the position of the picture showing the subject's status is below the two-dimensional graph G.
  • a two-dimensional graph showing the amount of speech of the subject per unit time in a specified time interval is a graph in which the horizontal axis is the time axis and the vertical axis is the speech amount axis, with the amount of speech of the subject per unit time being connected by a line or curve.
  • a picture showing the subject's situation is placed at a representative time position on the time axis of the two-dimensional graph, above or below the time axis of the two-dimensional graph, or above or below the line or curve representing the amount of speech of the two-dimensional graph.
  • the display information generating unit 4 may generate display information similar to that in the first example, but may generate display information that displays fewer pictures as the display area of the screen of the display unit 5 becomes smaller. That is, the display information generating unit 4 may select some of the pictures indicating the inputted situation of the subject, rather than displaying all of the pictures indicating the inputted situation of the subject, and include them in the display information.
  • the display information generating unit 4 may select a predetermined number of pictures corresponding to the size of the display area of the screen of the display unit 5 from the pictures indicating the inputted situation of the subject, and include them in the display information, or may include them in the display information by selecting them according to a selection criterion predetermined corresponding to the size of the display area of the screen of the display unit 5.
  • the display information generating unit 4 may preferentially include in the display information, among the pictures showing the subject's status that correspond to a long partial time interval. Specifically, the display information generating unit 4 may select a predetermined number of pictures corresponding to the size of the display area of the screen of the display unit 5 in order of the longest corresponding partial time interval from among the pictures showing the subject's status that have been input, and include the selected pictures in the display information.
  • the display information generating unit 4 may preferentially include in the display information, from among the pictures showing the subject's situation that have been input, time periods with a large amount of speech. Specifically, the display information generating unit 4 may select a predetermined number of pictures corresponding to the size of the display area of the screen of the display unit 5 in descending order of the amount of speech in the corresponding partial time periods from among the pictures showing the subject's situation that have been input, and include the selected pictures in the display information.
  • the first or second example may be displayed in the upper part of the screen of the display unit 5, and statistical information on the subject's situation in a predetermined time period may be displayed in the lower part of the screen of the display unit 5.
  • the speech situation, speech location, frequently used words, and interlocutor are displayed as statistical information on the subject's situation in 24 hours, which is the predetermined time period corresponding to the two-dimensional graph G.
  • the speech situation refers to the subject's situation.
  • the speech situation is represented by a pie chart.
  • Examples of display information for the speech situation include pictures or text representing each situation in which the subject spoke, the time for each situation, and the proportion of each situation out of all situations in which the subject spoke (e.g., during a meeting: 82 minutes (47%), during exercise: 55 minutes (31%), during a meal: 35 minutes (20%)). Note that the proportion of the subject's situation in a specified time period may also be used as display information for the speech situation.
  • the place of speech is the place where the subject spoke.
  • the place of speech is represented by a pie chart.
  • Examples of display information about the place of speech are the place where the subject spoke, the time the subject was at the place where the subject spoke, and the proportion of the time the subject spoke at each place (e.g., work: 125 minutes (52%), home: 63 minutes (26%), around Shibuya: 43 minutes (18%)). Note that the proportion of the places where the subject spoke or the places where the subject was present in a specified time period may also be displayed as information about the place of speech.
  • the situation estimation unit 3 estimates the location of the subject's speech along with information indicating the subject's situation, and the estimation result is input to the display information generation unit 4, which then uses the input location of speech.
  • Frequent words are words that are used frequently by the subject in a specified time period.
  • the top three words that are used frequently by the subject in a specified time period are displayed as frequent words.
  • a conversation partner is someone who has had a conversation with the subject.
  • the top three people with whom the subject has had the most conversations are displayed as conversation partners.
  • Frequently occurring words and conversation partners can be determined, for example, by having the speech recognition unit 1 perform a speech recognition process to identify the speech content and speaker, and inputting the results of the speech recognition process to the display information generation unit 4 as shown by the dotted line in FIG. 1, so that the display information generation unit 4 can determine the frequently occurring words and conversation partners from the input speech recognition results.
  • the display information generation unit 4 may also use past call history stored in the mobile device 100 to obtain information about the conversation partner.
  • the statistical information on the subject's situation may be displayed in a graph that displays percentages, such as a pie chart.
  • the statistical information on the subject's situation may also be displayed in a ranked order. This makes it possible to display the subject's situation in an easier-to-understand way.
  • a picture showing the subject's situation or statistical information about the subject's situation can be selected, and when a picture showing the subject's situation or statistical information about the subject's situation is selected, the display may switch to information about the subject's situation corresponding to the selected picture or statistical information.
  • the display switches to information on the situation of eating breakfast, which is the situation of the subject corresponding to the selected picture or statistical information, as exemplified in Figure 6.
  • the information related to the subject's situation corresponding to the situation of eating breakfast is displayed, including the subject's speech volume per unit time in the partial time section corresponding to the situation of eating breakfast, the speech situation during the situation of eating breakfast, and frequently used words during the situation of eating breakfast.
  • the partial time period corresponding to the situation of eating breakfast is from 6:00 to 7:00, and the amount of speech by the subject per unit time in the partial time period from 6:00 to 7:00 is displayed.
  • "Breakfast conversation @ home” is displayed as the speech situation in the situation of eating breakfast.
  • "Breakfast conversation @ home” means that the speech in the situation of eating breakfast is a conversation that took place at home during breakfast.
  • the top three words that were used most frequently by the subject in the situation of eating breakfast are displayed as frequent words in the situation of eating breakfast.
  • multiple pictures showing the subject's situation are selectable, and when one of the multiple pictures is selected, the display switches to one that includes at least information about the subject's situation and speech in the partial time period corresponding to the selected picture.
  • a proportion display graph which is a graph showing the proportion of time the subject was in each situation, is also displayed, each proportion area included in the proportion display graph is selectable, and when one of the multiple areas is selected, the display switches to one that includes at least information about the subject's speech in the situation corresponding to the selected area.
  • each proportion area included in the proportion display graph is selectable, and when one of the multiple areas is selected, the display switches to one that includes at least information about the subject's speech at the position corresponding to the selected area.
  • the input unit 107 accepts the selection operation and outputs selection information representing the selection operation.
  • the selection information output by the input unit 107 is input to the display information generation unit 4, as shown by the dashed dotted line in FIG. 1.
  • the display information generation unit 4 generates new display information for displaying information about the subject's situation corresponding to the selected picture or statistical information based on the input selection information, and outputs the newly generated display information to the display unit 5, and the display unit 5 performs a display based on the newly generated display information.
  • the situation estimation unit 3 may generate a new estimation model by operating the model learning device 300 using the correct picture showing the subject's situation and the sensor information of the partial time interval corresponding to the picture, and update the estimation model stored in the estimation model storage unit 31 to the newly generated estimation model. In this way, by learning the correct correspondence, the subject's situation can be estimated with even higher accuracy.
  • Display unit 5 The display information generated by the display information generating section 4 is input to the display section 5 .
  • the display unit 5 is a display device having a screen such as a liquid crystal display (LCD) or an organic light emitting display (OLED).
  • LCD liquid crystal display
  • OLED organic light emitting display
  • the display unit 5 performs display based on the display information. As a result, the display unit 5 displays, at least near the two-dimensional graph showing the amount of speech of the subject per unit time in the specified time interval, pictures showing the status of the subject in each of the partial time intervals, which are time intervals included in the specified time interval, in association with the partial time intervals (step S5).
  • the "amount of speech of the subject" in the display information generated by the display information generating unit 4 may be the "status of human activity obtained from the voice of the subject.”
  • the human activity status is a higher-level conceptualization of the amount of speech.
  • Examples of the human activity status are the amount of speech, the volume of voice, emotions, intonation, speed, tone changes, the length of time of uninterrupted speech, the number of interruptions, and phrasing.
  • Emotions are expressed by the degree of various types of emotions such as joy, anger, sadness, surprise, trust, expectation, and anxiety, or the degree of emotions that are classified into two types, positive and negative. If the voice of the interlocutor is also obtained, the human activity status may include the amount of speech, the volume of voice, and emotions of the interlocutor. Emotions may also include a score indicating depression symptoms.
  • a score indicating signs of depression can be obtained, for example, by the techniques described in References 1 to 3. For example, by repurposing part of a deep learning model in a speech recognition task, it is possible to obtain a score indicating signs of depression that is potentially based on linguistic information (see, for example, Reference 3).
  • the "two-dimensional graph" in the display information generated by the display information generating unit 4 may be a "visualized tabulation result.”
  • the visualized aggregated results are a higher-level conceptualization of two-dimensional graphs.
  • Examples of visualized aggregated results are two-dimensional graphs, three-dimensional graphs, rankings, percentage graphs, and pie charts.
  • the "picture showing the subject's situation" in the display information generated by the display information generating unit 4 may be a "visual representation showing at least one of the subject's situation, state, and behavior.”
  • a visual representation showing at least one of the subject's situation, state, and behavior is a superordinate conceptualization of a picture showing the subject's situation.
  • Examples of visual representations are pictures, illustrations, photographs, images, videos, symbols, and icons.
  • the processing of each part of the above-mentioned status display device may be realized by a computer, in which case the processing contents of the functions that the status display device should have are described by a program. Then, by loading this program into the storage unit 1020 of the computer 1000 shown in Figure 7 and operating the arithmetic processing unit 1010, the input unit 1030, the output unit 1040, the display unit 1060, etc., various processing functions of the status display device are realized on the computer.
  • the above-mentioned status display device for example, as a single hardware entity, has an input unit capable of inputting signals from outside the hardware entity, an output unit capable of outputting signals outside the hardware entity, a communication unit to which a communication device (e.g. a communication cable) capable of communicating with the outside of the hardware entity can be connected, a CPU (Central Processing Unit) which is an arithmetic processing unit, which may also have cache memory or registers, etc., memory such as RAM and ROM, an external storage device which is a hard disk, and buses which connect the input unit, output unit, communication unit, CPU, RAM, ROM and external storage device so that data can be exchanged between them.
  • the hardware entity may also be provided with a device (drive) which can read and write recording media such as CD-ROM.
  • a device drive
  • An example of a physical entity equipped with such hardware resources is a general-purpose computer.
  • the external storage device of the hardware entity stores the programs required to realize the above-mentioned functions and the data required in the processing of these programs (not limited to an external storage device, the programs may be stored in a ROM, which is a read-only storage device, for example). Data obtained by the processing of these programs is stored appropriately in the RAM, the external storage device, etc.
  • each program stored in an external storage device or ROM, etc.
  • the data required to process each program are loaded into memory as necessary, and interpreted, executed, and processed by the CPU as appropriate.
  • the CPU realizes a specified function (each component represented as a "... unit” above, etc.).
  • each component of an embodiment of the present invention may be configured by a processing circuit.
  • the program describing this processing can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium is, for example, a non-transitory recording medium, specifically, a magnetic recording device, an optical disk, etc.
  • the program may be distributed, for example, by selling, transferring, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of a server computer and transferring the program from the server computer to other computers via a network.
  • a computer that executes such a program for example, first stores the program recorded on a portable recording medium or the program transferred from a server computer in its own non-transient storage device, the auxiliary recording unit 1050. Then, when executing a process, the computer reads the program stored in its own non-transient storage device, the auxiliary recording unit 1050, into the storage unit 1020, and executes a process according to the read program. As another execution form of this program, the computer may read the program directly from the portable recording medium into the storage unit 1020 and execute a process according to the program, or may execute a process according to the received program each time a program is transferred from the server computer to this computer.
  • the server computer may not transfer the program to this computer, but may execute the above-mentioned process by a so-called ASP (Application Service Provider) type service that realizes the processing function only by issuing an execution instruction and obtaining the results.
  • ASP Application Service Provider
  • the program in this embodiment includes information used for processing by an electronic computer that is equivalent to a program (data that is not a direct command to the computer but has a nature that specifies the processing of the computer, etc.).
  • the device is configured by executing a specific program on a computer, but at least a portion of the processing may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

状況表示装置は、状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフの近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す絵を、部分時間区間に対応付けて表示する表示部5を備えている。

Description

状況表示装置、方法及びプログラム
 開示の技術は、対象者の状況を表示する技術に関する。
 対象者の発話量と時間軸の二次元グラフを表示する技術は、特許文献1の例えば図7に記載されている。特許文献1の技術は、会議における詳細な状況を把握するためのものである。特許文献1の図7は、会議の各参加者の発話量を把握するためのものである。
 複数人の発話の内容に基づいて会話のテーマやその内容を推定して表示する技術は、特許文献2に記載されている。特許文献2の技術は、特許文献1の技術と同様に会議における詳細な状況を把握するためのものである。特許文献2に具体的に記載されている技術は、複数人による会話の部分区間ごとのテーマを推定する技術である。
特開2004-350134号公報 特開2017-009825号公報
 特許文献1も特許文献2も会議における詳細な状況を把握するためのものであることから、特許文献1や特許文献2において対象者が置かれている状況は、当然ながら「会議中」である。特許文献1及び特許文献2では、会議における詳細な状況を把握することはできるものの、発話をした対象者が置かれている状況を推定したり可視化したりすることは想定されていない。
 特許文献2には、複数人の発話の内容に基づいて会話のテーマやその内容を推定して表示する技術は記載されている。しかしながら、発話したある一人の人が置かれている状況を推定したり可視化したりすることは、特許文献2では想定されていない。
 開示の技術の目的は、ある一人の対象者が置かれている状況を分かり易く表示することである。
 開示の技術の一態様である状況表示装置は、状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフの近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す図を、部分時間区間に対応付けて表示する表示部を備えている。
 開示の技術の一態様である状況表示装置は、状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの対象者の音声から得られる人間の活動の状況を示す可視化された集計結果の近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況、状態及び行動の少なくも1つを示す視覚表現を、部分時間区間に対応付けて表示する表示部を備えている。
 開示の技術によれば、ある一人の対象者が置かれている状況を分かり易く表示することができる。
図1は、状況表示装置の機能構成の例を示す図である。 図2は、状況表示方法の処理手続きの例を示す図である。 図3は、状況表示装置が実現される装置の機能構成例を示す図である。 図4は、モデル生成装置の機能構成の例を示す図である。 図5は、表示の例を示す図である。 図6は、表示の例を示す図である。 図7は、コンピュータの機能構成例を示す図である。
 以下、図面を参照して開示の技術の実施形態を説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 [状況表示装置及び方法]
 状況表示装置は、図1に示すように、音声認識部1、発話量取得部2、状況推定部3、表示情報生成部4及び表示部5を例えば備えている。
 状況表示方法は、状況表示装置の各構成部が、図2に示すステップS1からS5の処理を行うことにより例えば実現される。
 状況表示装置は、例えば、スマートフォン、ファブレット、タブレット、スマートウォッチ、携帯電話機、PDA、携帯ゲーム機等に構成された装置である。状況表示装置が構成される装置は、特に、図3に例示する移動装置100のように、状況表示の対象者(以下、「対象者」という。)と共に移動可能であり、かつ、音や位置情報だけではなく対象者の生体情報も取得するセンサを備えた装置であるとよい。移動装置100の例は、スマートウォッチである。例えば、対象者が移動装置100を装着することで、移動装置100は対象者と共に移動可能となる。
 移動装置100は、図3に例示するように、音取得部101、位置情報取得部102、生体情報取得部103、信号処理部104、記憶部105、表示部106及び入力部107を備えている。
 音取得部101は、例えばマイクロホン及びAD変換器で構成される。音取得部101は、周囲の空間で発生した音をマイクロホンで収音し、収音された音をAD変換器でAD変換して得られたディジタルの音信号を信号処理部104に出力する。
 位置情報取得部102は、例えばGPSアンテナとGPSモジュールで構成される。位置情報取得部102は、移動装置100の位置を特定する位置情報を信号処理部104に出力する。
 生体情報取得部103は、例えば生体情報センサと生体情報出力モジュールで構成される。生体情報取得部103は、移動装置100を装着した対象者の生体に関する情報を特定する生体情報を信号処理部104に出力する。生体情報は、心拍数、血圧、体温、心電情報、発汗量等の対象者の生理学的情報又は解剖学的情報である。なお、加速度センサを生体情報取得部103として機能させてもよい。すなわち、生体情報には、加速度センサでもある生体情報取得部103で計測される加速度、その加速度から推定される対象者の活動量、などが含まれていてもよい。
 音信号、位置情報及び生体情報は、移動装置100に備えられたセンサ(音取得部101、位置情報取得部102及び生体情報取得部103)で取得されたセンサ情報である。
 信号処理部104は、例えば中央演算処理装置(CPU: Central Processing Unit)である。信号処理部104は、入力された音信号、位置情報及び生体情報から、表示情報を生成して表示部106に出力する。
 記憶部105は、例えばRAM(Random Access Memory)等の主記憶装置である。
 表示部106は、例えば液晶ディスプレイ(LCD)、有機ELディスプレイ(OLED)等の画面を有する表示装置である。表示部106は、入力された表示情報に基づく表示を行う。表示部106は、後述する表示部5でもある。
 なお、図3に破線で示す表示装置200が移動装置100の外部に備えられていてもよい。表示装置200は、例えば液晶ディスプレイ(LCD)、有機ELディスプレイ(OLED)等の画面を有する表示装置である。この場合、信号処理部104は表示情報を表示装置200に出力してよい。この場合、表示装置200は、入力された表示情報に基づく表示を行う。
 入力部107は、タッチパネル、マウス及びトラックボール等のポインティングデバイス等の入力装置である。ユーザが入力部107を用いた入力操作をすることで、後述する選択情報が生成される。生成された選択情報は、信号処理部104に入力される。
 なお、表示部106及び入力部107は、タッチスクリーン等の同じハードウェアであってもよい。
 なお、移動装置100の構成要素の一部が、Bluetooth(登録商標)等の通信により接続され、移動装置100と物理的に離れた別装置に設けられている場合であっても、その移動装置100の構成要素の一部は移動装置100に含まれるとする。
 音取得部101が出力した音信号と、位置情報取得部102が出力した位置情報と、生体情報取得部103が出力した生体情報と、を入力として信号処理部104、表示部106及び入力部107等に状況表示装置の各構成部(音声認識部1、発話量取得部2、状況推定部3、表示情報生成部4及び表示部5)の処理を行わせることにより、状況表示装置が移動装置100上で実現される。
 以下、状況表示装置の各構成部の処理について説明する。
 <音声認識部1>
 音声認識部1には、対象者の状況の表示の対象となる時間区間である所定時間区間の音信号が入力される。例えば、図5のように対象者の一日の状況を表示する場合であれば、所定時間区間は、当該一日の0時から24時までの24時間である。
 音声認識部1は、入力された音信号に対して音声認識処理を行うことにより、音声認識結果を得る。
 得られた音声認識結果は、発話量取得部2に出力される。得られた音声認識結果は、必要に応じて、状況推定部3及び表示情報生成部4に出力されてもよい。
 発話量取得部2に出力される音声認識結果は、後述するように対象者の発話量を発話量取得部2が取得するために用いられるものであるので、対象者の音声認識結果であり、例えば、対象者の音声を文字や音素等の列で表したものである。音声認識部1に入力される音信号にはマイクロホンの周囲の空間で発生した音が含まれることから、音声認識部1に入力される音信号には対象者以外の人が発話した音声信号が含まれることもある。したがって、音声認識部1は、特定話者の音声認識結果を得る認識技術を用いて、入力された音信号に含まれる対象者の音声信号に対する音声認識結果を得る(ステップS1)。
 発話量取得部2が取得するのは単位時間当たりの発話量であるので、音声認識結果は、当該音声認識結果の元となる音声が発せられた時刻と対応付けられて、すなわち、音取得部101が音を取得した時刻と対応付けられて発話量取得部2に入力されるとよい。このためには、例えば、移動装置100が図示しない内蔵時計を備えるか、位置情報取得部102のGPSモジュールが時刻を取得するようにして、音取得部101が出力する音信号が時刻と対応付けられるようにして、当該時刻を用いて、音声認識部1が出力した音声認識結果と時刻とを対応付けておくとよい。なお、後述する各構成部で用いる時刻についても、同様に、例えば内蔵時計やGPSモジュールから取得すればよい。
 <発話量取得部2>
 発話量取得部2には、音声認識部1が得た所定時間区間の対象者の音声認識結果が入力される。
 発話量取得部2は、所定時間区間の対象者の音声認識結果を用いて、所定時間区間における各単位時間当たりの対象者の発話量を取得する(ステップS2)。
 取得された各単位時間当たりの対象者の発話量は、各単位時間の代表時刻と対応付けられて、表示情報生成部4に出力される。取得された各単位時間当たりの対象者の発話量とその各単位時間の代表時刻は、必要に応じて、状況推定部3に出力されてもよい。
 単位時間の代表時刻の例は、単位時間の中央の時刻、単位時間の始端の時刻、単位時間の終端の時刻等の単位時間に含まれる所定の位置の時刻である。
 発話量の例は、単語数、特定の品詞の単語数、文字数、音素数等である。特定の品詞は、助詞、助動詞以外の、例えば名詞、動詞、形容詞、副詞等の品詞である。
 単語数、特定の品詞の単語数等を発話量とする場合には、発話量取得部2は、例えば、音声認識結果に対して形態素解析等の処理を行い、この形態素解析処理の結果を用いて、発話量の取得の処理を行う。
 単位時間は、後述する二次元グラフの表示のさせ方に応じて予め定めた時間である。
 <状況推定部3>
 状況推定部3は、対象者が置かれている状況を推定する。対象者が置かれている状況は、例えば、対象者の声、対象者の発話、対象者の位置、対象者の生体状態、対象者の周囲で発せられた音、対象者の対話相手の声、対象者の対話相手の発話などの、対象者からセンシングされた情報、および/または、対象者の周囲からセンシングされた情報、から推定できる。そこで、状況推定部3は、対象者からセンシングされた情報、および/または、対象者の周囲からセンシングされた情報、から、対象者が置かれている状況を推定する。
 例えば、対象者の声、対象者の発話、対象者の周囲で発せられた音、対象者の対話相手の声、対象者の対話相手の発話であれば、移動装置100に備えられたセンサの1つである音取得部101によって取得されたセンサ情報である音信号に含まれる。したがって、状況推定部3には、移動装置100の音取得部101によって取得されて状況推定装置に入力された音信号が入力されればよい。なお、音声認識部1で得られた音声認識結果及び発話量取得部2で取得された発話量は、対象者の発話の情報の一部である。したがって、図1に二点鎖線で示すように、音声認識部1で得られた音声認識結果及び発話量取得部2で取得された発話量の少なくとも1つが、状況推定部3に入力されてもよい。状況推定部3においては、音声認識部1で得られた音声認識結果及び発話量取得部2で取得された発話量も、他のセンサ情報と同様に、センサ情報として扱われる。
 例えば、対象者の位置は、対象者と共に移動する移動装置100の位置である。したがって、状況推定部3には、移動装置100の位置情報取得部102によって取得されて状況推定装置に入力された位置情報が入力されればよい。
 例えば、対象者の生体状態は、対象者が装着した移動装置100で取得可能である。したがって、状況推定部3には、移動装置100の生体情報取得部103によって取得されて状況推定装置に入力された生体情報が入力されればよい。
 すなわち、状況推定部3には、対象者の発話量の取得元である音信号を取得した移動装置100に備えられた少なくとも1つのセンサによって取得されて状況推定装置に入力されたセンサ情報が入力されればよい。
 状況推定部3は、対象者からセンシングされた情報、および/または、対象者の周囲からセンシングされた情報、具体的には、対象者が装着した移動装置100で取得されたセンサ情報、を用いて、所定時間区間において対象者が同じ状況にある時間区間である部分時間区間のそれぞれについての対象者の状況を表す情報を取得する(ステップS3)。
 各部分時間区間における対象者の状況を表す情報は、各部分時間区間の代表時刻と対応付けられて、表示情報生成部4に出力される。
 対象者の状況を表す情報は、対象者の状況を示す絵である。ただし、対象者の状況を表す情報には、絵以外の情報も含まれていてもよい。すなわち、対象者の状況を表す情報には、対象者の状況を示す絵に加えて、対象者の状況を示す記号、対象者の状況を示す数字、対象者の状況を示す文字列、対象者の状況を示す識別子なども含まれていてもよい。
 部分時間区間の代表時刻の例は、部分時間区間の中央の時刻、部分時間区間の始端の時刻、部分時間区間の終端の時刻等の部分時間区間に含まれる所定の位置の時刻である。
 例えば、状況推定部3は、所定時間区間について、状況の推定の対象とする単位時間区間(以下、「推定単位時間区間」という。)それぞれの対象者の状況を表す情報を推定し(ステップS3-1)、対象者の状況を表す情報が同じ連続する時間区間を対象者が同じ状況にある時間区間である部分時間区間として特定し(ステップS3-2)、各部分時間区間における対象者の状況を表す情報を取得し(ステップS3-3)、各部分時間区間の代表時刻を取得する(ステップS3-4)ようにすればよい。
 例えば、状況推定部3は、ステップS3-1の処理として、状況推定部3に備えられた推定モデル記憶部31から読み込んだ推定モデルを用いて、センサ情報を入力として、人の状況を表す情報の予め定められた複数個の候補の中から最も可能性が高い候補を対象者の状況を表す情報として推定する処理を行う。
 推定モデル記憶部31に記憶された推定モデルは、状況表示装置及び方法による処理を行う前に例えば図4に示すモデル学習装置300により予め学習された推定モデルである。
 モデル学習装置300は図4に示すように学習部301を備えている。学習部301には学習データが入力される。Jを正の整数とし、j=1,…,Jとし、学習時の対象者(以下、「学習対象者」という。)からセンシングされた情報、および/または、学習対象者の周囲からセンシングされた情報、具体的には、学習対象者が装着した移動装置100で取得されたセンサ情報A(j)と、センサ情報A(j)に対応する学習対象者の状況を表す情報B(j)との組(A(j), B(j))をS(j)として、学習データはS(1), …, S(J)である。センサ情報は、例えば、学習対象者が装着した移動装置100の音取得部101で取得された音信号、学習対象者が装着した移動装置100の位置情報取得部102で取得された位置情報、学習対象者が装着した移動装置100の生体情報取得部103で取得された学習対象者の生体情報、の少なくとも何れかである。
 学習部301は、入力された学習データを用いて、入力されたセンサ情報に対応する人の状況として最も適切な状況を表す情報を、入力されたセンサ情報に対応する人の状況を表す情報として得る推定モデルを学習する。学習された推定モデルは、図1に破線で示す推定モデル記憶部31に記憶される。推定モデルの学習には、周知の学習技術を用いればよい。学習データの量は、推定モデルを学習するために十分な量とすればよい。なお、多くの人を学習対象者とした学習データで推定モデルを学習すれば、様々な対象者に対してある程度の精度での推定が可能となり、特定の人を学習対象者とした学習データで推定モデルを学習すれば、当該特定の人を対象者としたときの推定精度を非常に高くすることができることから、学習データは状況表示装置及び方法の想定される利用状況に応じて適宜用意すればよい。
 なお、学習段階で用いるセンサ情報に含まれる情報の種類と、推定段階で用いるセンサ情報に含まれる情報の種類とは、同じであることが好ましい。例えば、学習部301が、学習対象者が装着したセンサで取得された音信号、学習対象者の位置情報、学習対象者の生体情報のすべてから成る学習対象者に関するセンサ情報を用いて学習を行った場合には、状況推定部3は、推定の対象者が装着したセンサで取得された音信号、推定の対象者の位置情報、推定の対象者の生体情報のすべてから成る推定の対象者にセンサ情報を用いる。
 例えば、センサ情報に含まれる音信号から取得される対象者の発話量が所定の発話量よりも小さく、対象者が就寝中である傾向をセンサ情報に含まれる生体情報が示し、対象者が自宅に長時間いることをセンサ情報に含まれる位置情報が示している場合であれば、対象者は睡眠中である可能性が高い。
 また、例えば、対象者が運動中である傾向をセンサ情報に含まれる生体情報が示し、スポーツジム等の対象者が普段運動を行う所定の場所に対象者がいることをセンサ情報に含まれる位置情報が示し、インストラクター等の対象者が運動時に関わりのある所定の人と運動に関する内容を対象者が話しているとセンサ情報に含まれる音信号から判断することができる場合には、対象者の状況は運動中である可能性が高い。対象者が運動中である傾向を示しているかどうかは、例えば、センサ情報に含まれる生体情報のうちの加速度、心拍数、発汗量等から推定できる。
 また、例えば、対象者が会議中に関わりのある所定の人と対話をしており会議で話し合われる所定の内容を対象者が話しているとセンサ情報に含まれる音信号から判断することができ、対象者が会社にいることをセンサ情報に含まれる音信号位置情報が示している場合には、対象者の状況は会議中である可能性が高い。
 また、例えば、センサ情報に含まれる音信号の大きさが所定の大きさ以上であり。対象者が屋外で移動していることをセンサ情報に含まれる位置情報が示している場合には、対象者の状況は移動中である可能性が高い。
 また、例えば、食事を行う所定の場所に対象者が一定時間いることをセンサ情報に含まれる位置情報が示していて、センサ情報に含まれる発話量が対象者が食事中である傾向を示している場合には、対象者の状況は食事中である可能性が高い。対象者が食事中である傾向を示しているかどうかは、例えば、センサ情報に含まれる音信号から得られる発話内容、発話相手などから推定できる。
 また、センサ情報に含まれる音信号から、対象者が発話しているものの対象者に対話相手がいない場合には、対象者の状況は独り言中である可能性が高い。
 以上の例からも分かる通り、状況推定部3は、学習対象者が装着したセンサで取得された音信号、学習対象者の位置情報、学習対象者の生体情報のすべてから成る学習対象者に関するセンサ情報と学習対象者の状況との組を学習データとして用いて学習した推定モデルを用いれば、状況の推定の対象者が装着したセンサで取得された音信号、対象者の位置情報、対象者の生体情報のすべてから成る対象者に関するセンサ情報入力として、予め定められた人の状況を表す情報の候補の中から最も可能性が高い候補を対象者の状況を表す情報として推定することができる。
 なお、上述した各状況の具体例からも分かる通り、対象者が移動装置100を装着している場合であれば、発話量取得部2における対象者の発話量の取得元となる音信号が取得される音取得部101が備えられた移動装置100に備えられた別のセンサで取得されたセンサ情報を用いれば、具体的には、移動装置100に備えられた位置情報取得部102や生体情報取得部103で取得されたセンサ情報を用いれば、状況推定部3では対象者の状況を高精度に推定できる。したがって、状況表示装置及び方法においては、対象者に装着された移動装置100に備えられたマイクロホンで取得された音を音声認識して対象者の発話量を得るとともに、対象者に装着された移動装置100に備えられたマイクロホン以外の1個以上のセンサで取得したセンサ情報から、対象者の状況を得るとよい。
 また、上述した各状況の具体例からも分かる通り、対象者の位置情報を用いることができれば、状況推定部3では対象者の状況を高精度に推定できる。したがって、対象者の状況に用いるセンサには、対象者に装着された移動装置100に備えられた位置情報を取得するセンサが含まれているとよい。
 状況推定部3は、ステップS3-1の処理とステップS3-2の処理の間で、所定時間区間に含まれる推定単位時間区間それぞれについて、近接する推定単位時間区間のステップS3-1で得られた対象者の状況を表す情報を用いて、ステップS3-1で得られた対象者の状況を表す情報を補正する処理を行ってもよい(ステップS3-1.1)。例えば、状況推定部3は、所定時間区間に含まれる推定単位時間区間それぞれを「処理対象区間」とし、対象者の状況を表す情報を便宜的に「対象者状況情報」とし、Kを正の整数とし、Lを正の整数とし、Mを正の整数として、Nを正の整数として、下記のステップS3-1.1Aの処理またはステップS3-1.1Bの処理をステップS3-1.1の処理として行えばよい。
 ステップS3-1.1A: 状況推定部3は、各処理対象区間について、処理対象区間のステップS3-1で得られた対象者状況情報と、処理対象区間の直前の連続するK個の推定単位時間区間のステップS3-1で得られた対象者状況情報と、処理対象区間の直後の連続するL個の推定単位時間区間のステップS3-1で得られた対象者状況情報と、の中で最も頻度が高い対象者状況情報を、処理対象区間の対象者状況情報とする。なお、KとLは同じ値とするのがよいが、ステップS3-1.1Aの処理が所定時間区間内の情報だけで完結するように、処理対象区間が所定時間区間の始端付近である場合にはKをLより小さい値にしたり、処理対象区間が所定時間区間の終端付近である場合にはLをKより小さい値にしたり、処理対象区間が所定時間区間の始端である場合には例外的にKを0にしたり、処理対象区間が所定時間区間の終端である場合には例外的にLを0にしたりしてもよい。
 ステップS3-1.1B: 状況推定部3は、各処理対象区間について、処理対象区間の直前の連続するM個の推定単位時間区間のステップS3-1で得られた対象者状況情報と、処理対象区間の直後の連続するN個の推定単位時間区間のステップS3-1で得られた対象者状況情報と、のすべてが同じである場合には、その同じである対象状況情報(すなわち、処理対象区間の直前の連続するM個の推定単位時間区間と処理対象区間の直後の連続するN個の推定単位時間区間のステップS3-1で得られた対象者状況情報)を、処理対象区間の対象者状況情報とする。なお、MとNは同じ値とするのがよいが、ステップS3-1.1Bの処理が所定時間区間内の情報だけで完結するように、処理対象区間が所定時間区間の始端付近である場合にはMをNより小さい値にしたり、処理対象区間が所定時間区間の終端付近である場合にはNをMより小さい値にしたり、処理対象区間が所定時間区間の始端である場合には例外的にMを0にしたり、処理対象区間が所定時間区間の終端である場合には例外的にNを0にしたりしてもよい。
 状況推定部3がステップS3-1の処理として推定モデルを用いて対象者状況情報を推定する処理を行えば、各推定単位時間区間の対象者状況情報を精度良く推定することができるものの、低い頻度では推定誤りが発生する可能性がある。この推定誤りを、人の状況が短時間で様々な状況に変わることが少ないことを利用して補正するのがステップS3-1.1の処理である。
 <表示情報生成部4>
 表示情報生成部4には、発話量取得部2で取得された各単位時間当たりの対象者の発話量とその各単位時間の代表時刻とが入力される。また、表示情報生成部4には、状況推定部3で推定された各部分時間区間における対象者の状況を表す情報とその各部分時間区間の代表時刻とが入力される。
 表示情報生成部4は、各単位時間当たりの対象者の発話量とその各単位時間の代表時刻と、各部分時間区間における対象者の状況についての情報とその各部分時間区間の代表時刻とを用いて、表示部5に表示する情報である表示情報を生成する(ステップS4)。
 生成された表示情報は、表示部5に出力される。後述するように、表示部5は、表示情報に基づく表示を行う。
 [表示情報生成部4の第1例]
 表示情報生成部4は、各単位時間当たりの対象者の発話量とその各単位時間の代表時刻とを用いて、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフを生成し、各部分時間区間における対象者の状況を表す情報とその各部分時間区間の代表時刻とを用いて、生成した二次元グラフの近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す絵を、部分時間区間に対応付けて表示部5に表示するための画像である表示情報を生成する。
 以下、図5を参照して、表示情報生成部4により生成される表示情報の第1例に基づいて表示される表示部5の画面の例を説明する。
 図5の例では、表示部5の画面の上部に、所定時間区間内の各単位時間当たりの対象者の発話量を示す二次元グラフGが示されている。図5の例では、所定時間区間は、0時から24時までの24時間である。二次元グラフGの横軸は時間軸であり、二次元グラフGの縦軸は各単位時間当たりの対象者の発話量を示す。また、図5の例では、二次元グラフGの下に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す絵が示されている。ただし、対象者の状況を示す絵の位置は、二次元グラフGの下にあるのは必須ではない。
 すなわち、表示部5に表示するための画像である表示情報においては、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフは、横軸が時間軸であり、縦軸が発話量の軸であり、各単位時間当たりの対象者の発話量を直線または曲線で繋いだグラフである。そして、表示部5に表示するための画像である表示情報においては、対象者の状況を示す絵は、二次元グラフの時間軸の上または下、または、二次元グラフの発話量を表す直線または曲線の上または下の、二次元グラフの時間軸の代表時刻の位置に、配置されている。
 このように、状況表示の対象となる対象者の発話量を示す二次元グラフの近傍に、各部分時間区間のそれぞれにおける対象者の状況を示す絵を表示することで、状況表示の対象となるある一人の対象者が置かれている状況を分かり易く表示することができる。
 [表示情報生成部4の第2例]
 表示情報生成部4は、第1例と同様の表示情報を生成するものの、表示部5の画面の表示領域が小さいほど少ない個数の絵を表示する表示情報を生成してもよい。すなわち、表示情報生成部4は、入力された対象者の状況を示す絵のすべてを表示するのではなく、入力された対象者の状況を示す絵のうちの一部の絵を選択して表示情報に含めるようにしてもよい。例えば、表示情報生成部4は、入力された対象者の状況を示す絵のうちの、表示部5の画面の表示領域の大きさに対応させて予め定められた個数の絵を選択して表示情報に含めるようにしてもよいし、表示部5の画面の表示領域の大きさに対応させて予め定めた選択基準によって選択することによって表示情報に含めるようにしてもよい。
 例えば、表示情報生成部4は、入力された対象者の状況を示す絵のうちの、対応する部分時間区間が長い絵を優先的に表示情報に含めるようにしてもよい。具体的には、表示情報生成部4は、入力された対象者の状況を示す絵のうちの、対応する部分時間区間が長いものから順に、表示部5の画面の表示領域の大きさに対応させて予め定められた個数の絵を選択して、選択された絵を表示情報に含めるようにしてもよい。
 また、例えば、表示情報生成部4は、入力された対象者の状況を示す絵のうちの、発話量が多い時間区間を優先的に表示情報に含めるようにしてもよい。具体的には、表示情報生成部4は、入力された対象者の状況を示す絵のうちの、対応する部分時間区間における発話量が多いものから順に、表示部5の画面の表示領域の大きさに対応させて予め定められた個数の絵を選択して、選択された絵を表示情報に含めるようにしてもよい。
 [表示情報生成部4の第3例]
 図5の例のように、表示部5の画面の上部に第1例または第2例の表示がされて、表示部5の画面の下部に、所定時間区間における対象者の状況の統計情報が表示されてもよい。図5の例では、<今日のアクティビティ>というタイトルが付された欄に、二次元グラフGに対応する所定時間区間である24時間における対象者の状況の統計情報として、発話状況、発話場所、頻出ワード、対話相手が表示されている。
 発話状況とは、対象者の状況のことである。図5の例では、発話状況は、円グラフにより表されている。発話状況についての表示情報の例は、対象者が発話を行った各状況を表す絵や文字、各状況の時間、及び、対象者が発話を行った全状況に占める各状況の割合(例えば、会議中:82分(47%)、運動中:55分(31%)、食事中:35分(20%))である。なお、所定時間区間に占める対象者の状況の割合を発話状況についての表示情報としてもよい。
 発話場所とは、対象者が発話を行った場所のことである。図5の例では、発話場所は、円グラフにより表されている。発話場所についての表示情報の例は、対象者が発話を行った場所、対象者が発話を行った場所に対象者がいた時間、及び、対象者が発話を行った時間に占める対象者が発話を行った各場所の割合(例えば、会社:125分(52%)、自宅:63分(26%)、渋谷周辺:43分(18%))である。なお、所定時間区間に占める対象者が発話を行った場所や対象者がいた場所の割合を発話場所についての表示情報としてもよい。
 なお、発話場所を表示する場合には、例えば、状況推定部3において、対象者の状況を表す情報とともに、対象者の発話場所も推定して、推定結果が表示情報生成部4に入力されるようにして、表示情報生成部4は入力された発話場所を用いるようにすればよい。
 頻出ワードとは、所定時間区間において対象者が使った頻度が高い単語のことである。図5の例では、頻出ワードとして、所定時間区間において対象者が使った頻度が高い上位3個の単語が表示されている。
 対話相手は、対象者と対話を行った者である。図5の例では、対話相手として、対象者が対話を行った回数が多い上位3人の者が表示されている。
 なお、頻出ワード及び対話相手は、例えば、音声認識部1が発話内容及び話者を特定する音声認識処理を行って、図1に点線で示すように、当該音声認識処理の結果が表示情報生成部4に入力されるようにして、表示情報生成部4が入力された音声認識結果から判断するようにすればよい。なお、状況表示装置が通話可能な移動装置100である場合には、表示情報生成部4は、移動装置100に記憶された過去の通話履歴も用いて対話相手の情報を取得してもよい。
 図5の例のように、対象者の状況の統計情報は、円グラフ等の割合を表示するグラフで示されてもよい。また、対象者の状況の統計情報は、順位を付けて示されてもよい。これにより、対象者が置かれている状況をより分かり易く表示することができる。
 [表示情報生成部4の第4例]
 対象者の状況を示す絵又は対象者の状況の統計情報が選択可能とされており、対象者の状況を表す示す絵又は対象者の状況の統計情報が選択されると、選択された絵又は統計情報に対応する対象者の状況に関する情報の表示に切り替わってもよい。
 例えば、図5の対象者の状況を示す絵(より詳細には図5の対象者の状況を示す絵の中の朝食を食べている状況を示す絵)、又は、図5の対象者の状況の統計情報(より詳細には図5の対象者の状況の統計情報の中の円グラフにおける朝食を食べている状況の部分)が選択されると、図6に例示する、選択された絵又は統計情報に対応する対象者の状況である朝食を食べている状況に関する情報の表示に切り替わる。
 図6では、朝食を食べている状況に対応する対象者の状況に関する情報として、朝食を食べている状況に対応する部分時間区間における対象者の各単位時間当たりの対象者の発話量、朝食を食べている状況における発話状況、朝食を食べている状況における頻出ワードが表示されている。
 図6の例は、朝食を食べている状況に対応する部分時間区間が6時から7時までである例であり、6時から7時までの部分時間区間における対象者の各単位時間当たりの対象者の発話量が表示されている。また、図6の例では、朝食を食べている状況における発話状況として、「朝食時の会話@自宅」という表示がされている。なお、「朝食時の会話@自宅」は、朝食を食べている状況における発話は自宅で行われた朝食時の会話であることを意味する。また、図6の例では、朝食を食べている状況における頻出ワードとして、朝食を食べている状況において対象者が使った頻度が高い上位3個の単語が表示されている。
 すなわち、複数個表示されている対象者の状況を示す絵が選択可能とされており、複数個の絵のうちの何れか1つが選択されると、選択された絵に対応する部分時間区間における対象者の状況と発話に関する情報を少なくとも含む表示に切り替わる。また、対象者が各状況であった時間が占める割合を示すグラフである割合表示グラフも表示する場合には、当該割合表示グラフに含まれる各割合の領域が選択可能とされており、複数個の領域のうちの何れか1つが選択されると、選択された領域に対応する状況における対象者の対象者の発話に関する情報を少なくとも含む表示に切り替わる。また、対象者が各位置にいた時間が占める割合を示すグラフである割合表示グラフも表示する場合には、当該割合表示グラフに含まれる各割合の領域が選択可能とされており、複数個の領域の何れか1つが選択されると、選択された領域に対応する位置における対象者の発話に関する情報を少なくとも含む表示に切り替わる。
 対象者の状況を示す絵又は対象者の状況の統計情報をユーザが選択する選択操作をすると、入力部107が当該選択操作を受け付けて、当該選択操作を表す選択情報を出力する。入力部107が出力した選択情報は、図1に一点鎖線で示すように、表示情報生成部4に入力される。表示情報生成部4は、入力された選択情報に基づいて、選択された絵又は統計情報に対応する対象者の状況に関する情報を表示するための表示情報を新たに生成して、新たに生成された表示情報を表示部5に出力し、表示部5は、新たに生成された表示情報に基づく表示を行う。
 このように、選択された対象者の状況を示す絵又は対象者の状況の統計情報に対応するより詳細な情報を示すことで、対象者が置かれている状況がより分かり易くなる。
 [表示情報生成部4の第5例]
 状況推定部3によって推定された対象者の状況が誤っている場合には、第1例と第2例で説明した二次元グラフの近傍に表示される対象者の状況を示す絵に誤りが発生して、表示部5の表示を見たユーザが誤りに気付くことがある。表示されている対象者の状況を示す絵の誤りにユーザが気付いた場合には、ユーザが表示部5に表示された対象者の状況を示す絵を選択することにより、対象者の正しい状況を示す絵に修正可能であってもよい。この場合には、状況推定部3は、対象者の状況を示す正しい絵及び当該絵に対応する部分時間区間のセンサ情報を用いてモデル学習装置300を動作させることで新たな推定モデルを生成して、推定モデル記憶部31に記憶されている推定モデルを新たに生成した推定モデルに更新してもよい。このように、正しい対応関係を学習することで、更に精度高く対象者の状況を推定できるようになる。
 <表示部5>
 表示部5には、表示情報生成部4が生成した表示情報が入力される。
 表示部5は、例えば液晶ディスプレイ(LCD)、有機ELディスプレイ(OLED)等の画面を有する表示装置である。
 表示部5は、表示情報に基づく表示を行う。これにより、表示部5は、少なくとも、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフの近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す絵を、部分時間区間に対応付けて表示する(ステップS5)。
 表示部5による表示の例は、表示情報生成部4の処理で説明したので、ここでは重複説明を省略する。
 このように、所定時間区間における各単位時間当たりの対象者の発話量を示す二次元グラフの近傍に、所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける対象者の状況を示す絵を、部分時間区間に対応付けて表示することで、ある一人の対象者が置かれている状況を分かり易く表示することができる。
 [変形例]
 表示情報生成部4が生成する表示情報における「対象者の発話量」は、「対象者の音声から得られる人間の活動の状況」であってもよい。
 人間の活動の状況は、発話量を上位概念化したものである。人間の活動の状況の例は、発話量、声の大きさ、感情、抑揚の上げ下げ、速度、トーンの変化、中断されない話す時間の長さ、中断の数、言い回しである。感情は、例えば、喜び、怒り、悲しみ、驚き、信頼、期待、不安等の様々な種類の感情の度合いや、それらの感情をポジティブ又はネガティブの2種類に丸めて分類される感情の度合い等によって表される。なお、対話相手の音声が更に得られる場合には、人間の活動の状況には、対話相手の発話量、声の大きさ、感情が含まれてもよい。また、感情は、うつ兆候を示すスコアを含んでいてもよい。
 うつ兆候を示すスコアは、例えば参考文献1から3に記載された技術により求めることができる。例えば、音声認識のタスクにおける深層学習モデルの一部を転用することで、潜在的に言語的な情報に基づいたうつ兆候を示すスコアを求めることができる(例えば、参考文献3参照。)。
 〔参考文献1〕S. Alghowinem, R. Goecke, M. Wagner, J. Epps, M. Breakspear and G. Parker, "Detecting depression: A comparison between spontaneous and read speech," Proc. ICASSP 2013, pp. 7547-7551.
 〔参考文献2〕Huang, Z., Epps, J., Joachim, D., Stasak, B., Williamson, J.R., Quatieri, T.F., "Domain Adaptation for Enhancing Speech-Based Depression Detection in Natural Environmental Conditions Using Dilated CNNs, " Proc. Interspeech 2020, 4561-4565.
 〔参考文献3〕A. Harati, E. Shriberg, T. Rutowski, P. Chlebek, Y. Lu and R. Oliveira, "Speech-Based Depression Prediction Using Encoder-Weight-Only Transfer Learning and a Large Corpus," Proc. ICASSP 2021, 7273-7277.
 表示情報生成部4が生成する表示情報における「二次元グラフ」は、「可視化された集計結果」であってもよい。
 可視化された集計結果は、二次元グラフを上位概念化したものである。可視化された集計結果の例は、二次元グラフ、三次元グラフ、ランキング、割合グラフ、円グラフである。
 表示情報生成部4が生成する表示情報における「対象者の状況を示す絵」は、「対象者の状況、状態及び行動の少なくも1つを示す視覚表現」であってもよい。
 対象者の状況、状態及び行動の少なくも1つを示す視覚表現は、対象者の状況を示す絵を上位概念化したものである。視覚表現の例は、絵、イラスト、写真、画像、映像、記号、アイコンである。
 [プログラム、記録媒体など]
 上述した状況表示装置の各部の処理をコンピュータにより実現してもよく、この場合は状況表示装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図7に示すコンピュータ1000の記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040、表示部1060などに動作させることにより、状況表示装置における各種の処理機能がコンピュータ上で実現される。
 上述した状況表示装置は、例えば単一のハードウェアエンティティとして、ハードウェアエンティティの外部から信号を入力可能な入力部、ハードウェアエンティティの外部に信号を出力可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、演算処理部であるCPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
 ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
 ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行、処理される。その結果、CPUが所定の機能(上記、…部などと表した各構成部)を実現する。つまり、本発明の実施形態の各構成部は、処理回路(Processing Circuitry)により構成されてもよい。
 既述のように、上記実施形態において説明したハードウェアエンティティ(上述した各装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部1020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
 本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記載された場合と同程度に、本明細書中に参照により取り込まれる。

Claims (11)

  1.  状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの前記対象者の発話量を示す二次元グラフの近傍に、前記所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける前記対象者の状況を示す絵を、前記部分時間区間に対応付けて表示する表示部を含む、
     状況表示装置。
  2.  請求項1の状況表示装置であって、
     移動装置に備えられたマイクロホンで取得された音を音声認識して前記対象者の前記発話量を得るとともに、前記移動装置に備えられたマイクロホン以外の1個以上のセンサで取得したセンサ情報を少なくとも用いて、前記対象者の状況を得る、
     状況表示装置。
  3.  請求項2の状況表示装置であって、
     前記1個以上のセンサには前記移動装置に備えられた位置情報を取得する位置情報センサが含まれ、
     前記位置情報センサで取得したセンサ情報を少なくとも用いて、前記対象者の状況を得る、
     状況表示装置。
  4.  請求項1の状況表示装置であって、
     前記絵が選択可能とされており、前記絵の何れかが選択されると、前記選択された絵に対応する部分時間区間における前記対象者の状況と発話に関する情報の表示に切り替わる、
     状況表示装置。
  5.  請求項1の状況表示装置であって、
     前記表示部は、前記対象者が各状況であった時間が占める割合を示すグラフである割合表示グラフも表示し、
     前記割合表示グラフに含まれる各割合の領域が選択可能とされており、前記領域の何れかが選択されると、前記選択された領域に対応する状況における前記対象者の発話に関する情報の表示に切り替わる、
     状況表示装置。
  6.  請求項1の状況表示装置であって、
     前記表示部は、前記対象者が各位置にいた時間が占める割合を示すグラフである割合表示グラフも表示し、
     前記割合表示グラフに含まれる各割合の領域が選択可能とされており、前記領域の何れかが選択されると、前記選択された領域に対応する位置における前記対象者の発話に関する情報の表示に切り替わる、
     状況表示装置。
  7.  表示部が、状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの前記対象者の発話量を示す二次元グラフの近傍に、前記所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける前記対象者の状況を示す絵を、前記部分時間区間に対応付けて表示する表示ステップを含む、
     状況表示方法。
  8.  状況表示の対象となるある一人の者を対象者として、所定時間区間における各単位時間当たりの前記対象者の音声から得られる人間の活動の状況を示す可視化された集計結果の近傍に、前記所定時間区間に含まれる時間区間である部分時間区間のそれぞれにおける前記対象者の状況、状態及び行動の少なくも1つを示す視覚表現を、前記部分時間区間に対応付けて表示する表示部を含む、
     状況表示装置。
  9.  請求項8の状況表示装置であって、
     前記表示部は、前記対象者が各状況であった時間が占める割合を示すグラフである割合表示グラフも表示し、
     前記割合表示グラフに含まれる各割合の領域が選択可能とされており、前記領域の何れかが選択されると、前記選択された領域に対応する状況における前記対象者の発話に関する情報の表示に切り替わる、
     状況表示装置。
  10.  請求項8の状況表示装置であって、
     前記表示部は、前記対象者が各位置にいた時間が占める割合を示すグラフである割合表示グラフも表示し、
     前記割合表示グラフに含まれる各割合の領域が選択可能とされており、前記領域の何れかが選択されると、前記選択された領域に対応する位置における前記対象者の発話に関する情報の表示に切り替わる、
     状況表示装置。
  11.  請求項1,8の状況表示装置の各部としてコンピュータを機能させるためのプログラム。
PCT/JP2023/028072 2022-11-02 2023-08-01 状況表示装置、方法及びプログラム WO2024095550A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPPCT/JP2022/040953 2022-11-02
PCT/JP2022/040953 WO2024095384A1 (ja) 2022-11-02 2022-11-02 状況表示装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2024095550A1 true WO2024095550A1 (ja) 2024-05-10

Family

ID=90930082

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2022/040953 WO2024095384A1 (ja) 2022-11-02 2022-11-02 状況表示装置、方法及びプログラム
PCT/JP2023/028072 WO2024095550A1 (ja) 2022-11-02 2023-08-01 状況表示装置、方法及びプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/040953 WO2024095384A1 (ja) 2022-11-02 2022-11-02 状況表示装置、方法及びプログラム

Country Status (1)

Country Link
WO (2) WO2024095384A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005032197A (ja) * 2003-07-11 2005-02-03 Nippon Telegr & Teleph Corp <Ntt> 情報解析システム及び方法
US20070071206A1 (en) * 2005-06-24 2007-03-29 Gainsboro Jay L Multi-party conversation analyzer & logger
WO2019220519A1 (ja) * 2018-05-14 2019-11-21 富士通株式会社 分析プログラム、分析方法および分析装置
JP2020091609A (ja) * 2018-12-04 2020-06-11 日本電気株式会社 学習支援装置、学習支援方法およびプログラム
WO2020116531A1 (ja) * 2018-12-05 2020-06-11 株式会社 東芝 会話分析システム、方法及びプログラム
JP2020135132A (ja) * 2019-02-14 2020-08-31 積水化学工業株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005032197A (ja) * 2003-07-11 2005-02-03 Nippon Telegr & Teleph Corp <Ntt> 情報解析システム及び方法
US20070071206A1 (en) * 2005-06-24 2007-03-29 Gainsboro Jay L Multi-party conversation analyzer & logger
WO2019220519A1 (ja) * 2018-05-14 2019-11-21 富士通株式会社 分析プログラム、分析方法および分析装置
JP2020091609A (ja) * 2018-12-04 2020-06-11 日本電気株式会社 学習支援装置、学習支援方法およびプログラム
WO2020116531A1 (ja) * 2018-12-05 2020-06-11 株式会社 東芝 会話分析システム、方法及びプログラム
JP2020135132A (ja) * 2019-02-14 2020-08-31 積水化学工業株式会社 情報処理装置、情報処理方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKESHI KURATA, RYUHEI TENMOKU, TOMOHIRO FUKUHARA ET AL: "Augmented Service Process Re-Engineering ", IEICE TECHNICAL REPORT, IEICE, JP, vol. 112, no. 436 CNR2012-18, 18 February 2013 (2013-02-18), JP, pages 1 - 6, XP009554397, ISSN: 0913-5685 *

Also Published As

Publication number Publication date
WO2024095384A1 (ja) 2024-05-10

Similar Documents

Publication Publication Date Title
CN112119454B (zh) 适应多个年龄组和/或词汇水平的自动助理
Smith et al. Smartphone text input method performance, usability, and preference with younger and older adults
US20180268821A1 (en) Virtual assistant for generating personal suggestions to a user based on intonation analysis of the user
US9807559B2 (en) Leveraging user signals for improved interactions with digital personal assistant
Shadiev et al. A study of the use of wearable devices for healthy and enjoyable English as a foreign language learning in authentic contexts
EP4057211A1 (en) Information processing device, information processing method, and program
JP6343823B2 (ja) 機械対話による感情推定システム及びそのプログラム
KR20210137118A (ko) 대화 단절 검출을 위한 글로벌 및 로컬 인코딩을 갖는 컨텍스트 풍부 주의 기억 네트워크를 위한 시스템 및 방법
US20180350259A1 (en) Systems, Computer Readable Program Products, and Computer Implemented Methods to Facilitate On-Demand, User-Driven, Virtual Sponsoring Sessions for One or More User-Selected Topics Through User-Designed Virtual Sponsors
WO2020059789A1 (ja) 情報処理方法、コンピュータプログラム、学習済みモデル及び情報処理装置
US20210406736A1 (en) System and method of content recommendation
Kbar et al. Assistive technologies for hearing, and speaking impaired people: a survey
Sytsma et al. Consciousness, phenomenal consciousness, and free will
Calak Smartphone evaluation heuristics for older adults
WO2024095550A1 (ja) 状況表示装置、方法及びプログラム
US11675798B2 (en) System and method for customized user content
Duarte et al. Designing multimodal mobile interaction for a text messaging application for visually impaired users
Azevedo et al. Improving patient comprehension of numeric health information
JP2022147506A (ja) 人とコミュニケーションを行うシステム及びそのためのプログラム
AU2020231050A1 (en) Virtual agent team
Teixeira et al. AdaptO-Adaptive multimodal output
Larradet et al. Affective communication enhancement system for locked-in syndrome patients
WO2024101052A1 (ja) 仮想空間制御装置
US20230237926A1 (en) Cognitive Training Using Voice Command
JP2017219829A (ja) 近時記憶支援装置及び近時記憶支援プログラム