WO2017179262A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- WO2017179262A1 WO2017179262A1 PCT/JP2017/002213 JP2017002213W WO2017179262A1 WO 2017179262 A1 WO2017179262 A1 WO 2017179262A1 JP 2017002213 W JP2017002213 W JP 2017002213W WO 2017179262 A1 WO2017179262 A1 WO 2017179262A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- voice
- output
- information processing
- control unit
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/234—Monitoring or handling of messages for tracking messages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Definitions
- the present disclosure relates to an information processing apparatus, an information processing method, and a program.
- chat text and voice can be exchanged between participants in real time.
- Patent Document 1 describes a technique for converting text input by one user into voice data, and outputting the converted voice data to an earphone used by another user.
- the present disclosure proposes a new and improved information processing apparatus, information processing method, and program capable of improving convenience in a scene where messages are exchanged between users.
- an information processing apparatus that includes an output control unit that controls, and in which an input message is exchanged between the first user and the second user.
- an information processing method based on detection of an utterance by a first user who uses speech input, information indicating a waiting state of the first user regarding a reply from a second user who uses text input.
- the computer is configured to determine a waiting state of the first user regarding a reply from the second user using the text input based on detection of the utterance by the first user using the voice input.
- a program for functioning as an output control unit that controls output of information to be displayed, wherein an input message is exchanged between the first user and the second user. Is done.
- FIG. 5 is a sequence diagram illustrating a flow of message exchange processing according to the first embodiment. It is a functional block diagram showing an example of composition of server 10 by a 1st embodiment. It is explanatory drawing which showed the structural example of DB124 for time limit calculation by 1st Embodiment. It is explanatory drawing which showed the structural example of the speech characteristic coefficient table 126 by 1st Embodiment. It is explanatory drawing which showed the structural example of the sensing information coefficient table 128 by 1st Embodiment.
- a plurality of constituent elements having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numeral.
- a plurality of components having substantially the same functional configuration are distinguished as the terminal 20a and the terminal 20b as necessary.
- only the same reference numerals are given.
- the terminal 20 when there is no need to distinguish between the terminal 20a and the terminal 20b, they are simply referred to as the terminal 20.
- the information processing system common to the embodiments includes a server 10, a terminal 20, and a communication network 30.
- a scene where two users 2 chat is assumed. More specifically, one user 2a performs chat by voice input (voice chat), and the other user 2b performs chat by text input (text chat). For example, two users chat while playing the same video game.
- voice chat voice chat
- text chat text input
- the user can input text using, for example, an input device such as a keyboard, a software keyboard displayed on the display screen, or input text by voice text input. It is also possible.
- the terminal 20 is a device used by the user 2 for chatting.
- FIG. 1 shows an example in which the terminal 20 is a game machine
- the present invention is not limited to such an example.
- the terminal 20 may be a mobile phone such as a general-purpose PC (Personal Computer), a tablet terminal, or a smartphone, or a wearable device such as an HMD (Head Mounted Display) or a headset.
- the example in which the terminal 20 is a game machine will be mainly described.
- the terminal 20 includes, for example, a control unit 200, a sound collection unit 220, an operation unit 222, a measurement unit 224, a display unit 226, an audio output unit 228, and a communication unit 230.
- the control unit 200 generally controls the operation of the terminal 20 using hardware such as a CPU (Central Processing Unit) or a RAM (Random Access Memory).
- a CPU Central Processing Unit
- RAM Random Access Memory
- the sound collection unit 220 collects external sound.
- the sound collecting unit 220 transmits the collected sound to the control unit 200.
- the operation unit 222 accepts user input. In addition, the operation unit 222 transmits the received content to the control unit 200.
- the measurement unit 224 includes various sensors such as a camera, a sweat sensor, and a temperature sensor, for example. For example, the measurement unit 224 performs measurement related to the state of the user. In addition, the measurement unit 224 transmits the measurement result to the control unit 200.
- the display unit 226 is an example of an output unit in the present disclosure.
- the display unit 226 displays a display screen according to the control of the control unit 200.
- the audio output unit 228 is an example of an output unit in the present disclosure.
- the audio output unit 228 outputs audio according to the control of the control unit 200.
- the communication unit 230 transmits and receives information to and from other devices via the communication network 30, for example.
- the communication unit 230 transmits the sound collected by the sound collection unit 220 to the server 10 under the control of the control unit 200.
- the communication unit 230 receives a message or the like input by another user from the server 10.
- the configuration of the terminal 20 is not limited to the above-described example.
- any one or more of the sound collection unit 220, the operation unit 222, the measurement unit 224, the display unit 226, and the audio output unit 228 may be provided outside the terminal 20.
- the server 10 is an example of an information processing device according to the present disclosure.
- the server 10 controls the exchange of input messages between the terminals 20.
- the server 10 can transmit the voice input by the voice chat user 2a as it is to the terminal 20b used by the text chat user 2b, or the voice recognition result of the input voice can be transmitted to the terminal. It is also possible to transmit to 20b.
- the server 10 converts the text input by the text chat user 2b into a voice using TTS (Text To Speech), and transmits the converted voice to the terminal 20a used by the voice chat user 2a.
- TTS Text To Speech
- the server 10 transmits the received voice to the terminal 20b used by the text chat user 2b (S15).
- the voice output unit 228b of the terminal 20b outputs the received voice (S17).
- the text chat user 2b inputs text using the operation unit 222, for example (S19).
- the terminal 20b transmits the input text to the server 10 (S21).
- the server 10 converts the received text into speech by the TTS function (S23). Then, the server 10 transmits the converted voice to the terminal 20a (S25).
- the voice output unit 228a of the terminal 20a outputs the received voice (S27).
- the communication network 30 is a wired or wireless transmission path for information transmitted from a device connected to the communication network 30.
- the communication network 30 may include a public line network such as a telephone line network, the Internet, a satellite communication network, various LANs including the Ethernet (registered trademark), a wide area network (WAN), and the like.
- the communication network 30 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
- the server 10 has been created by focusing on the above circumstances.
- the server 10 is based on the detection of the utterance by the voice chat user, and indicates information indicating the waiting state of the voice chat user regarding the reply from the text chat user (hereinafter, voice chat). It is possible to control output of information (referred to as information indicating a user's waiting state). Thereby, the text chat user can grasp
- FIG. 4 is a functional block diagram illustrating a configuration example of the server 10 according to the first embodiment.
- the server 10 includes a control unit 100, a communication unit 120, and a storage unit 122.
- Control unit 100 The control unit 100 generally controls the operation of the server 10 using hardware such as a CPU 150 and a RAM 154, which will be described later, built in the server 10. As illustrated in FIG. 4, the control unit 100 includes a voice analysis unit 102, an emotion estimation unit 104, a reply time limit calculation unit 106, and an output control unit 108.
- Speech analysis unit 102 analyzes the voice received from the terminal 20.
- the voice analysis unit 102 analyzes the speech characteristics of the received voice.
- the speech characteristics are, for example, voice volume, speech speed, or pitch.
- the voice analysis unit 102 performs voice recognition and syntax analysis of the received voice. For example, the voice analysis unit 102 performs voice recognition of the received voice, and performs modality analysis of the utterance sentence based on the recognition result.
- the modality analysis is to analyze the linguistic type (for example, “denial”, “exclamation”, “invitation”, “question”, etc.) of the sentence.
- the speech analysis unit 102 determines whether or not the modality of the utterance sentence is a modality that requires a response based on the result of the modality analysis. For example, when the type of modality analyzed by the modality analysis is “condition”, “question”, “work”, or “solicitation”, the voice analysis unit 102 indicates that the modality requires a response. It is determined that If the analyzed modality type is a modality other than those described above, the speech analysis unit 102 determines that the modality is a modality that does not require a response.
- the emotion estimation unit 104 estimates the emotion of the user using the terminal 20 based on various sensing results received from the terminal 20. For example, the emotion estimation unit 104 estimates a user's emotion (for example, angry, sad, or enjoying) by analyzing a facial expression based on the photographed user's face image. The emotion estimation unit 104 can also estimate the user's emotion by analyzing the received voice.
- a user's emotion for example, angry, sad, or enjoying
- the emotion estimation unit 104 can also estimate the user's emotion by analyzing the received voice.
- the reply time limit calculation unit 106 calculates a reply time limit for a message related to the text chat user based on a predetermined criterion.
- the reply time limit corresponds to, for example, the maximum time estimated that the voice chat user is allowed to wait for a reply from the text chat user (or does not feel uncomfortable even if waiting).
- the predetermined criteria may include a detected voice chat user utterance characteristic.
- the predetermined criterion may include a result of emotion estimated by the emotion estimation unit 104 based on the received voice (voice chat user).
- the predetermined reference may include a sensing result related to the state of the voice chat user.
- the predetermined criterion may include a result of voice recognition of the received voice (of the voice chat user) by the voice analysis unit 102.
- the reply time limit calculation unit 106 calculates the reply time limit based on the analysis result by the voice analysis unit 102, the estimation result by the emotion estimation unit 104, and the registered content of the time limit calculation DB 124 described later.
- the reply time limit calculation unit 106 first calculates a decrease rate from the reference time based on each decrease coefficient stored in the time limit calculation DB 124. Then, the reply time limit calculation unit 106 calculates the reply time limit by multiplying the calculated decrease rate by the reference time.
- the length of the reference time can be determined in advance for each type of terminal 20 or each type of service (chat service or the like), for example. Then, the reply time limit calculation unit 106 multiplies the calculated decrease rate by the reference time associated with the type of the terminal 20 used by the user or the type of service used by the user. Thus, the reply time limit is calculated.
- the time limit calculation DB 124 is a database that stores a decrease coefficient used to calculate a reply time limit. This time limit calculation DB 124 may be stored in the storage unit 122, for example.
- FIG. 5 is an explanatory diagram showing a configuration example of the time limit calculation DB 124. As shown in FIG. 5, the time limit calculation DB 124 includes an utterance characteristic coefficient table 126, a sensing information coefficient table 128, an indicating pronoun presence / absence coefficient table 130, and a time information coefficient table 132.
- FIG. 6 is an explanatory view showing a configuration example of the speech characteristic coefficient table 126.
- the volume and speed of the utterance are associated with a reduction coefficient 1260.
- the reduction coefficient is “0.8”.
- the utterance characteristic coefficient table 126 is not limited to the volume or speed of the utterance.
- the pitch of the utterance or the result of the emotion estimated based on the voice of the utterance may be added or substituted. May be associated.
- FIG. 7 is an explanatory diagram showing a configuration example of the sensing information coefficient table 128.
- the sensing information coefficient table 1228 for example, a result of emotion estimation based on sensing information other than voice (such as a face image), a sensing result of sweating amount, and a reduction coefficient 1280 are associated with each other. ing.
- the reduction coefficient is “0.5”.
- the sensing information coefficient table 128 is not limited to the result of emotion estimation or the amount of sweating.
- the detection result of the line of sight whether or not the display unit 226 is viewed
- the detection result of the operation unit 222 the operation unit 222).
- the action recognition result game play status, etc.
- FIG. 8 is an explanatory diagram showing a configuration example of the indicating pronoun presence coefficient table 130.
- the presence / absence of an indicating pronoun is associated with a decrease coefficient 13300.
- the reduction coefficient is “0.8”.
- FIG. 9 is an explanatory diagram showing a configuration example of the time information coefficient table 132.
- the time indicated by the word included in the speech recognition result is associated with the decrease coefficient 1320.
- the reduction coefficient is “0.8”. Note that the values of the individual reduction coefficients shown in FIGS. 6 to 9 are merely examples, and are not limited to such examples, and arbitrary values can be registered.
- the reply time limit calculation unit 106 calculates the message reply time limit based on the various tables shown in FIGS. 6 to 9.
- the reference time is “30 seconds”
- the reduction coefficient determined from the speech characteristic coefficient table 126 is “0.8”
- the reduction coefficient determined from the sensing information coefficient table 128 is “1.0”.
- the reply time limit calculation unit 106 calculates the reply time limit as “19 seconds” by multiplying the reference time by all the reduction factors (30 (seconds) ⁇ 0.8 ⁇ 1). 0.0 ⁇ 0.8 ⁇ 1.0 ⁇ 19 (seconds)).
- Output control unit 108 controls output of information indicating a waiting state of the voice chat user based on detection of the utterance by the voice chat user. For example, the output control unit 108 controls the output of information indicating the waiting state of the voice chat user based on the analysis result of the voice analysis unit 102 for the detected utterance. As an example, the output control unit 108 starts to output information indicating the waiting state of the voice chat user based on the determination result of whether or not the detected utterance text is a modality that requires a response.
- the output control unit 108 starts outputting information indicating the waiting state of the voice chat user.
- the voice analysis unit 102 determines that the detected utterance sentence is a modality that requires a response
- the output control unit 108 starts outputting information indicating the waiting state of the voice chat user. I won't let you.
- the output control unit 108 ends the output of the information indicating the waiting state of the voice chat user based on a predetermined condition. For example, when the message input by the text chat user is completed, the output control unit 108 ends the output of the information indicating the waiting state of the voice chat user. Further, when the elapsed time from the output of the information indicating the waiting state of the voice chat user exceeds a predetermined upper limit time, the output control unit 108 outputs the information indicating the waiting state of the voice chat user. End.
- the predetermined upper limit time may be a predetermined time, or may be a time obtained by adding a predetermined time to the reply time limit calculated by the reply time limit calculation unit 106. Or, it may be the same as the reply time limit.
- the output control unit 108 causes the indicator including the reply time limit calculated by the reply time limit calculation unit 106 to be displayed on the display unit 226 on the text chat user side as information indicating the waiting state of the voice chat user.
- FIG. 10 is an explanatory diagram showing an example of indicator display (display screen 40).
- the output control unit 108 causes the display screen 40 to display the text input field 42 and the indicator 50 together.
- the text input field 42 is an input field for a text chat user to input text (message).
- the indicator 50 includes a meter 52.
- the meter 52 is a display showing the difference between the reply limit time and the elapsed time from the start of display of the indicator 50 (hereinafter sometimes referred to as remaining time).
- the text chat user can know at any time the remaining time that the voice chat user is allowed to wait for a message reply. As a result, the text chat user can determine whether or not to promptly input a reply message, for example.
- the right end of the indicator 50 in FIG. 10 indicates the length of the reply time limit calculated by the reply time limit calculation unit 106. For example, when the reply limit time is “2 minutes”, the indicator 50 is twice as long as the reply limit time is “1 minute”. Further, when the display of the indicator 50 is started, the right end of the meter 52 and the right end of the indicator 50 can be matched. Alternatively, the length of the indicator 50 is fixed regardless of the length of the reply limit time, and the speed at which the length of the meter 52 changes as will be described later may be changed according to the reply control time. Good. For example, when the length of the reply limit time is “2 minutes”, the output control unit 108 sets the meter 52 at a speed “twice” that when the reply limit time is “1 minute”. The length may be shortened.
- the present invention is not limited to this example, and the right end of the indicator 50 may be determined at a predetermined time (for example, 3 minutes). In this case, when the reply limit time is less than the predetermined time, the meter 52 is displayed shorter than the indicator 50 when the indicator 50 starts to be displayed.
- FIG. 11 is an explanatory diagram showing an example in which the display of the indicator 50 is changed with the passage of time.
- the example of a display of the indicator 50 when longer time has passed in order of (a), (b), (c), (d) is shown.
- the output control unit 108 shortens the length of the meter 52 as the elapsed time from the display start of the indicator 50 is longer (that is, the remaining time is shorter).
- FIG. 11 is an explanatory diagram showing an example in which the display of the indicator 50 is changed with the passage of time.
- the example of a display of the indicator 50 when longer time has passed in order of (a), (b), (c), (d) is shown.
- the output control unit 108 shortens the length of the meter 52 as the elapsed time from the display start of the indicator 50 is longer (that is, the remaining time is shorter).
- FIG. 11 is an explanatory diagram showing an example in which the display of the indicator 50 is changed with the passage of time.
- the output control unit 108 may change the display color of the meter 52 according to, for example, the ratio of the remaining time length to the reply limit time. For example, as shown in FIG. 11B, when the ratio of the remaining time to the reply limit time becomes less than “50%”, the output control unit 108 changes the display color of the meter 52 to “Caution”. The display color is changed. Further, as illustrated in FIG. 11C, when the ratio of the remaining time to the reply limit time is less than “30%”, the output control unit 108 changes the display color of the meter 52 to “Warning”. The display color is changed. According to these display examples, it is possible to emphasize to the text chat user that the remaining time until the reply limit time is short.
- FIG. 11 has shown the example of a display of the indicator 50 after a text chat user transmits a message.
- the output control unit 108 hides only the meter 52 or hides the indicator 50, for example.
- the indicator 50 and the meter 52 have been described as different from each other.
- the present invention is not limited to this example, and the indicator 50 may be the same as the meter 52.
- output control part 108 may display auxiliary display 54 near indicator 50 (for example, right adjacent).
- the auxiliary display 54 is an example of information indicating a waiting state of the voice chat user.
- the ratio of the remaining time with respect to the reply time limit and the text (for example, “OK”, “Hurry up!”, “He is Angry !”, etc.) can be registered in advance in the table.
- the output control unit 108 may sequentially update the type of text displayed as the auxiliary display 54 according to the current remaining time ratio and the registered contents of the table.
- the output control unit 108 may display the emotion result estimated by the emotion estimation unit 104 as the auxiliary display 54.
- the output control unit 108 displays “Heis angle” (regardless of the elapsed time).
- the text “!!!” may be displayed as the auxiliary display 54.
- the output control unit 108 may update the display content of the auxiliary display 54 each time the emotion estimation result changes.
- the output control unit 108 may display the sensing result related to the state of the voice chat user (for example, whether the display unit 226 is viewed or whether the operation unit 222 is held) as the auxiliary display 54. Good.
- the example in which a text is displayed as the auxiliary display 54 is shown in FIG. 11, it is not limited to this example, For example, images, such as an icon, may be displayed.
- FIG. 12 is an explanatory diagram showing a display example of the indicator when the elapsed time from the start of indicator display exceeds the reply time limit.
- the output control unit 108 may blink the text input field 42.
- the output control unit 108 may display the OSK (On-Screen Keyboard) 60 on the display screen while blinking the text input field 42. Thereby, the text chat user can be forced to input text.
- OSK On-Screen Keyboard
- the output control part 108 can also make the audio
- the length of time (or the ratio of remaining time) and the type of sound can be registered in advance in the table in association with each other. Then, when an utterance by the voice chat user is detected, the output control unit 108 determines the reply limit time length (or “100%”) calculated by the reply limit time calculation unit 106 and the registered contents of the table. Depending on the type of sound, the sound output unit 228 may output the sound. Furthermore, the output control unit 108 may sequentially update the type of sound to be output according to the current remaining time length (or the remaining time ratio) and the registered contents of the table. As a result, the text chat user can know how much time will remain afterward.
- the length of time (or the ratio of the remaining time) and the length of the time interval at which a predetermined sound (for example, a bell sound or a beep sound) is output may be registered in advance in the table. For example, it can be registered that the time interval of the output sound is shortened as the length of the remaining time (or the ratio of the remaining time) is smaller. Then, when an utterance by the voice chat user is detected, the output control unit 108 registers it in the table in association with the reply limit time length (or “100%”) calculated by the reply limit time calculation unit 106. A predetermined sound may be output to the audio output unit 228 at a set time interval. Further, the output control unit 108 may sequentially update the time interval at which the sound is output according to the current remaining time length (or the remaining time ratio) and the registered contents of the table. As a result, the text chat user can know how much time will remain afterward.
- a predetermined sound for example, a bell sound or a beep sound
- the output control unit 108 When the elapsed time from the output of the voice indicating the waiting state exceeds the reply limit time, the output control unit 108, for example, as shown in FIG. 12, the text input displayed on the display screen The column 42 may be blinked.
- the output control part 108 can also output the vibration which shows a voice chat user's waiting condition to the operation part 222 of the terminal 20 which a text chat user uses, for example.
- the length of time (or the ratio of remaining time) and the type of vibration can be registered in advance in the table in association with each other.
- a vibration pattern that is evaluated to be more comfortable as the length of time (or the percentage of remaining time) is larger may be registered in the table.
- the output control unit 108 determines the reply limit time length (or “100%”) calculated by the reply limit time calculation unit 106 and the registered contents of the table.
- the operation unit 222 may be output.
- the output control unit 108 may sequentially update the type of vibration to be output according to the current remaining time length (or the remaining time ratio) and the registered contents of the table.
- the length of time (or the ratio of the remaining time) and the length of the time interval at which a predetermined type of vibration is output may be registered in advance in the table. For example, the smaller the remaining time length (or the remaining time ratio), the shorter the time interval of vibrations to be output can be registered. Then, when an utterance by the voice chat user is detected, the output control unit 108 registers it in the table in association with the reply limit time length (or “100%”) calculated by the reply limit time calculation unit 106. The predetermined vibration may be output to the operation unit 222 at a set time interval. Furthermore, the output control unit 108 may sequentially update the time intervals at which vibrations are output according to the current remaining time length (or remaining time ratio) and the registered contents of the table.
- the ratio of the remaining time (or the length of time) and the part where vibration is output in the operation unit 222 can be registered in advance in the table. For example, the smaller the remaining time ratio, the more parts can be registered to output vibration.
- the output control part 108 may change the site
- the output control unit 108 when the elapsed time from the output of the vibration indicating the waiting state exceeds the reply limit time, the output control unit 108, for example, as shown in FIG. 12, the text input displayed on the display screen The column 42 may be blinked.
- the output control unit 108 can increase or decrease the remaining time (with respect to the reply of the text chat user) based on a predetermined condition. Further, when the remaining time is increased or decreased, the output control unit 108 displays an indicator, outputs a sound, or outputs a vibration in a manner corresponding to the remaining time after the increase or decrease.
- the output control unit 108 may add a predetermined time to the current remaining time each time a new utterance is detected by the voice chat user.
- the output control unit 108 determines the current remaining time according to the new utterance. It may be increased or decreased. For example, when it is detected that a keyword that promptly replies to a message such as “Reply early!” Is spoken by the voice chat user, the output control unit 108 sets the remaining time to a predetermined time. It may be shortened by time.
- the output control unit 108 increases or decreases the remaining time according to the change in the emotion estimation result. May be. For example, if the estimated result of emotion at the time of detecting an utterance is “normal” and the estimated result of the voice chat user changes to “angry” before the text chat user returns, The control unit 108 may shorten the remaining time by a predetermined time. Also, if the emotion estimation result at the time of utterance detection is “angry” and the text chat user's emotion estimation result changes to “normal” before replying, the output is The control unit 108 may add a predetermined time to the current remaining time.
- the output control unit 108 can increase or decrease the remaining time for any text chat user. For example, in a situation where there is one voice chat user and a plurality of text chat users, the output control unit 108 increases or decreases the remaining time related to message reply for each text chat user based on a predetermined condition. The amount may vary.
- the voice chat user is a teacher and the text chat user is a student will be described.
- a teacher utters the question “Is there anyone who knows about XX?”
- student A one of the students replies with a message to the utterance
- the output control unit 108 may set the remaining time of the student A to “0 seconds” and add a predetermined time to the current remaining time for all the students other than the student A.
- a class can be activated by making a plurality of students answer the same question.
- a teacher voice chat user
- a plurality of students text chat users
- a terminal 20 such as a PC
- the teacher Voice chat user
- a terminal 20 such as a PC
- An application example in a scene where a plurality of student videos are displayed on the display unit will be described. For example, it is assumed that a teacher's line of sight is directed to which of the plurality of student images is detected by a camera installed in the vicinity of the display unit, and the teacher utters a question.
- the output control unit 108 may increase the remaining time only for the student corresponding to the video for which it is detected that the gaze of the teacher is directed.
- the output control unit 108 causes the indicator to be displayed only on the display unit viewed by the student who is detected that the teacher's line of sight is directed, and sends a reply message to the question to the corresponding student. You may enter only.
- the communication unit 120 transmits and receives information to and from other devices. For example, the communication unit 120 transmits information indicating the waiting state of the voice chat user to the terminal 20 used by the text chat user under the control of the output control unit 108. Further, the communication unit 120 receives from the terminal 20 the voice of the user's utterance, the input text, and the like.
- Storage unit 122 stores various data and various software.
- the storage unit 122 stores a time limit calculation DB 124 and the like.
- a voice chat user speaks. Then, the terminal 20a used by the voice chat user collects the spoken voice, and sequentially transmits the collected voice to the server 10 (S101).
- the server 10 performs an “indicator display necessity determination process” to be described later (S103). And when it determines with the display of an indicator not being required (S105: No), the process of S101 is performed again.
- the server 10 performs a “reply time limit calculation process” to be described later (S107).
- the output control unit 108 of the server 10 causes the terminal 20b (display unit 226) used by the text chat user to start displaying an indicator corresponding to the processing result of S107 (S109).
- the server 10 performs an “indicator display end determination process” to be described later (S111). If it is determined that the display of the indicator is not terminated (S113: No), the server 10 performs the process of S111 again after waiting for a predetermined time, for example. On the other hand, when it is determined that the display of the indicator is to be ended (S113: Yes), this operation ends.
- the voice analysis unit 102 performs voice recognition of the voice received in S101 (S201). Then, the voice analysis unit 102 performs modality analysis of the utterance sentence based on the result of the voice recognition (S203). If it is determined that the modality requires a response (S205: Yes), the output control unit 108 determines that display of an indicator is necessary (S207). Then, the “indicator display necessity determination process” ends.
- the output control unit 108 determines whether a predetermined time has elapsed since the last detected utterance. (S209). When the predetermined time has elapsed since the previous utterance (S209: Yes), the output control unit 108 determines that the utterance corresponding to the voice received in S101 is the first utterance in the new context. (S211). Then, the output control unit 108 performs the process of S207 described above.
- the output control unit 108 determines whether or not the speech recognition result in S201 includes a word indicating the end of the conversation.
- the word indicating the end of the conversation may be, for example, “goodbye”, “bye-bye”, “I will go to sleep”, “again tomorrow”, and the like.
- the word indicating the end of the conversation may be registered in a word list constructed based on chat history information.
- the word list can be constructed based on, for example, collecting words of the last utterance based on chat history information.
- the output control unit 108 performs the process of S207 described above.
- the output control unit 108 determines that display of the indicator is unnecessary (S215). Then, the “indicator display necessity determination process” ends.
- the reply time limit calculation unit 106 acquires the speech characteristics of the corresponding voice analyzed in S201 (S301). Subsequently, the reply time limit calculation unit 106 acquires sensing information other than voice, such as a face image, a line-of-sight detection result, or a behavior recognition result regarding the voice text chat user (S303). The sensing information may be transmitted to the server 10 together with the voice of the utterance by the terminal 20 in S101, or the terminal 20 may be transmitted to the server 10 in S303.
- the reply time limit calculation unit 106 obtains an analysis result of the presence or absence of an instructional pronoun regarding the sentence of the corresponding utterance analyzed in S201 (S305).
- the reply time limit calculation unit 106 acquires the analysis result of the time information related to the sentence of the corresponding utterance analyzed in S201 (S307).
- the reply time limit calculation unit 106 calculates the rate of decrease from the reference time based on the information acquired in S301 to S307 and the registered contents of the time limit calculation DB 124 (S309).
- the reply time limit calculation unit 106 calculates the reply time limit by multiplying the reference time by the decrease rate calculated in S309 (S311).
- the output control unit 108 determines whether or not the text chat user has already returned the utterance detected in S101 (S401). If the text chat user has already responded (S401: Yes), the output control unit 108 determines to end the display of the indicator (S403). Then, the “indicator display end determination process” ends.
- the output control unit 108 determines whether or not a new utterance has been detected from the voice chat user (S405).
- the output control unit 108 estimates the inter-sentence relationship using, for example, a known technique, thereby detecting the detected new utterance. It is determined whether or not (hereinafter referred to as “new utterance”) and the utterance detected in S101 (hereinafter referred to as the target utterance) are related (S407).
- the inter-sentence relationship between a sentence of a new utterance and a sentence of the target utterance is “a relation based on the identity of the matter” (for example, “equivalent”, “simplified”, “detail”, “example”, “reference”). , “Supplement” or the like), the output control unit 108 determines that the new utterance is related to the target utterance (that is, the utterance continues).
- the server 10 When it is determined that the new utterance is not related to the target utterance (S407: No), the server 10 performs the process of S403 described above. On the other hand, when it is determined that the new utterance is related to the target utterance (S407: Yes), the output control unit 108 determines not to end the display of the indicator (S409). Thereafter, the “indicator display end determination process” ends.
- the server 10 performs voice based on detection of an utterance by the voice chat user. Controls the output of information indicating the waiting status of chat users. Thereby, the text chat user can grasp
- the server 10 calculates a reply time limit based on the detection of the utterance by the voice chat user, and displays an indicator including the calculated reply time limit on the display unit 226 on the text chat user side.
- the indicator includes a meter that indicates the difference between the reply limit time and the elapsed time from the start of indicator display.
- the first embodiment is not limited to the above description.
- the example in which the server 10 displays the indicator only on the display unit 226b on the text chat user side has been described, but the present invention is not limited to this example, and the server 10 displays the same indicator on the display unit 226a on the voice chat user side. You may let them. Thereby, the voice chat user can grasp
- Second Embodiment >> The first embodiment has been described above. As described above, generally, in text chat, it takes a long time to input a message as compared with voice chat. Therefore, it is desirable that the voice chat user can confirm the input status of the text chat user in order to suppress a decrease in usability in a scene where the chat is performed between the voice chat user and the text chat user.
- the server 10 controls the output of feedback voice (hereinafter referred to as FB voice) to the voice chat user based on the text input status by the text chat user.
- FB voice feedback voice
- FB voice feedback voice
- an application example in a scene where a text chat user inputs a voice text will be described.
- the present invention is not limited to this example, and the present invention can be applied to a scene in which a text chat user inputs text using, for example, a hardware keyboard or a software keyboard.
- the output control unit 108 causes the voice output unit 228 of the terminal 20 used by the voice chat user to output FB voice based on the text input status by the text chat user. For example, when the predetermined audio FB timing is reached, the output control unit 108 causes the audio output unit 228 to output the FB audio.
- the audio FB timing includes, for example, “when message input starts”, “message input is in progress”, “message input is completed”, and “message transmission”.
- “during message input” is, for example, a timing at which the volume of an utterance exceeds a predetermined threshold in an utterance section (for voice text input) detected by VAD (Voice Activity Detection).
- the voice FB timing and the voice type can be associated with each other and registered in advance in the FB voice table (not shown).
- a voice such as “A message from Mr. XX” may be registered in the FB voice table in association with “when sending a message”.
- the output control unit 108 causes the audio output unit 228 to output the FB audio stored in the FB audio table in association with the audio FB timing.
- this FB audio table can be stored in the storage unit 122.
- the terminal 20b used by the text chat user waits until voice text input is started by the text chat user (S501). Then, when the voice text input is started by the text chat user (S501: Yes), the terminal 20b transmits a notification that the text input has started to the server 10 (S503).
- the output control unit 108 of the server 10 extracts the FB sound stored in the FB sound table in association with “when the message input starts”. And the communication part 120 transmits the extracted FB audio
- the terminal 20b determines whether or not the voice text input has been terminated by the text chat user (S509). While the voice text is being input (S509: No), the terminal 20b waits until the volume of the utterance of the text chat user exceeds a predetermined threshold (S511). When the volume of the utterance exceeds the predetermined threshold (S511: Yes), the terminal 20b transmits a notification that the input is being performed to the server 10 (S513).
- the output control unit 108 of the server 10 extracts the FB sound stored in the FB sound table in association with “During message input”. And the communication part 120 transmits the extracted FB audio
- the terminal 20b transmits a notification that text input has been completed to the server 10 (S521).
- the output control unit 108 of the server 10 extracts the FB voice stored in the FB voice table in association with “at the end of message input”. And the communication part 120 transmits the extracted FB audio
- the terminal 20b transmits the input message to the server 10 (S527). Then, the output control unit 108 of the server 10 extracts the FB sound stored in the FB sound table in association with “when the message is transmitted”. And the communication part 120 transmits the extracted FB audio
- the server 10 controls the output of the FB voice to the voice chat user based on the text input status by the text chat user. For this reason, when waiting for a message from the text chat user, the voice chat user can check the input status of the text chat user. Accordingly, it is possible to suppress a decrease in usability of the voice chat user.
- the server 10 outputs the voice of the message output to the voice chat user based on the keyword extraction from the message input by the text chat user. It is possible to change the aspect. Thereby, it can suppress that a voice chat user misses the important part of the message by a text chat user.
- the keyword can be, for example, a word indicating a date, a place, or the like.
- Output control unit 108 The output control unit 108 according to the third embodiment changes the voice output mode of the message output to the voice chat user based on the extraction of the keyword from the message input by the text chat user.
- the output control unit 108 can increase the number of times the keyword voice extracted from the input message is output.
- the output control unit 108 first causes the voice output unit 228a on the voice chat user side to output the voice of the message input by the text chat user, and then the output control unit 108 is extracted from the message. Only the keyword voice is output to the voice output unit 228a.
- a text chat user inputs a message “Yes, gather in a trolley room at 9:00 tomorrow” and “Tomorrow”, “9 pm”, and “Minecart room” are extracted as keywords. To do.
- the output control unit 108 first causes the voice output unit 228a to output the voice “That's right, gathering in the trolley room at 9:00 tomorrow” by the TTS to the voice output unit 228a, and then “Tomorrow 9:00 trolley room” by the TTS.
- the voice output unit 228a outputs the voice of only the keyword.
- the output control unit 108 can output the voice of the message by changing the voice of the keyword portion extracted from the input message. For example, the output control unit 108 causes the volume of the keyword part extracted from the input message to be larger than the volume of the part other than the keyword, and causes the voice output unit 228a to output the voice of the message by TTS. Alternatively, the output control unit 108 makes the voice type of the keyword portion extracted from the input message different from the voice type of the part other than the keyword, and sends the voice of the message by the TTS to the voice output unit 228a. It may be output.
- the output control unit 108 can output the voice of the message by changing the speed of the voice of the keyword portion extracted from the input message. For example, the voice output is paused before and after the keyword extracted from the input message, and the voice of the keyword part is set to a speed that is, for example, 0.8 times slower than the voice of the part other than the keyword.
- the voice of the message may be output to the voice output unit 228a.
- the output control unit 108 of the server 10 extracts keywords from the received message (S605). Then, based on the received message and the extracted keyword, the output control unit 108 generates a voice that emphasizes the relevant keyword with respect to the message by TTS (S607).
- the communication unit 120 transmits the generated voice to the terminal 20a according to the control of the output control unit 108 (S609). Thereafter, the terminal 20a outputs the received voice (S611).
- the server 10 determines the voice output mode of the message output to the voice chat user based on the keyword extraction from the message input by the text chat user. Change. For this reason, the voice chat user can hear the keyword included in the corresponding message more reliably. As a result, smooth communication can be realized, for example, by reducing the number of times that the voice chat user asks the text chat user again.
- the server 10 can control automatic voice output by the TTS to the voice chat user based on the detection of the utterance by the voice chat user. Is possible.
- Output control unit 108 The output control unit 108 according to the fourth embodiment, when an utterance by the voice chat user is detected, based on the estimation result of whether or not the text chat user is listening, the voice of the conflict by the TTS for the voice chat user Control the output of. For example, when an utterance by a voice chat user is detected and it is estimated that a text chat user is listening to an utterance of the voice chat user, the output control unit 108 outputs the voice of the conflict by the TTS as a voice chat user. To the audio output unit 228 on the side.
- the output control unit 108 causes the voice output unit 228 on the voice chat user side to output the voice of the competing TTS.
- the output control unit 108 can estimate whether the text chat user is listening to the voice chat user's utterance, for example, by the following method. For example, the output control unit 108 determines whether the text chat user is listening to the utterance based on whether the voice of the voice chat user's utterance is output to the voice output unit 228b on the text chat user side. May be. Alternatively, the output control unit 108 may determine whether or not the text chat user is listening to the utterance based on the detection result of whether or not the text chat user is wearing earphones or headphones. Alternatively, the output control unit 108 may determine whether or not the text chat user is listening to the utterance based on the behavior recognition result of the text chat user.
- the output control unit 108 determines that the text chat user is uttered based on the detection result of the degree of concentration of the text chat user in the computer game. It may be determined whether or not the user is listening. Note that, for example, the degree of concentration in the computer game is determined based on the detection result of the operation frequency for the operation unit 222b, the detection result of the line of sight of the text chat user, or the situation of the game at the time of detecting the speech of the voice chat user. Can be done.
- the output control unit 108 first causes the audio output unit 228a to output a speech of TTS, such as “Yes”, immediately after the utterance “What should I do?” Then, the output control unit 108 may cause the audio output unit 228a to output, for example, “Yeah”, a companion voice based on TTS, immediately after the utterance “I only have 10,000 rupees”.
- the terminal 20a used by the voice chat user waits until an utterance by the voice chat user is detected (S701). And when the speech by the voice chat user is detected (S701: Yes), the terminal 20a sequentially transmits the speech of the detected speech to the server 10 (S703).
- the communication unit 120 of the server 10 transmits the received voice to the terminal 20b used by the text chat user under the control of the control unit 100 (S705). Further, the communication unit 120 transmits a request for providing sensing information to the terminal 20b (S707).
- the terminal 20b transmits sensing information such as a measurement result by the measurement unit 224 to the server 10 (S709).
- the output control unit 108 of the server 10 determines whether the text chat user is listening to the voice chat user's utterance based on the received sensing information (S711). When it is determined that the text chat user has not heard the voice chat user's utterance (S711: No), the server 10 performs the process of S707 again.
- the voice chat user's utterance is reduced until the voice chat user's utterance volume falls below a threshold value or more.
- the server 10 waits until the predetermined time elapses after the interruption and the timing at which the interruption occurred (S713).
- the output control unit 108 When the conditions of S713 are satisfied (S713: Yes), the output control unit 108 generates a companion voice by TTS. And the communication part 120 transmits the produced
- the operation according to the fourth embodiment is not limited to the above-described example.
- the terminal 20b may automatically transmit the sensing information to the server 10 without performing the process of S707.
- the terminal 20b may constantly acquire sensing information and transmit the acquired sensing information to the server 10 at predetermined time intervals.
- the server 10 when an utterance by a voice chat user is detected, the TTS for the voice chat user based on the estimation result of whether or not the text chat user is listening. Controls the audio output of the sumo. Therefore, it is possible to intuitively notify the voice chat user that the text chat user is listening to the voice chat user's utterance. Therefore, the voice chat user can communicate more naturally.
- the server 10 includes a CPU 150, a ROM (Read Only Memory) 152, a RAM 154, a bus 156, an interface 158, a storage device 160, and a communication device 162.
- the CPU 150 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the server 10 according to various programs. Further, the CPU 150 realizes the function of the control unit 100 in the server 10.
- the CPU 150 is configured by a processor such as a microprocessor.
- the ROM 152 stores programs used by the CPU 150 and control data such as calculation parameters.
- the RAM 154 temporarily stores a program executed by the CPU 150, for example.
- the bus 156 includes a CPU bus and the like.
- the bus 156 connects the CPU 150, the ROM 152, and the RAM 154 to each other.
- the interface 158 connects the storage device 160 and the communication device 162 to the bus 156.
- the storage device 160 is a data storage device that functions as the storage unit 122.
- the storage device 160 includes, for example, a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, or a deletion device that deletes data recorded on the storage medium.
- the communication device 162 is a communication interface composed of a communication device for connecting to the communication network 30 or the like, for example. Further, the communication device 162 may be a wireless LAN compatible communication device, an LTE (Long Term Evolution) compatible communication device, or a wire communication device that performs wired communication. This communication device 162 functions as the communication unit 120.
- LTE Long Term Evolution
- the configuration of the information processing system according to each embodiment is not limited to the above-described example.
- voice chat users and text chat users may use different types of terminals.
- a display unit 226 may not be provided in a terminal used by a voice chat user, and a display unit 226 may be provided in a terminal used by a text chat user.
- the terminal 20 may have the function of the voice analysis unit 102.
- the terminal 20 can also analyze the content of the utterance by the voice text chat user.
- the terminal 20 may have some or all of the functions of the emotion estimation unit 104.
- each step in the operation of each embodiment described above does not necessarily have to be processed in the order described.
- the steps may be processed by changing the order as appropriate.
- Each step may be processed in parallel or individually instead of being processed in time series.
- An output control unit for controlling output of information indicating a waiting state of the first user related to a reply from the second user using the text input based on detection of an utterance by the first user using the voice input; With An information processing apparatus in which input messages are exchanged between the first user and the second user.
- the information processing apparatus according to (1) wherein the information indicating the waiting state of the first user includes a message reply time limit.
- the information processing apparatus according to (2) further including a reply time limit calculation unit that calculates a reply time limit for the message based on a predetermined criterion.
- the predetermined criterion includes a detected utterance characteristic of the first user.
- the information processing apparatus (5) The information processing apparatus according to (4), wherein the utterance characteristics include an utterance volume or a speech speed. (6) The information processing apparatus according to any one of (3) to (5), wherein the predetermined criterion includes a result of emotion estimation based on the detected utterance of the first user. (7) The information processing apparatus according to any one of (3) to (6), wherein the predetermined criterion includes a sensing result regarding the state of the first user. (8) The information processing apparatus according to any one of (3) to (7), wherein the predetermined criterion includes a result of speech recognition of the detected utterance of the first user.
- the information indicating the waiting status of the first user includes an indicator, The information processing apparatus according to any one of (2) to (8), wherein the indicator indicates a difference between a reply time limit for the message and an elapsed time from the display start time of the indicator. (10) The information processing apparatus according to (9), wherein the output control unit changes a display mode of the indicator in accordance with a lapse of time from a display start time of the indicator. (11) The information according to any one of (1) to (10), wherein the information indicating the waiting state of the first user includes a result of emotion estimation based on the detected utterance of the first user. Processing equipment.
- the output control unit further causes the output unit to start outputting information indicating a waiting state of the first user based on the detected voice recognition result of the first user's utterance.
- the information processing apparatus according to any one of (11) to (11).
- the output control unit is configured to display information indicating the waiting status of the first user based on an input of a message by the second user.
- the information processing apparatus according to any one of (1) to (13), wherein output is ended by an output unit.
- the output control unit After the output of the information indicating the waiting state of the first user is started, the output control unit, based on the elapsed time from the output start time of the information indicating the waiting state of the first user, The information processing apparatus according to any one of (1) to (14), wherein the output unit ends output of information indicating a waiting state of one user.
- the output control unit further controls output of feedback voice to the first user based on a text input state by the second user after detection of an utterance by the first user.
- the information processing apparatus according to any one of 1) to 15).
- the output control unit further changes a voice output mode of the message output to the first user based on extraction of a keyword from the message input by the second user.
- the information processing apparatus according to any one of (1) to (16).
- Computer An output control unit for controlling output of information indicating a waiting state of the first user related to a reply from the second user using the text input based on detection of an utterance by the first user using the voice input; Is a program for functioning as A program in which input messages are exchanged between the first user and the second user.
- server 20 terminal 30 communication network 100, 200 control unit 102 voice analysis unit 104 emotion estimation unit 106 reply time limit calculation unit 108 output control unit 120, 230 communication unit 122 storage unit 124 DB for time limit calculation 126 Speech characteristic coefficient table 128 Sensing information coefficient table 130 Indicative pronoun presence / absence coefficient table 132 Time information coefficient table 220 Sound collection unit 222 Operation unit 224 Measurement unit 226 Display unit 228 Audio output unit
Abstract
Description
1.情報処理システムの構成
2.第1の実施形態
3.第2の実施形態
4.第3の実施形態
5.第4の実施形態
6.ハードウェア構成
7.変形例
まず、本開示の各実施形態に共通する情報処理システムの構成例について、図1を参照して説明する。図1に示すように、各実施形態に共通する情報処理システムは、サーバ10、端末20、および、通信網30を含む。
端末20は、ユーザ2がチャットを行うために使用する装置である。なお、図1では、端末20がゲーム機である例を示しているが、かかる例に限定されない。例えば、端末20は、汎用PC(Personal Computer)、タブレット端末、スマートフォンなどの携帯電話、または、例えばHMD(Head Mounted Display)やヘッドセットなどのウェアラブルデバイスであってもよい。なお、以下では、端末20がゲーム機である例を中心として説明を行う。
サーバ10は、本開示における情報処理装置の一例である。サーバ10は、端末20間で、入力されたメッセージの交換を制御する。例えば、サーバ10は、音声チャットユーザ2aにより入力された音声をそのまま、テキストチャットユーザ2bが使用する端末20bへ伝達することも可能であるし、または、入力された音声を音声認識した結果を端末20bへ伝達することも可能である。また、サーバ10は、テキストチャットユーザ2bにより入力されたテキストをTTS(TextToSpeech)を用いて音声に変換し、そして、変換後の音声を、音声チャットユーザ2aが使用する端末20aへ伝達する。これにより、音声チャットユーザ2aおよびテキストチャットユーザ2bは、同一のチャット方法を用いる場合と同じような感覚でチャットを行うことができる。
ここで、図3を参照して、音声チャットユーザ2aとテキストチャットユーザ2bとの間でのメッセージの交換処理の流れについて具体的に説明する。図3に示したように、まず、音声チャットユーザ2aは、発話を行う(S11)。そして、音声チャットユーザ2aが使用する端末20aは、発話の音声を集音し、そして、集音した音声をサーバ10へ送信する(S13)。
通信網30は、通信網30に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網30は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
以上、各実施形態に共通する情報処理システムの構成について説明した。ところで、一般的に、テキストチャットでは、音声チャットと比較して、メッセージの入力に長時間を要する。このため、音声チャットユーザとテキストチャットユーザとの間でのチャットでは、音声チャットユーザが、テキストチャットユーザからの返信を待つ時間が長くなり、不満に感じ得る。そこで、例えば、テキストチャットユーザからの返信を待つことを音声チャットユーザが許容可能な時間の長さなどの情報をテキストチャットユーザが知ることが可能であることが望まれる。
<2-1.構成>
次に、第1の実施形態について説明する。まず、第1の実施形態によるサーバ10の構成について詳細に説明する。図4は、第1の実施形態によるサーバ10の構成例を示した機能ブロック図である。図4に示すように、サーバ10は、制御部100、通信部120、および、記憶部122を有する。
制御部100は、サーバ10に内蔵される、後述するCPU150や、RAM154などのハードウェアを用いて、サーバ10の動作を全般的に制御する。また、図4に示すように、制御部100は、音声解析部102、感情推定部104、返信制限時間算出部106、および、出力制御部108を有する。
(2-1-2-1.発話特性の解析)
音声解析部102は、端末20から受信された音声を解析する。例えば、音声解析部102は、受信された音声の発話特性を解析する。ここで、発話特性は、例えば、声の音量、話速、または、ピッチなどである。
また、音声解析部102は、受信された音声の音声認識、および、構文解析を行う。例えば、音声解析部102は、受信された音声の音声認識を行い、そして、認識結果に基づいて、発話文章のモダリティ解析を行う。ここで、モダリティ解析は、文章の言語的な種類(例えば、「否定」、「感嘆」、「勧誘」、および「疑問」など)を解析することである。
感情推定部104は、端末20から受信される各種のセンシング結果に基づいて、当該端末20を使用しているユーザの感情を推定する。例えば、感情推定部104は、撮影されたユーザの顔画像に基づいて表情を解析することにより、ユーザの感情(例えば、怒っている、悲しんでいる、または、楽しんでいるなど)を推定する。また、感情推定部104は、受信された音声を解析することにより、ユーザの感情を推定することも可能である。
返信制限時間算出部106は、所定の基準に基づいて、テキストチャットユーザに関するメッセージの返信制限時間を算出する。ここで、当該返信制限時間は、例えば、テキストチャットユーザからの返信を待つことを音声チャットユーザが許容する(または、待っていても不快に感じない)と推定される最大の時間に対応する。また、所定の基準は、検出された音声チャットユーザの発話の特性を含み得る。また、所定の基準は、受信された(音声チャットユーザの)音声に基づいて感情推定部104により推定された感情の結果を含み得る。また、所定の基準は、音声チャットユーザの状態に関するセンシング結果を含み得る。また、所定の基準は、受信された(音声チャットユーザの)音声が音声解析部102により音声認識された結果を含み得る。
制限時間算出用DB124は、返信制限時間を算出するために用いられる減少係数が格納されるデータベースである。この制限時間算出用DB124は、例えば記憶部122に記憶され得る。図5は、制限時間算出用DB124の構成例を示した説明図である。図5に示すように、制限時間算出用DB124は、発話特性係数テーブル126、センシング情報係数テーブル128、指示代名詞有無係数テーブル130、および、時間情報係数テーブル132を含む。
ここで、返信制限時間算出部106が、図6~図9に示した各種のテーブルに基づいてメッセージの返信制限時間を算出する例について説明する。例えば、基準時間が「30秒」であり、発話特性係数テーブル126から決定される減少係数が「0.8」であり、センシング情報係数テーブル128から決定される減少係数が「1.0」であり、指示代名詞有無係数テーブル130から決定される減少係数が「0.8」であり、かつ、時間情報係数テーブル132から決定される減少係数が「1.0」であるとする。この場合、返信制限時間算出部106は、基準時間に対して上記の全ての減少係数を乗じることにより、当該返信制限時間を「19秒」と算出する(30(秒)×0.8×1.0×0.8×1.0≒19(秒))。
(2-1-5-1.待ち状況を示す情報の出力開始・終了)
出力制御部108は、音声チャットユーザによる発話の検出に基づいて、音声チャットユーザの待ち状況を示す情報の出力を制御する。例えば、出力制御部108は、検出された発話に対する音声解析部102による解析結果に基づいて、音声チャットユーザの待ち状況を示す情報の出力を制御する。一例として、出力制御部108は、検出された発話の文章が、応答を必要とするモダリティであるか否かの判定結果に基づいて、音声チャットユーザの待ち状況を示す情報の出力を開始させる。例えば、検出された発話文章が、応答を必要とするモダリティであると音声解析部102により判定された場合には、出力制御部108は、当該音声チャットユーザの待ち状況を示す情報の出力を開始させる。また、検出された発話文章が、応答を必要としないモダリティであると音声解析部102により判定された場合には、出力制御部108は、当該音声チャットユーザの待ち状況を示す情報の出力を開始させない。
ここで、音声チャットユーザの待ち状況を示す情報の出力例についてさらに詳細に説明する。例えば、出力制御部108は、返信制限時間算出部106により算出された返信制限時間を含むインジケータを、当該音声チャットユーザの待ち状況を示す情報として、テキストチャットユーザ側の表示部226に表示させる。
また、出力制御部108は、インジケータの表示開始時からの時間の経過に応じて、インジケータの表示態様を変化させることが可能である。図11は、時間の経過に応じて、インジケータ50の表示が変化される例を示した説明図である。なお、図11では、(a)、(b)、(c)、(d)の順に、より長い時間が経過した際のインジケータ50の表示例を示している。図11に示したように、出力制御部108は、インジケータ50の表示開始時からの経過時間が長い(つまり、残り時間が短い)ほど、メータ52の長さを短くする。さらに、図11に示したように、出力制御部108は、例えば、返信制限時間に対する残り時間の長さの割合に応じて、メータ52の表示色を変化させてもよい。例えば、図11の(b)に示したように、返信制限時間に対する残り時間の割合が「50%」未満になった場合には、出力制御部108は、メータ52の表示色を「Caution」を示す表示色に変化させる。また、図11の(c)に示したように、返信制限時間に対する残り時間の割合が「30%」未満になった場合には、出力制御部108は、メータ52の表示色を「Warning」を示す表示色に変化させる。これらの表示例によれば、返信制限時間までの残り時間が短いことをテキストチャットユーザに強調して示すことができる。
さらに、出力制御部108は、図11に示したように、インジケータ50の近辺(例えば右隣)に補助表示54を表示させてもよい。ここで、補助表示54は、音声チャットユーザの待ち状況を示す情報の一例である。
また、図12は、インジケータの表示開始時からの経過時間が返信制限時間を超過した場合におけるインジケータの表示例を示した説明図である。図12の(a)に示したように、経過時間が返信制限時間を超過した際には、出力制御部108は、テキスト入力欄42を点滅させてもよい。または、図12の(b)に示したように、出力制御部108は、テキスト入力欄42を点滅させつつ、OSK(On-Screen Keyboard)60を表示画面に表示させてもよい。これにより、テキストチャットユーザにテキストの入力を強制することができる。
または、出力制御部108は、音声チャットユーザの待ち状況を示す音声を、テキストチャットユーザが使用する端末20の音声出力部228に出力させることも可能である。例えば、音声チャットユーザによる発話が検出された際に、出力制御部108は、返信制限時間算出部106により算出された返信制限時間を読み上げる音声を音声出力部228に出力させてもよい。
または、出力制御部108は、音声チャットユーザの待ち状況を示す振動を、例えばテキストチャットユーザが使用する端末20の操作部222に出力させることも可能である。
なお、出力制御部108は、所定の条件に基づいて、(テキストチャットユーザの返信に関する)残り時間を増減させることも可能である。さらに、残り時間を増減した際には、出力制御部108は、増減後の残り時間に応じた態様で、インジケータを表示させたり、音を出力させたり、または、振動を出力させる。
なお、変形例として、3人以上のユーザ間でメッセージが交換される場面では、出力制御部108は、いずれかのテキストチャットユーザに関する残り時間を増減させることも可能である。例えば、音声チャットユーザが一人存在し、かつ、テキストチャットユーザが複数人存在する場面では、出力制御部108は、所定の条件に基づいて、テキストチャットユーザごとに、メッセージの返信に関する残り時間の増減量を変化させてもよい。
通信部120は、他の装置との間で情報の送受信を行う。例えば、通信部120は、出力制御部108の制御に従って、音声チャットユーザの待ち状況を示す情報を、テキストチャットユーザが使用する端末20へ送信する。また、通信部120は、ユーザによる発話の音声や、入力されたテキストなどを端末20から受信する。
記憶部122は、各種のデータや各種のソフトウェアを記憶する。例えば、記憶部122は、制限時間算出用DB124などを記憶する。
以上、第1の実施形態による構成について説明した。次に、第1の実施形態による動作の一例について、図13~図16を参照して説明する。
まず、第1の実施形態による動作の全体的な流れについて、図13を参照して説明する。なお、ここでは、音声チャットユーザとテキストチャットユーザとの間でチャットを開始した後の動作例について説明する。また、サーバ10は、音声チャットユーザの待ち状況を示す情報としてインジケータを表示させる例について説明する。
ここで、S103における「インジケータ表示要否判定処理」の詳細な動作について、図14を参照して説明する。図14に示したように、まず、音声解析部102は、S101で受信された音声の音声認識を行う(S201)。そして、音声解析部102は、音声認識の結果に基づいて、発話文章のモダリティ解析を行う(S203)。そして、応答を必要とするモダリティであると判定された場合には(S205:Yes)、出力制御部108は、インジケータの表示が必要であると判定する(S207)。そして、当該「インジケータ表示要否判定処理」は終了する。
次に、S107における「返信制限時間算出処理」の詳細な動作について、図15を参照して説明する。図15に示したように、まず、返信制限時間算出部106は、S201で解析された該当の音声の発話特性を取得する(S301)。続いて、返信制限時間算出部106は、音声テキストチャットユーザに関する例えば顔画像、視線の検出結果、または、行動認識結果などの、音声以外のセンシング情報を取得する(S303)。なお、これらのセンシング情報は、S101において端末20が発話の音声と一緒にサーバ10へ送信してもよいし、または、S303において端末20がサーバ10へ送信してもよい。
次に、S111における「インジケータ表示終了判定処理」の詳細な動作について、図16を参照して説明する。図16に示したように、まず、出力制御部108は、S101で検出された発話に関して、テキストチャットユーザが返信済みであるか否かを判定する(S401)。テキストチャットユーザが返信済みである場合には(S401:Yes)、出力制御部108は、インジケータの表示を終了させることを判定する(S403)。そして、当該「インジケータ表示終了判定処理」は終了する。
なお、第1の実施形態による動作は、上述した例に限定されない。例えば、図13に示したS107の処理は、S103よりも前に実行されてもよい。
以上説明したように、第1の実施形態によれば、音声チャットユーザとテキストチャットユーザとの間でメッセージが交換される場面において、サーバ10は、音声チャットユーザによる発話の検出に基づいて、音声チャットユーザの待ち状況を示す情報の出力を制御する。これにより、テキストチャットユーザは、メッセージの入力時において、音声チャットユーザの待ち状況を把握することができる。
なお、第1の実施形態は、上記の説明に限定されない。例えば、サーバ10がインジケータをテキストチャットユーザ側の表示部226bにのみ表示させる例について説明したが、かかる例に限定されず、サーバ10は、同じインジケータを音声チャットユーザ側の表示部226aにも表示させてもよい。これにより、音声チャットユーザは、テキストチャットユーザが閲覧しているインジケータの内容を把握することができる。
以上、第1の実施形態について説明した。上述したように、一般的に、テキストチャットでは、音声チャットと比較して、メッセージの入力に長時間を要する。そこで、音声チャットユーザとテキストチャットユーザとの間でチャットを行う場面におけるユーザビリティの低下を抑制するために、さらに、テキストチャットユーザの入力状況を音声チャットユーザが確認可能であることが望ましい。
次に、第2の実施形態によるサーバ10の構成について詳細に説明する。なお、第2の実施形態によるサーバ10に含まれる構成要素は第1の実施形態と同様である。以下では、第1の実施形態と異なる内容についてのみ説明を行う。
第2の実施形態による出力制御部108は、テキストチャットユーザによるテキストの入力状況に基づいて、音声チャットユーザが使用する端末20の音声出力部228にFB音声を出力させる。例えば、予め定められている音声FBタイミングになった場合には、出力制御部108は、FB音声を音声出力部228に出力させる。ここで、音声FBタイミングは、例えば、「メッセージの入力開始時」、「メッセージの入力中」、「メッセージの入力終了時」、および、「メッセージの送信時」などである。なお、「メッセージの入力中」は、例えば、VAD(Voice Activity Detection)により検出される(音声テキスト入力の)発話区間のうち、発話の音量が所定の閾値を超えたタイミングである。
以上、第2の実施形態による構成について説明した。次に、第2の実施形態による動作について、図17および図18を参照して説明する。図17に示したように、まず、テキストチャットユーザが使用する端末20bは、テキストチャットユーザにより音声テキスト入力が開始されるまで待機する(S501)。そして、テキストチャットユーザにより音声テキスト入力が開始された場合には(S501:Yes)、端末20bは、テキスト入力が開始されたことの通知をサーバ10へ送信する(S503)。
以上説明したように、第2の実施形態によるサーバ10は、テキストチャットユーザによるテキストの入力状況に基づいて、音声チャットユーザに対するFB音声の出力を制御する。このため、テキストチャットユーザからのメッセージを待っている際に、音声チャットユーザは、テキストチャットユーザの入力状況を確認することができる。従って、音声チャットユーザのユーザビリティの低下を抑制することができる。
以上、第2の実施形態について説明した。上述したように、第1の実施形態および第2の実施形態では、テキストチャットユーザが入力したメッセージは、TTS読み上げにより音声チャットユーザに伝達される。ところで、一般的に、TTS読み上げでは、テキストが平坦に読み上げられるので、読み上げの音声を聴くユーザは、情報を聞き逃しやすい。その結果、音声チャットユーザとテキストチャットユーザとの間においてコミュニケーションの円滑さが低下する場合がある。
次に、第3の実施形態によるサーバ10の構成について詳細に説明する。なお、第3の実施形態によるサーバ10に含まれる構成要素は第1の実施形態と同様である。
第3の実施形態による出力制御部108は、テキストチャットユーザにより入力されたメッセージからのキーワードの抽出に基づいて、音声チャットユーザに対して出力される当該メッセージの音声の出力態様を変化させる。
以上、第3の実施形態による構成について説明した。次に、第3の実施形態による動作について、図19を参照して説明する。図19に示したように、まず、テキストチャットユーザは、端末20bに対してメッセージを入力する(S601)。そして、端末20bは、入力されたメッセージをサーバ10へ送信する(S603)。
以上説明したように、第3の実施形態によるサーバ10は、テキストチャットユーザにより入力されたメッセージからのキーワードの抽出に基づいて、音声チャットユーザに対して出力される当該メッセージの音声の出力態様を変化させる。このため、音声チャットユーザは、該当のメッセージに含まれるキーワードをより確実に聞くことができる。その結果、例えば音声チャットユーザがテキストチャットユーザに対して聞き直す回数が減少するなど、円滑なコミュニケーションを実現することができる。
以上、第3の実施形態について説明した。ところで、音声チャットユーザとテキストチャットユーザとの間でチャットを行う場面では、通常、音声チャットユーザの発話時にテキストチャットユーザが音声を発したとしても、当該音声は音声チャットユーザに伝達されない。このため、音声チャットユーザは、例えば相槌などの、テキストチャットユーザが聞いていることを示す音声情報を得られないので、自然なコミュニケーションをし難く感じ得る。
次に、第4の実施形態によるサーバ10の構成について詳細に説明する。なお、第4の実施形態によるサーバ10に含まれる構成要素は第1の実施形態と同様である。
第4の実施形態による出力制御部108は、音声チャットユーザによる発話が検出された場合に、テキストチャットユーザが聞いているか否かの推定結果に基づいて、音声チャットユーザに対する、TTSによる相槌の音声の出力を制御する。例えば、音声チャットユーザによる発話が検出され、かつ、テキストチャットユーザが音声チャットユーザの発話を聞いていることが推定される場合には、出力制御部108は、TTSによる相槌の音声を音声チャットユーザ側の音声出力部228に出力させる。一例として、音声チャットユーザによる発話が検出された後において、音声チャットユーザの発話の音量が相対的に低下した際、または、音声チャットユーザの発話が途切れてから所定の時間が経過した際に、出力制御部108は、TTSによる相槌の音声を音声チャットユーザ側の音声出力部228に出力させる。
以上、第4の実施形態による構成について説明した。次に、第4の実施形態による動作について、図20を参照して説明する。図20に示したように、まず、音声チャットユーザが使用する端末20aは、音声チャットユーザによる発話が検出されるまで待機する(S701)。そして、音声チャットユーザによる発話が検出された場合には(S701:Yes)、端末20aは、検出した発話の音声をサーバ10へ逐次送信する(S703)。
なお、第4の実施形態による動作は、上述した例に限定されない。例えば、S707の処理が行われずに、端末20bはセンシング情報をサーバ10へ自動的に送信してもよい。例えば、端末20bは、センシング情報を常時取得し、そして、所定の時間間隔で、取得したセンシング情報をサーバ10へ送信してもよい。
以上説明したように、第4の実施形態によるサーバ10は、音声チャットユーザによる発話が検出された場合に、テキストチャットユーザが聞いているか否かの推定結果に基づいて、音声チャットユーザに対する、TTSによる相槌の音声の出力を制御する。このため、音声チャットユーザの発話をテキストチャットユーザが聞いていることを、音声チャットユーザに直感的に知らせることができる。従って、音声チャットユーザはより自然にコミュニケーションを行うことができる。
次に、各実施形態に共通するサーバ10のハードウェア構成について、図21を参照して説明する。図21に示すように、サーバ10は、CPU150、ROM(Read Only Memory)152、RAM154、バス156、インターフェース158、ストレージ装置160、および、通信装置162を備える。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
(1)
音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、
を備え、
前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理装置。
(2)
前記第1のユーザの待ち状況を示す情報は、メッセージの返信制限時間を含む、前記(1)に記載の情報処理装置。
(3)
前記情報処理装置は、所定の基準に基づいて前記メッセージの返信制限時間を算出する返信制限時間算出部をさらに備える、前記(2)に記載の情報処理装置。
(4)
前記所定の基準は、検出された前記第1のユーザの発話の特性を含む、前記(3)に記載の情報処理装置。
(5)
前記発話の特性は、発話の音量または話速を含む、前記(4)に記載の情報処理装置。
(6)
前記所定の基準は、検出された前記第1のユーザの発話に基づいた感情推定の結果を含む、前記(3)~(5)のいずれか一項に記載の情報処理装置。
(7)
前記所定の基準は、前記第1のユーザの状態に関するセンシング結果を含む、前記(3)~(6)のいずれか一項に記載の情報処理装置。
(8)
前記所定の基準は、検出された前記第1のユーザの発話の音声認識の結果を含む、前記(3)~(7)のいずれか一項に記載の情報処理装置。
(9)
前記第1のユーザの待ち状況を示す情報は、インジケータを含み、
前記インジケータは、前記メッセージの返信制限時間と、前記インジケータの表示開始時からの経過時間との差を示す、前記(2)~(8)のいずれか一項に記載の情報処理装置。
(10)
前記出力制御部は、前記インジケータの表示開始時からの時間の経過に応じて、前記インジケータの表示態様を変化させる、前記(9)に記載の情報処理装置。
(11)
前記第1のユーザの待ち状況を示す情報は、検出された前記第1のユーザの発話に基づいた感情推定の結果を含む、前記(1)~(10)のいずれか一項に記載の情報処理装置。
(12)
前記出力制御部は、さらに、検出された前記第1のユーザの発話の音声認識の結果に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に開始させる、前記(1)~(11)のいずれか一項に記載の情報処理装置。
(13)
前記出力制御部は、さらに、前記音声認識の結果に対するモダリティ解析の結果に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に開始させる、前記(12)に記載の情報処理装置。
(14)
前記第1のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第2のユーザによるメッセージの入力に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に終了させる、前記(1)~(13)のいずれか一項に記載の情報処理装置。
(15)
前記第1のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第1のユーザの待ち状況を示す情報の出力開始時からの経過時間に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に終了させる、前記(1)~(14)のいずれか一項に記載の情報処理装置。
(16)
前記出力制御部は、さらに、前記第1のユーザによる発話の検出後における、前記第2のユーザによるテキストの入力状況に基づいて、前記第1のユーザに対するフィードバック音声の出力を制御する、前記(1)~(15)のいずれか一項に記載の情報処理装置。
(17)
前記出力制御部は、さらに、前記第2のユーザにより入力されたメッセージからのキーワードの抽出に基づいて、前記第1のユーザに対して出力される前記メッセージの音声の出力態様を変化させる、前記(1)~(16)のいずれか一項に記載の情報処理装置。
(18)
前記出力制御部は、前記第1のユーザによる発話の検出に基づいて、さらに、前記第1のユーザに対する相槌の音声の出力を制御する、前記(1)~(17)のいずれか一項に記載の情報処理装置。
(19)
音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力をプロセッサが制御すること、
を含み、
前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理方法。
(20)
コンピュータを、
音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、
として機能させるための、プログラムであって、
前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、プログラム。
20 端末
30 通信網
100、200 制御部
102 音声解析部
104 感情推定部
106 返信制限時間算出部
108 出力制御部
120、230 通信部
122 記憶部
124 制限時間算出用DB
126 発話特性係数テーブル
128 センシング情報係数テーブル
130 指示代名詞有無係数テーブル
132 時間情報係数テーブル
220 集音部
222 操作部
224 測定部
226 表示部
228 音声出力部
Claims (20)
- 音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、
を備え、
前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理装置。 - 前記第1のユーザの待ち状況を示す情報は、メッセージの返信制限時間を含む、請求項1に記載の情報処理装置。
- 前記情報処理装置は、所定の基準に基づいて前記メッセージの返信制限時間を算出する返信制限時間算出部をさらに備える、請求項2に記載の情報処理装置。
- 前記所定の基準は、検出された前記第1のユーザの発話の特性を含む、請求項3に記載の情報処理装置。
- 前記発話の特性は、発話の音量または話速を含む、請求項4に記載の情報処理装置。
- 前記所定の基準は、検出された前記第1のユーザの発話に基づいた感情推定の結果を含む、請求項3に記載の情報処理装置。
- 前記所定の基準は、前記第1のユーザの状態に関するセンシング結果を含む、請求項3に記載の情報処理装置。
- 前記所定の基準は、検出された前記第1のユーザの発話の音声認識の結果を含む、請求項3に記載の情報処理装置。
- 前記第1のユーザの待ち状況を示す情報は、インジケータを含み、
前記インジケータは、前記メッセージの返信制限時間と、前記インジケータの表示開始時からの経過時間との差を示す、請求項2に記載の情報処理装置。 - 前記出力制御部は、前記インジケータの表示開始時からの時間の経過に応じて、前記インジケータの表示態様を変化させる、請求項9に記載の情報処理装置。
- 前記第1のユーザの待ち状況を示す情報は、検出された前記第1のユーザの発話に基づいた感情推定の結果を含む、請求項1に記載の情報処理装置。
- 前記出力制御部は、さらに、検出された前記第1のユーザの発話の音声認識の結果に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に開始させる、請求項1に記載の情報処理装置。
- 前記出力制御部は、さらに、前記音声認識の結果に対するモダリティ解析の結果に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に開始させる、請求項12に記載の情報処理装置。
- 前記第1のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第2のユーザによるメッセージの入力に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に終了させる、請求項1に記載の情報処理装置。
- 前記第1のユーザの待ち状況を示す情報の出力が開始された後に、前記出力制御部は、前記第1のユーザの待ち状況を示す情報の出力開始時からの経過時間に基づいて、前記第1のユーザの待ち状況を示す情報の出力を出力部に終了させる、請求項1に記載の情報処理装置。
- 前記出力制御部は、さらに、前記第1のユーザによる発話の検出後における、前記第2のユーザによるテキストの入力状況に基づいて、前記第1のユーザに対するフィードバック音声の出力を制御する、請求項1に記載の情報処理装置。
- 前記出力制御部は、さらに、前記第2のユーザにより入力されたメッセージからのキーワードの抽出に基づいて、前記第1のユーザに対して出力される前記メッセージの音声の出力態様を変化させる、請求項1に記載の情報処理装置。
- 前記出力制御部は、前記第1のユーザによる発話の検出に基づいて、さらに、前記第1のユーザに対する相槌の音声の出力を制御する、請求項1に記載の情報処理装置。
- 音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力をプロセッサが制御すること、
を含み、
前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、情報処理方法。 - コンピュータを、
音声入力を使用する第1のユーザによる発話の検出に基づいて、テキスト入力を使用する第2のユーザからの返信に関する前記第1のユーザの待ち状況を示す情報の出力を制御する出力制御部、
として機能させるための、プログラムであって、
前記第1のユーザと前記第2のユーザとの間で、入力されたメッセージが交換される、プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/077,607 US11100944B2 (en) | 2016-04-12 | 2017-01-24 | Information processing apparatus, information processing method, and program |
KR1020187028289A KR20180134339A (ko) | 2016-04-12 | 2017-01-24 | 정보 처리 장치, 정보 처리 방법 및 프로그램 |
JP2018511890A JP6943237B2 (ja) | 2016-04-12 | 2017-01-24 | 情報処理装置、情報処理方法、およびプログラム |
DE112017001987.7T DE112017001987T5 (de) | 2016-04-12 | 2017-01-24 | Datenverarbeitungsvorrichtung, Datenverarbeitungsverarbeitungsverfahren und Programm |
CN201780022151.9A CN108885594B (zh) | 2016-04-12 | 2017-01-24 | 信息处理装置、信息处理方法和程序 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016-079571 | 2016-04-12 | ||
JP2016079571 | 2016-04-12 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017179262A1 true WO2017179262A1 (ja) | 2017-10-19 |
Family
ID=60042514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2017/002213 WO2017179262A1 (ja) | 2016-04-12 | 2017-01-24 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11100944B2 (ja) |
JP (1) | JP6943237B2 (ja) |
KR (1) | KR20180134339A (ja) |
CN (1) | CN108885594B (ja) |
DE (1) | DE112017001987T5 (ja) |
WO (1) | WO2017179262A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020116280A1 (ja) * | 2018-12-04 | 2020-06-11 | 日本電気株式会社 | 学習支援装置、学習支援方法および記録媒体 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786031B (zh) * | 2019-11-01 | 2022-05-13 | 思必驰科技股份有限公司 | 人机对话方法及系统 |
US11184362B1 (en) * | 2021-05-06 | 2021-11-23 | Katmai Tech Holdings LLC | Securing private audio in a virtual conference, and applications thereof |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0981632A (ja) * | 1995-09-13 | 1997-03-28 | Toshiba Corp | 情報公開装置 |
JP2004170983A (ja) * | 2002-11-15 | 2004-06-17 | Samsung Electronics Co Ltd | 付加情報提供機能付きのテキスト/音声変換装置及びその方法 |
JP2008070994A (ja) * | 2006-09-12 | 2008-03-27 | Sharp Corp | メッセージ交換端末 |
JP2009003040A (ja) * | 2007-06-20 | 2009-01-08 | Univ Waseda | 音声対話装置、音声対話方法及びロボット装置 |
JP2014029670A (ja) * | 2012-06-25 | 2014-02-13 | Konami Digital Entertainment Co Ltd | メッセージ閲覧システム、サーバ、端末装置、制御方法およびプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2661701B2 (ja) * | 1988-05-12 | 1997-10-08 | キヤノン株式会社 | 情報処理方法 |
JP2002123289A (ja) * | 2000-10-13 | 2002-04-26 | Matsushita Electric Ind Co Ltd | 音声対話装置 |
JP2004129174A (ja) | 2002-08-06 | 2004-04-22 | Ricoh Co Ltd | 情報通信装置、情報通信プログラム、及び記録媒体 |
US20080096533A1 (en) * | 2006-10-24 | 2008-04-24 | Kallideas Spa | Virtual Assistant With Real-Time Emotions |
US7895277B2 (en) * | 2007-10-17 | 2011-02-22 | International Business Machines Corporation | Conditional reminders for conveyed electronic messages |
US8442490B2 (en) * | 2009-11-04 | 2013-05-14 | Jeffrey T. Haley | Modify function of driver's phone during acceleration or braking |
JP2011253375A (ja) * | 2010-06-02 | 2011-12-15 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
RU2530267C2 (ru) * | 2012-11-28 | 2014-10-10 | Общество с ограниченной ответственностью "Спиктуит" | Способ коммуникации пользователя с информационной диалоговой системой |
US9306899B1 (en) * | 2015-02-27 | 2016-04-05 | Ringcentral, Inc. | System and method for determining presence based on an attribute of an electronic message |
WO2016189350A1 (en) * | 2015-05-23 | 2016-12-01 | Yogesh Chunilal Rathod | Calling to user(s) for real-time sharing, participation, e-commerce, workflow, communication & collaboration in the event of acceptance of call by caller user(s) |
US10262555B2 (en) * | 2015-10-09 | 2019-04-16 | Microsoft Technology Licensing, Llc | Facilitating awareness and conversation throughput in an augmentative and alternative communication system |
US10580404B2 (en) * | 2016-09-01 | 2020-03-03 | Amazon Technologies, Inc. | Indicator for voice-based communications |
US10453449B2 (en) * | 2016-09-01 | 2019-10-22 | Amazon Technologies, Inc. | Indicator for voice-based communications |
DK180130B1 (da) * | 2018-05-07 | 2020-06-02 | Apple Inc. | Multi-participant live communication user interface |
-
2017
- 2017-01-24 JP JP2018511890A patent/JP6943237B2/ja active Active
- 2017-01-24 DE DE112017001987.7T patent/DE112017001987T5/de active Pending
- 2017-01-24 KR KR1020187028289A patent/KR20180134339A/ko unknown
- 2017-01-24 WO PCT/JP2017/002213 patent/WO2017179262A1/ja active Application Filing
- 2017-01-24 US US16/077,607 patent/US11100944B2/en active Active
- 2017-01-24 CN CN201780022151.9A patent/CN108885594B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0981632A (ja) * | 1995-09-13 | 1997-03-28 | Toshiba Corp | 情報公開装置 |
JP2004170983A (ja) * | 2002-11-15 | 2004-06-17 | Samsung Electronics Co Ltd | 付加情報提供機能付きのテキスト/音声変換装置及びその方法 |
JP2008070994A (ja) * | 2006-09-12 | 2008-03-27 | Sharp Corp | メッセージ交換端末 |
JP2009003040A (ja) * | 2007-06-20 | 2009-01-08 | Univ Waseda | 音声対話装置、音声対話方法及びロボット装置 |
JP2014029670A (ja) * | 2012-06-25 | 2014-02-13 | Konami Digital Entertainment Co Ltd | メッセージ閲覧システム、サーバ、端末装置、制御方法およびプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020116280A1 (ja) * | 2018-12-04 | 2020-06-11 | 日本電気株式会社 | 学習支援装置、学習支援方法および記録媒体 |
JP2020091609A (ja) * | 2018-12-04 | 2020-06-11 | 日本電気株式会社 | 学習支援装置、学習支援方法およびプログラム |
JP7392259B2 (ja) | 2018-12-04 | 2023-12-06 | 日本電気株式会社 | 学習支援装置、学習支援方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN108885594A (zh) | 2018-11-23 |
KR20180134339A (ko) | 2018-12-18 |
US20210193168A1 (en) | 2021-06-24 |
CN108885594B (zh) | 2022-03-11 |
DE112017001987T5 (de) | 2018-12-20 |
US11100944B2 (en) | 2021-08-24 |
JPWO2017179262A1 (ja) | 2019-02-14 |
JP6943237B2 (ja) | 2021-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6058053B2 (ja) | 記録制御システム、システム及びプログラム | |
KR101726945B1 (ko) | 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감 | |
CN107825429B (zh) | 对话装置和方法 | |
US20200236070A1 (en) | Information processing system and information processing method | |
CN113287175B (zh) | 互动式健康状态评估方法及其系统 | |
JP6585733B2 (ja) | 情報処理装置 | |
CN108874904A (zh) | 语音消息搜索方法、装置、计算机设备及存储介质 | |
JP2016103081A (ja) | 会話分析装置、会話分析システム、会話分析方法及び会話分析プログラム | |
WO2017179262A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN109147780A (zh) | 自由聊天场景下的语音识别方法及系统 | |
WO2013071738A1 (zh) | 一种个人专用生活协助装置和方法 | |
JP6598227B1 (ja) | 猫型会話ロボット | |
KR20210088824A (ko) | 인공지능 대화 서비스를 이용한 채팅 시스템 및 그 동작방법 | |
JP2014149571A (ja) | コンテンツ検索装置 | |
CN110196900A (zh) | 用于终端的交互方法和装置 | |
WO2022215361A1 (ja) | 情報処理装置及び情報処理方法 | |
EP4006900A1 (en) | System with speaker representation, electronic device and related methods | |
JP7474211B2 (ja) | ユーザから発話された名詞を忘却する対話プログラム、装置及び方法 | |
JP7123028B2 (ja) | 情報処理システム、情報処理方法、及びプログラム | |
KR20190023610A (ko) | 회의 중 휴식 시간 제안 방법, 전자장치 및 시스템 | |
JP2023078068A (ja) | 音声処理システム、音声処理装置及び音声処理方法 | |
KR20210088845A (ko) | 인공지능 대화 서비스를 이용한 채팅 친구 추천 방법 | |
KR20210088844A (ko) | 인공지능 대화 서비스를 이용한 대화 친구 매칭 시스템 | |
CN117240731A (zh) | 虚拟社群应答情境下的生成式聊天机器人的系统及其方法 | |
JP2020024556A (ja) | 情報処理システム、端末装置、情報処理装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 2018511890 Country of ref document: JP |
|
ENP | Entry into the national phase |
Ref document number: 20187028289 Country of ref document: KR Kind code of ref document: A |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17782081 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17782081 Country of ref document: EP Kind code of ref document: A1 |