WO2022137485A1 - 情報処理装置、制御方法、及び制御プログラム - Google Patents
情報処理装置、制御方法、及び制御プログラム Download PDFInfo
- Publication number
- WO2022137485A1 WO2022137485A1 PCT/JP2020/048640 JP2020048640W WO2022137485A1 WO 2022137485 A1 WO2022137485 A1 WO 2022137485A1 JP 2020048640 W JP2020048640 W JP 2020048640W WO 2022137485 A1 WO2022137485 A1 WO 2022137485A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- presenter
- information
- listener
- control unit
- sound
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 52
- 230000010365 information processing Effects 0.000 title claims description 32
- 230000005236 sound signal Effects 0.000 claims description 53
- 230000008921 facial expression Effects 0.000 claims description 11
- 230000004048 modification Effects 0.000 description 59
- 238000012986 modification Methods 0.000 description 59
- 238000010586 diagram Methods 0.000 description 35
- 238000004891 communication Methods 0.000 description 31
- 241001122315 Polites Species 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
Definitions
- This disclosure relates to an information processing device, a control method, and a control program.
- the purpose of this disclosure is to make the presenter aware of the reaction of the audience.
- the information processing device is a device that communicates with the listener device used by the listener and is used by the presenter.
- the information processing device has an acquisition unit that acquires information indicating that the listener does not understand, a generation unit that generates output information to the presenter when the information is acquired, and the output information.
- the presenter it has a providing control unit that controls.
- the reaction of the audience can be noticed by the presenter.
- FIG. It is a figure which shows the communication system of Embodiment 1.
- FIG. It is a figure which shows the hardware which the presenter apparatus and the audience apparatus of Embodiment 1 have. It is a figure which shows the specific example of the display of Embodiment 1.
- FIG. It is a block diagram of the function which the presenter apparatus of Embodiment 1 has. It is a figure which shows the example of the management table of Embodiment 1.
- FIG. It is a flowchart which shows the example of the process which the presenter apparatus of Embodiment 1 performs. It is a figure which shows the specific example of the process which the presenter apparatus of Embodiment 1 performs.
- FIG. 1 is a diagram showing a communication system according to the first embodiment.
- the communication system includes a presenter device 100 and a listener device 200.
- the presenter device 100 and the listener device 200 communicate with each other via a network.
- the presenter device 100 is a device used by the presenter.
- the presenter device 100 is also referred to as an information processing device.
- the presenter device 100 is a device that executes a control method.
- the listener device 200 is a device used by the listener.
- the presenter device 100 and the listener device 200 are notebook-type, desktop-type, or tablet-type computers.
- the presenter gives a presentation, an online lecture, etc. using the presenter device 100.
- the number of listeners who listen to presentations and the like is one or more. Therefore, the presenter device 100 communicates with one or more listener devices.
- FIG. 1 illustrates one listener device. Therefore, the number of listener devices may be two or more.
- FIG. 2 is a diagram showing hardware included in the presenter device and the listener device of the first embodiment.
- the presenter device 100 includes a processor 101, a volatile storage device 102, and a non-volatile storage device 103.
- the processor 101 controls the entire presenter device 100.
- the processor 101 is a CPU (Central Processing Unit), an FPGA (Field Programmable Gate Array), or the like.
- the processor 101 may be a multiprocessor.
- the presenter device 100 may have a processing circuit.
- the processing circuit may be a single circuit or a composite circuit.
- the volatile storage device 102 is the main storage device of the presenter device 100.
- the volatile storage device 102 is a RAM (Random Access Memory).
- the non-volatile storage device 103 is an auxiliary storage device of the presenter device 100.
- the non-volatile storage device 103 is an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
- a display 300, a microphone 310, and speakers 320 and 321 are connected to the presenter device 100. Further, the presenter device 100 may have at least one of a display 300, a microphone 310, and speakers 320 and 321.
- the display 300 is a display that the presenter sees.
- the display 300, the microphone 310, and the speakers 320, 321 may be referred to as a display, a microphone, and a plurality of speakers on the presenter side. Further, the number of speakers may be one.
- the display is also referred to as a display device.
- the microphone is a microphone.
- the listener device 200 has a processor, a volatile storage device, and a non-volatile storage device, similarly to the presenter device 100.
- a display 400, a microphone 410, an image pickup device 420, and a speaker 430 are connected to the listener device 200.
- the listener device 200 may have at least one of a display 400, a microphone 410, an image pickup device 420, and a speaker 430.
- the display 400 is a display that the listener sees.
- the display 400, the microphone 410, the image pickup device 420, and the speaker 430 may be referred to as a display, a microphone, an image pickup device, and a speaker on the listener side. Further, the number of speakers may be two or more.
- the presenter gives a presentation or the like using the presenter device 100.
- the presenter shall give a presentation.
- an example of the display 300 when the presenter is giving a presentation is shown.
- FIG. 3 is a diagram showing a specific example of the display of the first embodiment.
- the presenter will give a presentation of this month's sales while looking at the display 300.
- the avatar 301, the avatar 302, and the range 303 are displayed on the display 300.
- Avata 301 is the presenter's Avata.
- the presenter may give a presentation using Avata 301.
- the avatar 301 speaks according to the utterance of the presenter.
- the avatar 301 speaks according to the speaker's utterance by the lip-sync technique.
- the avatar 302 is an avatar that provides output information to the presenter.
- the output information will be described later.
- the range 303 is a range in which the content of the chat is displayed. For example, the characters entered by the listener are displayed in the range 303.
- the screen displayed on the display 300 is also displayed on the display 400. Therefore, the listener can listen to the presentation while looking at the display 400.
- two avatars are exemplified.
- the number of avatars may be three or more.
- FIG. 4 is a block diagram of the functions of the presenter device of the first embodiment.
- the presenter device 100 includes a storage unit 110, an acquisition unit 120, an analysis control unit 130, a generation unit 140, and a provision control unit 150.
- the storage unit 110 may be realized as a storage area secured in the volatile storage device 102 or the non-volatile storage device 103.
- a part or all of the acquisition unit 120, the analysis control unit 130, the generation unit 140, and the provision control unit 150 may be realized by a processing circuit. Further, a part or all of the acquisition unit 120, the analysis control unit 130, the generation unit 140, and the provision control unit 150 may be realized as a module of a program executed by the processor 101.
- the program executed by the processor 101 is also referred to as a control program.
- the control program is recorded on a recording medium.
- the storage unit 110 stores various information.
- the acquisition unit 120 acquires information indicating that the listener does not understand.
- the information may be expressed as information indicating that the audience does not understand the presenter's explanation.
- the acquisition unit 120 acquires the information from the listener device 200.
- the information is information indicating a request for detailed explanation from the audience, or information indicating a question from the audience. Requests for detailed explanations or questions are presented to the presenter if the audience does not understand. Therefore, the information indicating the request for detailed explanation or the question can be said to be the information indicating that the listener does not understand.
- the acquisition unit 120 acquires the management table.
- the acquisition unit 120 acquires the management table from the storage unit 110.
- the acquisition unit 120 acquires the management table from the external device.
- the external device is a cloud server.
- the management table will be described.
- FIG. 5 is a diagram showing an example of the management table of the first embodiment.
- the management table 111 is also referred to as management information.
- the management table 111 is stored in the storage unit 110.
- the management table 111 has items of avatar, charge, and individuality.
- the name of the avatar is registered in the item of the avatar.
- the avatar A in FIG. 5 is the avatar 301.
- the avatar B in FIG. 5 is the avatar 302.
- the role of the avatar is registered in the item in charge.
- FIG. 5 shows that Avata A (ie, Avata 301) is the avatar making the presentation.
- FIG. 5 shows that the avatar B (that is, the avatar 302) is an avatar that provides output information to the presenter.
- information indicating the individuality of the avatar is registered.
- the generation unit 140 generates output information to the presenter when information indicating that the listener does not understand is acquired.
- the provision control unit 150 controls so that the output information is provided to the presenter. In other words, the provision control unit 150 controls the output information to be provided to the presenter. Further, as described above, the output information is provided by the avatar 302.
- the information indicating that the audience does not understand shall be a request for detailed explanation or a question.
- the request for detailed explanation is "Please tell me xxx in detail.”
- the question is "Does xxx mean yyy?”.
- FIG. 6 is a flowchart showing an example of the process executed by the presenter apparatus of the first embodiment.
- the acquisition unit 120 acquires character information.
- the acquisition unit 120 acquires character information from the listener device 200.
- the acquisition unit 120 may acquire character information via an external device.
- Character information is information including one or more characters.
- the character information is information generated by the listener device 200 by the operation of the listener.
- the character information is information generated by the listener device 200 by operating the keyboard of the listener.
- Step S12 The analysis control unit 130 analyzes the character information. For example, the analysis control unit 130 uses morphological analysis to analyze whether or not the text indicated by the character information is a request or question for detailed explanation.
- Step S13 The analysis control unit 130 determines whether or not the analysis result is a request or question for detailed explanation. If the condition is satisfied, the process proceeds to step S14. If the conditions are not met, the process ends.
- Step S14 The acquisition unit 120 acquires the management table 111 from the storage unit 110.
- the generation unit 140 generates a sentence according to the individuality of the avatar based on the management table 111 and the character information. Specifically, the process will be described.
- the generation unit 140 refers to the item in charge of the management table 111, and identifies the avatar B (that is, the avatar 302) that provides information to the presenter.
- the generation unit 140 refers to the item of individuality of the management table 111 and specifies the individuality of the avatar 302.
- the generation unit 140 generates a sentence according to the individuality of the avatar based on the information indicating the individuality of the avatar 302 and the character information.
- the generation unit 140 when the result of the analysis indicates that the question is a question, the generation unit 140 generates a sentence indicating that the question has arrived to the presenter based on the sentence indicated by the character information.
- the generation unit 140 processes the sentence into a friendly sentence.
- the generation unit 140 processes the ending of the sentence into friendly characters.
- a sentence corresponding to the individuality of the avatar is generated.
- the generation unit 140 summarizes the sentences indicated by the text information, generates a sentence indicating that the question has arrived to the presenter based on the summarized sentence, and processes the sentence into a friendly sentence. You may.
- the generation unit 140 generates sound information based on the generated text.
- the sound information may be called a sound file.
- the generation unit 140 generates a screen including the avatar 302. For example, the generation unit 140 generates a screen including the avatar 302 having an open mouth.
- Step S17 The provision control unit 150 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information.
- the provision control unit 150 controls the sound based on the sound information to be output from at least one of the speaker 320 and the speaker 321. Further, for example, the provision control unit 150 controls for the screen to be displayed on the display 300. As a result, the presenter can hear the sound spoken by the avatar 302.
- FIG. 7 is a diagram showing a specific example of the process executed by the presenter apparatus of the first embodiment.
- the listener device 200 transmits the text information "Please tell me xxx in detail" to the presenter device 100.
- the presenter device 100 acquires character information.
- the presenter device 100 analyzes the character information.
- the presenter device 100 detects that the textual information is a request for detailed explanation.
- the presenter device 100 generates a sentence according to the individuality of the avatar 302. For example, the presenter device 100 generates the sentence "I have a question about xxx.”
- the presenter device 100 generates sound information based on the generated text.
- the presenter device 100 generates a screen including the avatar 302.
- the presenter device 100 controls so that the sound based on the sound information and the screen are provided to the presenter. As a result, the presenter can hear the sound spoken by the avatar 302.
- the character "Please tell me xxx in detail" entered by the listener is displayed.
- the presenter may not see range 303. That is, the presenter may not be aware of the listener's reaction.
- the presenter hears the sound spoken by the avatar 302. Therefore, the presenter notices the reaction of the audience. Therefore, the presenter device 100 can make the presenter aware of the reaction of the listener by controlling the sound to be provided to the presenter. Further, for example, the presenter can know the request for detailed explanation by listening to the sound spoken by the avatar 302. Therefore, the presenter does not have to read the range 303. Therefore, the presenter device 100 can reduce the burden on the presenter.
- the presenter hears the sound based on the text according to the individuality of Avata 302. That is, the presenter hears the consistent way of speaking the Avata 302.
- the presenter device 100 outputs a consistent speaking sound from the speaker (for example, the speaker 320).
- the presenter device 100 can prevent the presenter from missing the utterance of the avatar 302.
- the presenter determines which avatar is speaking by outputting the sound based on the sentence according to the individuality of the avatar 302 from the speaker.
- the presenter can hear the utterance of Avata 302 without any confusion.
- the presenter device 100 can control the listener device 200 so that the listener hears the sound uttered by the avatar 302. As a result, the listener hears the sound based on the sentence according to the individuality of the avatar 302. That is, the listener hears the consistent way of speaking the Avata 302. Similar to the effect on the presenter, the presenter device 100 can prevent the listener from missing the utterance of the avatar 302. In addition, the listener can hear the utterance of Avata 302 without any confusion.
- the presenter device 100 may provide the text to the presenter.
- the process will be described in detail.
- the generation unit 140 generates a sentence based on the character information. It should be noted that the text is not a text according to the individuality of Avata 302. That is, the sentence is a general sentence (for example, a polite sentence).
- the provision control unit 150 controls so that the text is provided to the presenter as output information. For example, the provision control unit 150 controls the display of the text on the display 300. In this way, the presenter device 100 can make the presenter aware of the reaction of the listener by controlling so that the text is provided to the presenter.
- the generation unit 140 may generate sound information based on the sentence (for example, a polite sentence).
- the provision control unit 150 may control so that the sound based on the generated sound information is provided to the presenter.
- the provision control unit 150 controls the sound based on the sound information to be output from the speaker 320.
- the generation unit 140 may generate sound information based on the sentence (for example, a polite sentence) and generate a screen including the avatar 302.
- the provision control unit 150 may control the sound based on the generated sound information and the screen so as to be provided to the presenter.
- the provision control unit 150 may execute the following processing.
- the provision control unit 150 controls so that the generated screen is displayed on the display 300.
- the provision control unit 150 controls so that a sound image is formed at the position of the avatar 302 in the screen.
- the provision control unit 150 controls the speaker 320 and the speaker 321 so that a sound image is formed at the position of the avatar 302.
- the provision control unit 150 may control the sound based on the generated sound information and the generated screen so as to be provided to the listener. For example, the provision control unit 150 transmits the sound information and the screen to the listener device 200. Further, the provision control unit 150 transmits a sound output instruction based on the sound information and a display instruction on the screen to the listener device 200. As a result, the listener can hear the sound spoken by the avatar 302. Then, the audience can recognize that the request for detailed explanation or the question indicated by the textual information is transmitted to the presenter.
- the provision control unit 150 may control so that a sound image is formed at the position of the avatar 302 in the screen displayed on the display 400.
- the provision control unit 150 transmits an instruction to form a sound image to the listener device 200.
- the listener device 200 controls a plurality of speakers on the listener side so that a sound image is formed at the position of the avatar 302. By forming the sound image at the position of the avatar 302 in this way, the listener can feel that the avatar 302 is really speaking.
- the generation unit 140 may change the number of avatars displayed on the screen. Specifically, the generation unit 140 may change the number of avatars displayed on the screen during the presenter's presentation. For example, when the avatar 302 speaks, the generation unit 140 generates a screen in which only the avatar 302 is displayed. That is, the avatar 301 is not displayed on the screen. This allows the presenter to know which avatar to focus on and listen to.
- textual information is exemplified as information indicating that the listener does not understand.
- the modified examples 1 to 4 of the first embodiment the case where the information is other than the character information will be described.
- FIG. 8 is a flowchart showing an example of processing executed by the presenter apparatus of the first modification of the first embodiment.
- the acquisition unit 120 acquires an audio signal.
- the acquisition unit 120 acquires an audio signal from the listener device 200.
- the acquisition unit 120 may acquire an audio signal from the listener device 200 via an external device.
- the audio signal is an audio signal of the listener.
- the listener device 200 can acquire an audio signal from the microphone 410.
- the provision control unit 150 controls for the sound based on the audio signal to be output from the speaker (for example, the speaker 320).
- the provision control unit 150 may control the utterance content based on the voice signal to be displayed on the display 300 as the chat content.
- the analysis control unit 130 detects the utterance content of the listener based on the audio signal. For example, the analysis control unit 130 detects the utterance content of the listener by using a known voice recognition technique and a voice signal. For example, the content of the utterance is "Please tell me xxx in detail.” Further, for example, the utterance content is "Does xxx mean yyy?". In this way, the analysis control unit 130 can detect the utterance content which is the character information.
- Step S23 The analysis control unit 130 analyzes the utterance content of the listener. For example, the analysis control unit 130 analyzes whether or not the utterance content is a request for detailed explanation or a question by using morphological analysis.
- Step S24 The analysis control unit 130 determines whether or not the analysis result is a request or question for detailed explanation. If the condition is satisfied, the process proceeds to step S14. If the conditions are not met, the process ends.
- Step S25 The acquisition unit 120 acquires the management table 111 from the storage unit 110.
- the generation unit 140 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content. For example, the generated text is "A question is coming about xxx.”
- Step S26 The generation unit 140 generates sound information based on the generated text.
- Step S27 The generation unit 140 generates a screen including the avatar 302.
- the generation unit 140 generates a screen including the avatar 302 having an open mouth.
- Step S28 The provision control unit 150 controls so that the sound and the screen based on the sound information are provided to the presenter as the output information. As a result, the presenter can hear the sound spoken by the avatar 302.
- the audio of the listener is output from the speaker 320.
- the audio content is "Please tell me xxx in detail.”
- the presenter may not be aware of the audio. That is, the presenter may not be aware of the listener's reaction.
- the presenter again hears the sound uttered by the avatar 302 (that is, the sound based on the audio content of the listener). Therefore, the presenter notices the reaction of the audience. Therefore, the presenter device 100 can make the presenter aware of the reaction of the listener by controlling the sound to be provided to the presenter.
- the mouth of the avatar 302 is open, and the presenter hears the sound spoken by the avatar 302, the probability that the presenter will notice is improved.
- the provision control unit 150 may control the sound based on the generated sound information and the generated screen to be provided to the listener. As a result, the listener can hear the sound spoken by the avatar 302. The listener can then recognize that the presenter is being informed of a request for detailed explanation or a question indicated by his or her utterance.
- FIG. 9 is a flowchart showing an example of processing executed by the presenter apparatus of the second modification of the first embodiment.
- the acquisition unit 120 acquires an audio signal.
- the acquisition unit 120 acquires an audio signal from the microphone 310.
- the audio signal is the audio signal of the presenter.
- the analysis control unit 130 detects the utterance content of the presenter based on the voice signal.
- the analysis control unit 130 detects the utterance content of the presenter by using a known voice recognition technique and a voice signal.
- the utterance content is "xxx looks like this.” In this way, the analysis control unit 130 can detect the utterance content which is the character information.
- the analysis control unit 130 stores the utterance content in the storage unit 110.
- the analysis control unit 130 may store the utterance content in an external device.
- a button is displayed on the display 400.
- the button is pressed when the audience does not understand the presenter's explanation. For example, if the listener does not understand the presenter's explanation, he / she presses the button using the mouse.
- the listener device 200 generates button information when the button is pressed. Button information is information that indicates that the listener does not understand.
- the listener device 200 transmits the button information to the presenter device 100.
- the acquisition unit 120 acquires button information.
- the acquisition unit 120 acquires the button information from the listener device 200.
- the acquisition unit 120 may acquire button information from the listener device 200 via an external device.
- Step S35 The acquisition unit 120 acquires the management table 111 from the storage unit 110.
- the generation unit 140 generates a sentence according to the individuality of the avatar based on the management table 111 and the character information which is the utterance content. For example, the generated text is "Please explain xxx again.”
- Step S36 The generation unit 140 generates sound information based on the generated text.
- Step S37 The generation unit 140 generates a screen including the avatar 302.
- the generation unit 140 generates a screen including the avatar 302 having an open mouth.
- Step S38 The provision control unit 150 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information. As a result, the presenter can hear the sound spoken by the avatar 302.
- the presenter when the presenter is enthusiastic about giving a presentation, the presenter may not notice the reaction of the audience. In addition, if the presenter continues to speak without noticing the reaction of the listener, the degree of understanding of the listener is lowered.
- the presenter device 100 controls to provide the sound spoken by the avatar 302 to the presenter.
- the presenter hears the sound spoken by Avata 302.
- the presenter notices that the listener does not understand (that is, the reaction of the listener). Therefore, the presenter device 100 can make the presenter aware of the reaction of the listener by controlling the sound to be provided to the presenter.
- the provision control unit 150 may control the sound based on the generated sound information and the generated screen to be provided to the listener. As a result, the listener can hear the sound spoken by the avatar 302. Then, the audience can recognize that the presenter is informed that he / she does not understand the presenter's explanation. This allows the audience to expect the presenter to explain again.
- FIG. 10 is a flowchart showing an example of a process executed by the presenter apparatus according to the third modification of the first embodiment.
- the acquisition unit 120 acquires an audio signal.
- the acquisition unit 120 acquires an audio signal from the microphone 310.
- the audio signal is the audio signal of the presenter.
- the analysis control unit 130 detects the utterance content of the presenter based on the voice signal.
- the analysis control unit 130 detects the utterance content of the presenter by using a known voice recognition technique and a voice signal. For example, the utterance content is "xxx looks like this.”
- the analysis control unit 130 stores the utterance content in the storage unit 110.
- the analysis control unit 130 may store the utterance content in an external device.
- the listener device 200 acquires an image including the eyes of the listener from the image pickup device 420.
- the listener device 200 transmits the image to the presenter device 100.
- the acquisition unit 120 acquires the image. For example, the acquisition unit 120 acquires the image from the listener device 200. The acquisition unit 120 may acquire the image from the listener device 200 via an external device.
- the analysis control unit 130 analyzes the line of sight of the listener based on the image. For example, the analysis control unit 130 analyzes the line of sight of the listener based on the position of the pupil of the eye included in the image.
- Step S46 The analysis control unit 130 determines whether or not the listener understands based on the result of the analysis. For example, when the analysis result indicates that the line of sight of the listener is upward, the analysis control unit 130 determines that the listener does not understand. If the audience understands, the process ends. If the audience does not understand, the process proceeds to step S47.
- Step S47 The acquisition unit 120 acquires the management table 111 from the storage unit 110.
- the generation unit 140 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content. For example, the generated text is "Please explain xxx again.”
- Step S48 The generation unit 140 generates sound information based on the generated text.
- Step S49 The generation unit 140 generates a screen including the avatar 302.
- the generation unit 140 generates a screen including the avatar 302 having an open mouth.
- Step S50 The provision control unit 150 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information. As a result, the presenter can hear the sound spoken by the avatar 302.
- the presenter when the presenter is enthusiastic about giving a presentation, the presenter may not notice the reaction of the audience. In addition, if the presenter continues to speak without noticing the reaction of the listener, the degree of understanding of the listener is lowered.
- the presenter device 100 controls to provide the presenter with the sound uttered by the avatar 302 when it is analyzed that the listener does not understand. conduct. As a result, the presenter hears the sound spoken by Avata 302. By listening to the sound, the presenter notices that the listener does not understand (that is, the reaction of the listener). Therefore, the presenter device 100 can make the presenter aware of the reaction of the listener by controlling the sound to be provided to the presenter.
- the provision control unit 150 may control the sound based on the generated sound information and the generated screen to be provided to the listener. As a result, the listener can hear the sound spoken by the avatar 302. Then, the audience can recognize that the presenter is informed that he / she does not understand the presenter's explanation. This allows the audience to expect the presenter to explain again.
- FIG. 11 is a flowchart showing an example of a process executed by the presenter apparatus according to the modified example 4 of the first embodiment.
- the acquisition unit 120 acquires an audio signal.
- the acquisition unit 120 acquires an audio signal from the microphone 310.
- the audio signal is the audio signal of the presenter.
- the analysis control unit 130 detects the utterance content of the presenter based on the voice signal.
- the analysis control unit 130 detects the utterance content of the presenter by using a known voice recognition technique and a voice signal.
- the analysis control unit 130 stores the utterance content in the storage unit 110.
- the analysis control unit 130 may store the utterance content in an external device.
- the listener device 200 acquires an image including the face of the listener from the image pickup device 420.
- the listener device 200 transmits the image to the presenter device 100.
- the acquisition unit 120 acquires the image. For example, the acquisition unit 120 acquires the image from the listener device 200. The acquisition unit 120 may acquire the image from the listener device 200 via an external device.
- the analysis control unit 130 analyzes the facial expression of the listener based on the image. For example, the analysis control unit 130 analyzes the facial expression of the listener using the image and the trained model.
- Step S56 The analysis control unit 130 determines whether or not the listener understands based on the result of the analysis. For example, when the result of the analysis indicates that the facial expression of the listener is the facial expression when the listener does not understand, the analysis control unit 130 determines that the listener does not understand. If the audience understands, the process ends. If the audience does not understand, the process proceeds to step S57.
- Step S57 The acquisition unit 120 acquires the management table 111 from the storage unit 110.
- the generation unit 140 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content.
- Step S58 The generation unit 140 generates sound information based on the generated text.
- Step S59 The generation unit 140 generates a screen including the avatar 302. For example, the generation unit 140 generates a screen including the avatar 302 having an open mouth.
- Step S60 The provision control unit 150 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information. As a result, the presenter can hear the sound spoken by the avatar 302.
- the presenter when the presenter is enthusiastic about giving a presentation, the presenter may not notice the reaction of the audience. In addition, if the presenter continues to speak without noticing the reaction of the listener, the degree of understanding of the listener is lowered.
- the presenter device 100 controls to provide the presenter with the sound uttered by the avatar 302 when it is analyzed that the listener does not understand. conduct. As a result, the presenter hears the sound spoken by Avata 302. By listening to the sound, the presenter notices that the listener does not understand (that is, the reaction of the listener). Therefore, the presenter device 100 can make the presenter aware of the reaction of the listener by controlling the sound to be provided to the presenter.
- the provision control unit 150 may control the sound based on the generated sound information and the generated screen to be provided to the listener. As a result, the listener can hear the sound spoken by the avatar 302. Then, the audience can recognize that the presenter is informed that he / she does not understand the presenter's explanation. This allows the audience to expect the presenter to explain again.
- Embodiment 2 Next, the second embodiment will be described.
- the matters different from the first embodiment will be mainly described.
- the description of the matters common to the first embodiment will be omitted.
- the case where the presenter apparatus 100 performs the main processing has been described.
- the server performs the main processing will be described.
- FIG. 12 is a diagram showing a communication system according to the second embodiment.
- the communication system includes a server 500, a presenter device 600, and a listener device 700.
- the server 500, the presenter device 600, and the listener device 700 communicate with each other via a network.
- the server 500 is also called an information processing device.
- the server 500 is a cloud server.
- the server 500 is a device that executes a control method.
- the server 500 includes a processor, a volatile storage device, and a non-volatile storage device.
- the server 500 may have a processing circuit.
- the presenter device 600 is a device used by the presenter.
- the presenter device 600 is a PC (Personal Computer).
- a display, a microphone, and one or more speakers are connected to the presenter device 600.
- the presenter device 600 may have at least one of a display, a microphone, and one or more speakers.
- the display, the microphone, and the one or more speakers may be referred to as a display, a microphone, and one or more speakers on the presenter side.
- the listener device 700 is a device used by the listener.
- the listener device 700 is a PC.
- a display, a microphone, an image pickup device, and one or more speakers are connected to the listener device 700.
- the listener device 700 may have at least one of a display, a microphone, an image pickup device, and one or more speakers.
- the display, the microphone, the image pickup device, and the one or more speakers may be referred to as a display, a microphone, an image pickup device, and one or more speakers on the listener side.
- the presenter gives a presentation while looking at the screen displayed on the display of the presenter device 600.
- the screen is also displayed on the display on the listener side.
- FIG. 13 is a block diagram of the functions of the server of the second embodiment.
- the server 500 has a storage unit 510, an acquisition unit 520, an analysis control unit 530, a generation unit 540, and a provision control unit 550.
- the storage unit 510 may be realized as a storage area secured in the volatile storage device or the non-volatile storage device of the server 500.
- a part or all of the acquisition unit 520, the analysis control unit 530, the generation unit 540, and the provision control unit 550 may be realized by a processing circuit included in the server. Further, a part or all of the acquisition unit 520, the analysis control unit 530, the generation unit 540, and the provision control unit 550 may be realized as a module of a program executed by the processor of the server 500.
- the program executed by the processor is also called a control program.
- the control program is recorded on a recording medium.
- the storage unit 510 stores various information.
- the storage unit 510 stores the management table 111.
- the acquisition unit 520 acquires information indicating that the listener does not understand.
- the information may be expressed as information indicating that the audience does not understand the presenter's explanation.
- the acquisition unit 520 acquires the information from the listener device 700. Further, for example, the information is a request for detailed explanation from the listener or a question from the listener.
- the function of the analysis control unit 530 will be described later.
- the generation unit 540 generates output information to the presenter when the information indicating that the listener does not understand is acquired.
- the provision control unit 550 controls so that the output information is provided to the presenter. In other words, the provision control unit 550 controls for the output information to be provided to the presenter.
- FIG. 14 is a sequence diagram showing an example of processing executed in the communication system of the second embodiment.
- the server 500 performs the same processing as the presenter device 100. Therefore, detailed description thereof will be omitted.
- the listener device 700 transmits the character information to the server 500.
- the character information is acquired by the acquisition unit 520. Further, the acquisition unit 520 may acquire character information via an external device.
- the analysis control unit 530 analyzes the character information.
- the analysis control unit 530 determines whether or not the analysis result is a request or question for detailed explanation. The result of the analysis shall be a request for detailed explanation or a question.
- the acquisition unit 520 acquires the management table 111.
- the acquisition unit 520 acquires the management table 111 from the storage unit 510. Further, for example, the acquisition unit 520 acquires the management table 111 from an external device.
- the generation unit 540 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information.
- the generation unit 540 generates sound information based on the generated text.
- Step ST106 The generation unit 540 generates a screen including the avatar 302.
- Step ST107 The provision control unit 550 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information. For example, the provision control unit 550 transmits the sound information and the screen to the presenter device 600. The provision control unit 550 transmits a sound output instruction based on the sound information and a display instruction on the screen to the presenter device 600.
- Step ST108 The presenter device 600 controls the sound based on the sound information to be output from one or more speakers. In addition, the presenter device 600 controls the screen to be displayed on the display. As a result, the presenter can hear the sound spoken by the avatar 302.
- the presenter hears the sound spoken by the avatar 302. Therefore, the presenter notices the reaction of the audience. Therefore, the server 500 can make the presenter aware of the reaction of the listener by controlling the sound to be provided to the presenter.
- the presenter device 600 may provide the text to the presenter.
- the process will be described in detail.
- the generation unit 540 generates a sentence based on the character information. It should be noted that the text is not a text according to the individuality of Avata 302. That is, the sentence is a general sentence (for example, a polite sentence).
- the provision control unit 550 controls so that the text is provided to the presenter as output information. For example, the provision control unit 550 transmits the text and a display instruction of the text to the presenter device 600.
- the presenter device 600 controls the display of the text on the presenter's display. As a result, the text is provided to the presenter.
- the generation unit 540 may generate sound information based on the sentence (for example, a polite sentence).
- the provision control unit 550 may control so that the sound based on the generated sound information is provided to the presenter.
- the generation unit 540 may generate sound information based on the sentence (for example, a polite sentence) and generate a screen including the avatar 302.
- the provision control unit 550 may control the sound based on the generated sound information and the screen so as to be provided to the presenter.
- the provision control unit 550 may execute the following processing.
- the provision control unit 550 controls so that the generated screen is displayed on the display on the presenter side. Further, the provision control unit 150 controls so that a sound image is formed at the position of the avatar 302 in the screen.
- the provision control unit 550 transmits a sound image formation instruction to the presenter device 600.
- the presenter device 600 controls for the sound image to be formed by the plurality of speakers at the position of the avatar 302. As a result, a sound image is formed at the position of the avatar 302.
- the provision control unit 550 may control the sound based on the generated sound information and the generated screen so as to be provided to the listener. For example, the provision control unit 550 transmits the sound information and the screen to the listener device 700. Further, the provision control unit 550 transmits a sound output instruction based on the sound information and a display instruction on the screen to the listener device 700. As a result, the listener can hear the sound spoken by the avatar 302.
- the provision control unit 550 may control so that the sound image is formed at the position of the avatar 302 in the screen displayed on the display on the listener side.
- the provision control unit 550 transmits a sound image formation instruction to the listener device 700.
- the listener device 700 controls for the sound image to be formed by the plurality of speakers at the position of the avatar 302. As a result, a sound image is formed at the position of the avatar 302.
- the generation unit 540 may change the number of avatars displayed on the screen. Specifically, the generator 540 may change the number of avatars displayed on the screen during the presenter's presentation. For example, when the avatar 302 speaks, the generation unit 540 generates a screen in which only the avatar 302 is displayed. That is, the avatar 301 is not displayed on the screen. This allows the presenter to know which avatar to focus on and listen to.
- FIG. 15 is a sequence diagram showing an example of processing executed in the communication system of the first modification of the second embodiment.
- the listener device 700 transmits an audio signal to the server 500.
- the audio signal is an audio signal of the listener.
- the audio signal is acquired by the acquisition unit 520.
- the acquisition unit 520 may acquire an audio signal via an external device.
- the provision control unit 550 controls for the sound based on the audio signal to be output from the speaker on the presenter side.
- the provision control unit 550 may control the utterance content based on the voice signal to be displayed on the display on the presenter side as the chat content.
- the analysis control unit 530 detects the utterance content of the listener based on the audio signal.
- the analysis control unit 530 analyzes the utterance content of the listener.
- the analysis control unit 530 determines whether or not the analysis result is a request or question for detailed explanation.
- the result of the analysis shall be a request for detailed explanation or a question.
- Step ST115 The acquisition unit 520 acquires the management table 111 from the storage unit 510.
- the generation unit 540 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content.
- Step ST116 The generation unit 540 generates sound information based on the generated text.
- Step ST117 The generation unit 540 generates a screen including the avatar 302.
- Step ST118 The provision control unit 550 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information. For example, the provision control unit 550 transmits the sound information and the screen to the presenter device 600. The provision control unit 550 transmits a sound output instruction based on the sound information and a display instruction on the screen to the presenter device 600.
- Step ST119 The presenter device 600 controls the sound based on the sound information to be output from one or more speakers. In addition, the presenter device 600 controls the screen to be displayed on the display. As a result, the presenter can hear the sound spoken by the avatar 302.
- the server 500 can make the presenter aware of the reaction of the listener. Further, the provision control unit 550 may control the sound based on the generated sound information and the generated screen to be provided to the listener.
- FIG. 16 is a sequence diagram showing an example of processing executed in the communication system of the second modification of the second embodiment.
- the presenter device 600 transmits an audio signal to the server 500.
- the voice signal is a voice signal of the presenter.
- the audio signal is acquired by the acquisition unit 520. Further, the acquisition unit 520 may acquire an audio signal via an external device.
- Step ST122 The analysis control unit 530 detects the utterance content of the presenter based on the voice signal.
- the analysis control unit 530 stores the utterance content in the storage unit 510.
- Step ST123 The listener device 700 transmits the button information to the server 500. As a result, the button information is acquired by the acquisition unit 520. Further, the acquisition unit 520 may acquire button information via an external device.
- Step ST124 The acquisition unit 520 acquires the management table 111 from the storage unit 510.
- the generation unit 540 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content.
- Step ST125 The generation unit 540 generates sound information based on the generated text.
- Step ST126 The generation unit 540 generates a screen including the avatar 302.
- Step ST127 The provision control unit 550 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information. For example, the provision control unit 550 transmits the sound information and the screen to the presenter device 600. The provision control unit 550 transmits a sound output instruction based on the sound information and a display instruction on the screen to the presenter device 600.
- Step ST1228 The presenter device 600 controls the sound based on the sound information to be output from one or more speakers. In addition, the presenter device 600 controls the screen to be displayed on the display. As a result, the presenter can hear the sound spoken by the avatar 302.
- the server 500 can make the presenter aware of the reaction of the listener. Further, the provision control unit 550 may control the sound based on the generated sound information and the generated screen to be provided to the listener.
- FIG. 17 is a sequence diagram showing an example of processing executed in the communication system of the modification 3 of the second embodiment.
- the presenter device 600 transmits an audio signal to the server 500.
- the voice signal is a voice signal of the presenter.
- the audio signal is acquired by the acquisition unit 520. Further, the acquisition unit 520 may acquire an audio signal via an external device.
- Step ST132 The analysis control unit 530 detects the utterance content of the presenter based on the voice signal.
- the analysis control unit 530 stores the utterance content in the storage unit 510.
- Step ST133 The listener device 700 transmits an image including the eyes of the listener to the server 500. As a result, the image is acquired by the acquisition unit 520. Further, the acquisition unit 520 may acquire the image via an external device.
- Step ST134 The analysis control unit 530 analyzes the line of sight of the listener based on the image.
- Step ST135 The analysis control unit 530 determines whether or not the listener understands based on the result of the analysis. For example, when the analysis result indicates that the line of sight of the listener is upward, the analysis control unit 530 determines that the listener does not understand.
- the results of the analysis shall indicate that the audience does not understand.
- Step ST136 The acquisition unit 520 acquires the management table 111 from the storage unit 510.
- the generation unit 540 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content.
- Step ST137 The generation unit 540 generates sound information based on the generated text.
- Step ST138 The generation unit 540 generates a screen including the avatar 302.
- Step ST139 The provision control unit 550 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information. For example, the provision control unit 550 transmits the sound information and the screen to the presenter device 600. The provision control unit 550 transmits a sound output instruction based on the sound information and a display instruction on the screen to the presenter device 600.
- Step ST140 The presenter device 600 controls the sound based on the sound information to be output from one or more speakers. In addition, the presenter device 600 controls the screen to be displayed on the display. As a result, the presenter can hear the sound spoken by the avatar 302.
- the server 500 can make the presenter aware of the reaction of the listener. Further, the provision control unit 550 may control the sound based on the generated sound information and the generated screen to be provided to the listener.
- FIG. 18 is a sequence diagram showing an example of processing executed in the communication system of the modified example 4 of the second embodiment.
- the presenter device 600 transmits an audio signal to the server 500.
- the voice signal is a voice signal of the presenter.
- the audio signal is acquired by the acquisition unit 520. Further, the acquisition unit 520 may acquire an audio signal via an external device.
- Step ST142 The analysis control unit 530 detects the utterance content of the presenter based on the voice signal.
- the analysis control unit 530 stores the utterance content in the storage unit 510.
- Step ST143 The listener device 700 transmits an image including the face of the listener to the server 500. As a result, the image is acquired by the acquisition unit 520. Further, the acquisition unit 520 may acquire the image via an external device.
- the analysis control unit 530 analyzes the facial expression of the listener based on the image.
- the analysis control unit 530 determines whether or not the listener understands based on the result of the analysis. For example, when the result of the analysis shows that the facial expression of the listener is the facial expression when the listener does not understand, the analysis control unit 530 determines that the listener does not understand. The results of the analysis shall indicate that the audience does not understand.
- Step ST146 The acquisition unit 520 acquires the management table 111 from the storage unit 510.
- the generation unit 540 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content.
- Step ST147 The generation unit 540 generates sound information based on the generated text.
- Step ST148 The generation unit 540 generates a screen including the avatar 302.
- Step ST149 The provision control unit 550 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information. For example, the provision control unit 550 transmits the sound information and the screen to the presenter device 600. The provision control unit 550 transmits a sound output instruction based on the sound information and a display instruction on the screen to the presenter device 600.
- Step ST150 The presenter device 600 controls the sound based on the sound information to be output from one or more speakers. In addition, the presenter device 600 controls the screen to be displayed on the display. As a result, the presenter can hear the sound spoken by the avatar 302.
- the server 500 can make the presenter aware of the reaction of the listener. Further, the provision control unit 550 may control the sound based on the generated sound information and the generated screen to be provided to the listener.
- Embodiment 3 Next, the third embodiment will be described.
- the matters different from the first embodiment will be mainly described.
- the description of the matters common to the first embodiment will be omitted.
- the case where the presenter apparatus 100 performs the main processing has been described.
- the listener device performs the main processing will be described.
- FIG. 19 is a diagram showing a communication system according to the third embodiment.
- the communication system includes a listener device 800 and a presenter device 900.
- the listener device 800 and the presenter device 900 communicate with each other via a network.
- the listener device 800 is also referred to as an information processing device.
- the listener device 800 is a device that executes the control method.
- the listener device 800 includes a processor, a volatile storage device, and a non-volatile storage device.
- the listener device 800 may have a processing circuit.
- the listener device 800 is a device used by the listener.
- a display, a microphone, an image pickup device, and one or more speakers are connected to the listener device 800.
- the listener device 800 may have at least one of a display, a microphone, an image pickup device, and one or more speakers.
- the display, the microphone, the image pickup device, and the one or more speakers may be referred to as a display, a microphone, an image pickup device, and one or more speakers on the listener side.
- the presenter device 900 is a device used by the presenter.
- the presenter device 900 is a PC.
- a display, a microphone, and one or more speakers are connected to the presenter device 900.
- the presenter device 900 may have at least one of a display, a microphone, and one or more speakers.
- the display, the microphone, and the one or more speakers may be referred to as a display, a microphone, and one or more speakers on the presenter side.
- the presenter gives a presentation while looking at the screen displayed on the display of the presenter device 900.
- the screen is also displayed on the display on the listener side.
- FIG. 20 is a block diagram of the functions of the listener device of the third embodiment.
- the listener device 800 includes a storage unit 810, an acquisition unit 820, an analysis control unit 830, a generation unit 840, and a provision control unit 850.
- the storage unit 810 may be realized as a storage area secured in the volatile storage device or the non-volatile storage device of the listener device 800.
- a part or all of the acquisition unit 820, the analysis control unit 830, the generation unit 840, and the provision control unit 850 may be realized by the processing circuit included in the listener device 800.
- a part or all of the acquisition unit 820, the analysis control unit 830, the generation unit 840, and the provision control unit 850 may be realized as a module of a program executed by the processor of the listener device 800.
- the program executed by the processor is also called a control program.
- the control program is recorded on a recording medium.
- the storage unit 810 stores various information.
- the storage unit 810 stores the management table 111.
- the acquisition unit 820 acquires information indicating that the listener does not understand.
- the information may be expressed as information indicating that the audience does not understand the presenter's explanation. Further, for example, the information is a request for detailed explanation from the listener or a question from the listener.
- the function of the analysis control unit 830 will be described later.
- the generation unit 840 generates output information to the presenter when the information indicating that the listener does not understand is acquired.
- the provision control unit 850 controls so that the output information is provided to the presenter. In other words, the provision control unit 850 controls for the output information to be provided to the presenter.
- FIG. 21 is a sequence diagram showing an example of processing executed in the communication system of the third embodiment.
- the listener device 800 performs the same processing as the presenter device 100. Therefore, detailed description thereof will be omitted.
- the acquisition unit 820 acquires character information.
- the character information is a character input by the keyboard operation of the listener.
- Step ST152 The analysis control unit 830 analyzes the character information.
- Step ST153 The analysis control unit 830 determines whether or not the analysis result is a request or question for detailed explanation.
- the result of the analysis shall be a request for detailed explanation or a question.
- the acquisition unit 820 acquires the management table 111.
- the acquisition unit 820 acquires the management table 111 from the storage unit 810. Further, for example, the acquisition unit 820 acquires the management table 111 from an external device.
- the generation unit 840 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information.
- the generation unit 840 generates sound information based on the generated text.
- Step ST156 The generation unit 840 generates a screen including the avatar 302.
- Step ST157 The provision control unit 850 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information.
- the provision control unit 850 transmits the sound information and the screen to the presenter device 900.
- the provision control unit 850 transmits a sound output instruction based on the sound information and a display instruction on the screen to the presenter device 900.
- Step ST158 The presenter device 900 controls the sound based on the sound information to be output from one or more speakers. In addition, the presenter device 900 controls the screen to be displayed on the display. As a result, the presenter can hear the sound spoken by the avatar 302.
- the presenter hears the sound spoken by the avatar 302. Therefore, the presenter notices the reaction of the audience. Therefore, the listener device 800 can make the presenter aware of the reaction of the listener by controlling the sound to be provided to the presenter.
- the presenter device 900 may provide the text to the presenter.
- the process will be described in detail.
- the generation unit 840 generates a sentence based on the character information. It should be noted that the text is not a text according to the individuality of Avata 302. That is, the sentence is a general sentence (for example, a polite sentence).
- the provision control unit 850 controls so that the text is provided to the presenter as output information. For example, the provision control unit 850 transmits the text and a display instruction of the text to the presenter device 900.
- the presenter device 900 controls the display of the text on the presenter's display. As a result, the text is provided to the presenter.
- the generation unit 840 may generate sound information based on the sentence (for example, a polite sentence).
- the provision control unit 850 may control the presenter so that the sound based on the generated sound information is provided to the presenter.
- the generation unit 840 may generate sound information based on the sentence (for example, a polite sentence) and generate a screen including the avatar 302.
- the provision control unit 850 may control the sound based on the generated sound information and the screen so as to be provided to the presenter.
- the provision control unit 850 may execute the following processing.
- the provision control unit 850 controls so that the generated screen is displayed on the display on the presenter side.
- the provision control unit 150 controls so that a sound image is formed at the position of the avatar 302 in the screen.
- the provision control unit 850 transmits a sound image formation instruction to the presenter device 900.
- the presenter device 900 controls the sound image to be formed by the plurality of speakers at the position of the avatar 302. As a result, a sound image is formed at the position of the avatar 302.
- provision control unit 850 may control the sound based on the generated sound information and the generated screen so as to be provided to the listener. As a result, the listener can hear the sound spoken by the avatar 302.
- the provision control unit 850 may control so that the sound image is formed at the position of the avatar 302 in the screen displayed on the display on the listener side. As a result, a sound image is formed at the position of the avatar 302.
- the generation unit 840 may change the number of avatars displayed on the screen. Specifically, the generator 840 may change the number of avatars displayed on the screen during the presenter's presentation. For example, when the avatar 302 speaks, the generation unit 840 generates a screen in which only the avatar 302 is displayed. That is, the avatar 301 is not displayed on the screen. This allows the presenter to know which avatar to focus on and listen to.
- FIG. 22 is a sequence diagram showing an example of processing executed in the communication system of the first modification of the third embodiment.
- the acquisition unit 820 acquires an audio signal from the microphone on the listener side.
- the audio signal is an audio signal of the listener.
- the provision control unit 850 controls for the sound based on the audio signal to be output from the speaker on the presenter side.
- the provision control unit 850 may control the utterance content based on the voice signal to be displayed on the display on the presenter side as the chat content.
- the analysis control unit 830 detects the utterance content of the listener based on the audio signal.
- Step ST163 The analysis control unit 830 analyzes the utterance content.
- Step ST164 The analysis control unit 830 determines whether or not the analysis result is a request or question for detailed explanation.
- the result of the analysis shall be a request for detailed explanation or a question.
- Step ST165 The acquisition unit 820 acquires the management table 111 from the storage unit 810.
- the generation unit 840 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content.
- Step ST166 The generation unit 840 generates sound information based on the generated text.
- Step ST167 The generation unit 840 generates a screen including the avatar 302.
- Step ST168 The provision control unit 850 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information.
- the provision control unit 850 transmits the sound information and the screen to the presenter device 900.
- the provision control unit 850 transmits a sound output instruction based on the sound information and a display instruction on the screen to the presenter device 900.
- Step ST169 The presenter device 900 controls the sound based on the sound information to be output from one or more speakers. In addition, the presenter device 900 controls the screen to be displayed on the display. As a result, the presenter can hear the sound spoken by the avatar 302.
- the listener device 800 can make the presenter aware of the reaction of the listener. Further, the provision control unit 850 may control the sound based on the generated sound information and the generated screen to be provided to the listener.
- FIG. 23 is a sequence diagram showing an example of processing executed in the communication system of the second modification of the third embodiment.
- the presenter device 900 transmits an audio signal to the listener device 800.
- the voice signal is a voice signal of the presenter.
- the audio signal is acquired by the acquisition unit 820. Further, the acquisition unit 820 may acquire an audio signal via an external device.
- Step ST172 The analysis control unit 830 detects the utterance content of the presenter based on the voice signal.
- the analysis control unit 830 stores the utterance content in the storage unit 810.
- Step ST173 The acquisition unit 820 acquires the button information.
- the acquisition process will be described. Buttons are displayed on the display on the listener side. The button is pressed when the audience does not understand the presenter's explanation. For example, if the listener does not understand the presenter's explanation, he / she presses the button using the mouse.
- the listener device 800 generates button information when the button is pressed.
- the acquisition unit 820 acquires the generated button information.
- Step ST174 The acquisition unit 820 acquires the management table 111 from the storage unit 810.
- the generation unit 840 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content.
- the generation unit 840 generates sound information based on the generated text.
- Step ST176 The generation unit 840 generates a screen including the avatar 302.
- Step ST177 The provision control unit 850 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information. For example, the provision control unit 850 transmits the sound information and the screen to the presenter device 900. The provision control unit 850 transmits a sound output instruction based on the sound information and a display instruction on the screen to the presenter device 900.
- Step ST178 The presenter device 900 controls the sound based on the sound information to be output from one or more speakers. In addition, the presenter device 900 controls the screen to be displayed on the display. As a result, the presenter can hear the sound spoken by the avatar 302.
- the listener device 800 can make the presenter aware of the reaction of the listener. Further, the provision control unit 850 may control the sound based on the generated sound information and the generated screen to be provided to the listener.
- FIG. 24 is a sequence diagram showing an example of processing executed in the communication system of the modification 3 of the third embodiment.
- the presenter device 900 transmits an audio signal to the listener device 800.
- the voice signal is a voice signal of the presenter.
- the audio signal is acquired by the acquisition unit 820. Further, the acquisition unit 820 may acquire an audio signal via an external device.
- Step ST182 The analysis control unit 830 detects the utterance content of the presenter based on the voice signal.
- the analysis control unit 830 stores the utterance content in the storage unit 810.
- the acquisition unit 820 acquires an image including the eyes of the listener from the image pickup device on the listener side.
- Step ST184 The analysis control unit 830 analyzes the line of sight of the listener based on the image.
- Step ST185 The analysis control unit 830 determines whether or not the listener understands based on the analysis result. For example, when the analysis result indicates that the line of sight of the listener is upward, the analysis control unit 830 determines that the listener does not understand. The results of the analysis shall indicate that the audience does not understand.
- Step ST186 The acquisition unit 820 acquires the management table 111 from the storage unit 810.
- the generation unit 840 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content.
- Step ST187 The generation unit 840 generates sound information based on the generated text.
- Step ST188 The generation unit 840 generates a screen including the avatar 302.
- Step ST189 The provision control unit 850 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information.
- the provision control unit 850 transmits the sound information and the screen to the presenter device 900.
- the provision control unit 850 transmits a sound output instruction based on the sound information and a display instruction on the screen to the presenter device 900.
- Step ST190 The presenter device 900 controls the sound based on the sound information to be output from one or more speakers. In addition, the presenter device 900 controls the screen to be displayed on the display. As a result, the presenter can hear the sound spoken by the avatar 302.
- the listener device 800 can make the presenter aware of the reaction of the listener. Further, the provision control unit 850 may control the sound based on the generated sound information and the generated screen to be provided to the listener.
- FIG. 25 is a sequence diagram showing an example of processing executed in the communication system of the modification 4 of the third embodiment.
- the presenter device 900 transmits an audio signal to the listener device 800.
- the voice signal is a voice signal of the presenter.
- the audio signal is acquired by the acquisition unit 820. Further, the acquisition unit 820 may acquire an audio signal via an external device.
- Step ST192 The analysis control unit 830 detects the utterance content of the presenter based on the voice signal.
- the analysis control unit 830 stores the utterance content in the storage unit 810.
- Step ST193 The acquisition unit 820 acquires an image including the listener's face from the image pickup device on the listener side.
- Step ST194 The analysis control unit 830 analyzes the facial expression of the listener based on the image.
- Step ST195 The analysis control unit 830 determines whether or not the listener understands based on the analysis result. For example, when the result of the analysis indicates that the facial expression of the listener is the facial expression when the listener does not understand, the analysis control unit 830 determines that the listener does not understand. The results of the analysis shall indicate that the audience does not understand.
- Step ST196 The acquisition unit 820 acquires the management table 111 from the storage unit 810.
- the generation unit 840 generates a sentence according to the individuality of the avatar 302 based on the management table 111 and the character information which is the utterance content.
- Step ST197 The generation unit 840 generates sound information based on the generated text.
- Step ST198 The generation unit 840 generates a screen including the avatar 302.
- Step ST199 The provision control unit 850 controls so that the sound based on the generated sound information and the generated screen are provided to the presenter as output information.
- the provision control unit 850 transmits the sound information and the screen to the presenter device 900.
- the provision control unit 850 transmits a sound output instruction based on the sound information and a display instruction on the screen to the presenter device 900.
- Step ST200 The presenter device 900 controls the sound based on the sound information to be output from one or more speakers. In addition, the presenter device 900 controls the screen to be displayed on the display. As a result, the presenter can hear the sound spoken by the avatar 302.
- the listener device 800 can make the presenter aware of the reaction of the listener. Further, the provision control unit 850 may control the sound based on the generated sound information and the generated screen to be provided to the listener.
- 100 presenter device 101 processor, 102 volatile storage device, 103 non-volatile storage device, 110 storage unit, 111 management table, 120 acquisition unit, 130 analysis control unit, 140 generation unit, 150 provision control unit, 200 listener equipment.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
発表者装置(100)は、聴講者が用いる聴講者装置と通信する。発表者装置(100)は、発表者が用いる装置である。発表者装置(100)は、取得部(120)と生成部(140)と提供制御部(150)とを有する。取得部(120)は、聴講者が理解していないことを示す情報を取得する。生成部(140)は、当該情報が取得された場合、発表者への出力情報を生成する。提供制御部(150)は、出力情報が発表者に提供されるように、制御を行う。
Description
本開示は、情報処理装置、制御方法、及び制御プログラムに関する。
近年、ネットワークを介したプレゼンテーションが行われている。例えば、プレゼンテーションは、アバタを用いて、行われる。ここで、アバタに関する技術が提案されている(特許文献1を参照)。
ところで、発表者が熱中してプレゼンテーションなどを行っているとき、発表者は、聴講者の反応に気付かない場合がある。
本開示の目的は、聴講者の反応を発表者に気付かせることである。
本開示の一態様に係る情報処理装置が提供される。情報処理装置は、聴講者が用いる聴講者装置と通信し、かつ発表者が用いる装置である。情報処理装置は、前記聴講者が理解していないことを示す情報を取得する取得部と、当該情報が取得された場合、前記発表者への出力情報を生成する生成部と、前記出力情報が前記発表者に提供されるように、制御を行う提供制御部と、を有する。
本開示によれば、聴講者の反応を発表者に気付かせることができる。
以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
実施の形態1.
図1は、実施の形態1の通信システムを示す図である。通信システムは、発表者装置100と聴講者装置200とを含む。発表者装置100と聴講者装置200とは、ネットワークを介して、通信する。
図1は、実施の形態1の通信システムを示す図である。通信システムは、発表者装置100と聴講者装置200とを含む。発表者装置100と聴講者装置200とは、ネットワークを介して、通信する。
発表者装置100は、発表者が用いる装置である。発表者装置100は、情報処理装置とも言う。発表者装置100は、制御方法を実行する装置である。聴講者装置200は、聴講者が用いる装置である。例えば、発表者装置100と聴講者装置200とは、ノート型、デスクトップ型、又はタブレット型のコンピュータである。
発表者は、発表者装置100を用いて、プレゼンテーション、オンラインの講演などを行う。プレゼンテーションなどを聴講する聴講者の数は、1以上である。そのため、発表者装置100は、1以上の聴講者装置と通信する。ここで、以下の説明を簡単にするため、図1では、1つの聴講者装置が例示されている。よって、聴講者装置の数は、2以上でもよい。
次に、発表者装置100と聴講者装置200とが有するハードウェアを説明する。
図2は、実施の形態1の発表者装置と聴講者装置とが有するハードウェアを示す図である。発表者装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
図2は、実施の形態1の発表者装置と聴講者装置とが有するハードウェアを示す図である。発表者装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
プロセッサ101は、発表者装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。発表者装置100は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
揮発性記憶装置102は、発表者装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、発表者装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
発表者装置100には、ディスプレイ300、マイク310、及びスピーカ320,321が接続されている。また、発表者装置100は、ディスプレイ300、マイク310、及びスピーカ320,321のうちの少なくとも1つを有してもよい。ディスプレイ300は、発表者が見るディスプレイである。ディスプレイ300、マイク310、及びスピーカ320,321は、発表者側のディスプレイ、マイク、及び複数のスピーカと呼んでもよい。また、スピーカの数は、1つでもよい。
ここで、ディスプレイは、表示装置とも言う。また、マイクは、マイクロフォンである。
ここで、ディスプレイは、表示装置とも言う。また、マイクは、マイクロフォンである。
聴講者装置200は、発表者装置100と同様に、プロセッサ、揮発性記憶装置、及び不揮発性記憶装置を有する。聴講者装置200には、ディスプレイ400、マイク410、撮像装置420、及びスピーカ430が接続されている。聴講者装置200は、ディスプレイ400、マイク410、撮像装置420、及びスピーカ430のうちの少なくとも1つを有してもよい。ディスプレイ400は、聴講者が見るディスプレイである。ディスプレイ400、マイク410、撮像装置420、及びスピーカ430は、聴講者側のディスプレイ、マイク、撮像装置、及びスピーカと呼んでもよい。また、スピーカの数は、2つ以上でもよい。
上述したように、発表者は、発表者装置100を用いて、プレゼンテーションなどを行う。以下、発表者は、プレゼンテーションを行うものとする。ここで、発表者がプレゼンテーションを行っているときのディスプレイ300の例を示す。
図3は、実施の形態1のディスプレイの具体例を示す図である。例えば、発表者は、ディスプレイ300を見ながら、今月の売上のプレゼンテーションを行う。ディスプレイ300には、アバタ301、アバタ302、及び範囲303が表示されている。
アバタ301は、発表者のアバタである。発表者は、アバタ301を用いて、プレゼンテーションを行ってもよい。例えば、発表者がアバタ301を用いることで、アバタ301は、発表者の発話に合わせて発話する。例えば、アバタ301は、リップシンクの技術によって、発表者の発話に合わせて発話する。
アバタ302は、出力情報を発表者に提供するアバタである。出力情報については、後述する。
範囲303は、チャットの内容が表示される範囲である。例えば、聴講者が入力した文字が、範囲303に表示される。
ディスプレイ300に表示されている画面は、ディスプレイ400にも表示されている。そのため、聴講者は、ディスプレイ400を見ながら、プレゼンテーションを聞くことができる。
なお、図3には、2つのアバタが例示されている。アバタの数は、3つ以上でもよい。
範囲303は、チャットの内容が表示される範囲である。例えば、聴講者が入力した文字が、範囲303に表示される。
ディスプレイ300に表示されている画面は、ディスプレイ400にも表示されている。そのため、聴講者は、ディスプレイ400を見ながら、プレゼンテーションを聞くことができる。
なお、図3には、2つのアバタが例示されている。アバタの数は、3つ以上でもよい。
次に、発表者装置100が有する機能を説明する。
図4は、実施の形態1の発表者装置が有する機能のブロック図である。発表者装置100は、記憶部110、取得部120、解析制御部130、生成部140、及び提供制御部150を有する。
図4は、実施の形態1の発表者装置が有する機能のブロック図である。発表者装置100は、記憶部110、取得部120、解析制御部130、生成部140、及び提供制御部150を有する。
記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
取得部120、解析制御部130、生成部140、及び提供制御部150の一部又は全部は、処理回路によって実現してもよい。また、取得部120、解析制御部130、生成部140、及び提供制御部150の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、制御プログラムとも言う。例えば、制御プログラムは、記録媒体に記録されている。
取得部120、解析制御部130、生成部140、及び提供制御部150の一部又は全部は、処理回路によって実現してもよい。また、取得部120、解析制御部130、生成部140、及び提供制御部150の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、制御プログラムとも言う。例えば、制御プログラムは、記録媒体に記録されている。
記憶部110は、様々な情報を記憶する。
取得部120は、聴講者が理解していないことを示す情報を取得する。当該情報は、聴講者が発表者の説明を理解していないことを示す情報と表現してもよい。例えば、取得部120は、当該情報を聴講者装置200から取得する。
取得部120は、聴講者が理解していないことを示す情報を取得する。当該情報は、聴講者が発表者の説明を理解していないことを示す情報と表現してもよい。例えば、取得部120は、当該情報を聴講者装置200から取得する。
例えば、当該情報は、聴講者からの詳細な説明の要求を示す情報、又は聴講者からの質問を示す情報である。詳細な説明の要求又は質問は、聴講者が理解していない場合に、発表者に提示されるものである。そのため、詳細な説明の要求又は質問を示す情報は、聴講者が理解していないことを示す情報と言える。
また、取得部120は、管理テーブルを取得する。例えば、取得部120は、管理テーブルを記憶部110から取得する。また、例えば、取得部120は、管理テーブルを外部装置から取得する。例えば、外部装置は、クラウドサーバである。ここで、管理テーブルを説明する。
図5は、実施の形態1の管理テーブルの例を示す図である。管理テーブル111は、管理情報とも言う。例えば、管理テーブル111は、記憶部110に格納されている。管理テーブル111は、アバタ、担当、及び個性の項目を有する。
アバタの項目には、アバタの名称が登録される。なお、図5のアバタAは、アバタ301である。図5のアバタBは、アバタ302である。
担当の項目には、アバタの役割が登録される。例えば、図5は、アバタA(すなわち、アバタ301)が発表を行うアバタであることを示している。また、例えば、図5は、アバタB(すなわち、アバタ302)が出力情報を発表者に提供するアバタであることを示している。
個性の項目は、アバタの個性を示す情報が登録される。
担当の項目には、アバタの役割が登録される。例えば、図5は、アバタA(すなわち、アバタ301)が発表を行うアバタであることを示している。また、例えば、図5は、アバタB(すなわち、アバタ302)が出力情報を発表者に提供するアバタであることを示している。
個性の項目は、アバタの個性を示す情報が登録される。
図4に戻って、発表者装置100の機能を説明する。
解析制御部130の機能は、後で説明する。
生成部140は、聴講者が理解していないことを示す情報が取得された場合、発表者への出力情報を生成する。
提供制御部150は、出力情報が発表者に提供されるように、制御を行う。言い換えれば、提供制御部150は、出力情報が発表者に提供されるための制御を行う。また、上述したように、出力情報は、アバタ302から提供される。
解析制御部130の機能は、後で説明する。
生成部140は、聴講者が理解していないことを示す情報が取得された場合、発表者への出力情報を生成する。
提供制御部150は、出力情報が発表者に提供されるように、制御を行う。言い換えれば、提供制御部150は、出力情報が発表者に提供されるための制御を行う。また、上述したように、出力情報は、アバタ302から提供される。
以下の説明では、聴講者が理解していないことを示す情報は、詳細な説明の要求又は質問であるものとする。なお、例えば、発表者が“xxxは、このようになります。”と発話した場合、詳細な説明の要求は、“xxxを詳しく教えてください。”である。また、例えば、発表者が“xxxは、このようになります。”と発話した場合、質問は、“xxxとは、yyyということですか。”である。
次に、発表者装置100が実行する処理を、フローチャートを用いて、説明する。
図6は、実施の形態1の発表者装置が実行する処理の例を示すフローチャートである。
(ステップS11)取得部120は、文字情報を取得する。例えば、取得部120は、文字情報を聴講者装置200から取得する。取得部120は、外部装置を介して、文字情報を取得してもよい。
文字情報は、1以上の文字を含む情報である。文字情報は、聴講者の操作により、聴講者装置200が生成した情報である。例えば、文字情報は、聴講者のキーボード操作により、聴講者装置200が生成した情報である。
図6は、実施の形態1の発表者装置が実行する処理の例を示すフローチャートである。
(ステップS11)取得部120は、文字情報を取得する。例えば、取得部120は、文字情報を聴講者装置200から取得する。取得部120は、外部装置を介して、文字情報を取得してもよい。
文字情報は、1以上の文字を含む情報である。文字情報は、聴講者の操作により、聴講者装置200が生成した情報である。例えば、文字情報は、聴講者のキーボード操作により、聴講者装置200が生成した情報である。
(ステップS12)解析制御部130は、文字情報を解析する。例えば、解析制御部130は、形態素解析を用いて、当該文字情報が示す文章が詳細な説明の要求又は質問であるか否かを解析する。
(ステップS13)解析制御部130は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。条件を満たす場合、処理は、ステップS14に進む。条件を満たさない場合、処理は、終了する。
(ステップS13)解析制御部130は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。条件を満たす場合、処理は、ステップS14に進む。条件を満たさない場合、処理は、終了する。
(ステップS14)取得部120は、管理テーブル111を記憶部110から取得する。生成部140は、管理テーブル111と文字情報とに基づいて、アバタの個性に応じた文章を生成する。具体的に、処理を説明する。生成部140は、管理テーブル111の担当の項目を参照し、発表者に情報を提供するアバタB(すなわち、アバタ302)を特定する。生成部140は、管理テーブル111の個性の項目を参照し、アバタ302の個性を特定する。生成部140は、アバタ302の個性を示す情報と文字情報とに基づいて、アバタの個性に応じた文章を生成する。例えば、解析の結果が、質問であることを示している場合、生成部140は、文字情報が示す文章に基づいて、発表者に対して質問が届いていることを示す文章を生成する。生成部140は、当該文章をフレンドリーな文章に加工する。例えば、生成部140は、当該文章の語尾をフレンドリーな文字に加工する。これにより、アバタの個性に応じた文章が、生成される。また、生成部140は、文字情報が示す文章を要約し、要約された文章に基づいて、発表者に対して質問が届いていることを示す文章を生成し、当該文章をフレンドリーな文章に加工してもよい。
(ステップS15)生成部140は、生成された文章に基づいて、音情報を生成する。音情報は、音ファイルと呼んでもよい。
(ステップS16)生成部140は、アバタ302を含む画面を生成する。例えば、生成部140は、口が開いているアバタ302を含む画面を生成する。
(ステップS16)生成部140は、アバタ302を含む画面を生成する。例えば、生成部140は、口が開いているアバタ302を含む画面を生成する。
(ステップS17)提供制御部150は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部150は、当該音情報に基づく音がスピーカ320及びスピーカ321の少なくとも1つから出力されるための制御を行う。また、例えば、提供制御部150は、当該画面がディスプレイ300に表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
次に、発表者装置100が実行する処理の具体例を示す。
図7は、実施の形態1の発表者装置が実行する処理の具体例を示す図である。聴講者装置200は、“xxxを詳しく教えてください。”という文字情報を発表者装置100に送信する。
図7は、実施の形態1の発表者装置が実行する処理の具体例を示す図である。聴講者装置200は、“xxxを詳しく教えてください。”という文字情報を発表者装置100に送信する。
発表者装置100は、文字情報を取得する。発表者装置100は、文字情報を解析する。発表者装置100は、文字情報が詳細な説明の要求であることを検出する。発表者装置100は、アバタ302の個性に応じた文章を生成する。例えば、発表者装置100は、“xxxについて質問が来ているよ。”という文章を生成する。発表者装置100は、生成された文章に基づいて、音情報を生成する。発表者装置100は、アバタ302を含む画面を生成する。発表者装置100は、音情報に基づく音と、画面とが発表者に提供されるように、制御を行う。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
ここで、例えば、範囲303には、聴講者が入力した文字“xxxを詳しく教えてください。”が、表示される。しかし、発表者が熱中してプレゼンテーションを行っているとき、発表者は、範囲303を見ない場合がある。すなわち、発表者は、聴講者の反応に気付かない場合がある。
実施の形態1によれば、発表者は、アバタ302が発話する音を聞く。そのため、発表者は、聴講者の反応に気付く。よって、発表者装置100は、当該音が発表者に提供されるための制御を行うことで、聴講者の反応を発表者に気付かせることができる。
また、例えば、発表者は、アバタ302が発話する音を聞けば、詳細な説明の要求を知ることができる。そのため、発表者は、範囲303を読まなくて済む。よって、発表者装置100は、発表者の負担を軽減できる。
また、例えば、発表者は、アバタ302が発話する音を聞けば、詳細な説明の要求を知ることができる。そのため、発表者は、範囲303を読まなくて済む。よって、発表者装置100は、発表者の負担を軽減できる。
発表者は、アバタ302の個性に応じた文章に基づく音を聞く。すなわち、発表者は、アバタ302の一貫した話し方を聞く。ここで、例えば、アバタ302が複数の話し方を行う場合、発表者は、話し方の変化が気になり、アバタ302の発話を聞き逃すことがある。そのため、発表者装置100は、一貫した話し方の音をスピーカ(例えば、スピーカ320)から出力させる。これにより、発表者装置100は、発表者がアバタ302の発話を聞き逃すことを防ぐことができる。また、アバタ301とアバタ302とが画面に表示されている場合、発表者は、アバタ302の個性に応じた文章に基づく音がスピーカから出力されることで、どちらのアバタが発話しているのかを認識できる。そのため、発表者は、混乱せずに、アバタ302の発話を聞くことができる。また、後述するように、発表者装置100は、アバタ302が発話する音を聴講者が聞くように、聴講者装置200を制御することができる。これにより、聴講者は、アバタ302の個性に応じた文章に基づく音を聞く。すなわち、聴講者は、アバタ302の一貫した話し方を聞く。発表者に対する効果と同様に、発表者装置100は、聴講者がアバタ302の発話を聞き逃すことを防ぐことができる。また、聴講者は、混乱せずに、アバタ302の発話を聞くことができる。
また、発表者装置100は、文章を発表者に提供してもよい。詳細に処理を説明する。生成部140は、文字情報に基づいて文章を生成する。なお、当該文章は、アバタ302の個性に応じた文章ではない。すなわち、当該文章は、一般的な文章(例えば、丁寧な文章)である。提供制御部150は、出力情報として当該文章が、発表者に提供されるように、制御を行う。例えば、提供制御部150は、当該文章がディスプレイ300に表示されるための制御を行う。このように、発表者装置100は、当該文章が発表者に提供されるように、制御を行うことで、聴講者の反応を発表者に気付かせることができる。
また、生成部140は、当該文章(例えば、丁寧な文章)に基づいて、音情報を生成してもよい。提供制御部150は、生成された音情報に基づく音が発表者に提供されるように、制御を行ってもよい。例えば、提供制御部150は、音情報に基づく音がスピーカ320から出力されるための制御を行う。
さらに、生成部140は、当該文章(例えば、丁寧な文章)に基づいて、音情報を生成し、アバタ302を含む画面を生成してもよい。提供制御部150は、生成された音情報に基づく音と当該画面が発表者に提供されるように、制御を行ってもよい。
提供制御部150は、次の処理を実行してもよい。提供制御部150は、生成された画面がディスプレイ300に表示されるように、制御を行う。提供制御部150は、画面の中のアバタ302の位置に音像が形成されるように、制御を行う。例えば、提供制御部150は、アバタ302の位置に音像が形成されるように、スピーカ320とスピーカ321とを制御する。このように、アバタ302の位置に音像が形成されることで、発表者は、アバタ302が本当に話しているように感じることができる。
また、提供制御部150は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるように、制御を行ってもよい。例えば、提供制御部150は、当該音情報と当該画面とを聴講者装置200に送信する。また、提供制御部150は、当該音情報に基づく音の出力指示と当該画面の表示指示を聴講者装置200に送信する。これにより、聴講者は、アバタ302が発話する音を聞くことができる。そして、聴講者は、文字情報が示す詳細な説明の要求又は質問が発表者に伝わっていることを認識できる。
さらに、提供制御部150は、ディスプレイ400に表示される画面の中のアバタ302の位置に音像が形成されるように、制御を行ってもよい。例えば、提供制御部150は、音像の形成指示を聴講者装置200に送信する。聴講者装置200は、アバタ302の位置に音像が形成されるように、聴講者側の複数のスピーカを制御する。このように、アバタ302の位置に音像が形成されることで、聴講者は、アバタ302が本当に話しているように感じることができる。
生成部140は、画面に表示されるアバタの数を変更してもよい。詳細には、生成部140は、発表者の発表中に、画面に表示されるアバタの数を変更してもよい。例えば、アバタ302が発話する場合、生成部140は、アバタ302のみが表示されている画面を生成する。すなわち、アバタ301は、画面に表示されない。これにより、発表者は、どのアバタを注目して話を聞いたらよいのか分かる。
実施の形態1では、聴講者が理解していないことを示す情報として、文字情報を例示した。実施の形態1の変形例1~4では、当該情報が文字情報以外である場合を説明する。
実施の形態1の変形例1.
図8は、実施の形態1の変形例1の発表者装置が実行する処理の例を示すフローチャートである。
(ステップS21)取得部120は、音声信号を取得する。例えば、取得部120は、音声信号を聴講者装置200から取得する。また、取得部120は、外部装置を介して、音声信号を聴講者装置200から取得してもよい。音声信号は、聴講者の音声の信号である。なお、聴講者装置200は、音声信号をマイク410から取得することができる。
また、提供制御部150は、当該音声信号に基づく音がスピーカ(例えば、スピーカ320)から出力されるための制御を行う。さらに、提供制御部150は、当該音声信号に基づく発話内容が、チャットの内容として、ディスプレイ300に表示されるための制御を行ってもよい。
図8は、実施の形態1の変形例1の発表者装置が実行する処理の例を示すフローチャートである。
(ステップS21)取得部120は、音声信号を取得する。例えば、取得部120は、音声信号を聴講者装置200から取得する。また、取得部120は、外部装置を介して、音声信号を聴講者装置200から取得してもよい。音声信号は、聴講者の音声の信号である。なお、聴講者装置200は、音声信号をマイク410から取得することができる。
また、提供制御部150は、当該音声信号に基づく音がスピーカ(例えば、スピーカ320)から出力されるための制御を行う。さらに、提供制御部150は、当該音声信号に基づく発話内容が、チャットの内容として、ディスプレイ300に表示されるための制御を行ってもよい。
(ステップS22)解析制御部130は、音声信号に基づいて、聴講者の発話内容を検出する。例えば、解析制御部130は、公知の音声認識技術と音声信号とを用いて、聴講者の発話内容を検出する。例えば、発話内容は、“xxxを詳しく教えてください。”である。また、例えば、発話内容は、“xxxとは、yyyということですか。”である。
このように、解析制御部130は、文字情報である発話内容を検出することができる。
このように、解析制御部130は、文字情報である発話内容を検出することができる。
(ステップS23)解析制御部130は、聴講者の発話内容を解析する。例えば、解析制御部130は、形態素解析を用いて、発話内容が詳細な説明の要求又は質問であるか否かを解析する。
(ステップS24)解析制御部130は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。条件を満たす場合、処理は、ステップS14に進む。条件を満たさない場合、処理は、終了する。
(ステップS24)解析制御部130は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。条件を満たす場合、処理は、ステップS14に進む。条件を満たさない場合、処理は、終了する。
(ステップS25)取得部120は、管理テーブル111を記憶部110から取得する。生成部140は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。例えば、生成された文章は、“xxxについて質問が来ているよ。”である。
(ステップS26)生成部140は、生成された文章に基づいて、音情報を生成する。
(ステップS27)生成部140は、アバタ302を含む画面を生成する。例えば、生成部140は、口が開いているアバタ302を含む画面を生成する。
(ステップS28)提供制御部150は、出力情報として、音情報に基づく音と画面とが、発表者に提供されるように、制御を行う。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
(ステップS27)生成部140は、アバタ302を含む画面を生成する。例えば、生成部140は、口が開いているアバタ302を含む画面を生成する。
(ステップS28)提供制御部150は、出力情報として、音情報に基づく音と画面とが、発表者に提供されるように、制御を行う。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
ここで、例えば、スピーカ320から聴講者の音声が出力される。例えば、音声内容は、“xxxを詳しく教えてください。”である。しかし、発表者が熱中してプレゼンテーションを行っているとき、発表者は、当該音声に気付かない場合がある。すなわち、発表者は、聴講者の反応に気付かない場合がある。
実施の形態1の変形例1によれば、発表者は、改めて、アバタ302が発話する音(すなわち、聴講者の音声内容に基づく音)を聞く。そのため、発表者は、聴講者の反応に気付く。よって、発表者装置100は、当該音が発表者に提供されるための制御を行うことで、聴講者の反応を発表者に気付かせることができる。
また、発表者がディスプレイ300を見ており、アバタ302の口が開いており、かつアバタ302が発話する音を発表者が聞いた場合、発表者が気付く確率が、向上する。
また、提供制御部150は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。これにより、聴講者は、アバタ302が発話する音を聞くことができる。そして、聴講者は、自分の発話が示す詳細な説明の要求又は質問が発表者に伝わっていることを認識できる。
実施の形態1の変形例2.
図9は、実施の形態1の変形例2の発表者装置が実行する処理の例を示すフローチャートである。
(ステップS31)取得部120は、音声信号を取得する。例えば、取得部120は、音声信号をマイク310から取得する。音声信号は、発表者の音声の信号である。
(ステップS32)解析制御部130は、音声信号に基づいて、発表者の発話内容を検出する。例えば、解析制御部130は、公知の音声認識技術と音声信号とを用いて、発表者の発話内容を検出する。例えば、発話内容は、“xxxは、このようになります。”である。
このように、解析制御部130は、文字情報である発話内容を検出することができる。
図9は、実施の形態1の変形例2の発表者装置が実行する処理の例を示すフローチャートである。
(ステップS31)取得部120は、音声信号を取得する。例えば、取得部120は、音声信号をマイク310から取得する。音声信号は、発表者の音声の信号である。
(ステップS32)解析制御部130は、音声信号に基づいて、発表者の発話内容を検出する。例えば、解析制御部130は、公知の音声認識技術と音声信号とを用いて、発表者の発話内容を検出する。例えば、発話内容は、“xxxは、このようになります。”である。
このように、解析制御部130は、文字情報である発話内容を検出することができる。
(ステップS33)解析制御部130は、発話内容を記憶部110に格納する。解析制御部130は、発話内容を外部装置に格納してもよい。
ここで、ディスプレイ400には、ボタンが表示されている。当該ボタンは、聴講者が発表者の説明を理解できない場合に押下される。例えば、聴講者は、発表者の説明を理解できない場合、マウスを用いて、当該ボタンを押下する。聴講者装置200は、当該ボタンが押下された場合、ボタン情報を生成する。ボタン情報は、聴講者が理解していないことを示す情報である。聴講者装置200は、ボタン情報を発表者装置100に送信する。
(ステップS34)取得部120は、ボタン情報を取得する。例えば、取得部120は、ボタン情報を聴講者装置200から取得する。取得部120は、外部装置を介して、ボタン情報を聴講者装置200から取得してもよい。
(ステップS35)取得部120は、管理テーブル111を記憶部110から取得する。生成部140は、管理テーブル111と発話内容である文字情報とに基づいて、アバタの個性に応じた文章を生成する。例えば、生成された文章は、“xxxの説明を再びお願い。”である。
(ステップS36)生成部140は、生成された文章に基づいて、音情報を生成する。
(ステップS37)生成部140は、アバタ302を含む画面を生成する。例えば、生成部140は、口が開いているアバタ302を含む画面を生成する。
(ステップS38)提供制御部150は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
(ステップS37)生成部140は、アバタ302を含む画面を生成する。例えば、生成部140は、口が開いているアバタ302を含む画面を生成する。
(ステップS38)提供制御部150は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
ここで、発表者が熱中してプレゼンテーションを行っているとき、発表者は、聴講者の反応に気付かない場合がある。また、発表者が、聴講者の反応に気付かないで、発話を続けることは、聴講者の理解度を低下させる。
実施の形態1の変形例2によれば、発表者装置100は、ボタン情報を取得した場合、アバタ302が発話する音が発表者に提供されるための制御を行う。これにより、発表者は、アバタ302が発話する音を聞く。発表者は、当該音を聞くことで、聴講者が理解していないということ(すなわち、聴講者の反応)に気付く。よって、発表者装置100は、当該音が発表者に提供されるための制御を行うことで、聴講者の反応を発表者に気付かせることができる。
また、提供制御部150は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。これにより、聴講者は、アバタ302が発話する音を聞くことができる。そして、聴講者は、自分が発表者の説明を理解していないことが、発表者に伝わっていることを認識できる。これにより、聴講者は、発表者が再び説明してくれることを期待できる。
実施の形態1の変形例3.
図10は、実施の形態1の変形例3の発表者装置が実行する処理の例を示すフローチャートである。
(ステップS41)取得部120は、音声信号を取得する。例えば、取得部120は、音声信号をマイク310から取得する。音声信号は、発表者の音声の信号である。
(ステップS42)解析制御部130は、音声信号に基づいて、発表者の発話内容を検出する。例えば、解析制御部130は、公知の音声認識技術と音声信号とを用いて、発表者の発話内容を検出する。例えば、発話内容は、“xxxは、このようになります。”である。
図10は、実施の形態1の変形例3の発表者装置が実行する処理の例を示すフローチャートである。
(ステップS41)取得部120は、音声信号を取得する。例えば、取得部120は、音声信号をマイク310から取得する。音声信号は、発表者の音声の信号である。
(ステップS42)解析制御部130は、音声信号に基づいて、発表者の発話内容を検出する。例えば、解析制御部130は、公知の音声認識技術と音声信号とを用いて、発表者の発話内容を検出する。例えば、発話内容は、“xxxは、このようになります。”である。
(ステップS43)解析制御部130は、発話内容を記憶部110に格納する。解析制御部130は、発話内容を外部装置に格納してもよい。
ここで、聴講者装置200は、聴講者の目を含む画像を撮像装置420から取得する。聴講者装置200は、当該画像を発表者装置100に送信する。
(ステップS44)取得部120は、当該画像を取得する。例えば、取得部120は、当該画像を聴講者装置200から取得する。取得部120は、外部装置を介して、当該画像を聴講者装置200から取得してもよい。
(ステップS45)解析制御部130は、当該画像に基づいて、聴講者の視線を解析する。例えば、解析制御部130は、当該画像に含まれている目の瞳孔の位置に基づいて、聴講者の視線を解析する。
(ステップS45)解析制御部130は、当該画像に基づいて、聴講者の視線を解析する。例えば、解析制御部130は、当該画像に含まれている目の瞳孔の位置に基づいて、聴講者の視線を解析する。
(ステップS46)解析制御部130は、解析の結果に基づいて、聴講者が理解しているか否かを判定する。例えば、解析の結果が、聴講者の視線が上方向であることを示している場合、解析制御部130は、聴講者が理解していないと判定する。
聴講者が理解している場合、処理は、終了する。聴講者が理解していない場合、処理は、ステップS47に進む。
聴講者が理解している場合、処理は、終了する。聴講者が理解していない場合、処理は、ステップS47に進む。
(ステップS47)取得部120は、管理テーブル111を記憶部110から取得する。生成部140は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。例えば、生成された文章は、“xxxの説明を再びお願い。”である。
(ステップS48)生成部140は、生成された文章に基づいて、音情報を生成する。
(ステップS49)生成部140は、アバタ302を含む画面を生成する。例えば、生成部140は、口が開いているアバタ302を含む画面を生成する。
(ステップS50)提供制御部150は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
(ステップS49)生成部140は、アバタ302を含む画面を生成する。例えば、生成部140は、口が開いているアバタ302を含む画面を生成する。
(ステップS50)提供制御部150は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
ここで、発表者が熱中してプレゼンテーションを行っているとき、発表者は、聴講者の反応に気付かない場合がある。また、発表者が、聴講者の反応に気付かないで、発話を続けることは、聴講者の理解度を低下させる。
実施の形態1の変形例3によれば、発表者装置100は、聴講者が理解していないことが、解析された場合、アバタ302が発話する音が発表者に提供されるための制御を行う。これにより、発表者は、アバタ302が発話する音を聞く。発表者は、当該音を聞くことで、聴講者が理解していないということ(すなわち、聴講者の反応)に気付く。よって、発表者装置100は、当該音が発表者に提供されるための制御を行うことで、聴講者の反応を発表者に気付かせることができる。
また、提供制御部150は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。これにより、聴講者は、アバタ302が発話する音を聞くことができる。そして、聴講者は、自分が発表者の説明を理解していないことが、発表者に伝わっていることを認識できる。これにより、聴講者は、発表者が再び説明してくれることを期待できる。
実施の形態1の変形例4.
図11は、実施の形態1の変形例4の発表者装置が実行する処理の例を示すフローチャートである。
(ステップS51)取得部120は、音声信号を取得する。例えば、取得部120は、音声信号をマイク310から取得する。音声信号は、発表者の音声の信号である。
(ステップS52)解析制御部130は、音声信号に基づいて、発表者の発話内容を検出する。例えば、解析制御部130は、公知の音声認識技術と音声信号とを用いて、発表者の発話内容を検出する。
(ステップS53)解析制御部130は、発話内容を記憶部110に格納する。解析制御部130は、発話内容を外部装置に格納してもよい。
図11は、実施の形態1の変形例4の発表者装置が実行する処理の例を示すフローチャートである。
(ステップS51)取得部120は、音声信号を取得する。例えば、取得部120は、音声信号をマイク310から取得する。音声信号は、発表者の音声の信号である。
(ステップS52)解析制御部130は、音声信号に基づいて、発表者の発話内容を検出する。例えば、解析制御部130は、公知の音声認識技術と音声信号とを用いて、発表者の発話内容を検出する。
(ステップS53)解析制御部130は、発話内容を記憶部110に格納する。解析制御部130は、発話内容を外部装置に格納してもよい。
ここで、聴講者装置200は、聴講者の顔を含む画像を撮像装置420から取得する。聴講者装置200は、当該画像を発表者装置100に送信する。
(ステップS54)取得部120は、当該画像を取得する。例えば、取得部120は、当該画像を聴講者装置200から取得する。取得部120は、外部装置を介して、当該画像を聴講者装置200から取得してもよい。
(ステップS55)解析制御部130は、当該画像に基づいて、聴講者の表情を解析する。例えば、解析制御部130は、当該画像と学習済モデルとを用いて、聴講者の表情を解析する。
(ステップS55)解析制御部130は、当該画像に基づいて、聴講者の表情を解析する。例えば、解析制御部130は、当該画像と学習済モデルとを用いて、聴講者の表情を解析する。
(ステップS56)解析制御部130は、解析の結果に基づいて、聴講者が理解しているか否かを判定する。例えば、解析の結果が、聴講者の表情が理解していないときの表情であることを示している場合、解析制御部130は、聴講者が理解していないと判定する。
聴講者が理解している場合、処理は、終了する。聴講者が理解していない場合、処理は、ステップS57に進む。
聴講者が理解している場合、処理は、終了する。聴講者が理解していない場合、処理は、ステップS57に進む。
(ステップS57)取得部120は、管理テーブル111を記憶部110から取得する。生成部140は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップS58)生成部140は、生成された文章に基づいて、音情報を生成する。
(ステップS59)生成部140は、アバタ302を含む画面を生成する。例えば、生成部140は、口が開いているアバタ302を含む画面を生成する。
(ステップS58)生成部140は、生成された文章に基づいて、音情報を生成する。
(ステップS59)生成部140は、アバタ302を含む画面を生成する。例えば、生成部140は、口が開いているアバタ302を含む画面を生成する。
(ステップS60)提供制御部150は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
これにより、発表者は、アバタ302が発話する当該音を聞くことができる。
ここで、発表者が熱中してプレゼンテーションを行っているとき、発表者は、聴講者の反応に気付かない場合がある。また、発表者が、聴講者の反応に気付かないで、発話を続けることは、聴講者の理解度を低下させる。
実施の形態1の変形例4によれば、発表者装置100は、聴講者が理解していないことが、解析された場合、アバタ302が発話する音が発表者に提供されるための制御を行う。これにより、発表者は、アバタ302が発話する音を聞く。発表者は、当該音を聞くことで、聴講者が理解していないということ(すなわち、聴講者の反応)に気付く。よって、発表者装置100は、当該音が発表者に提供されるための制御を行うことで、聴講者の反応を発表者に気付かせることができる。
また、提供制御部150は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。これにより、聴講者は、アバタ302が発話する音を聞くことができる。そして、聴講者は、自分が発表者の説明を理解していないことが、発表者に伝わっていることを認識できる。これにより、聴講者は、発表者が再び説明してくれることを期待できる。
実施の形態2.
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
実施の形態1では、発表者装置100が主な処理を行う場合を説明した。実施の形態2では、サーバが主な処理を行う場合を説明する。
次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
実施の形態1では、発表者装置100が主な処理を行う場合を説明した。実施の形態2では、サーバが主な処理を行う場合を説明する。
図12は、実施の形態2の通信システムを示す図である。通信システムは、サーバ500、発表者装置600、及び聴講者装置700を含む。サーバ500、発表者装置600、及び聴講者装置700は、ネットワークを介して、通信する。
サーバ500は、情報処理装置とも言う。例えば、サーバ500は、クラウドサーバである。サーバ500は、制御方法を実行する装置である。サーバ500は、プロセッサ、揮発性記憶装置、及び不揮発性記憶装置を有する。サーバ500は、処理回路を有してもよい。
発表者装置600は、発表者が用いる装置である。例えば、発表者装置600は、PC(Personal Computer)である。発表者装置600には、ディスプレイ、マイク、及び1以上のスピーカが接続されている。また、発表者装置600は、ディスプレイ、マイク、及び1以上のスピーカのうちの少なくとも1つを有してもよい。当該ディスプレイ、当該マイク、及び当該1以上のスピーカは、発表者側のディスプレイ、マイク、及び1以上のスピーカと呼んでもよい。
聴講者装置700は、聴講者が用いる装置である。例えば、聴講者装置700は、PCである。聴講者装置700には、ディスプレイ、マイク、撮像装置、及び1以上のスピーカが接続されている。聴講者装置700は、ディスプレイ、マイク、撮像装置、及び1以上のスピーカのうちの少なくとも1つを有してもよい。当該ディスプレイ、当該マイク、当該撮像装置、及び当該1以上のスピーカは、聴講者側のディスプレイ、マイク、撮像装置、及び1以上のスピーカと呼んでもよい。
発表者は、発表者装置600のディスプレイに表示された画面を見ながら、プレゼンテーションなどを行う。実施の形態1と同じように、当該画面は、聴講者側のディスプレイにも表示されている。
次に、サーバ500が有する機能を説明する。
図13は、実施の形態2のサーバが有する機能のブロック図である。サーバ500は、記憶部510、取得部520、解析制御部530、生成部540、及び提供制御部550を有する。
図13は、実施の形態2のサーバが有する機能のブロック図である。サーバ500は、記憶部510、取得部520、解析制御部530、生成部540、及び提供制御部550を有する。
記憶部510は、サーバ500が有する揮発性記憶装置又は不揮発性記憶装置に確保した記憶領域として実現してもよい。
取得部520、解析制御部530、生成部540、及び提供制御部550の一部又は全部は、サーバが有する処理回路によって実現してもよい。また、取得部520、解析制御部530、生成部540、及び提供制御部550の一部又は全部は、サーバ500が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。例えば、当該プロセッサが実行するプログラムは、制御プログラムとも言う。例えば、制御プログラムは、記録媒体に記録されている。
取得部520、解析制御部530、生成部540、及び提供制御部550の一部又は全部は、サーバが有する処理回路によって実現してもよい。また、取得部520、解析制御部530、生成部540、及び提供制御部550の一部又は全部は、サーバ500が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。例えば、当該プロセッサが実行するプログラムは、制御プログラムとも言う。例えば、制御プログラムは、記録媒体に記録されている。
記憶部510は、様々な情報を記憶する。例えば、記憶部510は、管理テーブル111を記憶する。
取得部520は、聴講者が理解していないことを示す情報を取得する。当該情報は、聴講者が発表者の説明を理解していないことを示す情報と表現してもよい。例えば、取得部520は、当該情報を聴講者装置700から取得する。また、例えば、当該情報は、聴講者からの詳細な説明の要求、又は聴講者からの質問である。
取得部520は、聴講者が理解していないことを示す情報を取得する。当該情報は、聴講者が発表者の説明を理解していないことを示す情報と表現してもよい。例えば、取得部520は、当該情報を聴講者装置700から取得する。また、例えば、当該情報は、聴講者からの詳細な説明の要求、又は聴講者からの質問である。
解析制御部530の機能は、後で説明する。
生成部540は、聴講者が理解していないことを示す情報が取得された場合、発表者への出力情報を生成する。
提供制御部550は、出力情報が発表者に提供されるように、制御を行う。言い換えれば、提供制御部550は、出力情報が発表者に提供されるための制御を行う。
生成部540は、聴講者が理解していないことを示す情報が取得された場合、発表者への出力情報を生成する。
提供制御部550は、出力情報が発表者に提供されるように、制御を行う。言い換えれば、提供制御部550は、出力情報が発表者に提供されるための制御を行う。
次に、通信システムで実行される処理を、シーケンス図を用いて、説明する。
図14は、実施の形態2の通信システムで実行される処理の例を示すシーケンス図である。上述したように、サーバ500は、発表者装置100と同様の処理を行う。そのため、詳細な説明は、省略する。
(ステップST101)聴講者装置700は、文字情報をサーバ500に送信する。
これにより、文字情報は、取得部520に取得される。また、取得部520は、外部装置を介して、文字情報を取得してもよい。
(ステップST102)解析制御部530は、文字情報を解析する。
(ステップST103)解析制御部530は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。解析の結果が、詳細な説明の要求又は質問であるものとする。
図14は、実施の形態2の通信システムで実行される処理の例を示すシーケンス図である。上述したように、サーバ500は、発表者装置100と同様の処理を行う。そのため、詳細な説明は、省略する。
(ステップST101)聴講者装置700は、文字情報をサーバ500に送信する。
これにより、文字情報は、取得部520に取得される。また、取得部520は、外部装置を介して、文字情報を取得してもよい。
(ステップST102)解析制御部530は、文字情報を解析する。
(ステップST103)解析制御部530は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。解析の結果が、詳細な説明の要求又は質問であるものとする。
(ステップST104)取得部520は、管理テーブル111を取得する。例えば、取得部520は、管理テーブル111を記憶部510から取得する。また、例えば、取得部520は、管理テーブル111を外部装置から取得する。生成部540は、管理テーブル111と文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップST105)生成部540は、生成された文章に基づいて、音情報を生成する。
(ステップST105)生成部540は、生成された文章に基づいて、音情報を生成する。
(ステップST106)生成部540は、アバタ302を含む画面を生成する。
(ステップST107)提供制御部550は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該音情報と当該画面を発表者装置600に送信する。提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示とを発表者装置600に送信する。
(ステップST107)提供制御部550は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該音情報と当該画面を発表者装置600に送信する。提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示とを発表者装置600に送信する。
(ステップST108)発表者装置600は、当該音情報に基づく音が1以上のスピーカから出力されるための制御を行う。また、発表者装置600は、当該画面がディスプレイに表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
実施の形態2によれば、発表者は、アバタ302が発話する音を聞く。そのため、発表者は、聴講者の反応に気付く。よって、サーバ500は、当該音が発表者に提供されるための制御を行うことで、聴講者の反応を発表者に気付かせることができる。
また、発表者装置600は、文章を発表者に提供してもよい。詳細に処理を説明する。生成部540は、文字情報に基づいて文章を生成する。なお、当該文章は、アバタ302の個性に応じた文章ではない。すなわち、当該文章は、一般的な文章(例えば、丁寧な文章)である。提供制御部550は、出力情報として当該文章が、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該文章と、当該文章の表示指示を発表者装置600に送信する。発表者装置600は、当該文章が発表者側のディスプレイに表示されるための制御を行う。これにより、当該文章が、発表者に提供される。
また、生成部540は、当該文章(例えば、丁寧な文章)に基づいて、音情報を生成してもよい。提供制御部550は、生成された音情報に基づく音が発表者に提供されるように、制御を行ってもよい。
さらに、生成部540は、当該文章(例えば、丁寧な文章)に基づいて、音情報を生成し、アバタ302を含む画面を生成してもよい。提供制御部550は、生成された音情報に基づく音と当該画面が発表者に提供されるように、制御を行ってもよい。
提供制御部550は、次の処理を実行してもよい。提供制御部550は、生成された画面が発表者側のディスプレイに表示されるように、制御を行う。また、提供制御部150は、当該画面の中のアバタ302の位置に音像が形成されるように、制御を行う。例えば、提供制御部550は、音像の形成指示を発表者装置600に送信する。発表者装置600は、アバタ302の位置に音像が複数のスピーカによって形成されるための制御を行う。これにより、アバタ302の位置に音像が形成される。
また、提供制御部550は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるように、制御を行ってもよい。例えば、提供制御部550は、当該音情報と当該画面とを聴講者装置700に送信する。また、提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示を聴講者装置700に送信する。これにより、聴講者は、アバタ302が発話する音を聞くことができる。
さらに、提供制御部550は、聴講者側のディスプレイに表示される画面の中のアバタ302の位置に音像が形成されるように、制御を行ってもよい。例えば、提供制御部550は、音像の形成指示を聴講者装置700に送信する。聴講者装置700は、アバタ302の位置に音像が複数のスピーカによって形成されるための制御を行う。これにより、アバタ302の位置に音像が形成される。
生成部540は、画面に表示されるアバタの数を変更してもよい。詳細には、生成部540は、発表者の発表中に、画面に表示されるアバタの数を変更してもよい。例えば、アバタ302が発話する場合、生成部540は、アバタ302のみが表示されている画面を生成する。すなわち、アバタ301は、画面に表示されない。これにより、発表者は、どのアバタを注目して話を聞いたらよいのか分かる。
実施の形態2の変形例1.
実施の形態2の変形例1では、実施の形態1の変形例1と同様の処理をサーバ500が実行する。そのため、詳細な説明は、省略する。
図15は、実施の形態2の変形例1の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST111)聴講者装置700は、音声信号をサーバ500に送信する。なお、音声信号は、聴講者の音声の信号である。
これにより、音声信号は、取得部520に取得される。また、取得部520は、外部装置を介して、音声信号を取得してもよい。
また、提供制御部550は、当該音声信号に基づく音が発表者側のスピーカから出力されるための制御を行う。さらに、提供制御部550は、当該音声信号に基づく発話内容が、チャットの内容として、発表者側のディスプレイに表示されるための制御を行ってもよい。
実施の形態2の変形例1では、実施の形態1の変形例1と同様の処理をサーバ500が実行する。そのため、詳細な説明は、省略する。
図15は、実施の形態2の変形例1の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST111)聴講者装置700は、音声信号をサーバ500に送信する。なお、音声信号は、聴講者の音声の信号である。
これにより、音声信号は、取得部520に取得される。また、取得部520は、外部装置を介して、音声信号を取得してもよい。
また、提供制御部550は、当該音声信号に基づく音が発表者側のスピーカから出力されるための制御を行う。さらに、提供制御部550は、当該音声信号に基づく発話内容が、チャットの内容として、発表者側のディスプレイに表示されるための制御を行ってもよい。
(ステップST112)解析制御部530は、音声信号に基づいて、聴講者の発話内容を検出する。
(ステップST113)解析制御部530は、聴講者の発話内容を解析する。
(ステップST114)解析制御部530は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。解析の結果が、詳細な説明の要求又は質問であるものとする。
(ステップST113)解析制御部530は、聴講者の発話内容を解析する。
(ステップST114)解析制御部530は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。解析の結果が、詳細な説明の要求又は質問であるものとする。
(ステップST115)取得部520は、管理テーブル111を記憶部510から取得する。生成部540は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップST116)生成部540は、生成された文章に基づいて、音情報を生成する。
(ステップST116)生成部540は、生成された文章に基づいて、音情報を生成する。
(ステップST117)生成部540は、アバタ302を含む画面を生成する。
(ステップST118)提供制御部550は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該音情報と当該画面を発表者装置600に送信する。提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置600に送信する。
(ステップST118)提供制御部550は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該音情報と当該画面を発表者装置600に送信する。提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置600に送信する。
(ステップST119)発表者装置600は、当該音情報に基づく音が1以上のスピーカから出力されるための制御を行う。また、発表者装置600は、当該画面がディスプレイに表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
実施の形態2の変形例1によれば、サーバ500は、聴講者の反応を発表者に気付かせることができる。
また、提供制御部550は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
また、提供制御部550は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
実施の形態2の変形例2.
実施の形態2の変形例2では、実施の形態1の変形例2と同様の処理をサーバ500が実行する。そのため、詳細な説明は、省略する。
図16は、実施の形態2の変形例2の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST121)発表者装置600は、音声信号をサーバ500に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部520に取得される。また、取得部520は、外部装置を介して、音声信号を取得してもよい。
実施の形態2の変形例2では、実施の形態1の変形例2と同様の処理をサーバ500が実行する。そのため、詳細な説明は、省略する。
図16は、実施の形態2の変形例2の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST121)発表者装置600は、音声信号をサーバ500に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部520に取得される。また、取得部520は、外部装置を介して、音声信号を取得してもよい。
(ステップST122)解析制御部530は、音声信号に基づいて、発表者の発話内容を検出する。解析制御部530は、発話内容を記憶部510に格納する。
(ステップST123)聴講者装置700は、ボタン情報をサーバ500に送信する。
これにより、ボタン情報は、取得部520に取得される。また、取得部520は、外部装置を介して、ボタン情報を取得してもよい。
(ステップST123)聴講者装置700は、ボタン情報をサーバ500に送信する。
これにより、ボタン情報は、取得部520に取得される。また、取得部520は、外部装置を介して、ボタン情報を取得してもよい。
(ステップST124)取得部520は、管理テーブル111を記憶部510から取得する。生成部540は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップST125)生成部540は、生成された文章に基づいて、音情報を生成する。
(ステップST125)生成部540は、生成された文章に基づいて、音情報を生成する。
(ステップST126)生成部540は、アバタ302を含む画面を生成する。
(ステップST127)提供制御部550は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該音情報と当該画面を発表者装置600に送信する。提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置600に送信する。
(ステップST127)提供制御部550は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該音情報と当該画面を発表者装置600に送信する。提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置600に送信する。
(ステップST128)発表者装置600は、当該音情報に基づく音が1以上のスピーカから出力されるための制御を行う。また、発表者装置600は、当該画面がディスプレイに表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
実施の形態2の変形例2によれば、サーバ500は、聴講者の反応を発表者に気付かせることができる。
また、提供制御部550は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
また、提供制御部550は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
実施の形態2の変形例3.
実施の形態2の変形例3では、実施の形態1の変形例3と同様の処理をサーバ500が実行する。そのため、詳細な説明は、省略する。
図17は、実施の形態2の変形例3の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST131)発表者装置600は、音声信号をサーバ500に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部520に取得される。また、取得部520は、外部装置を介して、音声信号を取得してもよい。
実施の形態2の変形例3では、実施の形態1の変形例3と同様の処理をサーバ500が実行する。そのため、詳細な説明は、省略する。
図17は、実施の形態2の変形例3の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST131)発表者装置600は、音声信号をサーバ500に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部520に取得される。また、取得部520は、外部装置を介して、音声信号を取得してもよい。
(ステップST132)解析制御部530は、音声信号に基づいて、発表者の発話内容を検出する。解析制御部530は、発話内容を記憶部510に格納する。
(ステップST133)聴講者装置700は、聴講者の目を含む画像をサーバ500に送信する。
これにより、当該画像は、取得部520に取得される。また、取得部520は、外部装置を介して、当該画像を取得してもよい。
(ステップST133)聴講者装置700は、聴講者の目を含む画像をサーバ500に送信する。
これにより、当該画像は、取得部520に取得される。また、取得部520は、外部装置を介して、当該画像を取得してもよい。
(ステップST134)解析制御部530は、当該画像に基づいて、聴講者の視線を解析する。
(ステップST135)解析制御部530は、解析の結果に基づいて、聴講者が理解しているか否かを判定する。例えば、解析の結果が、聴講者の視線が上方向であることを示している場合、解析制御部530は、聴講者が理解していないと判定する。解析の結果が、聴講者が理解していないことを示しているものとする。
(ステップST135)解析制御部530は、解析の結果に基づいて、聴講者が理解しているか否かを判定する。例えば、解析の結果が、聴講者の視線が上方向であることを示している場合、解析制御部530は、聴講者が理解していないと判定する。解析の結果が、聴講者が理解していないことを示しているものとする。
(ステップST136)取得部520は、管理テーブル111を記憶部510から取得する。生成部540は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップST137)生成部540は、生成された文章に基づいて、音情報を生成する。
(ステップST137)生成部540は、生成された文章に基づいて、音情報を生成する。
(ステップST138)生成部540は、アバタ302を含む画面を生成する。
(ステップST139)提供制御部550は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該音情報と当該画面を発表者装置600に送信する。提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置600に送信する。
(ステップST139)提供制御部550は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該音情報と当該画面を発表者装置600に送信する。提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置600に送信する。
(ステップST140)発表者装置600は、当該音情報に基づく音が1以上のスピーカから出力されるための制御を行う。また、発表者装置600は、当該画面がディスプレイに表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
実施の形態2の変形例3によれば、サーバ500は、聴講者の反応を発表者に気付かせることができる。
また、提供制御部550は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
また、提供制御部550は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
実施の形態2の変形例4.
実施の形態2の変形例4では、実施の形態1の変形例4と同様の処理をサーバ500が実行する。そのため、詳細な説明は、省略する。
図18は、実施の形態2の変形例4の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST141)発表者装置600は、音声信号をサーバ500に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部520に取得される。また、取得部520は、外部装置を介して、音声信号を取得してもよい。
実施の形態2の変形例4では、実施の形態1の変形例4と同様の処理をサーバ500が実行する。そのため、詳細な説明は、省略する。
図18は、実施の形態2の変形例4の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST141)発表者装置600は、音声信号をサーバ500に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部520に取得される。また、取得部520は、外部装置を介して、音声信号を取得してもよい。
(ステップST142)解析制御部530は、音声信号に基づいて、発表者の発話内容を検出する。解析制御部530は、発話内容を記憶部510に格納する。
(ステップST143)聴講者装置700は、聴講者の顔を含む画像をサーバ500に送信する。
これにより、当該画像は、取得部520に取得される。また、取得部520は、外部装置を介して、当該画像を取得してもよい。
(ステップST143)聴講者装置700は、聴講者の顔を含む画像をサーバ500に送信する。
これにより、当該画像は、取得部520に取得される。また、取得部520は、外部装置を介して、当該画像を取得してもよい。
(ステップST144)解析制御部530は、当該画像に基づいて、聴講者の表情を解析する。
(ステップST145)解析制御部530は、解析の結果に基づいて、聴講者が理解しているか否かを判定する。例えば、解析の結果が、聴講者の表情が理解していないときの表情であることを示している場合、解析制御部530は、聴講者が理解していないと判定する。解析の結果が、聴講者が理解していないことを示しているものとする。
(ステップST145)解析制御部530は、解析の結果に基づいて、聴講者が理解しているか否かを判定する。例えば、解析の結果が、聴講者の表情が理解していないときの表情であることを示している場合、解析制御部530は、聴講者が理解していないと判定する。解析の結果が、聴講者が理解していないことを示しているものとする。
(ステップST146)取得部520は、管理テーブル111を記憶部510から取得する。生成部540は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップST147)生成部540は、生成された文章に基づいて、音情報を生成する。
(ステップST147)生成部540は、生成された文章に基づいて、音情報を生成する。
(ステップST148)生成部540は、アバタ302を含む画面を生成する。
(ステップST149)提供制御部550は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該音情報と当該画面を発表者装置600に送信する。提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置600に送信する。
(ステップST149)提供制御部550は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部550は、当該音情報と当該画面を発表者装置600に送信する。提供制御部550は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置600に送信する。
(ステップST150)発表者装置600は、当該音情報に基づく音が1以上のスピーカから出力されるための制御を行う。また、発表者装置600は、当該画面がディスプレイに表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
実施の形態2の変形例4によれば、サーバ500は、聴講者の反応を発表者に気付かせることができる。
また、提供制御部550は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
また、提供制御部550は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
実施の形態3.
次に、実施の形態3を説明する。実施の形態3では、実施の形態1と相違する事項を主に説明する。そして、実施の形態3では、実施の形態1と共通する事項の説明を省略する。
実施の形態1では、発表者装置100が主な処理を行う場合を説明した。実施の形態3では、聴講者装置が主な処理を行う場合を説明する。
次に、実施の形態3を説明する。実施の形態3では、実施の形態1と相違する事項を主に説明する。そして、実施の形態3では、実施の形態1と共通する事項の説明を省略する。
実施の形態1では、発表者装置100が主な処理を行う場合を説明した。実施の形態3では、聴講者装置が主な処理を行う場合を説明する。
図19は、実施の形態3の通信システムを示す図である。通信システムは、聴講者装置800及び発表者装置900を含む。聴講者装置800及び発表者装置900は、ネットワークを介して、通信する。
聴講者装置800は、情報処理装置とも言う。聴講者装置800は、制御方法を実行する装置である。聴講者装置800は、プロセッサ、揮発性記憶装置、及び不揮発性記憶装置を有する。聴講者装置800は、処理回路を有してもよい。
聴講者装置800は、聴講者が用いる装置である。聴講者装置800には、ディスプレイ、マイク、撮像装置、及び1以上のスピーカが接続されている。聴講者装置800は、ディスプレイ、マイク、撮像装置、及び1以上のスピーカのうちの少なくとも1つを有してもよい。当該ディスプレイ、当該マイク、当該撮像装置、及び当該1以上のスピーカは、聴講者側のディスプレイ、マイク、撮像装置、及び1以上のスピーカと呼んでもよい。
聴講者装置800は、聴講者が用いる装置である。聴講者装置800には、ディスプレイ、マイク、撮像装置、及び1以上のスピーカが接続されている。聴講者装置800は、ディスプレイ、マイク、撮像装置、及び1以上のスピーカのうちの少なくとも1つを有してもよい。当該ディスプレイ、当該マイク、当該撮像装置、及び当該1以上のスピーカは、聴講者側のディスプレイ、マイク、撮像装置、及び1以上のスピーカと呼んでもよい。
発表者装置900は、発表者が用いる装置である。例えば、発表者装置900は、PCである。発表者装置900には、ディスプレイ、マイク、及び1以上のスピーカが接続されている。また、発表者装置900は、ディスプレイ、マイク、及び1以上のスピーカのうちの少なくとも1つを有してもよい。当該ディスプレイ、当該マイク、及び当該1以上のスピーカは、発表者側のディスプレイ、マイク、及び1以上のスピーカと呼んでもよい。
発表者は、発表者装置900のディスプレイに表示された画面を見ながら、プレゼンテーションなどを行う。実施の形態1と同じように、当該画面は、聴講者側のディスプレイにも表示されている。
次に、聴講者装置800が有する機能を説明する。
図20は、実施の形態3の聴講者装置が有する機能のブロック図である。聴講者装置800は、記憶部810、取得部820、解析制御部830、生成部840、及び提供制御部850を有する。
図20は、実施の形態3の聴講者装置が有する機能のブロック図である。聴講者装置800は、記憶部810、取得部820、解析制御部830、生成部840、及び提供制御部850を有する。
記憶部810は、聴講者装置800が有する揮発性記憶装置又は不揮発性記憶装置に確保した記憶領域として実現してもよい。
取得部820、解析制御部830、生成部840、及び提供制御部850の一部又は全部は、聴講者装置800が有する処理回路によって実現してもよい。また、取得部820、解析制御部830、生成部840、及び提供制御部850の一部又は全部は、聴講者装置800が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。例えば、当該プロセッサが実行するプログラムは、制御プログラムとも言う。例えば、制御プログラムは、記録媒体に記録されている。
取得部820、解析制御部830、生成部840、及び提供制御部850の一部又は全部は、聴講者装置800が有する処理回路によって実現してもよい。また、取得部820、解析制御部830、生成部840、及び提供制御部850の一部又は全部は、聴講者装置800が有するプロセッサが実行するプログラムのモジュールとして実現してもよい。例えば、当該プロセッサが実行するプログラムは、制御プログラムとも言う。例えば、制御プログラムは、記録媒体に記録されている。
記憶部810は、様々な情報を記憶する。例えば、記憶部810は、管理テーブル111を記憶する。
取得部820は、聴講者が理解していないことを示す情報を取得する。当該情報は、聴講者が発表者の説明を理解していないことを示す情報と表現してもよい。また、例えば、当該情報は、聴講者からの詳細な説明の要求、又は聴講者からの質問である。
取得部820は、聴講者が理解していないことを示す情報を取得する。当該情報は、聴講者が発表者の説明を理解していないことを示す情報と表現してもよい。また、例えば、当該情報は、聴講者からの詳細な説明の要求、又は聴講者からの質問である。
解析制御部830の機能は、後で説明する。
生成部840は、聴講者が理解していないことを示す情報が取得された場合、発表者への出力情報を生成する。
提供制御部850は、出力情報が発表者に提供されるように、制御を行う。言い換えれば、提供制御部850は、出力情報が発表者に提供されるための制御を行う。
生成部840は、聴講者が理解していないことを示す情報が取得された場合、発表者への出力情報を生成する。
提供制御部850は、出力情報が発表者に提供されるように、制御を行う。言い換えれば、提供制御部850は、出力情報が発表者に提供されるための制御を行う。
次に、通信システムで実行される処理を、シーケンス図を用いて、説明する。
図21は、実施の形態3の通信システムで実行される処理の例を示すシーケンス図である。上述したように、聴講者装置800は、発表者装置100と同様の処理を行う。そのため、詳細な説明は、省略する。
(ステップST151)取得部820は、文字情報を取得する。例えば、文字情報は、聴講者のキーボード操作により、入力された文字である。
図21は、実施の形態3の通信システムで実行される処理の例を示すシーケンス図である。上述したように、聴講者装置800は、発表者装置100と同様の処理を行う。そのため、詳細な説明は、省略する。
(ステップST151)取得部820は、文字情報を取得する。例えば、文字情報は、聴講者のキーボード操作により、入力された文字である。
(ステップST152)解析制御部830は、文字情報を解析する。
(ステップST153)解析制御部830は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。解析の結果が、詳細な説明の要求又は質問であるものとする。
(ステップST153)解析制御部830は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。解析の結果が、詳細な説明の要求又は質問であるものとする。
(ステップST154)取得部820は、管理テーブル111を取得する。例えば、取得部820は、管理テーブル111を記憶部810から取得する。また、例えば、取得部820は、管理テーブル111を外部装置から取得する。生成部840は、管理テーブル111と文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップST155)生成部840は、生成された文章に基づいて、音情報を生成する。
(ステップST155)生成部840は、生成された文章に基づいて、音情報を生成する。
(ステップST156)生成部840は、アバタ302を含む画面を生成する。
(ステップST157)提供制御部850は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該音情報と当該画面を発表者装置900に送信する。提供制御部850は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置900に送信する。
(ステップST157)提供制御部850は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該音情報と当該画面を発表者装置900に送信する。提供制御部850は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置900に送信する。
(ステップST158)発表者装置900は、当該音情報に基づく音が1以上のスピーカから出力されるための制御を行う。また、発表者装置900は、当該画面がディスプレイに表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
実施の形態3によれば、発表者は、アバタ302が発話する音を聞く。そのため、発表者は、聴講者の反応に気付く。よって、聴講者装置800は、当該音が発表者に提供されるための制御を行うことで、聴講者の反応を発表者に気付かせることができる。
また、発表者装置900は、文章を発表者に提供してもよい。詳細に処理を説明する。生成部840は、文字情報に基づいて文章を生成する。なお、当該文章は、アバタ302の個性に応じた文章ではない。すなわち、当該文章は、一般的な文章(例えば、丁寧な文章)である。提供制御部850は、出力情報として当該文章が、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該文章と、当該文章の表示指示を発表者装置900に送信する。発表者装置900は、当該文章が発表者側のディスプレイに表示されるための制御を行う。これにより、当該文章が、発表者に提供される。
また、生成部840は、当該文章(例えば、丁寧な文章)に基づいて、音情報を生成してもよい。提供制御部850は、生成された音情報に基づく音が発表者に提供されるように、制御を行ってもよい。
さらに、生成部840は、当該文章(例えば、丁寧な文章)に基づいて、音情報を生成し、アバタ302を含む画面を生成してもよい。提供制御部850は、生成された音情報に基づく音と当該画面が発表者に提供されるように、制御を行ってもよい。
提供制御部850は、次の処理を実行してもよい。提供制御部850は、生成された画面が発表者側のディスプレイに表示されるように、制御を行う。提供制御部150は、当該画面の中のアバタ302の位置に音像が形成されるように、制御を行う。例えば、提供制御部850は、音像の形成指示を発表者装置900に送信する。発表者装置900は、アバタ302の位置に音像が複数のスピーカによって形成されるための制御を行う。これにより、アバタ302の位置に音像が形成される。
また、提供制御部850は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるように、制御を行ってもよい。これにより、聴講者は、アバタ302が発話する音を聞くことができる。
さらに、提供制御部850は、聴講者側のディスプレイに表示される画面の中のアバタ302の位置に音像が形成されるように、制御を行ってもよい。これにより、アバタ302の位置に音像が形成される。
生成部840は、画面に表示されるアバタの数を変更してもよい。詳細には、生成部840は、発表者の発表中に、画面に表示されるアバタの数を変更してもよい。例えば、アバタ302が発話する場合、生成部840は、アバタ302のみが表示されている画面を生成する。すなわち、アバタ301は、画面に表示されない。これにより、発表者は、どのアバタを注目して話を聞いたらよいのか分かる。
実施の形態3の変形例1.
実施の形態3の変形例1では、実施の形態1の変形例1と同様の処理を聴講者装置800が実行する。そのため、詳細な説明は、省略する。
図22は、実施の形態3の変形例1の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST161)取得部820は、聴講者側のマイクから音声信号を取得する。なお、音声信号は、聴講者の音声の信号である。
また、提供制御部850は、当該音声信号に基づく音が発表者側のスピーカから出力されるための制御を行う。さらに、提供制御部850は、当該音声信号に基づく発話内容が、チャットの内容として、発表者側のディスプレイに表示されるための制御を行ってもよい。
(ステップST162)解析制御部830は、音声信号に基づいて、聴講者の発話内容を検出する。
実施の形態3の変形例1では、実施の形態1の変形例1と同様の処理を聴講者装置800が実行する。そのため、詳細な説明は、省略する。
図22は、実施の形態3の変形例1の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST161)取得部820は、聴講者側のマイクから音声信号を取得する。なお、音声信号は、聴講者の音声の信号である。
また、提供制御部850は、当該音声信号に基づく音が発表者側のスピーカから出力されるための制御を行う。さらに、提供制御部850は、当該音声信号に基づく発話内容が、チャットの内容として、発表者側のディスプレイに表示されるための制御を行ってもよい。
(ステップST162)解析制御部830は、音声信号に基づいて、聴講者の発話内容を検出する。
(ステップST163)解析制御部830は、発話内容を解析する。
(ステップST164)解析制御部830は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。解析の結果が、詳細な説明の要求又は質問であるものとする。
(ステップST164)解析制御部830は、解析の結果が、詳細な説明の要求又は質問であるか否かを判定する。解析の結果が、詳細な説明の要求又は質問であるものとする。
(ステップST165)取得部820は、管理テーブル111を記憶部810から取得する。生成部840は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップST166)生成部840は、生成された文章に基づいて、音情報を生成する。
(ステップST166)生成部840は、生成された文章に基づいて、音情報を生成する。
(ステップST167)生成部840は、アバタ302を含む画面を生成する。
(ステップST168)提供制御部850は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該音情報と当該画面を発表者装置900に送信する。提供制御部850は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置900に送信する。
(ステップST168)提供制御部850は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該音情報と当該画面を発表者装置900に送信する。提供制御部850は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置900に送信する。
(ステップST169)発表者装置900は、当該音情報に基づく音が1以上のスピーカから出力されるための制御を行う。また、発表者装置900は、当該画面がディスプレイに表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
実施の形態3の変形例1によれば、聴講者装置800は、聴講者の反応を発表者に気付かせることができる。
また、提供制御部850は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
また、提供制御部850は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
実施の形態3の変形例2.
実施の形態3の変形例2では、実施の形態1の変形例2と同様の処理を聴講者装置800が実行する。そのため、詳細な説明は、省略する。
図23は、実施の形態3の変形例2の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST171)発表者装置900は、音声信号を聴講者装置800に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部820に取得される。また、取得部820は、外部装置を介して、音声信号を取得してもよい。
実施の形態3の変形例2では、実施の形態1の変形例2と同様の処理を聴講者装置800が実行する。そのため、詳細な説明は、省略する。
図23は、実施の形態3の変形例2の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST171)発表者装置900は、音声信号を聴講者装置800に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部820に取得される。また、取得部820は、外部装置を介して、音声信号を取得してもよい。
(ステップST172)解析制御部830は、音声信号に基づいて、発表者の発話内容を検出する。解析制御部830は、発話内容を記憶部810に格納する。
(ステップST173)取得部820は、ボタン情報を取得する。取得処理を説明する。聴講者側のディスプレイには、ボタンが表示されている。当該ボタンは、聴講者が発表者の説明を理解できない場合に押下される。例えば、聴講者は、発表者の説明を理解できない場合、マウスを用いて、当該ボタンを押下する。聴講者装置800は、当該ボタンが押下された場合、ボタン情報を生成する。取得部820は、生成されたボタン情報を取得する。
(ステップST173)取得部820は、ボタン情報を取得する。取得処理を説明する。聴講者側のディスプレイには、ボタンが表示されている。当該ボタンは、聴講者が発表者の説明を理解できない場合に押下される。例えば、聴講者は、発表者の説明を理解できない場合、マウスを用いて、当該ボタンを押下する。聴講者装置800は、当該ボタンが押下された場合、ボタン情報を生成する。取得部820は、生成されたボタン情報を取得する。
(ステップST174)取得部820は、管理テーブル111を記憶部810から取得する。生成部840は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップST175)生成部840は、生成された文章に基づいて、音情報を生成する。
(ステップST175)生成部840は、生成された文章に基づいて、音情報を生成する。
(ステップST176)生成部840は、アバタ302を含む画面を生成する。
(ステップST177)提供制御部850は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該音情報と当該画面を発表者装置900に送信する。提供制御部850は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置900に送信する。
(ステップST177)提供制御部850は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該音情報と当該画面を発表者装置900に送信する。提供制御部850は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置900に送信する。
(ステップST178)発表者装置900は、当該音情報に基づく音が1以上のスピーカから出力されるための制御を行う。また、発表者装置900は、当該画面がディスプレイに表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
実施の形態3の変形例2によれば、聴講者装置800は、聴講者の反応を発表者に気付かせることができる。
また、提供制御部850は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
また、提供制御部850は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
実施の形態3の変形例3.
実施の形態3の変形例3では、実施の形態1の変形例3と同様の処理を聴講者装置800が実行する。そのため、詳細な説明は、省略する。
図24は、実施の形態3の変形例3の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST181)発表者装置900は、音声信号を聴講者装置800に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部820に取得される。また、取得部820は、外部装置を介して、音声信号を取得してもよい。
実施の形態3の変形例3では、実施の形態1の変形例3と同様の処理を聴講者装置800が実行する。そのため、詳細な説明は、省略する。
図24は、実施の形態3の変形例3の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST181)発表者装置900は、音声信号を聴講者装置800に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部820に取得される。また、取得部820は、外部装置を介して、音声信号を取得してもよい。
(ステップST182)解析制御部830は、音声信号に基づいて、発表者の発話内容を検出する。解析制御部830は、発話内容を記憶部810に格納する。
(ステップST183)取得部820は、聴講者の目を含む画像を、聴講者側の撮像装置から取得する。
(ステップST184)解析制御部830は、当該画像に基づいて、聴講者の視線を解析する。
(ステップST183)取得部820は、聴講者の目を含む画像を、聴講者側の撮像装置から取得する。
(ステップST184)解析制御部830は、当該画像に基づいて、聴講者の視線を解析する。
(ステップST185)解析制御部830は、解析の結果に基づいて、聴講者が理解しているか否かを判定する。例えば、解析の結果が、聴講者の視線が上方向であることを示している場合、解析制御部830は、聴講者が理解していないと判定する。解析の結果が、聴講者が理解していないことを示しているものとする。
(ステップST186)取得部820は、管理テーブル111を記憶部810から取得する。生成部840は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップST187)生成部840は、生成された文章に基づいて、音情報を生成する。
(ステップST187)生成部840は、生成された文章に基づいて、音情報を生成する。
(ステップST188)生成部840は、アバタ302を含む画面を生成する。
(ステップST189)提供制御部850は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該音情報と当該画面を発表者装置900に送信する。提供制御部850は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置900に送信する。
(ステップST189)提供制御部850は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該音情報と当該画面を発表者装置900に送信する。提供制御部850は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置900に送信する。
(ステップST190)発表者装置900は、当該音情報に基づく音が1以上のスピーカから出力されるための制御を行う。また、発表者装置900は、当該画面がディスプレイに表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
実施の形態3の変形例3によれば、聴講者装置800は、聴講者の反応を発表者に気付かせることができる。
また、提供制御部850は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
また、提供制御部850は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
実施の形態3の変形例4.
実施の形態3の変形例4では、実施の形態1の変形例4と同様の処理を聴講者装置800が実行する。そのため、詳細な説明は、省略する。
図25は、実施の形態3の変形例4の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST191)発表者装置900は、音声信号を聴講者装置800に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部820に取得される。また、取得部820は、外部装置を介して、音声信号を取得してもよい。
実施の形態3の変形例4では、実施の形態1の変形例4と同様の処理を聴講者装置800が実行する。そのため、詳細な説明は、省略する。
図25は、実施の形態3の変形例4の通信システムで実行される処理の例を示すシーケンス図である。
(ステップST191)発表者装置900は、音声信号を聴講者装置800に送信する。なお、音声信号は、発表者の音声の信号である。
これにより、音声信号は、取得部820に取得される。また、取得部820は、外部装置を介して、音声信号を取得してもよい。
(ステップST192)解析制御部830は、音声信号に基づいて、発表者の発話内容を検出する。解析制御部830は、発話内容を記憶部810に格納する。
(ステップST193)取得部820は、聴講者の顔を含む画像を、聴講者側の撮像装置から取得する。
(ステップST194)解析制御部830は、当該画像に基づいて、聴講者の表情を解析する。
(ステップST193)取得部820は、聴講者の顔を含む画像を、聴講者側の撮像装置から取得する。
(ステップST194)解析制御部830は、当該画像に基づいて、聴講者の表情を解析する。
(ステップST195)解析制御部830は、解析の結果に基づいて、聴講者が理解しているか否かを判定する。例えば、解析の結果が、聴講者の表情が理解していないときの表情であることを示している場合、解析制御部830は、聴講者が理解していないと判定する。解析の結果が、聴講者が理解していないことを示しているものとする。
(ステップST196)取得部820は、管理テーブル111を記憶部810から取得する。生成部840は、管理テーブル111と発話内容である文字情報とに基づいて、アバタ302の個性に応じた文章を生成する。
(ステップST197)生成部840は、生成された文章に基づいて、音情報を生成する。
(ステップST197)生成部840は、生成された文章に基づいて、音情報を生成する。
(ステップST198)生成部840は、アバタ302を含む画面を生成する。
(ステップST199)提供制御部850は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該音情報と当該画面を発表者装置900に送信する。提供制御部850は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置900に送信する。
(ステップST199)提供制御部850は、出力情報として、生成された音情報に基づく音と、生成された画面とが、発表者に提供されるように、制御を行う。例えば、提供制御部850は、当該音情報と当該画面を発表者装置900に送信する。提供制御部850は、当該音情報に基づく音の出力指示と当該画面の表示指示を発表者装置900に送信する。
(ステップST200)発表者装置900は、当該音情報に基づく音が1以上のスピーカから出力されるための制御を行う。また、発表者装置900は、当該画面がディスプレイに表示されるための制御を行う。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
これにより、発表者は、アバタ302が発話する音を聞くことができる。
実施の形態3の変形例4によれば、聴講者装置800は、聴講者の反応を発表者に気付かせることができる。
また、提供制御部850は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
また、提供制御部850は、生成された音情報に基づく音と、生成された画面とが、聴講者に提供されるための制御を行ってもよい。
以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
100 発表者装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 110 記憶部、 111 管理テーブル、 120 取得部、 130 解析制御部、 140 生成部、 150 提供制御部、 200 聴講者装置、 300 ディスプレイ、 301 アバタ、 302 アバタ、 303 範囲、 310 マイク、 320,321 スピーカ、 400 ディスプレイ、 410 マイク、 420 撮像装置、 430 スピーカ、 500 サーバ、 510 記憶部、 520 取得部、 530 解析制御部、 540 生成部、 550 提供制御部、 600 発表者装置、 700 聴講者装置、 800 聴講者装置、 810 記憶部、 820 取得部、 830 解析制御部、 840 生成部、 850 提供制御部、 900 発表者装置。
Claims (21)
- 聴講者が用いる聴講者装置と通信し、かつ発表者が用いる情報処理装置であって、
前記聴講者が理解していないことを示す情報を取得する取得部と、
当該情報が取得された場合、前記発表者への出力情報を生成する生成部と、
前記出力情報が前記発表者に提供されるように、制御を行う提供制御部と、
を有する情報処理装置。 - 聴講者が用いる聴講者装置と通信し、かつ発表者が用いる発表者装置と通信する情報処理装置であって、
前記聴講者が理解していないことを示す情報を取得する取得部と、
当該情報が取得された場合、前記発表者への出力情報を生成する生成部と、
前記出力情報が前記発表者に提供されるように、制御を行う提供制御部と、
を有する情報処理装置。 - 発表者が用いる発表者装置と通信し、かつ聴講者が用いる情報処理装置であって、
前記聴講者が理解していないことを示す情報を取得する取得部と、
当該情報が取得された場合、前記発表者への出力情報を生成する生成部と、
前記出力情報が前記発表者に提供されるように、制御を行う提供制御部と、
を有する情報処理装置。 - 解析制御部をさらに有し、
前記取得部は、文字情報を取得し、
前記解析制御部は、前記文字情報を解析し、
前記生成部は、前記解析の結果が、詳細な説明の要求又は質問を示している場合、前記文字情報に基づいて文章を生成し、
前記提供制御部は、前記出力情報として前記文章が、前記発表者に提供されるように、制御を行う、
請求項1から3のいずれか1項に記載の情報処理装置。 - 解析制御部をさらに有し、
前記取得部は、前記聴講者の音声の信号である音声信号を取得し、
前記解析制御部は、前記音声信号に基づいて、前記聴講者の発話内容を検出し、前記発話内容を解析し、
前記生成部は、前記解析の結果が、詳細な説明の要求又は質問を示している場合、検出された前記発話内容である文字情報に基づいて文章を生成し、
前記提供制御部は、前記出力情報として前記文章が、前記発表者に提供されるように、制御を行う、
請求項1から3のいずれか1項に記載の情報処理装置。 - 解析制御部をさらに有し、
前記取得部は、前記発表者の音声の信号である音声信号を取得し、
前記解析制御部は、前記音声信号に基づいて、前記発表者の発話内容を検出し、
前記取得部は、前記聴講者が理解していないことを示す前記情報を取得し、
前記生成部は、検出された前記発話内容である文字情報に基づいて文章を生成し、
前記提供制御部は、前記出力情報として前記文章が、前記発表者に提供されるように、制御を行う、
請求項1から3のいずれか1項に記載の情報処理装置。 - 解析制御部をさらに有し、
前記取得部は、前記発表者の音声の信号である音声信号を取得し、
前記解析制御部は、前記音声信号に基づいて、前記発表者の発話内容を検出し、
前記取得部は、前記聴講者の目を含む画像を取得し、
前記解析制御部は、前記画像が取得された場合、前記画像に基づいて、前記聴講者の視線を解析し、前記解析の結果に基づいて、前記聴講者が理解しているか否かを判定し、
前記生成部は、前記聴講者が理解していない場合、検出された前記発話内容である文字情報に基づいて文章を生成し、
前記提供制御部は、前記出力情報として前記文章が、前記発表者に提供されるように、制御を行う、
請求項1から3のいずれか1項に記載の情報処理装置。 - 解析制御部をさらに有し、
前記取得部は、前記発表者の音声の信号である音声信号を取得し、
前記解析制御部は、前記音声信号に基づいて、前記発表者の発話内容を検出し、
前記取得部は、前記聴講者の顔を含む画像を取得し、
前記解析制御部は、前記画像が取得された場合、前記画像に基づいて、前記聴講者の表情を解析し、前記解析の結果に基づいて、前記聴講者が理解しているか否かを判定し、
前記生成部は、前記聴講者が理解していない場合、検出された前記発話内容である文字情報に基づいて文章を生成し、
前記提供制御部は、前記出力情報として前記文章が、前記発表者に提供されるように、制御を行う、
請求項1から3のいずれか1項に記載の情報処理装置。 - 前記生成部は、前記文章に基づいて、音情報を生成し、
前記提供制御部は、前記出力情報として前記音情報に基づく音が、前記発表者に提供されるように、制御を行う、
請求項4から8のいずれか1項に記載の情報処理装置。 - 前記生成部は、アバタを含む画面を生成し、
前記提供制御部は、前記出力情報として、前記画面と前記音情報に基づく音とが、前記発表者に提供されるように、制御を行う、
請求項9に記載の情報処理装置。 - 前記生成部は、画面に表示されるアバタの数を変更する、
請求項10に記載の情報処理装置。 - 前記取得部は、前記アバタの個性を示す管理情報を取得し、
前記生成部は、前記管理情報と前記文字情報とに基づいて、前記アバタの個性に応じた前記文章を生成する、
請求項10に記載の情報処理装置。 - 前記提供制御部は、前記発表者が見る表示装置に前記画面が表示されるように、制御を行い、前記表示装置に表示される前記画面の中の前記アバタの位置に音像が形成されるように、制御を行う、
請求項12に記載の情報処理装置。 - 前記提供制御部は、前記画面と前記音情報に基づく音とが、前記聴講者に提供されるように、制御を行う、
請求項12に記載の情報処理装置。 - 前記提供制御部は、前記聴講者が見る表示装置に表示される画面の中の前記アバタの位置に音像が形成されるように、制御を行う、
請求項14に記載の情報処理装置。 - 聴講者が用いる聴講者装置と通信し、かつ発表者が用いる情報処理装置が、
前記聴講者が理解していないことを示す情報を取得し、
当該情報が取得された場合、前記発表者への出力情報を生成し、
前記出力情報が前記発表者に提供されるように、制御を行う、
制御方法。 - 聴講者が用いる聴講者装置と通信し、かつ発表者が用いる発表者装置と通信する情報処理装置が、
前記聴講者が理解していないことを示す情報を取得し、
当該情報が取得された場合、前記発表者への出力情報を生成し、
前記出力情報が前記発表者に提供されるように、制御を行う、
制御方法。 - 発表者が用いる発表者装置と通信し、かつ聴講者が用いる情報処理装置が、
前記聴講者が理解していないことを示す情報を取得し、
当該情報が取得された場合、前記発表者への出力情報を生成し、
前記出力情報が前記発表者に提供されるように、制御を行う、
制御方法。 - 聴講者が用いる聴講者装置と通信し、かつ発表者が用いる情報処理装置に、
前記聴講者が理解していないことを示す情報を取得し、
当該情報が取得された場合、前記発表者への出力情報を生成し、
前記出力情報が前記発表者に提供されるように、制御を行う、
処理を実行させる制御プログラム。 - 聴講者が用いる聴講者装置と通信し、かつ発表者が用いる発表者装置と通信する情報処理装置に、
前記聴講者が理解していないことを示す情報を取得し、
当該情報が取得された場合、前記発表者への出力情報を生成し、
前記出力情報が前記発表者に提供されるように、制御を行う、
処理を実行させる制御プログラム。 - 発表者が用いる発表者装置と通信し、かつ聴講者が用いる情報処理装置に、
前記聴講者が理解していないことを示す情報を取得し、
当該情報が取得された場合、前記発表者への出力情報を生成し、
前記出力情報が前記発表者に提供されるように、制御を行う、
処理を実行させる制御プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022570930A JP7523589B2 (ja) | 2020-12-25 | 2020-12-25 | 情報処理装置、制御方法、及び制御プログラム |
PCT/JP2020/048640 WO2022137485A1 (ja) | 2020-12-25 | 2020-12-25 | 情報処理装置、制御方法、及び制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/048640 WO2022137485A1 (ja) | 2020-12-25 | 2020-12-25 | 情報処理装置、制御方法、及び制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022137485A1 true WO2022137485A1 (ja) | 2022-06-30 |
Family
ID=82157453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/048640 WO2022137485A1 (ja) | 2020-12-25 | 2020-12-25 | 情報処理装置、制御方法、及び制御プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7523589B2 (ja) |
WO (1) | WO2022137485A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007201818A (ja) * | 2006-01-26 | 2007-08-09 | Sony Corp | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
JP2009237387A (ja) * | 2008-03-28 | 2009-10-15 | Mitsubishi Electric Information Systems Corp | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
JP2011061314A (ja) * | 2009-09-07 | 2011-03-24 | Konica Minolta Business Technologies Inc | 会議システム、会議管理装置、端末装置およびプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140136626A1 (en) | 2012-11-15 | 2014-05-15 | Microsoft Corporation | Interactive Presentations |
US20200228358A1 (en) | 2019-01-11 | 2020-07-16 | Calendar.com, Inc. | Coordinated intelligent multi-party conferencing |
WO2020222669A1 (en) | 2019-04-30 | 2020-11-05 | Ringcentral, Inc., (A Delaware Corporation) | Systems and methods for recognizing user information |
-
2020
- 2020-12-25 JP JP2022570930A patent/JP7523589B2/ja active Active
- 2020-12-25 WO PCT/JP2020/048640 patent/WO2022137485A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007201818A (ja) * | 2006-01-26 | 2007-08-09 | Sony Corp | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
JP2009237387A (ja) * | 2008-03-28 | 2009-10-15 | Mitsubishi Electric Information Systems Corp | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
JP2011061314A (ja) * | 2009-09-07 | 2011-03-24 | Konica Minolta Business Technologies Inc | 会議システム、会議管理装置、端末装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022137485A1 (ja) | 2022-06-30 |
JP7523589B2 (ja) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423889B2 (en) | Systems and methods for recognizing a speech of a speaker | |
JP2011253375A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2011209786A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2011209787A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP7283384B2 (ja) | 情報処理端末、情報処理装置、および情報処理方法 | |
US11238869B2 (en) | System and method for reconstructing metadata from audio outputs | |
US12087297B2 (en) | Voice filtering other speakers from calls and audio messages | |
WO2007058263A1 (ja) | 語学学習装置、語学学習支援方法、プログラム及び記録媒体 | |
JP7427408B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
JP2022074024A (ja) | 方法、コンピュータ・プログラム製品、およびコンピュータ・システム(聴衆フィードバックを用いたパーソナル・スピーチ提案) | |
JP2023126219A (ja) | 保留を管理するための方法および装置 | |
JP2006251898A (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2019155717A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
US11568871B1 (en) | Interactive media system using audio inputs | |
WO2022137485A1 (ja) | 情報処理装置、制御方法、及び制御プログラム | |
US11470201B2 (en) | Systems and methods for providing real time assistance to voice over internet protocol (VOIP) users | |
JP7406704B2 (ja) | 情報処理装置、制御方法、及び制御プログラム | |
US20120278178A1 (en) | Method for Delivering Highly Relevant Advertisements in a Friendly Way through Personal Robots | |
US20120121108A1 (en) | Cooperative voice dialog and business logic interpreters for a voice-enabled software application | |
JP2019176375A (ja) | 動画出力装置、動画出力方法および動画出力プログラム | |
JP7427112B2 (ja) | 情報処理装置、表示制御システム、表示制御方法、及び表示制御プログラム | |
CN111798872A (zh) | 用于在线互动平台的处理方法、装置及电子设备 | |
JP7313518B1 (ja) | 評価方法、評価装置、および、評価プログラム | |
US20240257811A1 (en) | System and Method for Providing Real-time Speech Recommendations During Verbal Communication | |
JP2024152492A (ja) | 映像生成装置及び映像生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20966971 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022570930 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20966971 Country of ref document: EP Kind code of ref document: A1 |