WO2024062779A1 - 情報処理装置、および情報処理システム、並びに情報処理方法 - Google Patents

情報処理装置、および情報処理システム、並びに情報処理方法 Download PDF

Info

Publication number
WO2024062779A1
WO2024062779A1 PCT/JP2023/028226 JP2023028226W WO2024062779A1 WO 2024062779 A1 WO2024062779 A1 WO 2024062779A1 JP 2023028226 W JP2023028226 W JP 2023028226W WO 2024062779 A1 WO2024062779 A1 WO 2024062779A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
display
utterance
data
display data
Prior art date
Application number
PCT/JP2023/028226
Other languages
English (en)
French (fr)
Inventor
明香 松原
智朗 詫摩
弘就 星野
宏一郎 高島
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024062779A1 publication Critical patent/WO2024062779A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Definitions

  • the present disclosure relates to an information processing device, an information processing system, and an information processing method. More specifically, the present disclosure relates to an information processing device, an information processing system, and an information processing method that generate display data that visualizes user states and conversation states, such as the emotions of participating users and the level of interest in a conversation, and presents the display data to users, in addition to outputting text utterances from users participating in a conversation over a communication network, such as a remote conference.
  • remote meetings such as remote conferences, remote meetings, remote drinking parties, and remote business negotiations via networks, which are conducted by transmitting and receiving audio and image data using communication terminals, have become popular.
  • a remote conference via a network
  • user terminals such as PCs and smartphones owned by each conference participant are connected via a communication network such as the Internet, and images and audio are sent and received between each terminal to conduct the conference. .
  • Patent Document 1 Japanese Unexamined Patent Publication No. 2021-071632 discloses a system that displays utterances in communication between users at multiple locations as text information.
  • the present disclosure has been made in view of the above-mentioned problems, for example, and generates display data that visualizes the states and conversation states of users participating in a remote conference etc. via a communication network, and displays the generated display data on a user terminal.
  • the purpose of the present invention is to provide an information processing device, an information processing system, and an information processing method.
  • a first aspect of the present disclosure includes: a data analysis unit that analyzes data received from a user terminal that executes a conversation via a communication network; a display data control unit configured to control display data having a utterance text display area including text corresponding to user utterances provided to the user terminal based on an analysis result of the data analysis unit;
  • the display data control section includes: An information processing device that controls a display mode of at least one of the uttered text display area and the background area to generate display data that visualizes a user state of a user who carries out a conversation, or at least one of a conversation state. be.
  • a second aspect of the present disclosure is An information processing system having a plurality of user terminals that carry out conversations via a communication network and a server that manages the conversations,
  • the user terminal Transmitting voice data acquired through a microphone and image data captured by a camera to the server;
  • the server Analyzing the voice data and image data received from the user terminal;
  • the user terminal The information processing system includes a display unit that displays display data including a speech text display area generated by the server.
  • a third aspect of the present disclosure includes: An information processing method executed in an information processing device, a data analysis step in which the data analysis unit analyzes data received from a user terminal that executes a conversation via a communication network; a display data control step in which the display data control unit controls display data having a uttered text display area including text corresponding to user utterances to be provided to the user terminal, based on the analysis result in the data analysis step; ,
  • the display data control step includes: Information that is a step of controlling the display mode of at least one of the uttered text display area and the background area to generate display data that visualizes the user state of the user who carries out the conversation, or the state of at least one of the conversation state. It's in the processing method.
  • a system is a logical collective configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same housing.
  • the configuration controls display data displayed on the display unit of a user terminal that executes a conversation via a communication network, and generates display data that visualizes the user status and conversation status.
  • a display having an uttered text display area that analyzes data received from a user terminal that executes a conversation via a communication network, and includes text corresponding to user utterances that is provided to the user terminal based on the analysis result. Execute control of data.
  • the display data control unit controls at least one of the size, position, color, or movement of the spoken text display area, or an output image around the spoken text display area, and controls the user state of the user who executes the conversation, or Display data that visualizes at least one of the conversation states is generated.
  • FIG. 1 is a diagram illustrating the configuration of an information processing system of the present disclosure and an overview of executed processing.
  • FIG. 2 is a diagram illustrating an overview of display data generated by an information processing device (server).
  • FIG. 2 is a diagram illustrating an overview of display data generated by an information processing device (server).
  • FIG. 2 is a diagram illustrating an example of data that an information processing device (server) receives from each user terminal.
  • FIG. 2 is a diagram illustrating a configuration example of an information processing device (server).
  • FIG. 2 is a diagram illustrating the detailed configuration of a spoken text display circle, which is a basic component of display data generated by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • 11A to 11C are diagrams illustrating a specific example of a display data control process executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • 11A and 11B are diagrams illustrating a specific example of a display data control process executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • 11A and 11B are diagrams illustrating a specific example of a display data control process executed by an information processing device (server).
  • FIG. 11A and 11B are diagrams illustrating a specific example of a display data control process executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating a specific example of display data control processing executed by an information processing device (server).
  • FIG. 2 is a diagram illustrating an example of control processing of display data by a user using a user terminal.
  • FIG. 2 is a diagram illustrating an example of control processing of display data by a user using a user terminal.
  • FIG. 2 is a diagram illustrating an example of control processing of display data by a user using a user terminal.
  • FIG. 2 is a diagram illustrating an example of control processing of display data by a user using a user terminal.
  • FIG. 2 is a diagram illustrating an example of data that an information processing device (server) receives from each user terminal.
  • FIG. 2 is a diagram illustrating a configuration example of an information processing device (server).
  • FIG. 2 is a diagram illustrating a configuration example of a user terminal.
  • FIG. 2 is a diagram illustrating an example of the hardware configuration of an information processing device and a user terminal.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing system that executes a remote meeting such as a remote conference or a remote meeting, that is, a conversation via a communication network.
  • FIG. 1 shows users a, 11a to e, 11e who are participants in a conversation via a communication network, user terminals a, 21a to e, 21e used by each user, and a remote meeting execution environment.
  • An information processing device (server) 50 is shown.
  • the user terminals a, 21a to e, 21e and the information processing device (server) 50 are connected via a communication network 30, and a remote meeting is performed by mutually transmitting and receiving audio and images between the communication terminals.
  • the user terminals 21a to 21e are configured by communicable information processing devices such as a PC, a smartphone, a tablet terminal, or the like. Each of these user terminals 21a to 21e has a microphone and a camera, and audio data such as user utterances acquired by the microphone of the user terminal 21 and image data such as facial images of each user captured by the camera are used as information. It is transmitted to the processing device (server) 50.
  • server processing device
  • the information processing device (server) 50 uses the audio data and image data received from each of the user terminals 21a to 21e to generate text data corresponding to user utterances, and further visualizes the user status, meeting status, etc. Generate display data.
  • Each of the user terminals 21a to 21e receives the speech voice of each user via the information processing device (server) 50 and outputs it from the speaker. Furthermore, the display data generated by the information processing device (server) 50 is provided to each user terminal and displayed on the display section of the user terminal.
  • the users 11a to 11e can confirm the utterances of the meeting participants as text information, and also understand the user status and conversation status. can do.
  • a person with a hearing impairment who has difficulty hearing or is unable to hear spoken audio can view the speech as text information by looking at the display data generated by the information processing device (server) 50, and can also understand the user's status and the state of the conversation.
  • FIG. 2 is an example of display data displayed on the display unit of a user terminal a, 21a used by a user a, 11a, who is one of the users participating in the remote meeting. Similar display data is also displayed on the user terminals of the other users participating in the remote meeting. This display data is generated by the information processing device (server) 50 .
  • the display data is composed of time-series data of an utterance text display circle 71 in which the utterances of users participating in the meeting are displayed as text.
  • the uttered text display circle 71 moves from the lower left to the upper right of the display section. That is, the utterance text display circle corresponding to the latest user utterance is displayed at the lower left of the screen, and the display circle moves toward the upper right of the screen as time passes.
  • the uttered text display circle reaches the upper right corner of the display section, the uttered text display circle thereafter disappears one after another starting from the upper right corner of the display section.
  • dotted arrows shown in the figure are arrows indicating the flow (movement direction) of the spoken text display circle 71, and are not displayed on the actual screen.
  • spoken text display circle 71-1 is the spoken text display circle corresponding to the oldest user utterance in the past, and spoken text display circles corresponding to subsequent utterances over time are spoken text display circles 71-2 to 71-6.
  • spoken text display circle 71-6 is the spoken text display circle corresponding to the most recent user utterance.
  • the plurality of utterance text display circles 71-1 to 71-6 shown in the figure are utterance text display circles that display user utterances in chronological order from top right to bottom left.
  • User utterance Is there a good restaurant?
  • User utterance The Milanese restaurant I went to the other day was delicious.
  • User utterance I've been there too.
  • User utterance What restaurant?
  • User utterance Italian.
  • User utterance The pub I went to the other day was also good.
  • the uttered text display circles 71-2 to 71-6 are generated and displayed as data including text corresponding to user utterances and a face image of the speaking user. Furthermore, the uttered text display circles 71-2 to 71-6 are set to have different sizes, colors, etc. of the circles. Although shown as a black and white image in the figure, in actual display data, the spoken text display circles 71-2 to 71-6 are set in various colors.
  • the size and color of the utterance text display circle 71 are determined by the information processing device (server) 50 based on the utterance volume (volume) of each user's utterance and the analysis result of the utterance content. These display data control processes executed by the information processing device (server) 50 will be described in detail later.
  • FIG. 3 is an example of display data displayed on the display units of user terminals a and 21a used by users a and 11a. This is an example of later display data.
  • the display data shown in FIG. 3 is shown in the uttered text display circle 71-6.
  • User utterance The bar I went to last time was also nice.
  • User utterance The bar I went to the other day was also nice. This shows that the following user utterances were executed in sequence after this user utterance.
  • the spoken text display circles 71-6 to 71-11 shown in FIG. 3 are also data that contain text corresponding to the user's speech and a facial image of the speaking user. These also have different settings for the size (dimension) and color of the circle.
  • the size and color of the uttered text display circle 71 are determined by the information processing device (server) 50 based on the utterance volume (volume) of each user's utterance and the analysis result of the utterance content. These processes will be explained in detail later.
  • the information processing device (server) 50 receives audio data and image data from each of the user terminals 21 used by users who are conducting a remote meeting, generates text data corresponding to user utterances, and further , generates display data that visualizes user status, meeting status, etc.
  • FIG. 4 shows user terminals 21a to 21e and an information processing device (server) 50 used by each of a plurality of users 11a to 11e who are conducting a remote meeting.
  • the information processing device (server) 50 receives audio data and image data from each of the user terminals 21a to 21e used by each of the plurality of users 11a to 1e who are conducting a remote meeting.
  • the information processing device (server) 50 executes the processes in steps S11 to S12.
  • step S11 analysis processing is performed on input data (audio data, image data) received from the user terminals 21a to 21e.
  • step S12 display data is generated using the data analysis results in step S11. Specifically, display data composed of the time series data of the uttered text display circle 71 described with reference to FIGS. 2 and 3 is generated.
  • the display data generated by the information processing device (server) 50 is composed of time series data of speech text display circles 71 that display the text content of speeches by users participating in the remote meeting. For example, the size, color, and movement of the speech text display circles allow the user to visually understand the state of the speaking user and the state of the meeting (such as the level of excitement).
  • the information processing device (server) 50 includes a communication section 51, an audio data acquisition section 52, an audio data analysis section 53, an image data acquisition section 54, an image data analysis section 55, a display data control section 56, It has a display data generation section 57.
  • the communication unit 51 receives audio data and image data from the user terminal 21 that is currently conducting a remote meeting.
  • the received audio data is audio data acquired by the microphone of the user terminal 21, and includes user utterances, laughter, clapping hands, environmental sounds, and the like.
  • the image data is image data acquired by the camera of the user terminal 21, and is image data that includes a user's face image.
  • the communication unit 51 further transmits audio data such as user utterances acquired by the audio data acquisition unit 52 and display data generated by the display data generation unit 57 to each of the user terminals 21 that are executing a remote meeting.
  • Each user terminal 21 outputs audio such as user utterances received from the information processing device (server) 50 via the speaker of the user terminal 21 or headphones attached to the user terminal, and receives the audio from the information processing device (server) 50.
  • the image data to be displayed is displayed on the display section of the user terminal 21.
  • the audio data acquisition unit 52 selectively acquires audio data from the data received by the communication unit 51 and inputs it to the audio data analysis unit 53.
  • the audio data analysis unit 53 executes analysis processing of the audio data input from the audio data acquisition unit 52.
  • the audio data to be analyzed is audio data acquired by the microphone of the user terminal 21, and includes user uttered audio, laughter, clapping hands, environmental sounds, etc. as described above.
  • the voice analysis result in the voice data analysis section 53 is input to the display data control section 56.
  • the audio data analysis unit 53 executes volume analysis processing, tone (voice color) analysis processing, speech recognition processing, meaning analysis processing, etc. of user utterances in the audio data. It also analyzes sounds other than speech, such as laughter, groans, and applause.
  • the volume analysis process is a process that calculates the volume of each user utterance, that is, the loudness of the voice.
  • the calculated volume of each user's utterance is input to the display data control unit 56.
  • Tone (voice color) analysis processing is processing that analyzes the tone (voice color) of each user's utterance, and specifically, it analyzes whether each user's utterance was performed with a bright tone or a dark tone. be.
  • the analysis results are input to the display data control section 56.
  • the speech recognition process is a text conversion process of user utterances.
  • the audio data analysis unit 53 has, for example, an ASR (Automatic Speech Recognition) function, and converts audio data into text data composed of a plurality of words.
  • the generated text data corresponding to user utterances is input to the display data control section 56.
  • the semantic analysis process includes an utterance semantic analysis process, a syntactic analysis process, etc. for text data generated by the speech recognition process.
  • the voice data analysis unit 53 has a natural language understanding function such as NLU (Natural Language Understanding), and can determine the intent of a user's utterance and meaningful elements contained in the utterance from text data.
  • NLU Natural Language Understanding
  • the processing for estimating entity information (entity), which is an element), is performed, and the processing for extracting keywords included in user utterances is performed.
  • processing for selecting a central utterance or a dominant utterance from a plurality of time-series utterances is also executed. These analysis results are also input to the display data control section 56.
  • the image data acquisition unit 54 selectively acquires image data from the data received by the communication unit 51 and inputs it to the image data analysis unit 55.
  • the image data analysis unit 55 executes analysis processing of the image data input from the image data acquisition unit 54.
  • the image analysis result in the image data analysis section 55 is input to the display data control section 56.
  • the image data to be analyzed by the image data analysis unit 55 is image data acquired by the camera of the user terminal 21, and is image data that includes facial images of users participating in the meeting.
  • the image data analysis unit 55 determines the facial expression by, for example, analyzing the user's facial image. For example, it analyzes the user's facial expressions, such as whether they are smiling, troubled, angry, or sad.
  • the system performs processing to analyze user actions, such as determining whether the user is making a positive action, such as a smile or nodding, or a troubled or sad face, or a negative action, such as shaking his or her head. In addition, it also analyzes body movements other than facial movements, such as waving actions.
  • the results of the image analysis in the image data analysis unit 55 are input to the display data control unit 56 .
  • the display data control unit 56 inputs the audio data analysis results analyzed by the audio data analysis unit 53 and the image data analysis results analyzed by the image data analysis unit 55, and provides them to the user terminal 21 based on these input data. control processing of the image data to be displayed, that is, the time-series display data of the uttered text display circle including the uttered text of the remote meeting described above with reference to FIGS. 2 and 3.
  • the display data control unit 56 performs, for example, a process of determining the size of the utterance text display circle according to the volume of the user's voice, a process of determining the color of the utterance text display circle according to the tone of the user's voice, and a process of determining the size of the utterance text display circle according to the user's voice tone. Processing such as determining the display position and movement of the uttered text display circle is executed in accordance with the analysis result of which preceding utterance was made.
  • the display data control unit 56 performs display data control processing to generate display data that visualizes the emotions and states of the users participating in the remote meeting, as well as the atmosphere such as the level of excitement of the entire meeting. It executes various display data control processes, such as determining the size, color, movement, and other effect display modes of the utterance text display circles that constitute it, and determining the background color. A specific example of this display data control processing will be explained in detail in the next section.
  • Control information from the display data control section 56 is input to the display data generation section 57.
  • the display data generation unit 57 generates display data according to the size, color, movement, and background image of the uttered text display circle determined by the display data control unit 56.
  • the display data generated by the display data generation unit 57 is, for example, the display data shown in FIGS. 2 and 3 above, and this display data is provided to each user terminal 21 and displayed on the display unit of the user terminal 21. become.
  • the information processing device (server) 50 receives audio data and image data from each of the user terminals 21a to 21e used by each of the plurality of users 11a to 11e who are conducting a remote meeting. Then, these received data (audio data, image data) are analyzed to generate display data.
  • display data constituted by the time series data of the uttered text display circle 71 described with reference to FIGS. 2 and 3 is generated.
  • the display data generated by the information processing device (server) 50 is composed of time-series data of the uttered text display circle 71 that displays the contents of the utterances of users participating in the remote meeting as text, and includes, for example, the size, color, and movement of the uttered text display circle. This is display data that makes it possible to visually understand the status of the speaking user and the status of the meeting (level of excitement, etc.).
  • Image data analysis results are input and image data provided to the user terminal 21 based on these input data, that is, a spoken text display circle containing the spoken text of the remote meeting described earlier with reference to FIGS. 2 and 3. Executes control processing of time-series display data.
  • the display data control unit 56 performs, for example, a process of determining the size of the uttered text display circle according to the volume of the user's voice, a process of determining the color of the uttered text display circle according to the tone of the user's voice, Processing such as determining the display position and movement of the uttered text display circle is executed in accordance with the analysis result of which preceding utterance the utterance was made.
  • the display data control unit 56 performs display data control processing to generate display data that visualizes the emotions and states of the users participating in the remote meeting, as well as the atmosphere such as the level of excitement of the entire meeting. It executes various display data control processes, such as determining the size, color, movement, and other effect display modes of the utterance text display circles that constitute it, and determining the background color. A specific example of this display data control processing will be described below.
  • FIG. 6 shows one spoken text display circle 71 .
  • the spoken text display circle 71 includes spoken text 72 and a user icon 73 .
  • FIG. 6 shows a circular utterance text display circle 71
  • this shape is just an example, and utterances may be made in various shapes other than a circle, such as a rectangle, a polygon such as a hexagon, or an ellipse. It may also be configured to use a text display area.
  • a circular uttered text display circle 71 an example using a circular uttered text display circle 71 will be described.
  • the spoken text display circle 71 includes a spoken text 72 and a user icon 73.
  • the utterance text 72 is text data generated by the voice data analysis unit 53 of the information processing device (server) 50 described with reference to FIG. 5, and corresponds to user utterances input through the microphone of the user terminal 21. It is text data.
  • the uttered text 72 displayed within the uttered text display circle 71 may be subjected to display control processing such as, for example, enlarging the keyword part and displaying it, or displaying it as text in a different color from other text parts.
  • display control processes are executed in the display data control unit 56 of the information processing device (server) 50 described earlier with reference to FIG. Specific examples of these processes will be described later.
  • the user icon 73 is composed of an image or the like showing the user who speaks the uttered text 72 displayed within the uttered text display circle 71. Specifically, for example, it is any of the following data. a. Image taken by camera of speaking user (video) b. Image taken by camera of speaking user (still image) c. Avatar image showing the speaking user d. Other icons indicating speaking users e. Name and nickname of speaking user
  • only the user icon 73 may be displayed without displaying the spoken text display circle 71. For example, if there is no utterance within a preset period and the user's utterance text display circle 71 is not displayed on the display screen, processing is performed to display only the user icon 73.
  • the display data control unit 56 of the information processing device (server) 50 controls the emotions and states of the users participating in the remote meeting, as well as the atmosphere such as the level of excitement of the entire meeting.
  • the size, color, movement, and other effect display modes of the spoken text display circle 71 are determined and controlled accordingly. That is, the display data control unit 56 executes display data control processing to generate display data that visualizes the emotions and states of the users participating in the remote meeting, as well as the atmosphere such as the level of excitement of the entire meeting.
  • a specific example of the display data control process executed by the information processing device (server) 50 will be described with reference to FIG. 7 and subsequent figures.
  • FIGS. 7 to 14 are tables explaining specific examples of display data control processing executed by the information processing device (server).
  • FIG. 15 and subsequent figures show specific display examples corresponding to the explanations of the tables shown in FIGS. 7 to 14.
  • FIGS. 7 to 14 show the following items (a) to (d) in correspondence.
  • (a) Visualization element (b) Input data to be analyzed (c) Analysis processing for input data (d) Display data control processing by the display data control unit
  • the visualization element is an element of the speaking user's state or the conversation state (meeting state) that the user can recognize by looking at the display data generated by the information processing device (server) 50.
  • the visualization elements include the loudness of the utterance, the tone of the voice, and the like.
  • the input data to be analyzed is the data to be analyzed in order to express the above-mentioned "(a) visualization element" in the display data, and the information processing device (server) 50
  • This data is at least one of audio data and image data input from a computer.
  • Display data control processing by the display data control section is a description of a specific example of the display data control processing executed by the display data control section based on the result of the above "(c) Analysis processing for input data”. .
  • the tables in FIGS. 7 to 14 list the following 13 types of visualization elements as (a) visualization elements.
  • the user's utterance is the central or dominant utterance of the conversation (6) Which preceding utterance did the user utterance refer to? (7)
  • the user utterance was an utterance in agreement with the preceding utterance.
  • the user utterance was a negative utterance in relation to the preceding utterance.
  • User's positive action 10
  • User's negative action (11)
  • the excitement of the entire conversation (12) The decline of the entire conversation (13) Classification of opinions
  • the information processing device (server) 50 controls the display data described above with reference to FIGS. 2 and 3, for example, to generate display data including the visualization elements (1) to (13) above.
  • users participating in the meeting can check the size and tone of each user's utterance, as well as the pros and cons of each user's utterance, from the display data displayed on the user terminal. It also becomes possible to recognize various user states and conversation states, such as whether the user is in a positive or negative state, and whether the meeting is lively or not.
  • the information processing device (server) 50 executes display data control processing to express the “loudness of the user's utterance” of the users participating in the meeting on the display data.
  • the data to be analyzed used in the display data control process to express the "loudness of the user's utterance" on the display data is as shown in "Item (1) (b) of the table shown in Figure 7". This is the user's uttered voice acquired by the microphone of the user terminal 21.
  • the data analysis process executed to express the "volume of the user's utterance" on the display data is performed by the audio data analysis unit as shown in “item (1) (c) in the table shown in Figure 7". 53 is a volume analysis of the user's uttered voice.
  • the display data control process executed by the display data control unit 56 includes "(d) of item (1) in the table shown in FIG. '', this process controls the size of the uttered text display circle. In other words, the larger the speech volume, the larger the size.
  • FIG. 15 shows a specific example of the process executed by the display data control unit 56, that is, the process of expressing the "volume of the user's utterance" on the display data.
  • the graph shown in FIG. 15 is a graph in which the horizontal axis is the volume of the voice and the vertical axis is the size of the uttered text display circle.
  • the voice volume shown on the horizontal axis corresponds to the speech volume analyzed by the audio data analysis unit 53.
  • the display data control section 56 determines the size of the speech text display circle to be output on the display data according to the speech volume analyzed by the audio data analysis section 53 and according to the graph shown in FIG. 15, for example. That is, the larger the speech volume, the larger the size of the speech text display circle is executed.
  • the information processing device (server) 50 executes a display data control process to express "the brightness of the voice of the user's utterance" of the users participating in the meeting on the display data.
  • the analysis target data used in the display data control process to express the "brightness and darkness of the voice of the user's utterances" on the display data is This is the user's uttered voice acquired by the microphone of the terminal 21.
  • the data analysis process executed to express "the brightness of the voice of the user's utterance” on the display data is performed by the audio data analysis unit 53 as shown in "item (2) (c) of the table shown in FIG. This is a tone (voice color) analysis of the user's uttered voice.
  • the display data control process executed by the display data control unit 56 is "(d) of item (2) in the table shown in FIG. This is at least one of the following processes as shown in . a. Controls the color of the spoken text display circle (for light tones, a bright or warm circle is displayed; for a dark tone, a dark or cool circle is displayed) b. Outputs an effect image around the utterance text display circle (for bright tones, outputs an effect image showing shine; for dark tones, outputs an effect image of clouds)
  • FIGS. 16 and 17 A specific example of the process executed by the display data control unit 56, that is, a specific example of the process of expressing "the brightness of the voice of the user's utterance" on the display data is shown in FIGS. 16 and 17.
  • FIG. 16 shows a processing example of the above process a
  • FIG. 17 shows a process example when the above process a and the above process b are executed together.
  • FIG. 16 shows a graph illustrating an example of the process of the above-mentioned process a.
  • the horizontal axis indicates the brightness of the voice
  • the vertical axis indicates the color of the spoken text display circle.
  • the brightness of the voice shown on the horizontal axis corresponds to the brightness of the speech analyzed by the voice data analysis unit 53 .
  • the colors of the spoken text display circles shown on the vertical axis are cool colors (blue, gray, etc.) on the lower side and warm colors (orange, etc.) on the upper side.
  • the display data control unit 56 determines the color of the utterance text display circle to be output on the display data according to the brightness state of the user's utterance analyzed by the audio data analysis unit 53, for example, according to the graph shown in FIG. That is, the brighter the speech tone is, the color of the speech text display circle is set to a warmer color such as orange, and the darker the speech tone is, the color of the speech text display circle is set to a cooler color such as blue or gray. Execute the processing to be performed.
  • the graph shown in FIG. 17, which shows an example of processing when the above-mentioned processing a and processing b are executed together, is a graph similar to FIG. 16, in which the horizontal axis indicates the brightness of the voice and the vertical axis indicates the color of the spoken text display circle.
  • the brightness of the voice shown on the horizontal axis corresponds to the brightness of the speech analyzed by the voice data analysis unit 53 .
  • the colors of the spoken text display circles shown on the vertical axis are cool colors (blue, gray, etc.) on the lower side and warm colors (orange, etc.) on the upper side.
  • the display data control unit 56 determines the color of the utterance text display circle to be output on the display data according to the brightness state of the user's utterance analyzed by the audio data analysis unit 53, for example, according to the graph shown in FIG.
  • an effect image corresponding to the speech tone is output around the speech text display circle.
  • an effect image showing brilliance is output
  • an effect image of clouds is output.
  • the information processing device (server) 50 executes display data control processing for expressing "keywords being uttered by users" of users participating in the meeting on display data.
  • the analysis target data used in the display data control process to express the "keywords uttered by the user” on the display data is as shown in “item (3) (b) of the table shown in Figure 7" on the user terminal. This is the user's uttered voice acquired by the microphone No. 21.
  • the data analysis process executed to express the "keywords uttered by the user” on the display data is performed by the voice data analysis unit 53 as shown in “item (3) (c) of the table shown in FIG. This is a semantic analysis of user utterances.
  • the display data control process executed by the display data control unit 56 is based on "item (3) (d) in the table shown in FIG. As shown, this is a process of highlighting the keyword part in the utterance text displayed within the utterance text display circle. For example, a process of enlarging the keyword part or displaying it in a highlighted color such as red is executed.
  • FIG. 18 shows a specific example of the process executed by the display data control unit 56, that is, a specific example of the process of expressing the "keyword uttered by the user" on the display data.
  • FIG. 18 shows two spoken text display circles.
  • the uttered text displayed in each uttered text display circle includes keywords extracted by the semantic analysis of the user's uttered voice by the voice data analysis unit 53.
  • the uttered text in the uttered text display circle in the upper left is "Is there a good restaurant?" It is.
  • the voice data analysis unit 53 performs a semantic analysis of this user utterance and extracts the following words as keywords. "restaurant"
  • the display data control process executed by the display data control unit 56 is a process of displaying the characters of the keyword "restaurant” in an enlarged manner or in an emphasized color such as red.
  • the voice data analysis unit 53 performs a semantic analysis of this user utterance and extracts the following words as keywords. "Milan Dining"
  • the display data control process executed by the display data control unit 56 is a process of displaying the characters of the keyword "Milano Dining" in an enlarged manner or in an emphasized color such as red.
  • the information processing device (server) 50 executes display data control processing to express "time-series information of user utterances" of users participating in the meeting on display data.
  • the analysis target data used in display data control processing to express "time-series information of user utterances" on display data is This is the user's uttered voice acquired by the microphone of the terminal 21.
  • the data analysis process executed to express "time-series information of user utterances" on display data is performed by the voice data analysis unit 53 as shown in "Item (4) (c) of the table shown in FIG. This is a time-series analysis of user utterances.
  • the display data control process executed by the display data control unit 56 is at least one of the following processes a and b, as shown in “item (4) (d) in the table shown in FIG. 8 ”.
  • the display position of the spoken text display circle is changed in sequence. For example, it is displayed from bottom to top in chronological order.
  • the display color of the spoken text display circle is changed in sequence. For example, the saturation of the display color is decreased as the text becomes older.
  • the processes a and b may be configured to be executed independently or together.
  • the display data control unit 56 executes at least one of the processes a and b above in order to express "time-series information of user utterances" on display data.
  • FIG. 19 is a specific example corresponding to the process a. That is, this is an example in which the display position of the uttered text display circle is sequentially changed and displayed.
  • the example shown in FIG. 19 is display data similar to the display data described above with reference to FIG. 2, and is for displaying the uttered text display circle 71 moving from the lower left to the upper right.
  • the uttered text display circle corresponding to the latest utterance is displayed at the lower left, then moves toward the upper right, and is sequentially erased from the display area at the upper right of the screen.
  • the utterance text display circle 71-1 at the upper right corner is the utterance text display circle corresponding to the oldest utterance
  • the utterance text display circle 71-6 at the lower left corner is the utterance text display circle corresponding to the newest utterance. It will be in yen.
  • the moving direction is not limited to this example, and various moving directions can be set. For example, it is possible to set the moving directions as shown in (p) to (s) shown in FIG.
  • (p) is a setting that moves the uttered text display circle from the upper left to the lower right as time passes.
  • (q) is a setting that moves the uttered text display circle from left to right as time passes.
  • (r) is a setting that moves the uttered text display circle from right to left as time passes.
  • (s) is a setting that moves the uttered text display circle from top to bottom as time passes. Note that it is also possible to set moving directions other than these examples.
  • FIG. 21 is a specific example corresponding to the process b above. That is, this is an example in which the display color of the uttered text display circle is sequentially changed and displayed, and the saturation of the display color is reduced as the text gets older.
  • the graph shown in FIG. 21 is a graph in which the horizontal axis is the speaking time and the vertical axis is the saturation of the spoken text display circle.
  • the left side is the old setting
  • the right side is the new setting.
  • This utterance time is the utterance time analyzed by the audio data analysis section 53.
  • the display data control unit 56 determines the saturation of the color of the utterance text display circle to be output on the display data according to the utterance time analyzed by the audio data analysis unit 53 and according to the graph shown in FIG. 21, for example.
  • the newer the utterance time closer to the current time
  • the older the utterance time further from the current time
  • Set the saturation to low.
  • process a process of sequentially changing and displaying the display position of the uttered text display circle
  • process b process of sequentially changing and displaying the display color of the uttered text display circle
  • the user's utterance is the central utterance or dominant utterance of the conversation.
  • the information processing device (server) 50 indicates that "the user's utterance is the central utterance or dominant utterance of the conversation" of the users participating in the meeting. Executes display data control processing for expressing data.
  • the analysis target data used in the display data control process to express on the display data that "the user's utterance is the central or dominant utterance of the conversation" is "item (5) in the table shown in Figure 8. As shown in “(b)", this is the user's uttered voice obtained by the microphone of the user terminal 21.
  • the data analysis process executed to express on the display data that "the user's utterance is the central or dominant utterance of the conversation" is described in "(c) of item (5) in the table shown in Figure 8".
  • the meaning of the user's uttered voice is analyzed by the voice data analysis unit 53.
  • the display data control process executed by the display data control unit 56 is performed using "the items in the table shown in FIG. As shown in (5) (d), at least one of the following processes a and b is performed.
  • a "conversation center identification icon for example, a double-line outline circle, a solid red filled circle, etc.
  • these processes a and b may be set to be executed independently, or may be configured to be executed together.
  • the display data control unit 56 executes at least one of the processes a and b above in order to express on the display data that "the user's utterance is the central or dominant utterance of the conversation.”
  • FIG. 22 is a specific example corresponding to the process in a above. That is, when the user's utterance is the central utterance or dominant utterance of the conversation, an example of processing is shown in which the utterance text display circle is displayed in a large size at the center of the display area.
  • the spoken text display circle 71 moves from the lower left to the upper right of the display area as time passes.
  • the display width of the uttered text display circle 71 is the width of the arrow shown in the center of the figure.
  • the uttered text display circle 71 is displayed so as to be placed at the center of the display width.
  • the uttered text display circle 71 shown in the figure moves from the lower left to the upper right of the display area along the center line of the display width as time passes.
  • FIGS. 23 and 24 are specific examples corresponding to the process in b above.
  • a "conversation center identification icon for example, a double-line outline circle, a solid red filled circle, etc.
  • the spoken text display circle 71 shown in FIG. 23(p) is the central or dominant utterance of the conversation.
  • a "conversation center identification icon (double-line outline circle) 80" is displayed in contact with this spoken text display circle 71.
  • the conversation center identification icon (double outline circle) 80 is displayed so as to be in contact with the utterance text display circle 71 that is the central utterance or dominant utterance of the conversation.
  • the conversation center identification icon (double outline circle) 80 is placed over the utterance text display circle 71 that is the central utterance or dominant utterance of the conversation. It may be set to display as follows.
  • FIG. 24 shows an example in which a solid red circle is displayed as the conversation-centered identification icon.
  • the spoken text display circle 71 shown in (p) is the central or dominant utterance of the conversation.
  • a "conversation focus identification icon (red circle) 80" is displayed in contact with the spoken text display circle 71.
  • FIG. 24(p) is an example in which a conversation center identification icon (for example, a red circle) 80 is displayed so as to be in contact with the utterance text display circle 71 that is the central utterance or dominant utterance of the conversation.
  • the conversation center identification icon (red circle) 80 may be set to be displayed so as to overlap the utterance text display circle 71 that is the central utterance or dominant utterance of the conversation.
  • the above processes a and b may be executed together.
  • a when the user's utterance is the central utterance or dominant utterance in the conversation
  • process b when the user's utterance is the central utterance or dominant utterance in the conversation
  • a process of displaying a "conversation center identification icon e.g., a double-line outline circle or a solid red circle
  • the information processing device (server) 50 expresses on display data "in response to which preceding utterance the user utterance was made" by users participating in the meeting. Executes display data control processing.
  • the analysis target data used in the display data control process to express on the display data "Which preceding utterance did the user's utterance correspond to" is "(b) of item (6) in the table shown in FIG. '' is the user's uttered voice acquired by the microphone of the user terminal 21.
  • the data analysis process executed to express on the display data ⁇ Which previous utterance was the user utterance made in response to'' is as shown in ⁇ Item (6) (c) of the table shown in Figure 9''. , is a semantic analysis of the user's uttered voice by the voice data analysis unit 53.
  • the display data control process executed by the display data control unit 56 is the following process, as shown in “item (6) (d) of the table shown in FIG. 9 .”
  • the utterance text display circle is moved so as to touch or approach the utterance text display circle of the preceding utterance that caused the utterance.
  • the display control of (7) or (8) below takes precedence.
  • FIG. 25(a) is a diagram illustrating an example of a process executed by the display data control unit 56.
  • the display example in FIG. 25A is an example in which the utterance text display circle 82 of the subsequent related utterance is displayed in contact with the utterance text display circle 81 of the preceding utterance.
  • FIG. 25B is also a diagram showing an example of the process executed by the display data control unit 56.
  • the display example of FIG. 25(b) is an example in which an utterance text display circle 82 of a subsequent related utterance is moved closer to an utterance text display circle 81 of a preceding utterance.
  • a contact display as shown in FIG. 25(a) may be performed.
  • FIG. 26(c) is also a diagram illustrating an example of processing executed by the display data control unit 56.
  • the display example in FIG. 26(c) is a display example when a plurality of related utterances have occurred with respect to the preceding utterance.
  • the utterance text display circles of two subsequent related utterances are shown. That is, an utterance text display circle 82-1 of a first subsequent related utterance; Utterance text display circle 82-2 of second subsequent related utterance; It is.
  • the display data control unit 56 contacts the utterance text display circles 82-1 and 2 of the plurality of subsequent related utterances in line with the circumference of the utterance text display circle 81 of the preceding utterance, as shown in the figure. Display as shown.
  • the utterance text display circle 82-3 of the related utterance is shown in contrast to the utterance text display circle 82-2 of the subsequent related utterance.
  • the utterance shown in the uttered text display circle 82-3 is a related utterance to the uttered text display circle 82-2 of the subsequent related utterance, and is displayed so as to be in contact with the uttered text display circle 82-2.
  • the user's utterance is an utterance in agreement with the preceding utterance
  • the information processing device (server) 50 provides a display for expressing on the display data that "the user's utterance is an utterance in agreement with the preceding utterance" of the user participating in the meeting. Executes data control processing.
  • the analysis target data used in the display data control process to express on the display data that "the user's utterance is an utterance in agreement with the preceding utterance” is "item (7) (b) in the table shown in FIG. 9". This is the user's uttered voice obtained by the microphone of the user terminal 21 as shown in FIG.
  • the data analysis process executed to express on the display data that "the user's utterance is an utterance in agreement with the preceding utterance” is as shown in “item (7) (c) of the table shown in FIG. 9". This is a semantic analysis of the user's uttered voice by the voice data analysis unit 53.
  • the display data control process executed by the display data control unit 56 is performed by "item (7) in the table shown in FIG. As shown in “(d)", the process is as follows. If the user's utterance is an utterance that agrees with the preceding utterance, the uttered text display circle is moved and displayed closer to the display circle of the preceding utterance that is in agreement (and the two circles are set to similar colors and displayed). good).
  • FIG. 27 shows an utterance text display circle 81 for the preceding utterance and an utterance text display circle 83 for the subsequent approval utterance.
  • the utterance text display circle 83 of the subsequent approval utterance is moved and displayed so as to approach the utterance text display circle 81 of the preceding utterance.
  • control may be performed to set the utterance text display circle 83 of the subsequent approval utterance to the same color or similar color to the utterance text display circle 81 of the preceding utterance.
  • the user's utterance is a negative utterance with respect to the preceding utterance
  • the information processing device (server) 50 displays a display to express on the display data that "the user's utterance is a negative utterance with respect to the preceding utterance" of the user participating in the meeting. Executes data control processing.
  • the data to be analyzed used in the display data control process to express on the display data that “the user utterance is a negative utterance in response to the previous utterance” is the user utterance captured by the microphone of the user terminal 21, as shown in “item (8) (b) of the table shown in Figure 9 .”
  • the data analysis process executed to express on the display data that “the user utterance is a negative utterance in response to the previous utterance” is a semantic analysis of the user utterance in the voice data analysis unit 53, as shown in “item (8) (c) of the table shown in Figure 9 ”.
  • the display data control process executed by the display data control unit 56 is performed by "item (8) in the table shown in FIG. As shown in “(d)", the process is as follows. If the user's utterance is a negative utterance for the preceding utterance, the uttered text display circle is moved and displayed away from the display circle of the preceding utterance to be denied (and the two circles are set to different colors, such as opposite colors). ).
  • FIG. 28 shows an utterance text display circle 81 for the preceding utterance and an utterance text display circle 84 for the subsequent negative utterance.
  • the utterance text display circle 84 of the subsequent negative utterance is displayed by moving it away from the utterance text display circle 81 of the preceding utterance.
  • control may be performed to set the utterance text display circle 84 of the subsequent negative utterance to a color opposite to the color of the utterance text display circle 81 of the preceding utterance, or to a different color.
  • the information processing device (server) 50 executes display data control processing to express "user's positive action" of the users participating in the meeting on display data.
  • the data to be analyzed used in the display data control process for expressing "user's positive actions" on display data is as shown in "(b) of item (9) in the table shown in FIG. 10" at the user terminal 2.
  • the user's uttered voice, laughter, scream, voice of surprise, etc. acquired by the microphone of the user terminal 21, and the user's face image acquired by the camera of the user terminal 21, for example, an image showing an action such as a smiling face or a nod.
  • the data analysis process executed to express the "user's positive action" on the display data is performed by the user in the voice data analysis unit 53, as shown in “item (9) (c) of the table shown in FIG.
  • These include audio analysis, semantic analysis, etc. of the utterance, and further analysis processing of the user image in the image data analysis unit 55.
  • the display data control process executed by the display data control unit 56 in order to express the "user's positive action" on the display data is shown in "item (9) (d) of the table shown in FIG.
  • the process is as follows. That is, at least one of the following display controls a to d is performed on the utterance text display circle or user icon of the user who has shown a positive action. a. Shaking (vertical shaking, slow rotation, flying movement, etc.), b. scaling the size, c. Color change (change to a brighter color or alternating with a brighter color (flashing)), d. Outputs an effect image around the utterance text display circle (for positive actions, outputs an effect image that shows brilliance) Note that these processes a, b, c, and d may be set to be executed independently or may be set to be executed together.
  • the display data control unit 56 executes at least one of the processes a, b, c, and d above in order to express the "user's positive action" on the display data.
  • FIG. 29 shows an utterance text display circle 81 of the preceding utterance that motivated the user's positive action, and examples of display data (a) to (c1) corresponding to the above-mentioned processes a, b, and c as examples of display data for "user's positive action.”
  • FIG. 29(a) is an example of display control corresponding to the above-mentioned "a. Shaking (pitching, slow rotation, etc.)".
  • FIG. 29(a) shows a display control example in which the utterance text display circle of a user who has shown a positive action is shaken vertically, and a display control example in which the circle is shaken in the rotational direction.
  • FIG. 29(b) is an example of display control corresponding to the above "b. Size scaling".
  • FIG. 29(b) shows an example of display control for displaying an enlarged/reduced utterance text display circle of a user who has shown a positive action.
  • FIG. 29(c1) is an example of display control corresponding to the above "c. Color change (change to bright color)".
  • FIG. 29(c1) shows an example of display control in which the color of the utterance text display circle of a user who has shown a positive action is changed to a bright color.
  • FIG. 30 shows display data examples (c2) to (d) corresponding to the processes c and d above.
  • FIG. 30(c2) is an example of display control corresponding to the above "c. Color change (alternate change with bright color (flashing))".
  • FIG. 30(c2) shows an example of display control in which the color of the utterance text display circle of a user who has shown a positive action is temporarily changed to a bright color. For example, display control is performed to instantaneously change the color to a brighter color for 1 to 2 seconds, or blinking processing is performed to alternately display the original color and the brighter color.
  • FIG. 30(d) is an example of display control corresponding to the above "d. Output an effect image around the uttered text display circle (in the case of a positive action, output an effect image showing brilliance)".
  • FIG. 30D shows an example in which an effect image showing brilliance is output as an example of outputting an effect image around the utterance text display circle of the user who has shown a positive action.
  • the information processing device (server) 50 executes display data control processing to express "user's negative action" of the meeting participating users on display data.
  • the data to be analyzed that is used in the display data control process to express "negative actions of the user" on the display data is the user's speech, laughter, silence, etc., captured by the microphone of the user terminal 21 as shown in “item (10) (b) of the table shown in Figure 11," and furthermore, the user's facial image captured by the camera of the user terminal 21, for example, an image showing a negative action such as a confused look or shaking of the head.
  • the data analysis process executed to express the "user's negative action" on the display data is performed by the user in the voice data analysis unit 53, as shown in “item (10) (c) of the table shown in FIG. 11".
  • These include audio analysis, semantic analysis, etc. of the utterance, and further analysis processing of the user image in the image data analysis unit 55.
  • the display data control process executed by the display data control unit 56 is the following process, as shown in “item (10) (d) of the table shown in FIG. 11 ”. That is, at least one of the following display controls a to c is executed for the spoken text display circle or user icon of a user who has shown a negative action.
  • d Output effect images around the circle displaying the spoken text (in the case of a negative action, output an effect image showing a negative state)
  • the processes a, b, c, and d may be set to be executed individually or in combination.
  • the display data control unit 56 executes at least one of the processes a, b, c, and d above in order to express the "user's negative action" on the display data.
  • FIG. 31 shows an utterance text display circle 81 of the preceding utterance that motivated the user's negative action, and a display corresponding to the above-mentioned processes a, b, and c as an example of display data of "user's negative action”. Data examples (a) to (c1) are shown.
  • FIG. 31(a) is an example of display control corresponding to the above-mentioned "shaking (severe horizontal shaking, etc.)".
  • FIG. 31(a) shows an example of display control in which the utterance text display circle and user icon of a user who has shown a negative action are violently shaken horizontally.
  • FIG. 31(b) is an example of display control corresponding to the above-mentioned "b. Size expansion/contraction, shape distortion (deformation into a crushed ellipse, etc.)".
  • FIG. 31(b) shows an example of display control in which the utterance text display circle of a user who has shown a negative action is transformed into a collapsed ellipse and displayed.
  • FIG. 31(c1) is an example of display control corresponding to the above "c. Color change (change to dark color)".
  • FIG. 31(c1) shows an example of display control in which the color of the utterance text display circle of a user who has shown a negative action is changed to a dark color.
  • FIG. 32 shows display data examples (c2) to (d) corresponding to the processes c and d above.
  • An utterance text display circle 81 of the preceding utterance that motivated the user's negative action and display data examples (c2) to (d) of "user's negative action” are shown.
  • FIG. 32(c2) is an example of display control corresponding to the above "c. Color change (alternate change with dark color (flashing))".
  • FIG. 32(c2) shows an example of display control in which the color of the utterance text display circle of a user who has shown a negative action is temporarily changed to a dark color. For example, display control is performed to momentarily change the color to a dark color for 1 to 2 seconds, or blinking processing is performed to alternately display the original color and the dark color.
  • FIG. 32(d) is an example of display control corresponding to the above "d. Output an effect image around the uttered text display circle (in the case of a negative action, output an effect image indicating a negative state)".
  • FIG. 32(d) shows an example in which an effect image indicating a negative state is output as an example of outputting an effect image around the utterance text display circle of the user who has shown a negative action.
  • the information processing device (server) 50 executes display data control processing to express the “excitement of the entire conversation” of the users participating in the meeting on the display data.
  • the analysis target data used in the display data control process to express the "excitement of the entire conversation" on the display data is as shown in "item (11) (b) of the table shown in FIG. 12" on the user terminal 2.
  • the user's uttered voice, laughter, scream, voice of surprise, etc. acquired by the microphone of the user terminal 21, and the user's face image acquired by the camera of the user terminal 21, for example, an image showing an action such as a smiling face or a nod.
  • the data analysis process executed to express the "excitement of the entire conversation" on the display data is performed by the user in the audio data analysis unit 53, as shown in "item (11) (c) of the table shown in FIG. 12".
  • These include audio analysis, semantic analysis, etc. of the utterance, and further analysis processing of the user image in the image data analysis unit 55.
  • the display data control processing executed by the display data control unit 56 in order to express "the excitement of the entire conversation" on the display data is shown in "item (11) (d) of the table shown in FIG. 12".
  • the process is as follows. That is, at least one of the following display controls a to c is performed on a plurality of uttered text display circles or user icons constituting a lively conversation. a. Shaking (pitching, slow rotation, flying movement, etc.), b. scaling the size, c. Color change (change to brighter color), Note that these processes a, b, and c may be set to be executed independently or may be set to be executed together.
  • the display data control unit 56 may execute the following display data control process as a process unique to expressing "the excitement of the entire conversation" on the display data. That is, this is display control processing that changes the color (changes to a brighter color) of a plurality of uttered text display circles constituting a lively conversation and the background area of a user icon. A specific example of this process will be described with reference to FIG. 33.
  • FIG. 33 shows a plurality of spoken text display circles.
  • the display data control unit 56 determines that the conversation made up of these multiple utterances is lively, it changes the color of the background area of these uttered text display circles (changes to a brighter color), as shown in the figure. Executes display control processing to
  • control may be performed to change the color of the background area of the spoken text display circle (change to a brighter color) and display an effect image showing shine or the like.
  • the information processing device (server) 50 executes a display data control process for expressing, on the display data, a "decline in interest of the entire conversation" of users participating in the meeting.
  • the data to be analyzed used in the display data control process to express "the ebb and flow of the entire conversation" on the display data is as shown in "item (12) (b) of the table shown in Figure 13" on the user terminal.
  • the user's facial image obtained by the camera of the user terminal 21 is an image showing a negative action such as a troubled face or shaking the head.
  • the data analysis process executed to express "the ebb and flow of the entire conversation" on the display data is performed by the audio data analysis unit 53 as shown in “item (12) (c) of the table shown in FIG. 13". These include audio analysis, semantic analysis, etc. of the user's utterances, and further analysis processing of the user image in the image data analysis unit 55.
  • the display data control process executed by the display data control unit 56 is based on "item (12) (d) in the table shown in FIG. As shown, the process is as follows. That is, at least one of the following display controls a to c is performed on a plurality of uttered text display circles or user icons constituting a conversation indicating a climax. a. Shaking (severe lateral shaking, slow movement, etc.), b. Size expansion/contraction, shape distortion (transformation into a crushed ellipse, etc.) c. Color change (change to darker color), Note that these processes a, b, and c may be set to be executed independently or may be set to be executed together.
  • the display data control unit 56 may perform the following display data control process as a process unique to expressing "the ebb and flow of the entire conversation" on the display data. That is, this is a display control process that changes the color (changes to a darker color) of the background area of the user icon and the plurality of uttered text display circles constituting the conversation indicating the climax. A specific example of this process will be described with reference to FIG. 35.
  • FIG. 35 shows a plurality of spoken text display circles.
  • the display data control unit 56 determines that the conversation made up of these multiple utterances is getting more exciting, the display data control unit 56 changes the color of the background area of these utterance text display circles (changes to a darker color), as shown in the figure. ).
  • the color of the background area of the spoken text display circle may be changed (to a darker color) and an effect image showing a decline may be displayed.
  • the information processing device (server) 50 executes display data control processing to express the "opinion classification" of users participating in the meeting on display data.
  • the data to be analyzed that is used in the display data control process to express the "opinion classification" on the display data is the user's speech voice captured by the microphone of the user terminal 21, as shown in “item (13) (b) of the table shown in Figure 14," and further, the user's facial image captured by the camera of the user terminal 21, such as a smiling face, a confused face, a head shake, or other images showing approval or disapproval.
  • the data analysis process executed to express the "opinion classification" on the display data is based on the user's utterances in the audio data analysis unit 53, as shown in “item (13) (c) of the table shown in FIG. 14". This includes audio analysis, semantic analysis, etc., and further analysis processing of the user image in the image data analysis unit 55.
  • the display data control process executed by the display data control unit 56 is as shown in "item (13) (d) of the table shown in FIG.
  • the process is as follows. a. Generate a data series of individual uttered text display circles for each of the plurality of opinion groups, and display it as a data series separated from the series of different opinions b. The utterance text display circles for utterances with the same or similar opinions are displayed in the same or similar colors. Processes a and b can be set to be executed alone or in conjunction with each other. .
  • FIG. 37 shows a specific example of display control processing executed by the display data control unit 56 of the information processing device (server) 50.
  • FIG. 37 shows a plurality of speech text display circles.
  • the utterance text display circle 71-2 and the utterance text display circle 71-4 are utterances of users in the dog-loving group.
  • the utterance text display circle 71-3, the utterance text display circle 71-5, and the utterance text display circle 71-6 are utterances of users in the cat-loving group.
  • the display data control unit 56 generates and displays a data series of individual spoken text display circles for each group. That is, as shown in the figure, an utterance text display circle 71-2, which is an utterance by a user in the dog-loving group, and an utterance text display circle 71-4 are arranged side by side. Furthermore, the utterance text display circle 71-3, the utterance text display circle 71-5, and the utterance text display circle 71-6, which are the utterances of users in the cat-loving group, are separated from the above-mentioned utterance circle of the dog-loving group. Place them in the same position.
  • the user 11 who is conducting the remote meeting uses the user terminal 21 that the user is using to display the uttered text display circle 71 as shown in FIG. It is possible to participate in a meeting while viewing display data made up of series data.
  • the display data displayed on the user terminal 21 of each user 11 is display data generated by the information processing device (server) 50 that provides a remote meeting platform and executes meeting management processing.
  • the user 11 can use the user terminal 21 to control the display of display data provided from the information processing device (server) 50.
  • An example of display data control processing performed by the user 11 using the user terminal 21 will be described with reference to FIG. 38 and subsequent figures.
  • FIG. 38 is an example of a UI (user interface) for display data control displayed on the user terminal 21 used by the user 11.
  • the UI (user interface) shown in Figure 38 allows you to set whether to enable (ON) or disable (OFF) the visualization settings for each visualization element, and then set the visualization to enable (ON).
  • the information processing device (server) 50 generates display data in which the magnification rate of the utterance text display circle according to the volume of the user's utterance is reduced to 50% as described with reference to FIG. , the user can view such display data.
  • the display control when the user's utterance is the center of the conversation, which was explained earlier with reference to FIGS. 22 and 24, and the display control according to the excitement of the conversation, which was explained with reference to FIG. 33, are executed.
  • Display data that has not been displayed is generated in the information processing device (server) 50, and the user can view such display data.
  • the information processing device (server) 50 performs a process of generating various user-compatible display data according to the settings of each user and providing it to each user.
  • user 11 can use user terminal 21 to check the themes of these multiple meetings.
  • FIG. 39 shows an example of a UI (user interface) used for this meeting theme confirmation process.
  • the UI (user interface) shown in FIG. 39 is also a UI displayed on the user terminal 21 used by the user 11.
  • topic information about the conversations of multiple groups currently holding remote meetings is displayed.
  • This theme is a theme estimated by conversation analysis processing in the information processing device (server) 50, for example, central utterance selection processing or keyword selection processing.
  • the time series data of the spoken text display circle corresponding to that group is displayed on the right.
  • one group icon (group b) is tapped with a finger as shown in the figure.
  • a group selection process such as a mouse-on process or a mouse-over process is performed to move the cursor onto one group icon (group b).
  • the time-series data of the spoken text display circle corresponding to the selected group is displayed on the right side.
  • time-series data of uttered text display circles for a restaurant-themed meeting of group b is displayed.
  • the user 11 can check the themes of meetings being held in various groups using the user terminal 21 that he or she uses, and can also check the time-series data of user utterances in each group. Can be done.
  • the time-series data of user utterances on the right is display data that visualizes the various visualization elements described earlier, and by looking at this display data, the user can easily determine, for example, whether the conversation is lively or not. can be confirmed.
  • the user 11 can use the user terminal 21 to not only observe time-series data of user utterances regarding one group, but also to observe time-series data regarding user utterances regarding multiple groups. You can also check time-series data of user utterances.
  • FIG. 40 is display data that displays time-series data of user utterances in one group, as described above with reference to FIG. 2 and the like.
  • an operation to reduce the display area of this display data such as a PC keyboard operation or a pinch-in operation of closing two fingers on a touch panel
  • multiple images appear on the display area as shown in FIG. 41.
  • a reduced version of the time-series data of user utterances for the meeting group is displayed.
  • the keywords in the uttered text may be left and displayed. For example, if the utterance text is "Milan Dining I went to the other day, it was delicious.”, only the keyword "Milan Dining" is displayed in the reduced version of the time-series data of the user's utterances. Further, if the uttered text is sufficiently short and there is no need to leave only the keyword, the uttered text may be displayed as is in a reduced version of the time-series data of the user's utterances. For example, if the uttered text is "What store?", it is sufficiently short, so it may be displayed as "What store?". Furthermore, the user icon may continue to be displayed in the display circle in the reduced version of the time-series data of user utterances.
  • the user 11 may select and enlarge one group from the display data of a reduced version of the time series data of user utterances of multiple meeting groups shown in FIG. 41, for example, by opening two fingers on the touch panel.
  • display data that is an enlarged version of the time series data of user utterances of the group is displayed, making it possible to confirm the specific utterance text of each user.
  • the information processing device (server) 50 inputs the voice acquired by the microphone of the user terminal 21 and the image captured by the camera from the user terminal 21.
  • This embodiment analyzes the status of users participating in a remote meeting and the status of the meeting, and generates display data according to the analysis results.
  • the information processing device (server) 50 inputs not only the voice acquired by the microphone and the image taken by the camera but also the biometric information of the user 11 as input information from the user terminal 21, and processes these inputs. This is an embodiment in which information analysis processing is executed to estimate a more detailed user state and display data control processing is executed.
  • the biometric information of the user 11 input from the user terminal 21 is various biometric information such as the user's line of sight direction, pulse, heartbeat, body temperature, and blood pressure. These are acquired by a sensor worn by the user 11 himself or by a sensor attached around the user 11, and transmitted to the information processing device (server) 50 via the user terminal 21.
  • FIG. 42 is a diagram illustrating the flow of data between the user terminal 21 and the information processing device (server) 50 in this embodiment. Similar to FIG. 4 described in the previous embodiment, FIG. 42 shows the user terminals 21a to 21e used by each of the users 11a to 11e who are conducting a remote meeting, and the information processing device (server) 50. .
  • the information processing device (server) 50 collects audio data and image data from each of the user terminals 21a to 21e used by each of the plurality of users 11a to 1e who are conducting a remote meeting, and furthermore, Receive information.
  • the user biometric information includes various biometric information such as the user's line of sight direction, pulse, heartbeat, body temperature, and blood pressure. These are acquired by a sensor worn by the user 11 himself or by a sensor attached around the user 11, and transmitted to the information processing device (server) 50 via the user terminal 21.
  • biometric information such as the user's line of sight direction, pulse, heartbeat, body temperature, and blood pressure.
  • the information processing device (server) 50 executes each process from step S11 to step S12.
  • step S11 analysis processing is performed on input data (audio data, image data, user biometric information) received from the user terminals 21a to 21e.
  • step S12 display data is generated using the data analysis results in step S11. Specifically, display data constituted by time-series data of the uttered text display circle 71 as shown in FIGS. 2 and 3 described in the previous embodiment is generated.
  • the display data generated by the information processing device (server) 50 is composed of time-series data of the uttered text display circle 71 that displays the contents of the utterances of users participating in the remote meeting as text, and includes, for example, the size, color, and movement of the uttered text display circle. This is display data that makes it possible to visually understand the status of the speaking user and the status of the meeting (level of excitement, etc.).
  • the information processing device (server) 50 can analyze the concentration level and interest level of the user 11 in the meeting by analyzing the direction of the user's line of sight, and can visualize these concentration levels and interest levels. It becomes possible to generate and display display data.
  • the information processing device (server) 50 includes a communication section 51, an audio data acquisition section 52, an audio data analysis section 53, an image data acquisition section 54, an image data analysis section 55, a display data control section 56, It includes a display data generation section 57, a user biometric information acquisition section 61, and a user biometric information analysis section 62.
  • the communication section 51, audio data acquisition section 52, audio data analysis section 53, image data acquisition section 54, image data analysis section 55, display data control section 56, and display data generation section 57 are the same as those described above.
  • this is a component similar to the component described with reference to FIG.
  • the communication unit 51 receives audio data, image data, and user biometric information from the user terminal 21 that is currently conducting a remote meeting.
  • the received audio data is audio data acquired by the microphone of the user terminal 21, and includes user utterances, laughter, clapping hands, environmental sounds, and the like.
  • the image data is image data acquired by the camera of the user terminal 21, and is image data that includes a user's face image.
  • the user biometric information is various biometric information such as the user's line of sight direction, pulse, heartbeat, body temperature, and blood pressure.
  • the communication unit 51 further transmits audio data such as user utterances acquired by the audio data acquisition unit 52 and display data generated by the display data generation unit 57 to each of the user terminals 21 that are executing a remote meeting.
  • Each user terminal 21 outputs audio such as user utterances received from the information processing device (server) 50 via the speaker of the user terminal 21 or headphones attached to the user terminal, and receives the audio from the information processing device (server) 50.
  • the image data to be displayed is displayed on the display section of the user terminal 21.
  • the processing executed by the audio data acquisition unit 52 and the audio data analysis unit 53 is similar to the processing described above with reference to FIG. 5. That is, audio data acquired by the microphone of the user terminal 21, such as audio data including user utterances, laughter, clapping hands, environmental sounds, etc., is analyzed and the analysis results are input to the display data control unit 56.
  • the processing executed by the image data acquisition section 54 and the image data analysis section 55 is similar to the processing described above with reference to FIG. 5. That is, by analyzing image data including face images of users participating in the meeting, which is image data acquired by the camera of the user terminal 21, A data control unit that performs analysis processing of facial expressions, positive actions such as smiling faces and nodding, troubled faces and sad faces, and negative actions such as shaking one's face to the side, and displays the analysis results. 56.
  • the user biometric information acquisition unit 61 selectively acquires user biometric information from the input data via the communication unit 51 and transfers the acquired user biometric information to the user biometric information analysis unit 62.
  • the user biometric information acquired by the user biometric information acquisition unit 61 is various biometric information such as the user's line of sight direction, pulse, heartbeat, body temperature, and blood pressure. These are data acquired by a sensor attached to the user 11 himself or a sensor attached around the user 11, and transmitted from the user terminal 21.
  • the user biometric information analysis unit 62 analyzes user biometric information received from each user terminal 21. For example, the direction of the user's line of sight received from the user terminal 21 is analyzed to analyze the user's 11 concentration level and interest level in the meeting. Furthermore, the user's body temperature, pulse, blood pressure, etc. are analyzed to analyze the level of calmness and excitement of the user 11. These analysis results are input to the display data control section 56.
  • the display data control unit 56 displays the audio data analysis results analyzed by the audio data analysis unit 53, the image data analysis results analyzed by the image data analysis unit 55, and the user biometric information analysis results analyzed by the user biometric information analysis unit 62. and based on these input data, provide the image data to the user terminal 21, that is, the time-series display of the uttered text display circle containing the uttered text of the remote meeting described earlier with reference to FIGS. 2 and 3. Execute data control processing.
  • the display data control unit 56 can perform display data control processing that reflects the user's state analyzed by the user biological information analysis unit 62 . Specifically, the system generates display data that visualizes the user's level of concentration and interest in the meeting, which is estimated based on the analysis results of the user's gaze direction. In addition, display data is generated that visualizes the user's level of calmness, excitement, etc., estimated from the user's body temperature, pulse rate, blood pressure, etc.
  • the display data control unit 56 performs display data control processing to generate display data that visualizes the emotions and states of users participating in the remote meeting, as well as the atmosphere such as the level of excitement of the entire meeting, that is, the utterance text that constitutes the display data.
  • Various display data control processes are executed, such as determining the size, color, movement, and other effect display modes of the display circle, and determining the background color.
  • Control information from the display data control section 56 is input to the display data generation section 57.
  • the display data generation unit 57 generates display data according to the size, color, movement, and background image of the uttered text display circle determined by the display data control unit 56.
  • the display data generated by the display data generation unit 57 is, for example, the display data shown in FIGS. 2 and 3 above, and this display data is provided to each user terminal 21 and displayed on the display unit of the user terminal 21. become.
  • the user 11 can confirm the utterances of meeting participants as text information, and can also confirm the user status and conversation status (meeting status). It becomes possible.
  • the user terminal 21 includes an input section 310, an output section 320, and a communication section 330.
  • the input unit 310 includes an audio input unit (microphone) 311 , an image input unit (camera) 312 , a user input unit (UI) 313 , and a sensor detection value input unit 314 .
  • the output unit 320 includes an audio output unit (speaker) 321 and an image output unit (display unit) 322.
  • a voice input section (microphone) 311 of the input section 310 acquires voice data such as a user's voice.
  • the acquired audio data is transmitted to the information processing device (server) 50 via the communication unit 330.
  • An image input unit (camera) 312 acquires image data such as a user's face image.
  • the acquired image data is transmitted to the information processing device (server) 50 via the communication unit 330.
  • the user input unit (UI) 313 is, for example, a keyboard, mouse, touch panel, etc., and is used for processing such as display data setting using a UI as described above with reference to Figures 38 to 41.
  • the sensor detection value input unit 314 inputs detection values of sensors that acquire user status such as biological information, such as a line-of-sight direction detection sensor, a sensor for measuring pulse, heart rate, body temperature, blood pressure, etc.
  • the input data is transmitted to the information processing device (server) 50 via the communication unit 330.
  • FIG. 45 is a diagram illustrating an example of the hardware configuration of the information processing device (server) 50 and the user terminal 21 of the present disclosure. The hardware configuration shown in FIG. 45 will be described below.
  • a CPU (Central Processing Unit) 501 functions as a control unit or a data processing unit that executes various processes according to programs stored in a ROM (Read Only Memory) 502 or a storage unit 508. For example, processing according to the sequence described in the embodiment described above is executed.
  • a RAM (Random Access Memory) 503 stores programs and data executed by the CPU 501. These CPU 501, ROM 502, and RAM 503 are interconnected by a bus 504.
  • the CPU 501 is connected to an input/output interface 505 via a bus 504, and to the input/output interface 505, an input section 506 consisting of various switches, a keyboard, a mouse, a microphone, a sensor, etc., and an output section 507 consisting of a display, speakers, etc. are connected. has been done.
  • the CPU 501 executes various processes in response to commands input from the input unit 506, and outputs processing results to, for example, the output unit 507.
  • the storage unit 508 connected to the input/output interface 505 is, for example, a hard disk, and stores the programs executed by the CPU 501 and various data.
  • the communication unit 509 functions as a transmitter/receiver for Wi-Fi communication, Bluetooth (registered trademark) (BT) communication, and other data communication via networks such as the Internet or a local area network, and communicates with external devices.
  • a drive 510 connected to the input/output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card, and records or reads data.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card
  • a data analysis unit that analyzes data received from a user terminal that executes a conversation via a communication network
  • a display data control unit configured to control display data having a utterance text display area including text corresponding to user utterances provided to the user terminal based on an analysis result of the data analysis unit
  • the display data control section includes: An information processing device that controls a display mode of at least one of the uttered text display area and the background area to generate display data that visualizes a user state of a user who carries out a conversation, and at least one of a conversation state.
  • the display data control section includes: At least one of the size, position, color, or movement of the spoken text display area, or the output image around the spoken text display area is controlled to control the user state of the user who carries out the conversation, or at least the conversation state.
  • the information processing device which generates display data that visualizes one of the states.
  • the data analysis unit analyzes audio data and image data received from the user terminal
  • the display data control section includes: (1) or (2) controlling display data to be displayed on the user terminal based on at least one of the analysis results of the audio data and the analysis results of the image data analyzed by the data analysis unit; The information processing device described in .
  • the display data control section includes: The information processing device according to any one of (1) to (3), wherein the size of the uttered text display area is changed according to the volume of the user's utterance analyzed by the data analysis unit.
  • the display data control section includes: According to the brightness of the user's utterance analyzed by the data analysis unit, the color of the uttered text display area is changed or an effect image is output around the uttered text display area according to any one of (1) to (4). information processing equipment.
  • the display data control section includes: In accordance with the keywords in the user utterances analyzed by the data analysis unit, at least one of enlarging and displaying the keyword area in the text corresponding to the user utterances displayed in the utterance text display area or changing the color thereof is executed.
  • the information processing device according to any one of (1) to (5).
  • the display data control section includes: According to the time series information of user utterances analyzed by the data analysis unit, the display position of the uttered text display area is changed or the color of the uttered text display area is changed according to any one of (1) to (6). information processing equipment.
  • the display data control unit An information processing device described in any one of (1) to (7), wherein the data analysis unit executes at least one of a control process for a display position or size of an utterance text display area corresponding to a central user utterance or a dominant user utterance selected from multiple user utterances, or a process for additionally displaying a conversation center identification icon.
  • the display data control unit When an analysis result that a certain subsequent user utterance is an utterance in response to a specific preceding utterance is input as an analysis result of the data analysis unit, The information processing device according to any one of (1) to (8), wherein an utterance text display area of the subsequent utterance is displayed by contacting or moving close to an utterance text display area corresponding to the preceding utterance.
  • the display data control section includes: When the data analysis unit inputs an analysis result indicating that a certain subsequent user utterance is an utterance in agreement with a specific preceding utterance, Display control for moving and displaying the uttered text display area of the subsequent utterance so as to approach the uttered text display area corresponding to the preceding utterance, or Execute at least one of display control processes (1) to (9) for display controlling the color of the uttered text display area of the subsequent utterance to a color similar to the color of the uttered text display area corresponding to the preceding utterance.
  • the information processing device according to any one of the above.
  • the display data control section includes: When the data analysis unit inputs an analysis result indicating that a certain subsequent user utterance is a negative utterance with respect to a specific preceding utterance, Display control for moving and displaying the uttered text display area of the subsequent utterance away from the uttered text display area corresponding to the preceding utterance, or Any one of (1) to (10), performing at least one display control process of changing the color of the uttered text display area of the subsequent utterance to a color different from the color of the uttered text display area corresponding to the preceding utterance.
  • the display data control section includes: If the data analysis unit detects a positive action by the user, Execute at least one display control of a utterance text display circle of a user who has shown a positive action, or a control that shakes a user icon, a size scaling control, or a color change control that changes the color to a brighter color; If the data analysis unit detects a negative action by the user, Executing at least one display control of shaking the utterance text display circle or user icon of the user who has shown the negative action, controlling the size scaling, or changing the color to a darker color (1) (11) The information processing device according to any one of the above.
  • the display data control section includes: When the data analysis unit detects an excitement in the conversation, User's utterance text display Control for shaking the circle or user icon, size scaling control, color change control for changing the color to a brighter color, or utterance text display corresponding to multiple user utterances that make up a lively conversation.
  • the information processing device according to any one of (1) to (12), which executes at least one display control of background color change control that changes the color of a background area including the area to a bright color.
  • the display data control section includes: When the data analysis unit detects a decline in conversation, A control for shaking the user's utterance text display circle or user icon, a control for scaling the size, a color change control for changing the color to a darker color, or a control for utterances corresponding to multiple user utterances constituting a conversation that indicates ebbs and flows.
  • the information processing device according to any one of (1) to (13), which executes at least one display control of background color change control that changes the color of a background area including the display area to a dark color.
  • the display data control section includes: When inputting the classification results of opinions corresponding to multiple user utterances from the data analysis unit, At least a display control that generates and displays a separate uttered text display area data series for each of a plurality of opinion groups, or a display control that sets and displays the uttered text display areas of the same or similar opinions in similar colors.
  • the information processing device according to any one of (1) to (14), which executes any one of the processes.
  • the data received from the user terminal includes biometric information of the user
  • the data analysis unit analyzes biometric information of the user received from the user terminal
  • the display data control section includes: The information processing device according to any one of (1) to (15), which executes control of display data displayed on the user terminal based on an analysis result of the user's biometric information analyzed by the data analysis unit.
  • the display data control section includes: The information processing device according to any one of (1) to (16), which generates display data according to user setting information input from the user terminal.
  • An information processing system including a plurality of user terminals that execute conversations via a communication network and a server that manages the conversations,
  • the user terminal is Sending audio data acquired through the microphone and image data captured by the camera to the server,
  • the server is Analyzing audio data and image data received from the user terminal,
  • the user terminal adjusts the display mode of at least one of the uttered text display area and the background area to generate display data that visualizes the user state of the user who is carrying out the conversation, or the state of at least one of the conversation state. and send it to
  • the user terminal is An information processing system that displays display data including a spoken text display area generated by the server on a display unit.
  • An information processing method executed in an information processing device a data analysis step in which the data analysis unit analyzes data received from a user terminal that executes a conversation via a communication network; a display data control step in which the display data control unit controls display data having a uttered text display area including text corresponding to user utterances to be provided to the user terminal based on the analysis result in the data analysis step; ,
  • the display data control step includes: Information that is a step of controlling the display mode of at least one of the uttered text display area or the background area to generate display data that visualizes the user state of the user who is carrying out the conversation, or the state of at least one of the conversation state. Processing method.
  • a program that records the processing sequence can be installed and executed in the memory of a computer built into dedicated hardware, or the program can be installed on a general-purpose computer that can execute various types of processing. It is possible to install and run it.
  • the program can be recorded in advance on a recording medium.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet, and installed on a recording medium such as a built-in hard disk.
  • a system is a logical collective configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same housing.
  • display data displayed on the display unit of a user terminal that conducts a conversation via a communication network is controlled to visualize the user status and conversation status.
  • a configuration for generating display data is realized. Specifically, for example, a display having an uttered text display area that analyzes data received from a user terminal that executes a conversation via a communication network, and includes text corresponding to user utterances that is provided to the user terminal based on the analysis result. Execute control of data.
  • the display data control unit controls at least one of the size, position, color, or movement of the spoken text display area, or an output image around the spoken text display area, and controls the user state of the user who executes the conversation, or Display data that visualizes at least one of the conversation states is generated.
  • User 21 User Terminal 50 Information Processing Device (Server) 51 Communication unit 52 Audio data acquisition unit 53 Audio data analysis unit 54 Image data acquisition unit 55 Image data analysis unit 56 Display data control unit 57 Display data generation unit 61 User biometric information acquisition unit 62 User biometric information analysis unit 71 Speech text display circle 72 Spoken text 73 User icon 310 Input section 311 Audio input section (microphone) 312 Image input section (camera) 313 User input section (UI) 314 Sensor detection value input section 320 Output section 321 Audio output section (speaker) 322 Image output section (display section) 330 Communication Department 501 CPU 502 ROM 503 RAM 504 bus 505 input/output interface 506 input section 507 output section 508 storage section 509 communication section 510 drive 511 removable media

Abstract

通信ネットワークを介して会話を実行するユーザ端末の表示部に表示する表示データを制御して、ユーザ状態や会話状態を可視化した表示データを生成する。通信ネットワークを介して会話を実行するユーザ端末からの受信データを解析し、解析結果に基づいてユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御を実行する。表示データ制御部は、発話テキスト表示領域のサイズ、または位置、または色、または動き、または発話テキスト表示領域周囲の出力画像の少なくともいずれかを制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成する。

Description

情報処理装置、および情報処理システム、並びに情報処理方法
 本開示は、情報処理装置、および情報処理システム、並びに情報処理方法に関する。さらに詳細には、リモート会議等、通信ネットワークを介した会話に参加するユーザ発話のテキスト出力に加え、参加ユーザの感情や会話の盛り上がりなど、ユーザ状態や会話状態を可視化した表示データを生成してユーザに提示する情報処理装置、および情報処理システム、並びに情報処理方法に関する。
 昨今、ネットワークを介したリモート会議、リモート打ち合わせ、リモート飲み会、リモート商談等、通信端末を利用して音声、画像データを送受信して行うリモートミーティングが盛んに行われている。
 例えばネットワークを介したリモート会議では、会議参加者各々が所有するPCやスマホ(スマートフォン)などのユーザ端末をインターネット等の通信ネットワークで接続し、各端末間で画像や音声を送受信して会議を行う。
 また、例えば聴覚障がい者でもリモートミーティングに参加できるように、ユーザ発話をテキストに変換してユーザ端末の表示部に表示するシステムも利用されている。
 例えば特許文献1(特開2021-071632号公報)は、複数地点のユーザ間のコミュニケーションにおける発話を文字情報として表示するシステムを開示している。
 しかし、このような通信端末を利用したリモートミーティングでは、対面形式のミーティングと異なり、相手側の感情や状態を把握しづらいという問題がある。
 特に、聴覚障がい者の場合、ユーザ発話の内容はユーザ端末に表示されるテキストで理解できるが、発話を行ったユーザの感情等を把握することは困難である。
 また、会議全体の雰囲気、例えば盛り上がり状態などについても理解し難いという問題がある。
特開2021-071632号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、通信ネットワークを介したリモート会議等の参加ユーザの状態や会話状態を可視化した表示データを生成し、生成した表示データをユーザ端末に提示する情報処理装置、および情報処理システム、並びに情報処理方法を提供することを目的とする。
 本開示の第1の側面は、
 通信ネットワークを介して会話を実行するユーザ端末からの受信データを解析するデータ解析部と、
 前記データ解析部の解析結果に基づいて、前記ユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御を実行する表示データ制御部を有し、
 前記表示データ制御部は、
 前記発話テキスト表示領域または背景領域の少なくともいずれかの表示態様を制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成する情報処理装置にある。
 さらに、本開示の第2の側面は、
 通信ネットワークを介して会話を実行する複数のユーザ端末と、前記会話を管理するサーバを有する情報処理システムであり、
 前記ユーザ端末は、
 マイクを介して取得した音声データとカメラが撮影した画像データを前記サーバに送信し、
 前記サーバは、
 前記ユーザ端末から受信する音声データと画像データを解析し、
 解析結果に基づいて、前記ユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御処理として、
 前記発話テキスト表示領域または背景領域の少なくともいずれかの表示態様を調整して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成して前記ユーザ端末に送信し、
 前記ユーザ端末は、
 前記サーバの生成した発話テキスト表示領域を含む表示データを表示部に表示する情報処理システムにある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 データ解析部が、通信ネットワークを介して会話を実行するユーザ端末からの受信データを解析するデータ解析ステップと、
 表示データ制御部が、前記データ解析ステップにおける解析結果に基づいて、前記ユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御を実行する表示データ制御ステップを有し、
 前記表示データ制御ステップは、
 前記発話テキスト表示領域または背景領域の少なくともいずれかの表示態様を制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成するステップである情報処理方法にある。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、通信ネットワークを介して会話を実行するユーザ端末の表示部に表示する表示データを制御して、ユーザ状態や会話状態を可視化した表示データを生成する構成が実現される。
 具体的には、例えば、通信ネットワークを介して会話を実行するユーザ端末からの受信データを解析し、解析結果に基づいてユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御を実行する。表示データ制御部は、発話テキスト表示領域のサイズ、または位置、または色、または動き、または発話テキスト表示領域周囲の出力画像の少なくともいずれかを制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成する。
 本構成により、通信ネットワークを介して会話を実行するユーザ端末の表示部に表示する表示データを制御して、ユーザ状態や会話状態を可視化した表示データを生成する構成が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
本開示の情報処理システムの構成と実行する処理の概要について説明する図である。 情報処理装置(サーバ)が生成する表示データの概要について説明する図である。 情報処理装置(サーバ)が生成する表示データの概要について説明する図である。 情報処理装置(サーバ)がユーザ端末各々から受信するデータの例について説明する図である。 情報処理装置(サーバ)の構成例について説明する図である。 情報処理装置(サーバ)が生成する表示データの基本的な構成要素である発話テキスト表示円の詳細構成について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する図である。 ユーザによるユーザ端末を利用した表示データの制御処理例について説明する図である。 ユーザによるユーザ端末を利用した表示データの制御処理例について説明する図である。 ユーザによるユーザ端末を利用した表示データの制御処理例について説明する図である。 ユーザによるユーザ端末を利用した表示データの制御処理例について説明する図である。 情報処理装置(サーバ)がユーザ端末各々から受信するデータの例について説明する図である。 情報処理装置(サーバ)の構成例について説明する図である。 ユーザ端末の構成例について説明する図である。 情報処理装置、ユーザ端末のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、および情報処理システム、並びに情報処理方法の詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.本開示の情報処理システムの構成と実行する処理の概要について
 2.情報処理装置(サーバ)が実行する処理と、情報処理装置(サーバ)の構成例について
 3.情報処理装置(サーバ)が実行する表示データ制御処理の具体例について
 4.ユーザ端末における表示データ制御処理について
 5.ユーザの生体情報等を利用した表示制御を実行する実施例について
 6.ユーザ端末の構成例について
 7.情報処理装置、およびユーザ端末のハードウェア構成例について
 8.本開示の構成のまとめ
  [1.本開示の情報処理システムの構成と実行する処理の概要について]
 まず、図1以下を参照して本開示の情報処理システムの構成と実行する処理の概要について説明する。
 図1は、リモート会議やリモート打ち合わせ等のリモートミーティング、すなわち通信ネットワークを介した会話を実行する情報処理システムの構成例を示す図である。
 図1には、通信ネットワークを介した会話の参加ユーザであるユーザa,11a~ユーザe,11eと各ユーザが利用するユーザ端末a,21a~ユーザ端末e,21eと、リモートミーティング実行環境を提供するサーバである情報処理装置(サーバ)50を示している。
 ユーザ端末a,21a~ユーザ端末e,21eと情報処理装置(サーバ)50は通信ネットワーク30を介して接続され、通信端末間で音声、画像を相互に送受信してリモートミーティングが行われる。
 ユーザ端末21a~21eは、例えばPC、スマホ(スマートフォン)、タブレット端末等の通信可能な情報処理装置によって構成される。
 これらユーザ端末21a~eの各々は、マイクとカメラを有しており、ユーザ端末21のマイクが取得したユーザ発話等の音声データと、カメラが撮影した各ユーザの顔画像等の画像データは情報処理装置(サーバ)50に送信される。
 情報処理装置(サーバ)50は、ユーザ端末21a~e各々から受信する音声データと画像データを利用して、ユーザ発話対応のテキストデータを生成し、さらに、ユーザ状態やミーティングの状態などを可視化した表示データを生成する。
 ユーザ端末21a~e各々は、情報処理装置(サーバ)50を介して各ユーザの発話音声を受信してスピーカーから出力する。さらに、情報処理装置(サーバ)50が生成した表示データは各ユーザ端末に提供され、ユーザ端末の表示部に表示される。
 ユーザ11a~11eは、ユーザ端末21a~eの表示部に表示される表示データを見ることで、ミーティング参加者の発話をテキスト情報として確認することが可能となり、さらにユーザ状態や会話状態についても把握することができる。
 例えば発話音声を聞き取りにくい、あるいは聞くことができない聴覚障がい者も情報処理装置(サーバ)50が生成した表示データを見ることで、発話をテキスト情報として確認でき、さらにユーザ状態や会話状態も把握することができる。
 図2、図3を参照して情報処理装置(サーバ)50が生成する表示データの概要について説明する。
 図2に示す表示データは、リモートミーティング参加ユーザの1人であるユーザa,11aが利用するユーザ端末a,21aの表示部に表示される表示データの例である。その他のリモートミーティング参加ユーザのユーザ端末にも同様の表示データが表示される。
 この表示データは、情報処理装置(サーバ)50が生成する表示データである。
 図2に示すように、表示データは、ミーティング参加ユーザの発話をテキスト化して表示した発話テキスト表示円71の時系列データによって構成される。発話テキスト表示円71は、表示部の左下から右上に向かって移動する。
 すなわち、最新のユーザ発話に対応する発話テキスト表示円が画面左下に表示され、その表示円が時間経過とともに画面の右上方向に移動する。発話テキスト表示円が表示部の右上に達すると、その後、その発話テキスト表示円は、表示部の右上から、順次、消えていく。
 なお、図に示す点線矢印は、発話テキスト表示円71の流れ(移動方向)を示す矢印であり、実際の画面上には表示されない。
 図に示す例では、発話テキスト表示円71-1が過去の最も古いユーザ発話に対応する発話テキスト表示円であり、その後の時間経過に伴う発話対応の発話テキスト表示円が、発話テキスト表示円71-2~71-6となる。
 図に示す例では、発話テキスト表示円71-6が最も新しいユーザ発話対応の発話テキスト表示円である。
 このように、図に示す複数の発話テキスト表示円71-1~71-6は、時系列のユーザ発話を右上から左下に並べて示した発話テキスト表示円であるる
 具体的には、リモートミーティングにおいて、以下のユーザ発話が、順次、実行されたことを示している。
 ユーザ発話=いいレストランないかな
 ユーザ発話=この前行ったミラノダイニングおいしかったよ
 ユーザ発話=私も行ったことある
 ユーザ発話=なんのお店
 ユーザ発話=イタリアン
 ユーザ発話=この前行った居酒屋もよかったよ
 図に示すように、発話テキスト表示円71-2~71-6は、ユーザ発話対応のテキストと発話ユーザの顔画像を含むデータとして生成され、表示される。
 また、発話テキスト表示円71-2~71-6は、円のサイズ(大きさ)や、円の色等が異なる設定となっている。なお、図では白黒画として示しているが、実際の表示データでは、発話テキスト表示円71-2~71-6は様々な色に設定される。
 これら、発話テキスト表示円71のサイズや色は、情報処理装置(サーバ)50が、各ユーザ発話の発話音量(声の大きさ)や、発話内容の解析結果に基づいて決定する。
 情報処理装置(サーバ)50が実行するこれらの表示データ制御処理については、後段で詳細に説明する。
 図3は、図2と同様、ユーザa,11aが利用するユーザ端末a,21aの表示部に表示される表示データの例であるが、図2に示す表示データの表示後、一定時間経過した後の表示データの例である。
 図2に示す表示部の画面左下に示す最新の発話テキスト表示円71-6(ユーザ発話=この前行った居酒屋もよかったよ)が、図3に示す表示データでは、画面右上に移動している。
 図3に示す表示データは、発話テキスト表示円71-6に示す、
 ユーザ発話=この前行った居酒屋もよかったよ
 このユーザ発話の後に発話されたユーザ発話に対応する発話テキスト表示円71-7~11を示している。
 具体的には、リモートミーティングにおいて、
 ユーザ発話=この前行った居酒屋もよかったよ
 このユーザ発話の後に、以下のユーザ発話が、順次、実行されたことを示している。
 ユーザ発話=どこのお店
 ユーザ発話=六本木の駅からすぐのところ
 ユーザ発話=和食系?
 ユーザ発話=さわがしいところは苦手だな~
 ユーザ発話=静かなフレンチがいいね
 図3に示す発話テキスト表示円71-6~71-11も、ユーザ発話対応のテキストと発話ユーザの顔画像を含むデータである。これらも円のサイズ(大きさ)や、円の色等が異なる設定である。
 前述したように、発話テキスト表示円71のサイズや色は、情報処理装置(サーバ)50が、各ユーザ発話の発話音量(声の大きさ)や、発話内容の解析結果に基づいて決定する。これらの処理については後段で詳細に説明する。
  [2.情報処理装置(サーバ)が実行する処理と、情報処理装置(サーバ)の構成例について]
 次に、情報処理装置(サーバ)50が実行する処理と、情報処理装置(サーバ)の構成例について説明する。
 前述したように、情報処理装置(サーバ)50は、リモートミーティングを実行中のユーザが利用するユーザ端末21各々から音声データと画像データを受信して、ユーザ発話対応のテキストデータを生成し、さらに、ユーザ状態やミーティングの状態などを可視化した表示データを生成する。
 図4を参照して、情報処理装置(サーバ)50がユーザ端末21各々から受信するデータの例について説明する。
 図4には、リモートミーティングを実行中の複数のユーザ11a~e各々が利用するユーザ端末21a~eと、情報処理装置(サーバ)50を示している。
 図4に示すように、情報処理装置(サーバ)50は、リモートミーティングを実行中の複数のユーザ11a~e各々が利用するユーザ端末21a~e各々から音声データと画像データを受信する。
 図4に示すように、情報処理装置(サーバ)50は、ステップS11~ステップS12の各処理を実行する。
 すなわち、ステップS11において、ユーザ端末21a~eから受信する入力データ(音声データ、画像データ)に対する解析処理を実行する。
 次に、ステップS12において、ステップS11のデータ解析結果を用いて表示データを生成する。
 具体的には、図2、図3を参照して説明した発話テキスト表示円71の時系列データによって構成される表示データを生成する。
 情報処理装置(サーバ)50が生成する表示データは、リモートミーティング参加ユーザの発話内容をテキスト表示した発話テキスト表示円71の時系列データによって構成され、例えば、発話テキスト表示円の大きさや色や動きによって、発話ユーザの状態や、ミーティングの状態(盛り上がり度など)を視覚的に理解可能とした表示データである。
 情報処理装置(サーバ)50の構成例について図5を参照して説明する。
 図5に示すように、情報処理装置(サーバ)50は、通信部51、音声データ取得部52、音声データ解析部53、画像データ取得部54、画像データ解析部55、表示データ制御部56、表示データ生成部57を有する。
 通信部51は、リモートミーティングを実行中のユーザ端末21から音声データと画像データを受信する。
 受信する音声データは、ユーザ端末21のマイクが取得した音声データであり、ユーザ発話音声や、笑い声、手をたたく音、環境音などが含まれる音声データである。
 また画像データは、ユーザ端末21のカメラが取得した画像データであり、ユーザの顔画像が含まれる画像データである。
 なお、通信部51は、さらに、音声データ取得部52が取得したユーザ発話等の音声データと、表示データ生成部57が生成した表示データを、リモートミーティングを実行中のユーザ端末21各々に送信する。
 各ユーザ端末21は、情報処理装置(サーバ)50から受信するユーザ発話等の音声をユーザ端末21のスピーカーや、ユーザ端末に装着したヘッドホンを介して出力し、情報処理装置(サーバ)50から受信する画像データをユーザ端末21の表示部に表示する。
 音声データ取得部52は、通信部51が受信したデータから音声データを選択取得して音声データ解析部53に入力する。
 音声データ解析部53は、音声データ取得部52から入力した音声データの解析処理を実行する。
 解析対象とする音声データは、ユーザ端末21のマイクが取得した音声データであり、前述したようにユーザ発話音声や、笑い声、手をたたく音、環境音などが含まれる音声データである。
 音声データ解析部53における音声解析結果は表示データ制御部56に入力される。
 音声データ解析部53は、音声データ中のユーザ発話の音量解析処理、トーン(声色)解析処理、音声認識処理、意味解析処理等を実行する。さらに、笑い声や唸り声、さらに拍手など発話以外の音声解析処理も実行する。
 音量解析処理は、ユーザ発話各々についての音量、すなわち声の大きさを算出する処理である。算出した各ユーザ発話の声の大きさは表示データ制御部56に入力される。
 トーン(声色)解析処理は、ユーザ発話各々のトーン(声色)を解析する処理であり、具体的には例えば各ユーザ発話が明るいトーンで実行されたか、あるいは暗いトーンで実行されたかといった解析処理である。解析結果は表示データ制御部56に入力される。
 音声認識処理は、ユーザ発話のテキスト変換処理である。音声データ解析部53は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。生成したユーザ発話対応のテキストデータは、表示データ制御部56に入力される。
 意味解析処理は、音声認識処理によって生成したテキストデータに対する発話意味解析処理や構文解析処理などである。音声データ解析部53は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータからユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)の推定処理などを実行し、ユーザ発話に含まれるキーワード抽出処理を実行する。
 さらに、時系列の複数発話から、中心的発話や支配的発話を選択する処理も実行する。
 これらの解析結果も表示データ制御部56に入力される。
 画像データ取得部54は、通信部51が受信したデータから画像データを選択取得して画像データ解析部55に入力する。
 画像データ解析部55は、画像データ取得部54から入力した画像データの解析処理を実行する。
 画像データ解析部55における画像解析結果は表示データ制御部56に入力される。
 画像データ解析部55が解析対象とする画像データは、ユーザ端末21のカメラが取得した画像データであり、ミーティング参加ユーザの顔画像を含む画像データである。
 画像データ解析部55は、例えばユーザの顔画像の解析により顔の表情を判定する。例えば笑っているか、困っているか、怒っているか、悲しんでいるか等、ユーザの顔の表情がどのような表情であるかを解析する。
 さらに、例えば笑い顔やうなずくような肯定的なアクションを行っているか、困った顔や悲しい顔、さらに顔を横に振るような否定的なアクションを行っているか等のユーザアクションの解析処理等を実行する。
 さらに、手を振るアクションなど、顔以外の体の動きについても解析する。
 これら、画像データ解析部55における画像解析結果は表示データ制御部56に入力される。
 表示データ制御部56は、音声データ解析部53が解析した音声データ解析結果と、画像データ解析部55が解析した画像データ解析結果を入力し、これらの入力データに基づいて、ユーザ端末21に提供する画像データ、すなわち先に図2、図3を参照して説明したリモートミーティングの発話テキストを含む発話テキスト表示円の時系列表示データの制御処理を実行する。
 表示データ制御部56は、例えばユーザの声の大きさに応じて発話テキスト表示円のサイズを決定する処理、ユーザの声のトーンに応じて発話テキスト表示円の色を決定する処理、ユーザ発話がどの先行発話に対してなされたかの解析結果に応じて発話テキスト表示円の表示位置や動きを決定する処理などを実行する。
 このように、表示データ制御部56は、リモートミーティングの参加ユーザの感情や状態、さらにミーティング全体の盛り上がり度などの雰囲気などを可視化した表示データを生成するための表示データ制御処理、すなわち表示データを構成する発話テキスト表示円のサイズ、色、動き、その他のエフェクト表示態様等の決定処理、背景の色などの決定処理など、様々な表示データ制御処理を実行する。
 この表示データ制御処理の具体例については、次の項目において詳細に説明する。
 表示データ制御部56の制御情報は、表示データ生成部57に入力される。
 表示データ生成部57は、表示データ制御部56が決定した発話テキスト表示円のサイズ、色、動き、背景画像の態様に従った表示データを生成する。
 表示データ生成部57が生成した表示データは、例えば先に図2や図3に示す表示データであり、この表示データが各ユーザ端末21に提供され、ユーザ端末21の表示部に表示されることになる。
  [3.情報処理装置(サーバ)が実行する表示データ制御処理の具体例について]
 次に、情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明する。
 図4を参照して説明したように、情報処理装置(サーバ)50は、リモートミーティングを実行中の複数のユーザ11a~e各々が利用するユーザ端末21a~e各々から音声データと画像データを受信し、これら受信データ(音声データ、画像データ)を解析して表示データを生成する。
 すなわち、図2、図3を参照して説明した発話テキスト表示円71の時系列データによって構成される表示データを生成する。
 情報処理装置(サーバ)50が生成する表示データは、リモートミーティング参加ユーザの発話内容をテキスト表示した発話テキスト表示円71の時系列データによって構成され、例えば、発話テキスト表示円の大きさや色や動きによって、発話ユーザの状態や、ミーティングの状態(盛り上がり度など)を視覚的に理解可能とした表示データである。
 また、図5を参照して説明したように、情報処理装置(サーバ)50の表示データ制御部56が、声データ解析部53が解析した音声データ解析結果と、画像データ解析部55が解析した画像データ解析結果を入力し、これらの入力データに基づいて、ユーザ端末21に提供する画像データ、すなわち先に図2、図3を参照して説明したリモートミーティングの発話テキストを含む発話テキスト表示円の時系列表示データの制御処理を実行する。
 すなわち、表示データ制御部56は、例えばユーザの声の大きさに応じて発話テキスト表示円のサイズを決定する処理、ユーザの声のトーンに応じて発話テキスト表示円の色を決定する処理、ユーザ発話がどの先行発話に対してなされたかの解析結果に応じて発話テキスト表示円の表示位置や動きを決定する処理などを実行する。
 このように、表示データ制御部56は、リモートミーティングの参加ユーザの感情や状態、さらにミーティング全体の盛り上がり度などの雰囲気などを可視化した表示データを生成するための表示データ制御処理、すなわち表示データを構成する発話テキスト表示円のサイズ、色、動き、その他のエフェクト表示態様等の決定処理、背景の色などの決定処理など、様々な表示データ制御処理を実行する。
 以下、この表示データ制御処理の具体例について説明する。
 まず、図6を参照して、情報処理装置(サーバ)50が生成する表示データの基本的な構成要素である発話テキスト表示円71の詳細構成について説明する。
 図6には、1つの発話テキスト表示円71を示している。
 発話テキスト表示円71には、発話テキスト72と、ユーザアイコン73が含まれる。
 なお、図6には、円形タイプの発話テキスト表示円71を示しているが、この形状は一例であり、円形以外の四角形、六角形等の多角形、あるいは楕円形など様々な形状とした発話テキスト表示領域を利用する構成としてもよい。
 ここでは、一実施例として円形の発話テキスト表示円71を利用した例について説明する。
 発話テキスト表示円71には、発話テキスト72と、ユーザアイコン73が含まれる。
 発話テキスト72は、図5を参照して説明した情報処理装置(サーバ)50の音声データ解析部53が生成したテキストデータであり、ユーザ端末21のマイクを介して入力されたユーザ発話に対応するテキストデータである。
 なお、発話テキスト表示円71内に表示される発話テキスト72は、例えばキーワード部分を拡大して表示、あるいは他のテキスト部分と異なる色のテキストとして表示するなどの表示制御処理が行われる場合がある。
 これらの表示制御処理は、先に図5を参照して説明した情報処理装置(サーバ)50の表示データ制御部56において実行される。これらの処理の具体例については後述する。
 ユーザアイコン73は、発話テキスト表示円71内に表示される発話テキスト72の発話ユーザを示す画像等によって構成される。具体的には、例えば、以下のいずれかのデータである。
 a.発話ユーザのカメラ撮影画像(動画)
 b.発話ユーザのカメラ撮影画像(静止画)
 c.発話ユーザを示すアバター画像
 d.発話ユーザを示すその他のアイコン
 e.発話ユーザの名前、ニックネーム
 なお、図6の右側に示すように発話の無いミーティング参加ユーザについては、発話テキスト表示円71を表示することなく、ユーザアイコン73のみを表示する処理を行ってもよい。
 例えば、予め設定した期間内に全く発話がなく、表示画面内にそのユーザの発話テキスト表示円71が表示されていない場合などにユーザアイコン73のみを表示する処理を行うなどの処理を行う。
 さらに、先に図5を参照して説明したように、情報処理装置(サーバ)50の表示データ制御部56は、リモートミーティングの参加ユーザの感情や状態、さらにミーティング全体の盛り上がり度などの雰囲気などに応じて、発話テキスト表示円71のサイズ、色、動き、その他のエフェクト表示態様などを決定して制御する。
 すなわち、表示データ制御部56は、リモートミーティングの参加ユーザの感情や状態、さらにミーティング全体の盛り上がり度などの雰囲気などを可視化した表示データを生成するための表示データ制御処理を実行する。
 図7以下を参照して、情報処理装置(サーバ)50が実行する表示データ制御処理の具体例について説明する。
 図7~図14に示す表は、情報処理装置(サーバ)が実行する表示データ制御処理の具体例について説明した表である。
 図15以下には、図7~図14に示す表の説明に対応する具体的な表示例を示している。
 図7~図14の表は、以下の項目(a)~(d)を対応付けて示している。
 (a)可視化要素
 (b)解析対象とする入力データ
 (c)入力データに対する解析処理
 (d)表示データ制御部による表示データ制御処理
 (a)可視化要素とは、情報処理装置(サーバ)50が生成する表示データを見ることでユーザが認識可能となる発話ユーザの状態や会話状態(ミーティング状態)の要素である。
 具体的には、発話の声の大きさや声のトーン等が可視化要素である。
 (b)解析対象とする入力データとは、上記の「(a)可視化要素」を表示データ中に表現するために解析する対象となるデータであり、情報処理装置(サーバ)50がユーザ端末21から入力する音声データ、画像データの少なくともいずれかのデータである。
 (c)入力データに対する解析処理は、上記の「(b)解析対象とする入力データ」に対する具体的なデータ解析処理についての説明である。
 (d)表示データ制御部による表示データ制御処理は、上記の「(c)入力データに対する解析処理」の結果に基づいて、表示データ制御部が実行する表示データ制御処理の具体例の説明である。
 図7~図14の表には、(a)可視化要素として、以下の13種類の可視化要素を列挙している。
 (1)ユーザの声の大きさ
 (2)ユーザの声の明暗
 (3)ユーザ発話中のキーワード
 (4)ユーザ発話の時系列情報
 (5)ユーザ発話が、会話の中心的発話や支配的発話であること
 (6)ユーザ発話が、先行するどの発話に対してなされたか
 (7)ユーザ発話が、先行発話に対する賛同発話であること
 (8)ユーザ発話が、先行発話に対する否定発話であること
 (9)ユーザのポジティブアクション
 (10)ユーザのネガティブアクション
 (11)会話全体の盛り上がり
 (12)会話全体の盛り下がり
 (13)意見の分類
 情報処理装置(サーバ)50は、例えば先に図2、図3を参照して説明した表示データを制御して、上記(1)~(13)の可視化要素を含めた表示データを生成する。
 情報処理装置(サーバ)50が実行するこの表示データ制御処理によって、ミーティング参加ユーザはユーザ端末に表示された表示データから、各ユーザの発話の大きさやトーン、さらに、各ユーザ発話の先行発話に対する賛否、またユーザがポジティブな状態にあるかネガティブな状態にあるか、またミーティングが盛り上がっているか否かなど、様々なユーザ状態や会話状態を認識することが可能となる。
 以下、図7~図14に示す可視化要素(1)~(13)の各々についての具体的処理例について、順次、説明する。
 (1)ユーザの声の大きさ
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「ユーザ発話の声の大きさ」を表示データ上で表現するための表示データ制御処理を実行する。
 「ユーザ発話の声の大きさ」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図7に示す表の項目(1)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声である。
 「ユーザ発話の声の大きさ」を表示データ上で表現するために実行するデータ解析処理は、「図7に示す表の項目(1)の(c)」に示すように、音声データ解析部53におけるユーザ発話音声の音量解析である。
 さらに、「ユーザ発話の声の大きさ」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図7に示す表の項目(1)の(d)」に示すように、発話テキスト表示円のサイズを制御する処理である。すなわち、発話音量が大きいほど大きなサイズとする処理を実行する。
 表示データ制御部56が実行する処理の具体例、すなわち、「ユーザ発話の声の大きさ」を表示データ上で表現する処理の具体例を図15に示す。
 図15に示すグラフは、横軸に声の大きさ、縦軸に発話テキスト表示円のサイズを設定したグラフである。
 横軸に示す声の大きさは、音声データ解析部53によって解析された発話音量に相当する。
 表示データ制御部56は、音声データ解析部53によって解析された発話音量に応じて、例えば図15に示すグラフに従って、表示データ上に出力する発話テキスト表示円のサイズを決定する。
 すなわち、発話音量が大きいほど、発話テキスト表示円のサイズを大きなサイズとする処理を実行する。
 (2)ユーザの声の明暗
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「ユーザ発話の声の明暗」を表示データ上で表現するための表示データ制御処理を実行する。
 「ユーザ発話の声の明暗」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図7に示す表の項目(2)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声である。
 「ユーザ発話の声の明暗」を表示データ上で表現するために実行するデータ解析処理は、「図7に示す表の項目(2)の(c)」に示すように、音声データ解析部53におけるユーザ発話音声のトーン(声色)解析である。
 さらに、「ユーザ発話の声の明暗」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図7に示す表の項目(2)の(d)」に示すように以下の処理の少なくてもいずれかの処理である。
 a.発話テキスト表示円の色を制御(明るいトーンの場合は明るい色や暖色系の円、暗いトーンの場合は暗い色や寒色系の円を表示)
 b.発話テキスト表示円の円周囲にエフェクト画像を出力(明るいトーンの場合は輝きを示すエフェクト画像を出力、暗いトーンの場合は雲のエフェクト画像を出力)
 表示データ制御部56が実行する処理の具体例、すなわち、「ユーザ発話の声の明暗」を表示データ上で表現する処理の具体例を図16、図17に示す。
 図16は上記aの処理の処理例、図17は上記aの処理と上記bの処理を併せて実行した場合の処理例を示している。
 上記aの処理の処理例を示す図16に示すグラフは、横軸に声の明暗、縦軸に発話テキスト表示円の色を設定したグラフである。
 横軸に示す声の明暗は、音声データ解析部53によって解析された発話の明暗に相当する。
 縦軸に示す発話テキスト表示円の色は、下側が寒色系の色(ブルー、グレー等)で、上側が暖色系の色(オレンジ等)である。
 表示データ制御部56は、音声データ解析部53によって解析されたユーザ発話の明暗状態に応じて、例えば図16に示すグラフに従って、表示データ上に出力する発話テキスト表示円の色を決定する。
 すなわち、発話トーンが明るいほど、発話テキスト表示円の色をオレンジ等の暖色系の色に設定し、発話トーンが暗いほど、発話テキスト表示円の色をブルーやグレー等の寒色系の色に設定する処理を実行する。
 また、上記aの処理と上記bの処理を併せて実行した場合の処理例を示す図17に示すグラフも、図16と同様、横軸に声の明暗、縦軸に発話テキスト表示円の色を設定したグラフである。
 横軸に示す声の明暗は、音声データ解析部53によって解析された発話の明暗に相当する。
 縦軸に示す発話テキスト表示円の色は、下側が寒色系の色(ブルー、グレー等)で、上側が暖色系の色(オレンジ等)である。
 表示データ制御部56は、音声データ解析部53によって解析されたユーザ発話の明暗状態に応じて、例えば図17に示すグラフに従って、表示データ上に出力する発話テキスト表示円の色を決定する。
 発話トーンが明るいほど、発話テキスト表示円の色をオレンジ等の暖色系の色に設定し、発話トーンが暗いほど、発話テキスト表示円の色をブルーやグレー等の寒色系の色に設定する処理を実行する。
 さらに、図17に示す例では、発話テキスト表示円円周囲に発話トーンに応じたエフェクト画像を出力している。具体的には、明るいトーンの場合は例えば輝きを示すエフェクト画像を出力し、暗いトーンの場合は例えば雲のエフェクト画像を出力する。
 (3)ユーザ発話中のキーワード
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「ユーザ発話中のキーワード」を表示データ上で表現するための表示データ制御処理を実行する。
 「ユーザ発話中のキーワード」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図7に示す表の項目(3)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声である。
 「ユーザ発話中のキーワード」を表示データ上で表現するために実行するデータ解析処理は、「図7に示す表の項目(3)の(c)」に示すように、音声データ解析部53におけるユーザ発話音声の意味解析である。
 さらに、「ユーザ発話中のキーワード」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図7に示す表の項目(3)の(d)」に示すように、発話テキスト表示円内に表示する発話テキスト内のキーワード部分を強調表示する処理である。例えばキーワード部分を拡大表示、あるいは赤等の強調色で表示する処理などを実行する。
 表示データ制御部56が実行する処理の具体例、すなわち、「ユーザ発話中のキーワード」を表示データ上で表現する処理の具体例を図18に示す。
 図18には、2つの発話テキスト表示円を示している。
 それぞれの発話テキスト表示円に表示されている発話テキストには、音声データ解析部53におけるユーザ発話音声の意味解析によって抽出されたキーワードが含まれる。
 左上の発話テキスト表示円の発話テキストは、
 「いいレストランないかな」
 である。
 音声データ解析部53は、このユーザ発話の意味解析を実行し、以下のワードをキーワードとして抽出する。
 「レストラン」
 この場合、表示データ制御部56が実行する表示データ制御処理は、キーワード「レストラン」の文字を拡大表示、または赤等の強調色で表示する処理となる。
 さらに、右下の発話テキスト表示円の発話テキストは、
 「この前いったミラノダイニングおいしかったよ」
 である。
 音声データ解析部53は、このユーザ発話の意味解析を実行し、以下のワードをキーワードとして抽出する。
 「ミラノダイニング」
 この場合、表示データ制御部56が実行する表示データ制御処理は、キーワード「ミラノダイニング」の文字を拡大表示、または赤等の強調色で表示する処理となる。
 (4)ユーザ発話の時系列情報
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「ユーザ発話の時系列情報」を表示データ上で表現するための表示データ制御処理を実行する。
 「ユーザ発話の時系列情報」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図8に示す表の項目(4)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声である。
 「ユーザ発話の時系列情報」を表示データ上で表現するために実行するデータ解析処理は、「図8に示す表の項目(4)の(c)」に示すように、音声データ解析部53におけるユーザ発話音声の時系列解析である。
 さらに、「ユーザ発話の時系列情報」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図8に示す表の項目(4)の(d)」に示すように、以下のa,bの少なくともいずれかの処理である。
 a.発話テキスト表示円の表示位置を、順次、変更して表示する。例えば時系列に下から上に表示する。
 b.発話テキスト表示円の表示色を、順次、変更して表示する。例えば、古くなるほど表示色の彩度を低下させる。
 なお、これらa,bの処理は単独で実行する設定としてもよく、併せて実行する構成としてもよい。
 表示データ制御部56は、「ユーザ発話の時系列情報」を表示データ上で表現するために、上記a,bの処理の少なくともいずれかの処理を実行する。
 表示データ制御部56が実行する処理の具体例、すなわち、「ユーザ発話の時系列情報」を表示データ上で表現する処理の具体例について図19以下を参照して説明する。
 図19は、上記aの処理に相当する具体例である。すなわち発話テキスト表示円の表示位置を、順次、変更して表示する例である。
 図19に示す例は、先に図2を参照して説明した表示データと同様の表示データであり、発話テキスト表示円71を左下から右上に移動するように表示するものである。最新の発話に対応する発話テキスト表示円は、左下に表示され、その後、右上方向に移動し、画面の右上の表示利用域から、順次、消去される。図に示す例では、右上端の発話テキスト表示円71-1が最も過去の発話に対応する発話テキスト表示円であり、左下端の発話テキスト表示円71-6が最も新しい発話対応の発話テキスト表示円でとなる。
 なお、図19に示す例は、発話テキスト表示円71を左下から右上に移動するように表示する例であるが、移動方向はこの例に限らず、様々な移動方向の設定が可能である。例えば図20に示す(p)~(s)のような移動方向の設定が可能である。
 (p)は、発話テキスト表示円を時間経過とともに左上から右下に移動させる設定である。
 (q)は、発話テキスト表示円を時間経過とともに左から右に移動させる設定である。
 (r)は、発話テキスト表示円を時間経過とともに右から左に移動させる設定である。
 (s)は、発話テキスト表示円を時間経過とともに上から下に移動させる設定である。
 なお、これらの例以外の移動方向の設定も可能である。
 図21は、上記bの処理に相当する具体例である。すなわち発話テキスト表示円の表示色を、順次、変更して表示する例であり、古くなるほど表示色の彩度を低下させる例である。
 図21に示すグラフは、横軸に発話時間、縦軸に発話テキスト表示円の彩度を設定したグラフである。
 横軸に示す発話時間軸は左側が古く、右側が新しい設定である。この発話時間は音声データ解析部53によって解析される発話時間である。
 表示データ制御部56は、音声データ解析部53によって解析された発話時間に応じて、例えば図21に示すグラフに従って、表示データ上に出力する発話テキスト表示円の色の彩度を決定する。
 すなわち、発話時間が新しい(現在時間に近い)ほど、発話テキスト表示円の色の彩度を高く(鮮やか)に設定し、発話時間が古い(現在時間から遠い)ほど、発話テキスト表示円の色の彩度を低く設定する。
 なお、前述したように上記a,bの処理は併せて実行する構成としてもよい。
 すなわち、処理a=発話テキスト表示円の表示位置を、順次、変更して表示する処理と、処理b=発話テキスト表示円の表示色を、順次、変更して表示する処理、これら2つの処理を併せて実行する構成としてもよい。
 (5)ユーザ発話が会話の中心的発話や支配的発話であること
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「ユーザ発話が会話の中心的発話や支配的発話であること」を表示データ上で表現するための表示データ制御処理を実行する。
 「ユーザ発話が会話の中心的発話や支配的発話であること」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図8に示す表の項目(5)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声である。
 「ユーザ発話が会話の中心的発話や支配的発話であること」を表示データ上で表現するために実行するデータ解析処理は、「図8に示す表の項目(5)の(c)」に示すように、音声データ解析部53におけるユーザ発話音声の意味解析である。
 さらに、「ユーザ発話が会話の中心的発話や支配的発話であること」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は「図8に示す表の項目(5)の(d)」に示すように、以下のa,bの少なくともいずれかの処理である。
 a.ユーザ発話が会話の中心的発話や支配的発話である場合、その発話テキスト表示円の位置や、サイズを制御して表示、例えば表示領域の中心部に大きく表示する。
 b.ユーザ発話が会話の中心的発話や支配的発話である場合、その発話テキスト表示円に接触させた「会話中心識別アイコン(例えば二重線のアウトライン円や、赤一色の塗りつぶし円等)」を表示する。
 なお、これらa,bの処理は単独で実行する設定としてもよく、併せて実行する構成としてもよい。
 表示データ制御部56は、「ユーザ発話が会話の中心的発話や支配的発話であること」を表示データ上で表現するために、上記a,bの処理の少なくともいずれかの処理を実行する。
 表示データ制御部56が実行する処理の具体例、すなわち、「ユーザ発話が会話の中心的発話や支配的発話であること」を表示データ上で表現する処理の具体例について図22以下を参照して説明する。
 図22は、上記aの処理に相当する具体例である。すなわち、ユーザ発話が会話の中心的発話や支配的発話である場合、その発話テキスト表示円を表示領域の中心部に大きく表示する処理例を示している。
 図22に示す例では、発話テキスト表示円71は時間経過とともに、表示領域の左下から右上に移動する。
 ここで、発話テキスト表示円71の表示幅は、図中央部に示すような矢印の幅であるとする。この場合、ユーザ発話が会話の中心的発話や支配的発話である場合、その発話テキスト表示円71は、表示幅の中心位置に配置するように表示する。図に示す発話テキスト表示円71は時間経過とともに、表示領域の左下から右上に表示幅の中心線に沿って移動することになる。
 図23と、図24に示す例は、上記bの処理に相当する具体例である。すなわち、ユーザ発話が会話の中心的発話や支配的発話である場合、その発話テキスト表示円に接触させた「会話中心識別アイコン(例えば二重線のアウトライン円や、赤一色の塗りつぶし円等)」を表示する例である。
 図23(p)に示す発話テキスト表示円71が会話の中心的発話や支配的発話である。この場合、この発話テキスト表示円71に接触させた「会話中心識別アイコン(二重線のアウトライン円)80」を表示する。
 なお、図23(p)の例は、会話中心識別アイコン(二重線のアウトライン円)80を、会話の中心的発話や支配的発話である発話テキスト表示円71に接するように表示している例であるが、例えば、図23(q)に示すように、会話中心識別アイコン(二重線のアウトライン円)80を、会話の中心的発話や支配的発話である発話テキスト表示円71に重なるように表示する設定としてもよい。
 図24は、会話中心識別アイコンとして赤一色の塗りつぶし円を表しした例である。
 (p)に示す発話テキスト表示円71が会話の中心的発話や支配的発話である。この場合、この発話テキスト表示円71に接触させた「会話中心識別アイコン(赤丸)80」を表示する。
 なお、図24(p)の例は、会話中心識別アイコン(例えば赤丸)80を、会話の中心的発話や支配的発話である発話テキスト表示円71に接するように表示している例であるが、例えば、図24(q)に示すように、会話中心識別アイコン(赤丸)80を、会話の中心的発話や支配的発話である発話テキスト表示円71に重なるように表示する設定としてもよい。
 なお、前述したように上記a,bの処理は併せて実行する構成としてもよい。
 すなわち、処理a=ユーザ発話が会話の中心的発話や支配的発話である場合、その発話テキスト表示円を表示領域の中心部に大きく表示する処理と、処理b=ユーザ発話が会話の中心的発話や支配的発話である場合、その発話テキスト表示円に接触させた「会話中心識別アイコン(例えば二重線のアウトライン円や、赤一色の塗りつぶし円)」を表示する処理、これら2つの処理を併せて実行する構成としてもよい。
 (6)ユーザ発話が先行するどの発話に対してなされたか
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「ユーザ発話が先行するどの発話に対してなされたか」を表示データ上で表現するための表示データ制御処理を実行する。
 「ユーザ発話が先行するどの発話に対してなされたか」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図9に示す表の項目(6)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声である。
 「ユーザ発話が先行するどの発話に対してなされたか」を表示データ上で表現するために実行するデータ解析処理は、「図9に示す表の項目(6)の(c)」に示すように、音声データ解析部53におけるユーザ発話音声の意味解析である。
 さらに、「ユーザ発話が先行するどの発話に対してなされたか」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図9に示す表の項目(6)の(d)」に示すように、以下の処理である。
 発話テキスト表示円を、その発話がなされる要因となった先行発話の発話テキスト表示円に接触、または近づいていくように移動表示する。ただし、発話が先行発話に対する賛同、否定を示す場合は以下の(7),(8)の表示制御を優先する。
 表示データ制御部56が実行する処理の具体例、すなわち、「ユーザ発話が先行するどの発話に対してなされたか」を表示データ上で表現する処理の具体例について図25以下を参照して説明する。
 図25(a)は、表示データ制御部56が実行する処理の一例を示す図である。
 図25(a)の表示例は、先行発話の発話テキスト表示円81に後続関連発話の発話テキスト表示円82を接触させて表示した例である。
 図25(b)も、表示データ制御部56が実行する処理の一例を示す図である。
 図25(b)の表示例は、先行発話の発話テキスト表示円81に後続関連発話の発話テキスト表示円82が近づくように移動させて表示した例である。
 図25(b)に示すような移動表示の後、図25(a)に示すような接触表示を行う構成としてもよい。
 図26(c)も、表示データ制御部56が実行する処理の一例を示す図である。
 図26(c)の表示例は、先行発話に対して、複数の関連発話が発生している場合の表示例である。
 先行発話の発話テキスト表示円81に対して、2つの後続関連発話の発話テキスト表示円を示している。すなわち、
 第1の後続関連発話の発話テキスト表示円82-1と、
 第2の後続関連発話の発話テキスト表示円82-2、
 である。
 このような場合、表示データ制御部56は、図に示すように、複数の後続関連発話の発話テキスト表示円82-1,2を先行発話の発話テキスト表示円81の円周上にならんで接触するように表示する。
 さらに、図26に示す例では、後続関連発話の発話テキスト表示円82-2に対する関連発話の発話テキスト表示円82-3を示している。
 発話テキスト表示円82-3に示す発話は、後続関連発話の発話テキスト表示円82-2に対する関連発話であり、発話テキスト表示円82-2に接触するように表示する。
 (7)ユーザ発話が先行発話に対する賛同発話であること
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「ユーザ発話が先行発話に対する賛同発話であること」を表示データ上で表現するための表示データ制御処理を実行する。
 「ユーザ発話が先行発話に対する賛同発話であること」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図9に示す表の項目(7)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声である。
 「ユーザ発話が先行発話に対する賛同発話であること」を表示データ上で表現するために実行するデータ解析処理は、「図9に示す表の項目(7)の(c)」に示すように、音声データ解析部53におけるユーザ発話音声の意味解析である。
 さらに、「ユーザ発話が先行発話に対する賛同発話であること」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図9に示す表の項目(7)の(d)」に示すように、以下の処理である。
 ユーザ発話が先行発話に対する賛同発話である場合、発話テキスト表示円を、賛同する先行発話の表示円に近づくように移動させて表示(さらに2つの円を同系色の色に設定して表示してもよい)。
 表示データ制御部56が実行する処理の具体例、すなわち、「ユーザ発話が先行発話に対する賛同発話であること」を表示データ上で表現する処理の具体例について図27を参照して説明する。
 図27には、先行発話の発話テキスト表示円81と、後続賛同発話の発話テキスト表示円83を示している。
 後続賛同発話の発話テキスト表示円83を、先行発話の発話テキスト表示円81に近づくように移動させて表示する。
 なお、この処理に併せて、後続賛同発話の発話テキスト表示円83を先行発話の発話テキスト表示円81の色と同色、または同系色に設定する制御を行ってもよい。
 (8)ユーザ発話が先行発話に対する否定発話であること
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「ユーザ発話が先行発話に対する否定発話であること」を表示データ上で表現するための表示データ制御処理を実行する。
 「ユーザ発話が先行発話に対する否定発話であること」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図9に示す表の項目(8)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声である。
 「ユーザ発話が先行発話に対する否定発話であること」を表示データ上で表現するために実行するデータ解析処理は、「図9に示す表の項目(8)の(c)」に示すように、音声データ解析部53におけるユーザ発話音声の意味解析である。
 さらに、「ユーザ発話が先行発話に対する否定発話であること」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図9に示す表の項目(8)の(d)」に示すように、以下の処理である。
 ユーザ発話が先行発話に対する否定発話である場合、発話テキスト表示円を、否定する先行発話の表示円から離れるように移動させて表示(さらに2つの円を反対色等、異なる色の色に設定して表示してもよい)。
 表示データ制御部56が実行する処理の具体例、すなわち、「ユーザ発話が先行発話に対する否定発話であること」を表示データ上で表現する処理の具体例について図28を参照して説明する。
 図28には、先行発話の発話テキスト表示円81と、後続否定発話の発話テキスト表示円84を示している。
 後続否定発話の発話テキスト表示円84を、先行発話の発話テキスト表示円81から離れるように移動させて表示する。
 なお、この処理に併せて、後続否定発話の発話テキスト表示円84を先行発話の発話テキスト表示円81の色の反対色、または異なる色に設定する制御を行ってもよい。
 (9)ユーザのポジティブアクション
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「ユーザのポジティブアクション」を表示データ上で表現するための表示データ制御処理を実行する。
 「ユーザのポジティブアクション」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図10に示す表の項目(9)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声、笑い声、叫び声、驚きの声等、さらに、ユーザ端末21のカメラが取得するユーザの顔画像、例えば、笑い顔、うなずき等のアクションを示す画像である。
 「ユーザのポジティブアクション」を表示データ上で表現するために実行するデータ解析処理は、「図10に示す表の項目(9)の(c)」に示すように、音声データ解析部53におけるユーザ発話の音声解析、意味解析等と、さらに、画像データ解析部55におけるユーザ画像の解析処理である。
 さらに、「ユーザのポジティブアクション」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図10に示す表の項目(9)の(d)」に示すように以下の処理である。
 すなわち、ポジティブアクションを示したユーザの発話テキスト表示円、またはユーザアイコンに対して、以下のa~dの少なくともいずれかの表示制御を実行する。
 a.揺れ(縦揺れ、ゆっくり回転、飛ぶように移動等)、
 b.サイズの拡縮、
 c.色の変化(明るい色に変化、または明るい色との交互変化(点滅))、
 d.発話テキスト表示円の円周囲にエフェクト画像を出力(ポジティブなアクションの場合は輝きを示すエフェクト画像を出力)
 なお、これらa,b,c,dの処理は単独で実行する設定としても、併せて実行する設定としてもよい。
 表示データ制御部56は、「ユーザのポジティブアクション」を表示データ上で表現するために、上記a,b,c,dの処理の少なくともいずれかの処理を実行する。
 表示データ制御部56が実行する処理の具体例、すなわち、「ユーザのポジティブアクション」を表示データ上で表現する処理の具体例について図29を参照して説明する。
 図29には、ユーザのポジティブアクションの動機付けとなった先行発話の発話テキスト表示円81と、「ユーザのポジティブアクション」の表示データ例として、上記のa,b,cの処理に対応する表示データ例(a)~(c1)を示している。
 図29(a)は、上記の「a.揺れ(縦揺れ、ゆっくり回転等)」に相当する表示制御例である。図29(a)には、ポジティブアクションを示したユーザの発話テキスト表示円を縦に揺らす表示制御例と、回転方向に揺らす表示制御例を示している。
 図29(b)は、上記の「b.サイズの拡縮」に相当する表示制御例である。図29(b)には、ポジティブアクションを示したユーザの発話テキスト表示円を拡縮表示する表示制御例を示している。
 図29(c1)は、上記の「c.色の変化(明るい色に変化)」に相当する表示制御例である。図29(c1)には、ポジティブアクションを示したユーザの発話テキスト表示円の色を明るい色に変化させる表示制御例を示している。
 図30には、上記のc,dの処理に対応する表示データ例(c2)~(d)を示している。
 ユーザのポジティブアクションの動機付けとなった先行発話の発話テキスト表示円81と、「ユーザのポジティブアクション」の表示データ例(c2)~(d)を示している。
 図30(c2)は、上記の「c.色の変化(明るい色との交互変化(点滅))」に相当する表示制御例である。図30(c2)には、ポジティブアクションを示したユーザの発話テキスト表示円の色を、一時的に明るい色に変化させる表示制御例を示している。例えば瞬間的に1~2秒、明るい色に変化させる表示制御や、元の色と明るい色を交互に表示する点滅処理等を行う。
 図30(d)は、上記の「d.発話テキスト表示円の円周囲にエフェクト画像を出力(ポジティブなアクションの場合は輝きを示すエフェクト画像を出力)」に相当する表示制御例である。図30(d)には、ポジティブアクションを示したユーザの発話テキスト表示円の円周囲にエフェクト画像を出力する例として、輝きを示すエフェクト画像を出力した例を示している。
 (10)ユーザのネガティブアクション
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「ユーザのネガティブアクション」を表示データ上で表現するための表示データ制御処理を実行する。
 「ユーザのネガティブアクション」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図11に示す表の項目(10)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声、失笑、沈黙等、さらに、ユーザ端末21のカメラが取得するユーザの顔画像、例えば、困った顔、首振り等の否定的アクションを示す画像である。
 「ユーザのネガティブアクション」を表示データ上で表現するために実行するデータ解析処理は、「図11に示す表の項目(10)の(c)」に示すように、音声データ解析部53におけるユーザ発話の音声解析、意味解析等と、さらに、画像データ解析部55におけるユーザ画像の解析処理である。
 さらに、「ユーザのネガティブアクション」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図11に示す表の項目(10)の(d)」に示すように以下の処理である。
 すなわち、ネガティブアクションを示したユーザの発話テキスト表示円、またはユーザアイコンに対して、以下のa~cの少なくともいずれかの表示制御を実行する。
 a.揺れ(激しい横揺れ、のろのろ移動等)、
 b.サイズの拡縮、形状の歪み(つぶれた楕円などに変形等)
 c.色の変化(暗い色に変化、または暗い色との交互変化(点滅))、
 d.発話テキスト表示円の円周囲にエフェクト画像を出力(ネガティブなアクションの場合はネガティブ状態を示すエフェクト画像を出力)
 なお、これらa,b,c,dの処理は単独で実行する設定としても、併せて実行する設定としてもよい。
 表示データ制御部56は、「ユーザのネガティブアクション」を表示データ上で表現するために、上記a,b,c,dの処理の少なくともいずれかの処理を実行する。
 表示データ制御部56が実行する処理の具体例、すなわち、「ユーザのネガティブアクション」を表示データ上で表現する処理の具体例について図31を参照して説明する。
 図31には、ユーザのネガティブアクションの動機付けとなった先行発話の発話テキスト表示円81と、「ユーザのネガティブアクション」の表示データ例として、上記のa,b,cの処理に対応する表示データ例(a)~(c1)を示している。
 図31(a)は、上記の「揺れ(激しい横揺れ等)」に相当する表示制御例である。図31(a)には、ネガティブアクションを示したユーザの発話テキスト表示円とユーザアイコンを横に激しく揺らす表示制御例を示している。
 図31(b)は、上記の「b.サイズの拡縮、形状の歪み(つぶれた楕円などに変形等)」に相当する表示制御例である。図31(b)には、ネガティブアクションを示したユーザの発話テキスト表示円をつぶれた楕円に変形して表示する表示制御例を示している。
 図31(c1)は、上記の「c.色の変化(暗い色に変化)」に相当する表示制御例である。図31(c1)には、ネガティブアクションを示したユーザの発話テキスト表示円の色を暗い色に変化させる表示制御例を示している。
 図32には、上記のc,dの処理に対応する表示データ例(c2)~(d)を示している。
 ユーザのネガティブアクションの動機付けとなった先行発話の発話テキスト表示円81と、「ユーザのネガティブアクション」の表示データ例(c2)~(d)を示している。
 図32(c2)は、上記の「c.色の変化(暗い色との交互変化(点滅))」に相当する表示制御例である。図32(c2)には、ネガティブアクションを示したユーザの発話テキスト表示円の色を、一時的に暗い色に変化させる表示制御例を示している。例えば瞬間的に1~2秒、暗い色に変化させる表示制御や、元の色と暗い色を交互に表示する点滅処理等を行う。
 図32(d)は、上記の「d.発話テキスト表示円の円周囲にエフェクト画像を出力(ネガティブなアクションの場合はネガティブ状態を示すエフェクト画像を出力)」に相当する表示制御例である。図32(d)には、ネガティブアクションを示したユーザの発話テキスト表示円の円周囲にエフェクト画像を出力する例として、ネガティブな状態にあることを示すエフェクト画像を出力した例を示している。
 (11)会話全体の盛り上がり
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「会話全体の盛り上がり」を表示データ上で表現するための表示データ制御処理を実行する。
 「会話全体の盛り上がり」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図12に示す表の項目(11)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声、笑い声、叫び声、驚きの声等、さらに、ユーザ端末21のカメラが取得するユーザの顔画像、例えば、笑い顔、うなずき等のアクションを示す画像である。
 「会話全体の盛り上がり」を表示データ上で表現するために実行するデータ解析処理は、「図12に示す表の項目(11)の(c)」に示すように、音声データ解析部53におけるユーザ発話の音声解析、意味解析等と、さらに、画像データ解析部55におけるユーザ画像の解析処理である。
 さらに、「会話全体の盛り上がり」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図12に示す表の項目(11)の(d)」に示すように以下の処理である。
 すなわち、盛り上がりを示す会話を構成する複数の発話テキスト表示円、またはユーザアイコンに対して、以下のa~cの少なくともいずれかの表示制御を実行する。
 a.揺れ(縦揺れ、ゆっくり回転、飛ぶように移動等)、
 b.サイズの拡縮、
 c.色の変化(明るい色に変化)、
 なお、これらa,b,cの処理は単独で実行する設定としても、併せて実行する設定としてもよい。
 これらの処理は、先に図29を参照して説明した「(9)ユーザのポジティブアクション」に対する表示制御処理と同様の処理である。
 さらに、「会話全体の盛り上がり」を表示データ上で表現すると独自の処理として、表示データ制御部56は、以下のような表示データ制御処理を実行してもよい。
 すなわち、盛り上がりを示す会話を構成する複数の発話テキスト表示円や、ユーザアイコンの背景領域の色を変化(明るい色に変化)させる表示制御処理である。
 この処理の具体例について図33を参照して説明する。
 図33には、複数の発話テキスト表示円を示している。表示データ制御部56は、これらの複数の発話によって構成される会話が盛り上がっていると判定した場合、図に示すように、これら発話テキスト表示円の背景領域の色を変化(明るい色に変化)させる表示制御処理を実行する。
 さらに、図34に示すように、発話テキスト表示円の背景領域の色を変化(明るい色に変化)させるとともに、輝き等を示すエフェクト画像を表示する制御を行ってもよい。
 (12)会話全体の盛り下がり
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「会話全体の盛り下がり」を表示データ上で表現するための表示データ制御処理を実行する。
 「会話全体の盛り下がり」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図13に示す表の項目(12)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声、失笑、沈黙等、さらに、ユーザ端末21のカメラが取得するユーザの顔画像、例えば、困った顔、首振り等の否定的アクションを示す画像である。
 「会話全体の盛り下がり」を表示データ上で表現するために実行するデータ解析処理は、「図13に示す表の項目(12)の(c)」に示すように、音声データ解析部53におけるユーザ発話の音声解析、意味解析等と、さらに、画像データ解析部55におけるユーザ画像の解析処理である。
 さらに、「会話全体の盛り下がり」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図13に示す表の項目(12)の(d)」に示すように以下の処理である。
 すなわち、盛り下がりを示す会話を構成する複数の発話テキスト表示円、またはユーザアイコンに対して、以下のa~cの少なくともいずれかの表示制御を実行する。
 a.揺れ(激しい横揺れ、のろのろ移動等)、
 b.サイズの拡縮、形状の歪み(つぶれた楕円などに変形等)
 c.色の変化(暗い色に変化)、
 なお、これらa,b,cの処理は単独で実行する設定としても、併せて実行する設定としてもよい。
 これらの処理は、先に図31を参照して説明した「(9)ユーザのネガティブアクション」に対する表示制御処理と同様の処理である。
 さらに、「会話全体の盛り下がり」を表示データ上で表現すると独自の処理として、表示データ制御部56は、以下のような表示データ制御処理を実行してもよい。
 すなわち、盛り下がりを示す会話を構成する複数の発話テキスト表示円や、ユーザアイコンの背景領域の色を変化(暗い色に変化)させる表示制御処理である。
 この処理の具体例について図35を参照して説明する。
 図35には、複数の発話テキスト表示円を示している。表示データ制御部56は、これらの複数の発話によって構成される会話が盛り下がっていると判定した場合、図に示すように、これら発話テキスト表示円の背景領域の色を変化(暗い色に変化)させる表示制御処理を実行する。
 さらに、図36に示すように、発話テキスト表示円の背景領域の色を変化(暗い色に変化)させるとともに、盛り下がりを示すエフェクト画像を表示する制御を行ってもよい。
 (13)意見の分類
 情報処理装置(サーバ)50は、ミーティング参加ユーザの「意見の分類」を表示データ上で表現するための表示データ制御処理を実行する。
 「意見の分類」を表示データ上で表現するための表示データ制御処理に利用する解析対象データは、「図14に示す表の項目(13)の(b)」に示すようにユーザ端末21のマイクが取得するユーザ発話音声、さらに、ユーザ端末21のカメラが取得するユーザの顔画像、例えば、笑い顔、困った顔、首振り、その他賛成、反対を示す画像である。
 「意見の分類」を表示データ上で表現するために実行するデータ解析処理は、「図14に示す表の項目(13)の(c)」に示すように、音声データ解析部53におけるユーザ発話の音声解析、意味解析等と、さらに、画像データ解析部55におけるユーザ画像の解析処理である。
 さらに、「意見の分類」を表示データ上で表現するために、表示データ制御部56が実行する表示データ制御処理は、「図14に示す表の項目(13)の(d)」に示すように以下の処理である。
 a.複数の意見グループ各々について、個別の発話テキスト表示円のデータ系列を生成し、異なる意見の系列と分離したデータ系列として表示
 b.同一、類似意見の発話の発話テキスト表示円は、同一、または同系色の色に設定して表示
 なお、これらa,bの処理は単独で実行する設定としても、併せて実行する設定としてもよい。
 情報処理装置(サーバ)50の表示データ制御部56が実行する表示制御処理の具体例を図37に示す。
 図37には、複数の発話テキスト表示円を示している。発話テキスト表示円71-1は、
 発話=「ペットは何が好き」
 このような各ユーザの意見を求める発話である。
 この発話に対して、図に示すように、犬好きのグループと猫好きのグループの2つのグループが設定されたとする。
 発話テキスト表示円71-2と、発話テキスト表示円71-4は、犬好きのグループのユーザの発話である。
 一方、発話テキスト表示円71-3と、発話テキスト表示円71-5と、発話テキスト表示円71-6は、猫好きのグループのユーザの発話である。
 このような場合、表示データ制御部56は、それぞれのグループ単位で個別の発話テキスト表示円のデータ系列を生成して表示する。すなわち、図に示すように、犬好きのグループのユーザの発話である発話テキスト表示円71-2と、発話テキスト表示円71-4を並べて配置する。
 さらに、猫好きのグループのユーザの発話である発話テキスト表示円71-3と、発話テキスト表示円71-5と、発話テキスト表示円71-6を、上記の犬好きのグループの発話円と離れた位置に並べて配置する。
 このような表示を行うことで、各ユーザの意見がどちらであるかを容易に判別することができる。
  [4.ユーザ端末における表示データ制御処理について]
 次に、ユーザ端末における表示データ制御処理について説明する。
 先に図1等を参照して説明したように、リモートミーティングを実行しているユーザ11は、ユーザの利用するユーザ端末21を利用して、図2に示すような発話テキスト表示円71の時系列データから構成される表示データを見ながらミーティングに参加することができる。
 前述したように、各ユーザ11のユーザ端末21に表示される表示データは、リモートミーティングのプラットフォームを提供しミーティングの管理処理を実行する情報処理装置(サーバ)50が生成する表示データである。
 一方、ユーザ11は、ユーザ端末21を利用して、情報処理装置(サーバ)50から提供される表示データの表示制御を行うことができる。
 図38以下を参照して、ユーザ11によるユーザ端末21を利用した表示データの制御処理例について説明する。
 図38は、ユーザ11が利用するユーザ端末21に表示される表示データ制御用のUI(ユーザインタフェース)の一例である。
 図38に示すUI(ユーザインタフェース)は、可視化要素各々について、可視化設定を有効化(ON)するか、無効化(OFF)とするかを設定し、さらに有効化(ON)の設定とした可視化要素について可視化レベル(Min~Max)を設定可能としたUI(ユーザインタフェース)である。
 図に示す例では、例えば、「可視化要素=声の大きさ」についての設定は、有効化(ON)の設定で、その可視化レベルの設定は、約50%の設定となっている。
 この場合、先に図15を参照して説明したユーザ発話の声の大きさに応じた発話テキスト表示円の拡大率が50%に削減された表示データが情報処理装置(サーバ)50において生成され、ユーザは、そのような表示データを見ることが可能となる。
 また、例えば、「可視化要素=会話中心」や、「可視化要素=会話の盛り上がり」についての設定は、無効化(OFF)の設定となっている。
 この設定の場合、先に図22、図24を参照して説明したユーザ発話が会話の中心である場合の表示制御や、図33を参照して説明した会話の盛り上がりに応じた表示制御が実行されていない表示データが情報処理装置(サーバ)50において生成され、ユーザは、そのような表示データを見ることが可能となる。
 なお、情報処理装置(サーバ)50は、各ユーザの設定に応じたユーザ対応の様々な表示データを生成し、各ユーザに提供する処理を行う。
 さらに、様々なミーティンググループが同時に異なるテーマでリモートミーティングを行っている場合、ユーザ11は、ユーザ端末21を利用して、これら複数のミーティングのテーマを確認することが可能となる。
 このミーティングテーマ確認処理に利用されるUI(ユーザインタフェース)の例を図39に示す。
 図39に示すUI(ユーザインタフェース)も、ユーザ11が利用するユーザ端末21に表示されるUIである。
 UI画面の左側には、現在、リモートミーティングを実行中の複数のグループの会話のテーマ情報が表示されている。このテーマは、情報処理装置(サーバ)50における会話解析処理、例えば中心的発話の選択処理やキーワード選択処理によって推定されたテーマである。
 ユーザは、これらのグループから1つを選択すると、そのグループ対応の発話テキスト表示円の時系列データが右側に表示される。
 例えば、タッチパネルの場合、図に示すように1つのグループアイコン(グループb)を指でタップする。あるいはPC等の場合、カーソルを1つのグループアイコン(グループb)上に移動させるマウスオン、あるいはマウスオーバー処理などのグループ選択処理を行う。このグループ選択処理によって、選択したグループ対応の発話テキスト表示円の時系列データが右側に表示される。
 図に示す例では、グループbのレストランをテーマとしたミーティングの発話テキスト表示円の時系列データが表示されている。
 このように、ユーザ11は、自身が利用するユーザ端末21を利用して、様々なグループにおいて実行されているミーティングのテーマを確認し、さらに、各グループにおけるユーザ発話の時系列データを確認することができる。
 また、右側のユーザ発話の時系列データは、先に説明した様々な可視化要素を可視化した表示データであり、ユーザは、この表示データを見ることで、例えば会話が盛り上がっているか否かなどを容易に確認することができる。
 複数のグループが異なるテーマで、それぞれミーティングを実行している場合、ユーザ11は、ユーザ端末21を利用して、1つのグループに関するユーザ発話の時系列データを観察できるのみならず、複数のグループに関するユーザ発話の時系列データも確認することができる。
 図40は、先に図2等を参照して説明したと同様、1つのグループにおけるユーザ発話の時系列データを表示した表示データである。
 ユーザ11がこの表示データの表示部を縮小させるための操作、例えばPCのキーボード操作や、タッチパネルにおける2本の指を閉じるピンチイン動作などを行うと、図41に示すように、表示部に、複数のミーティンググループのユーザ発話の時系列データの縮小版が表示される。
 ただし、このような小さなユーザ発話の時系列データの縮小版中に発話テキストを表示しても見えにくいため、各グループのミーティングテーマのみを表示する。
 ユーザはこのような表示データによって、同時に実行されている複数のミーティンググループのミーティングテーマを確認することができる。
 また、ミーティングテーマのみの表示以外の表示バリエーションとして、発話テキスト中のキーワードのみ残して表示するようにしてもよい。例えば、「この前行ったミラノダイニングおいしかったよ。」という発話テキストであれば、ユーザ発話の時系列データの縮小版には、「ミラノダイニング」というキーワードのみ表示する。また、発話テキストが十分短く、キーワードのみ残す必要がない場合には、発話テキストをそのままユーザ発話の時系列データの縮小版に表示するようにしてもよい。例えば、「なんのお店?」という発話テキストであれば、十分短いため、そのまま「なんのお店?」と表示してもよい。また、ユーザ発話の時系列データの縮小版には、表示円の中にユーザアイコンを引き続き表示するようにしてもよい。
 なお、さらに、図41に示す複数のミーティンググループのユーザ発話の時系列データの縮小版の表示データから、ユーザ11が1つのグループを選択して拡大する処理、例えばタッチパネルにおいて2本の指を開くピンチアウト操作を行えば、そのグループのユーザ発話の時系列データを拡大した表示データが表示され、各ユーザの具体的な発話テキストを確認することが可能となる。
  [5.ユーザの生体情報等を利用した表示制御を実行する実施例について]
 次に、ユーザの生体情報等を利用した表示制御を実行する実施例について説明する。
 上述した実施例は、例えば図4、図5を参照して説明したように、情報処理装置(サーバ)50がユーザ端末21からユーザ端末21のマイクの取得音声と、カメラの撮影画像を入力して、リモートミーティング参加ユーザの状態やミーティングの状態を解析して解析結果に応じた表示データを生成する実施例である。
 以下に説明する実施例は、情報処理装置(サーバ)50が、ユーザ端末21からの入力情報として、マイクの取得音声とカメラの撮影画像のみならずユーザ11の生体情報も入力し、これらの入力情報の解析処理を実行して、より詳細なユーザ状態を推定して表示データの制御処理を実行する実施例である。
 ユーザ端末21から入力するユーザ11の生体情報は、例えば、ユーザの視線方向や、脈拍、心拍、体温、血圧などの様々な生体情報である。これらは、ユーザ11自身に装着したセンサーや、ユーザ11周囲に取り付けられたセンサーが取得し、ユーザ端末21を介して情報処理装置(サーバ)50に送信される。
 図42は、本実施例におけるユーザ端末21と情報処理装置(サーバ)50間のデータの流れを説明する図である。
 図42は、先の実施例で説明した図4と同様、リモートミーティングを実行中の複数のユーザ11a~e各々が利用するユーザ端末21a~eと、情報処理装置(サーバ)50を示している。
 図42に示すように、情報処理装置(サーバ)50は、リモートミーティングを実行中の複数のユーザ11a~e各々が利用するユーザ端末21a~e各々から音声データと画像データ、さらにに、ユーザ生体情報を受信する。
 ユーザ生体情報とは、前述したように、例えば、ユーザの視線方向や、脈拍、心拍、体温、血圧などの様々な生体情報である。これらは、ユーザ11自身に装着したセンサーや、ユーザ11周囲に取り付けられたセンサーが取得し、ユーザ端末21を介して情報処理装置(サーバ)50に送信される。
 図42に示すように、情報処理装置(サーバ)50は、ステップS11~ステップS12の各処理を実行する。
 すなわち、ステップS11において、ユーザ端末21a~eから受信する入力データ(音声データ、画像データ、ユーザ生体情報)に対する解析処理を実行する。
 次に、ステップS12において、ステップS11のデータ解析結果を用いて表示データを生成する。
 具体的には、先の実施例において説明した例えば図2、図3に示すような発話テキスト表示円71の時系列データによって構成される表示データを生成する。
 情報処理装置(サーバ)50が生成する表示データは、リモートミーティング参加ユーザの発話内容をテキスト表示した発話テキスト表示円71の時系列データによって構成され、例えば、発話テキスト表示円の大きさや色や動きによって、発話ユーザの状態や、ミーティングの状態(盛り上がり度など)を視覚的に理解可能とした表示データである。
 情報処理装置(サーバ)50は、例えばユーザの視線方向を解析することで、ユーザ11のミーティングに対する集中度や、興味関心度を解析することが可能となり、これら集中度や、興味関心度を可視化した表示データを生成して表示することが可能となる。
 また、ユーザの体温や脈拍、血圧などを解析することで、ユーザの冷静度、興奮度などを解析し、これらのユーザ状態を可視化した表示データを生成して表示することも可能となる。
 本実施例における情報処理装置(サーバ)50の構成例について図43を参照して説明する。
 図43に示すように、情報処理装置(サーバ)50は、通信部51、音声データ取得部52、音声データ解析部53、画像データ取得部54、画像データ解析部55、表示データ制御部56、表示データ生成部57、さらに、ユーザ生体情報取得部61、ユーザ生体情報解析部62を有する。
 これらの構成中、通信部51、音声データ取得部52、音声データ解析部53、画像データ取得部54、画像データ解析部55、表示データ制御部56、表示データ生成部57、これらは、先の実施例において、図5を参照して説明した構成部と同様の構成部である。
 通信部51は、リモートミーティングを実行中のユーザ端末21から音声データと画像データと、ユーザ生体情報を受信する。
 受信する音声データは、ユーザ端末21のマイクが取得した音声データであり、ユーザ発話音声や、笑い声、手をたたく音、環境音などが含まれる音声データである。
 また画像データは、ユーザ端末21のカメラが取得した画像データであり、ユーザの顔画像が含まれる画像データである。
 ユーザ生体情報は、前述したように、例えば、ユーザの視線方向や、脈拍、心拍、体温、血圧などの様々な生体情報である。
 なお、通信部51は、さらに、音声データ取得部52が取得したユーザ発話等の音声データと、表示データ生成部57が生成した表示データを、リモートミーティングを実行中のユーザ端末21各々に送信する。
 各ユーザ端末21は、情報処理装置(サーバ)50から受信するユーザ発話等の音声をユーザ端末21のスピーカーや、ユーザ端末に装着したヘッドホンを介して出力し、情報処理装置(サーバ)50から受信する画像データをユーザ端末21の表示部に表示する。
 音声データ取得部52と音声データ解析部53の実行する処理は、先に図5を参照して説明した処理と同様の処理である。すなわち、ユーザ端末21のマイクが取得した音声データ、例えばユーザ発話音声や、笑い声、手をたたく音、環境音などが含まれる音声データを解析して解析結果を表示データ制御部56に入力する。
 画像データ取得部54と、画像データ解析部55の実行する処理は、先に図5を参照して説明した処理と同様の処理である。すなわち、ユーザ端末21のカメラが取得した画像データであるミーティング参加ユーザの顔画像を含む画像データを解析して、
顔の表情や、笑い顔やうなずくような肯定的なアクション、困った顔や悲しい顔、さらに顔を横に振るような否定的なアクション等の解析処理を実行し、解析結果を表示データ制御部56に入力する。
 ユーザ生体情報取得部61は、通信部51を介した入力データから、ユーザ生体情報を選択取得し、取得したユーザ生体情報をユーザ生体情報解析部62に転送する。
 ユーザ生体情報取得部61が取得するユーザ生体情報は、前述したように、例えば、ユーザの視線方向や、脈拍、心拍、体温、血圧などの様々な生体情報である。これらは、ユーザ11自身に装着したセンサーや、ユーザ11周囲に取り付けられたセンサーが取得し、ユーザ端末21から送信されるデータである。
 ユーザ生体情報解析部62は、各ユーザ端末21から受信するユーザ生体情報を解析する。
 例えばユーザ端末21から受信するユーザの視線方向を解析して、ユーザ11のミーティングに対する集中度や、興味関心度を解析する。
 また、ユーザの体温や脈拍、血圧などを解析して、ユーザ11の冷静度、興奮度などを解析する。
 これらの解析結果は、表示データ制御部56に入力される。
 表示データ制御部56は、音声データ解析部53が解析した音声データ解析結果と、画像データ解析部55が解析した画像データ解析結果、さらに、ユーザ生体情報解析部62が解析したユーザ生体情報解析結果を入力し、これらの入力データに基づいて、ユーザ端末21に提供する画像データ、すなわち先に図2、図3を参照して説明したリモートミーティングの発話テキストを含む発話テキスト表示円の時系列表示データの制御処理を実行する。
 本実施例では、表示データ制御部56は、ユーザ生体情報解析部62が解析したユーザ状態を反映した表示データ制御処理を行うことが可能となる。
 具体的には、ユーザの視線方向の解析結果に基づいて推定されるユーザのミーティングに対する集中度や、興味関心度を可視化した表示データの生成を行う。
 また、ユーザの体温や脈拍、血圧などから推定されるユーザの冷静度、興奮度などを可視化した表示データを生成する。
 表示データ制御部56は、リモートミーティングの参加ユーザの感情や状態、さらにミーティング全体の盛り上がり度などの雰囲気などを可視化した表示データを生成するための表示データ制御処理、すなわち表示データを構成する発話テキスト表示円のサイズ、色、動き、その他のエフェクト表示態様等の決定処理、背景の色などの決定処理など、様々な表示データ制御処理を実行する。
 表示データ制御部56の制御情報は、表示データ生成部57に入力される。
 表示データ生成部57は、表示データ制御部56が決定した発話テキスト表示円のサイズ、色、動き、背景画像の態様に従った表示データを生成する。
 表示データ生成部57が生成した表示データは、例えば先に図2や図3に示す表示データであり、この表示データが各ユーザ端末21に提供され、ユーザ端末21の表示部に表示されることになる。
 ユーザ11は、ユーザ端末21の表示部に表示される表示データを見ることで、ミーティング参加者の発話をテキスト情報として確認することが可能となり、さらにユーザ状態や会話状態(ミーティング状態)の確認も可能となる。
  [6.ユーザ端末の構成例について]
 次に、ユーザ端末の構成例について説明する。
 図44を参照してユーザ11が利用するユーザ端末21の構成例について説明する。
 図44に示すように、ユーザ端末21は、入力部310と、出力部320、および通信部330を有する。
 入力部310は、音声入力部(マイク)311と、画像入力部(カメラ)312と、ユーザ入力部(UI)313、およびセンサー検出値入力部314を有する。
 出力部320は、音声出力部(スピーカ)321と、画像出力部(表示部)322を有する。
 入力部310の音声入力部(マイク)311は、ユーザの声などの音声データを取得する。取得音声データは通信部330を介して情報処理装置(サーバ)50に送信される。
 画像入力部(カメラ)312は、ユーザの顔画像などの画像データを取得する。取得画像データは通信部330を介して情報処理装置(サーバ)50に送信される。
 ユーザ入力部(UI)313は、例えばキーボード、マウス、タッチパネル等であり、例えば先に図38~図41を参照して説明したようなUIを利用した表示データ設定などの処理に用いられる。
 センサー検出値入力部314は、例えば視線方向検出センサーや、脈拍、心拍、体温、血圧等の計測センサー等、生体情報等のユーザ状態を取得するセンサーの検出値を入力する。入力データは通信部330を介して情報処理装置(サーバ)50に送信される。
  [7.情報処理装置、およびユーザ端末のハードウェア構成例について]
 次に、情報処理装置(サーバ)や、ユーザ端末のハードウェア構成例について説明する。
 図45は、本開示の情報処理装置(サーバ)50や、ユーザ端末21のハードウェア構成の一例を示す図である。
 以下、図45に示すハードウェア構成について説明する。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部506、ディスプレイ、スピーカーなどよりなる出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [8.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 通信ネットワークを介して会話を実行するユーザ端末からの受信データを解析するデータ解析部と、
 前記データ解析部の解析結果に基づいて、前記ユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御を実行する表示データ制御部を有し、
 前記表示データ制御部は、
 前記発話テキスト表示領域または背景領域の少なくともいずれかの表示態様を制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成する情報処理装置。
 (2) 前記表示データ制御部は、
 前記発話テキスト表示領域のサイズ、または位置、または色、または動き、または前記発話テキスト表示領域周囲の出力画像の少なくともいずれかを制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成する(1)に記載の情報処理装置。
 (3) 前記データ解析部は、前記ユーザ端末から受信する音声データと画像データを解析し、
 前記表示データ制御部は、
 前記データ解析部が解析した音声データの解析結果、または画像データの解析結果の少なくともいずれかの解析結果に基づいて、前記ユーザ端末に表示する表示データの制御を実行する(1)または(2)に記載の情報処理装置。
 (4) 前記表示データ制御部は、
 前記データ解析部が解析したユーザ発話の声の大きさに応じて、前記発話テキスト表示領域のサイズを変更する(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記表示データ制御部は、
 前記データ解析部が解析したユーザ発話の明暗に応じて、前記発話テキスト表示領域の色を変更、または前記発話テキスト表示領域の周囲にエフェクト画像を出力する(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記表示データ制御部は、
 前記データ解析部が解析したユーザ発話内のキーワードに応じて、前記発話テキスト表示領域に表示するユーザ発話対応のテキスト中のキーワード領域を拡大表示、または色の変更表示の少なくともいずれかの処理を実行する(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記表示データ制御部は、
 前記データ解析部が解析したユーザ発話の時系列情報に応じて、前記発話テキスト表示領域の表示位置の変更、または前記発話テキスト表示領域の色を変更する(1)~(6)いずれかに記載の情報処理装置。
 (8) 前記表示データ制御部は、
 前記データ解析部が複数のユーザ発話から選択した中心的ユーザ発話、または支配的ユーザ発話に対応する発話テキスト表示領域について、表示位置またはサイズの制御処理、または会話中心識別アイコンの追加表示処理の少なくともいずれかの処理を実行する(1)~(7)いずれかに記載の情報処理装置。
 (9) 前記表示データ制御部は、
 前記データ解析部の解析結果として、ある後続ユーザ発話が特定の先行発話に対する発話であるとの解析結果を入力した場合、
 前記後続発話の発話テキスト表示領域を、前記先行発話対応の発話テキスト表示領域に接触、または近づくように移動させて表示する(1)~(8)いずれかに記載の情報処理装置。
 (10) 前記表示データ制御部は、
 前記データ解析部の解析結果として、ある後続ユーザ発話が特定の先行発話に対する賛同発話であるとの解析結果を入力した場合、
 前記後続発話の発話テキスト表示領域を、前記先行発話対応の発話テキスト表示領域に近づくように移動させて表示する表示制御、または、
 前記後続発話の発話テキスト表示領域の色を、前記先行発話対応の発話テキスト表示領域の色の同系色の色とする表示制御の少なくともいずれかの表示制御処理を実行する(1)~(9)いずれかに記載の情報処理装置。
 (11) 前記表示データ制御部は、
 前記データ解析部の解析結果として、ある後続ユーザ発話が特定の先行発話に対する否定発話であるとの解析結果を入力した場合、
 前記後続発話の発話テキスト表示領域を、前記先行発話対応の発話テキスト表示領域から離れるように移動させて表示する表示制御、または、
 前記後続発話の発話テキスト表示領域の色を、前記先行発話対応の発話テキスト表示領域の色と異なる色とする表示制御の少なくともいずれかの表示制御処理を実行する(1)~(10)いずれかに記載の情報処理装置。
 (12) 前記表示データ制御部は、
 前記データ解析部がユーザのポジティプアクションを検出した場合、
 ポジティブアクションを示したユーザの発話テキスト表示円、またはユーザアイコンを揺らす制御、またはサイズの拡縮制御、または色を明るい色に変化させる色変更制御の少なくともいずれかの表示制御を実行し、
 前記データ解析部がユーザのネガティブアクションを検出した場合、
 ネガティブアクションを示したユーザの発話テキスト表示円、またはユーザアイコンを揺らす制御、またはサイズの拡縮制御、または色を暗い色に変化させる色変更制御の少なくともいずれかの表示制御を実行する(1)~(11)いずれかに記載の情報処理装置。
 (13) 前記表示データ制御部は、
 前記データ解析部が会話の盛り上がりを検出した場合、
 ユーザの発話テキスト表示円、またはユーザアイコンを揺らす制御、またはサイズの拡縮制御、または色を明るい色に変化させる色変更制御、または盛り上がりを示す会話を構成する複数のユーザ発話に対応する発話テキスト表示領域を含む背景領域の色を明るい色に変化させる背景色変更制御の少なくともいずれかの表示制御を実行する(1)~(12)いずれかに記載の情報処理装置。
 (14) 前記表示データ制御部は、
 前記データ解析部が会話の盛り下がりを検出した場合、
 ユーザの発話テキスト表示円、またはユーザアイコンを揺らす制御、またはサイズの拡縮制御、または色を暗い色に変化させる色変更制御、または盛り下がりを示す会話を構成する複数のユーザ発話に対応する発話テキスト表示領域を含む背景領域の色を暗い色に変化させる背景色変更制御の少なくともいずれかの表示制御を実行する(1)~(13)いずれかに記載の情報処理装置。
 (15) 前記表示データ制御部は、
 前記データ解析部から、複数のユーザ発話対応の意見の分類結果を入力した場合、
 複数の意見グループ各々について個別の発話テキスト表示領域データ系列を生成して表示する表示制御、または、同一、または類似意見の発話テキスト表示領域の色を同系色に設定して表示する表示制御の少なくともいずれかの処理を実行する(1)~(14)いずれかに記載の情報処理装置。
 (16) 前記ユーザ端末からの受信データは、ユーザの生体情報を含み、
 前記データ解析部は、前記ユーザ端末から受信するユーザの生体情報を解析し、
 前記表示データ制御部は、
 前記データ解析部が解析したユーザの生体情報の解析結果に基づいて、前記ユーザ端末に表示する表示データの制御を実行する(1)~(15)いずれかに記載の情報処理装置。
 (17) 前記表示データ制御部は、
 前記ユーザ端末から入力するユーザ設定情報に従った表示データを生成する(1)~(16)いずれかに記載の情報処理装置。
 (18) 前記ユーザ設定情報は、個別の可視化要素のオンオフ設定情報、または個別の可視化要素の可視化レベル設定情報の少なくともいずれかを含む(17)に記載の情報処理装置。
 (19) 通信ネットワークを介して会話を実行する複数のユーザ端末と、前記会話を管理するサーバを有する情報処理システムであり、
 前記ユーザ端末は、
 マイクを介して取得した音声データとカメラが撮影した画像データを前記サーバに送信し、
 前記サーバは、
 前記ユーザ端末から受信する音声データと画像データを解析し、
 解析結果に基づいて、前記ユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御処理として、
 前記発話テキスト表示領域または背景領域の少なくともいずれかの表示態様を調整して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成して前記ユーザ端末に送信し、
 前記ユーザ端末は、
 前記サーバの生成した発話テキスト表示領域を含む表示データを表示部に表示する情報処理システム。
 (20) 情報処理装置において実行する情報処理方法であり、
 データ解析部が、通信ネットワークを介して会話を実行するユーザ端末からの受信データを解析するデータ解析ステップと、
 表示データ制御部が、前記データ解析ステップにおける解析結果に基づいて、前記ユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御を実行する表示データ制御ステップを有し、
 前記表示データ制御ステップは、
 前記発話テキスト表示領域または背景領域の少なくともいずれかの表示態様を制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成するステップである情報処理方法。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、通信ネットワークを介して会話を実行するユーザ端末の表示部に表示する表示データを制御して、ユーザ状態や会話状態を可視化した表示データを生成する構成が実現される。
 具体的には、例えば、通信ネットワークを介して会話を実行するユーザ端末からの受信データを解析し、解析結果に基づいてユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御を実行する。表示データ制御部は、発話テキスト表示領域のサイズ、または位置、または色、または動き、または発話テキスト表示領域周囲の出力画像の少なくともいずれかを制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成する。
 本構成により、通信ネットワークを介して会話を実行するユーザ端末の表示部に表示する表示データを制御して、ユーザ状態や会話状態を可視化した表示データを生成する構成が実現される。
  11 ユーザ
  21 ユーザ端末
  50 情報処理装置(サーバ)
  51 通信部
  52 音声データ取得部
  53 音声データ解析部
  54 画像データ取得部
  55 画像データ解析部
  56 表示データ制御部
  57 表示データ生成部
  61 ユーザ生体情報取得部
  62 ユーザ生体情報解析部
  71 発話テキスト表示円
  72 発話テキスト
  73 ユーザアイコン
 310 入力部
 311 音声入力部(マイク)
 312 画像入力部(カメラ)
 313 ユーザ入力部(UI)
 314 センサー検出値入力部
 320 出力部
 321 音声出力部(スピーカ)
 322 画像出力部(表示部)
 330 通信部
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (20)

  1.  通信ネットワークを介して会話を実行するユーザ端末からの受信データを解析するデータ解析部と、
     前記データ解析部の解析結果に基づいて、前記ユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御を実行する表示データ制御部を有し、
     前記表示データ制御部は、
     前記発話テキスト表示領域または背景領域の少なくともいずれかの表示態様を制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成する情報処理装置。
  2.  前記表示データ制御部は、
     前記発話テキスト表示領域のサイズ、または位置、または色、または動き、または前記発話テキスト表示領域周囲の出力画像の少なくともいずれかを制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成する請求項1に記載の情報処理装置。
  3.  前記データ解析部は、前記ユーザ端末から受信する音声データと画像データを解析し、
     前記表示データ制御部は、
     前記データ解析部が解析した音声データの解析結果、または画像データの解析結果の少なくともいずれかの解析結果に基づいて、前記ユーザ端末に表示する表示データの制御を実行する請求項1に記載の情報処理装置。
  4.  前記表示データ制御部は、
     前記データ解析部が解析したユーザ発話の声の大きさに応じて、前記発話テキスト表示領域のサイズを変更する請求項1に記載の情報処理装置。
  5.  前記表示データ制御部は、
     前記データ解析部が解析したユーザ発話の明暗に応じて、前記発話テキスト表示領域の色を変更、または前記発話テキスト表示領域の周囲にエフェクト画像を出力する請求項1に記載の情報処理装置。
  6.  前記表示データ制御部は、
     前記データ解析部が解析したユーザ発話内のキーワードに応じて、前記発話テキスト表示領域に表示するユーザ発話対応のテキスト中のキーワード領域を拡大表示、または色の変更表示の少なくともいずれかの処理を実行する請求項1に記載の情報処理装置。
  7.  前記表示データ制御部は、
     前記データ解析部が解析したユーザ発話の時系列情報に応じて、前記発話テキスト表示領域の表示位置の変更、または前記発話テキスト表示領域の色を変更する請求項1に記載の情報処理装置。
  8.  前記表示データ制御部は、
     前記データ解析部が複数のユーザ発話から選択した中心的ユーザ発話、または支配的ユーザ発話に対応する発話テキスト表示領域について、表示位置またはサイズの制御処理、または会話中心識別アイコンの追加表示処理の少なくともいずれかの処理を実行する請求項1に記載の情報処理装置。
  9.  前記表示データ制御部は、
     前記データ解析部の解析結果として、ある後続ユーザ発話が特定の先行発話に対する発話であるとの解析結果を入力した場合、
     前記後続発話の発話テキスト表示領域を、前記先行発話対応の発話テキスト表示領域に接触、または近づくように移動させて表示する請求項1に記載の情報処理装置。
  10.  前記表示データ制御部は、
     前記データ解析部の解析結果として、ある後続ユーザ発話が特定の先行発話に対する賛同発話であるとの解析結果を入力した場合、
     前記後続発話の発話テキスト表示領域を、前記先行発話対応の発話テキスト表示領域に近づくように移動させて表示する表示制御、または、
     前記後続発話の発話テキスト表示領域の色を、前記先行発話対応の発話テキスト表示領域の色の同系色の色とする表示制御の少なくともいずれかの表示制御処理を実行する請求項1に記載の情報処理装置。
  11.  前記表示データ制御部は、
     前記データ解析部の解析結果として、ある後続ユーザ発話が特定の先行発話に対する否定発話であるとの解析結果を入力した場合、
     前記後続発話の発話テキスト表示領域を、前記先行発話対応の発話テキスト表示領域から離れるように移動させて表示する表示制御、または、
     前記後続発話の発話テキスト表示領域の色を、前記先行発話対応の発話テキスト表示領域の色と異なる色とする表示制御の少なくともいずれかの表示制御処理を実行する請求項1に記載の情報処理装置。
  12.  前記表示データ制御部は、
     前記データ解析部がユーザのポジティプアクションを検出した場合、
     ポジティブアクションを示したユーザの発話テキスト表示円、またはユーザアイコンを揺らす制御、またはサイズの拡縮制御、または色を明るい色に変化させる色変更制御の少なくともいずれかの表示制御を実行し、
     前記データ解析部がユーザのネガティブアクションを検出した場合、
     ネガティブアクションを示したユーザの発話テキスト表示円、またはユーザアイコンを揺らす制御、またはサイズの拡縮制御、または色を暗い色に変化させる色変更制御の少なくともいずれかの表示制御を実行する請求項1に記載の情報処理装置。
  13.  前記表示データ制御部は、
     前記データ解析部が会話の盛り上がりを検出した場合、
     ユーザの発話テキスト表示円、またはユーザアイコンを揺らす制御、またはサイズの拡縮制御、または色を明るい色に変化させる色変更制御、または盛り上がりを示す会話を構成する複数のユーザ発話に対応する発話テキスト表示領域を含む背景領域の色を明るい色に変化させる背景色変更制御の少なくともいずれかの表示制御を実行する請求項1に記載の情報処理装置。
  14.  前記表示データ制御部は、
     前記データ解析部が会話の盛り下がりを検出した場合、
     ユーザの発話テキスト表示円、またはユーザアイコンを揺らす制御、またはサイズの拡縮制御、または色を暗い色に変化させる色変更制御、または盛り下がりを示す会話を構成する複数のユーザ発話に対応する発話テキスト表示領域を含む背景領域の色を暗い色に変化させる背景色変更制御の少なくともいずれかの表示制御を実行する請求項1に記載の情報処理装置。
  15.  前記表示データ制御部は、
     前記データ解析部から、複数のユーザ発話対応の意見の分類結果を入力した場合、
     複数の意見グループ各々について個別の発話テキスト表示領域データ系列を生成して表示する表示制御、または、同一、または類似意見の発話テキスト表示領域の色を同系色に設定して表示する表示制御の少なくともいずれかの処理を実行する請求項1に記載の情報処理装置。
  16.  前記ユーザ端末からの受信データは、ユーザの生体情報を含み、
     前記データ解析部は、前記ユーザ端末から受信するユーザの生体情報を解析し、
     前記表示データ制御部は、
     前記データ解析部が解析したユーザの生体情報の解析結果に基づいて、前記ユーザ端末に表示する表示データの制御を実行する請求項1に記載の情報処理装置。
  17.  前記表示データ制御部は、
     前記ユーザ端末から入力するユーザ設定情報に従った表示データを生成する請求項1に記載の情報処理装置。
  18.  前記ユーザ設定情報は、個別の可視化要素のオンオフ設定情報、または個別の可視化要素の可視化レベル設定情報の少なくともいずれかを含む請求項17に記載の情報処理装置。
  19.  通信ネットワークを介して会話を実行する複数のユーザ端末と、前記会話を管理するサーバを有する情報処理システムであり、
     前記ユーザ端末は、
     マイクを介して取得した音声データとカメラが撮影した画像データを前記サーバに送信し、
     前記サーバは、
     前記ユーザ端末から受信する音声データと画像データを解析し、
     解析結果に基づいて、前記ユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御処理として、
     前記発話テキスト表示領域または背景領域の少なくともいずれかの表示態様を調整して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成して前記ユーザ端末に送信し、
     前記ユーザ端末は、
     前記サーバの生成した発話テキスト表示領域を含む表示データを表示部に表示する情報処理システム。
  20.  情報処理装置において実行する情報処理方法であり、
     データ解析部が、通信ネットワークを介して会話を実行するユーザ端末からの受信データを解析するデータ解析ステップと、
     表示データ制御部が、前記データ解析ステップにおける解析結果に基づいて、前記ユーザ端末に提供するユーザ発話対応のテキストを含む発話テキスト表示領域を有する表示データの制御を実行する表示データ制御ステップを有し、
     前記表示データ制御ステップは、
     前記発話テキスト表示領域または背景領域の少なくともいずれかの表示態様を制御して、会話を実行するユーザのユーザ状態、または会話状態の少なくともいずれかの状態を可視化した表示データを生成するステップである情報処理方法。
PCT/JP2023/028226 2022-09-22 2023-08-02 情報処理装置、および情報処理システム、並びに情報処理方法 WO2024062779A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-151740 2022-09-22
JP2022151740 2022-09-22

Publications (1)

Publication Number Publication Date
WO2024062779A1 true WO2024062779A1 (ja) 2024-03-28

Family

ID=90454478

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/028226 WO2024062779A1 (ja) 2022-09-22 2023-08-02 情報処理装置、および情報処理システム、並びに情報処理方法

Country Status (1)

Country Link
WO (1) WO2024062779A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003153224A (ja) * 2001-11-13 2003-05-23 Hitachi Ltd オンライン会議システム
JP2010086074A (ja) * 2008-09-29 2010-04-15 Hitachi Omron Terminal Solutions Corp 音声処理装置、音声処理方法、および、音声処理プログラム
JP2015028625A (ja) * 2013-06-28 2015-02-12 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
JP2017215943A (ja) * 2016-05-27 2017-12-07 株式会社リコー 情報共有支援システム、情報共有支援装置、情報共有支援方法及びプログラム
JP2018073237A (ja) * 2016-11-01 2018-05-10 シャープ株式会社 会議情報表示システム、会議情報表示方法および会議情報表示プログラム
JP2018139397A (ja) * 2017-02-24 2018-09-06 沖電気工業株式会社 音声表示装置および音声表示プログラム
JP2018186366A (ja) * 2017-04-25 2018-11-22 京セラドキュメントソリューションズ株式会社 会議システム
JP2020173714A (ja) * 2019-04-12 2020-10-22 株式会社竹中工務店 対話支援装置、対話支援システム、及び対話支援プログラム
JP2022015167A (ja) * 2020-07-08 2022-01-21 株式会社Jvcケンウッド 画像処理装置および画像処理方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003153224A (ja) * 2001-11-13 2003-05-23 Hitachi Ltd オンライン会議システム
JP2010086074A (ja) * 2008-09-29 2010-04-15 Hitachi Omron Terminal Solutions Corp 音声処理装置、音声処理方法、および、音声処理プログラム
JP2015028625A (ja) * 2013-06-28 2015-02-12 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
JP2017215943A (ja) * 2016-05-27 2017-12-07 株式会社リコー 情報共有支援システム、情報共有支援装置、情報共有支援方法及びプログラム
JP2018073237A (ja) * 2016-11-01 2018-05-10 シャープ株式会社 会議情報表示システム、会議情報表示方法および会議情報表示プログラム
JP2018139397A (ja) * 2017-02-24 2018-09-06 沖電気工業株式会社 音声表示装置および音声表示プログラム
JP2018186366A (ja) * 2017-04-25 2018-11-22 京セラドキュメントソリューションズ株式会社 会議システム
JP2020173714A (ja) * 2019-04-12 2020-10-22 株式会社竹中工務店 対話支援装置、対話支援システム、及び対話支援プログラム
JP2022015167A (ja) * 2020-07-08 2022-01-21 株式会社Jvcケンウッド 画像処理装置および画像処理方法

Similar Documents

Publication Publication Date Title
US20220254343A1 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
US20220284896A1 (en) Electronic personal interactive device
US11017779B2 (en) System and method for speech understanding via integrated audio and visual based speech recognition
US11468894B2 (en) System and method for personalizing dialogue based on user's appearances
US8243116B2 (en) Method and system for modifying non-verbal behavior for social appropriateness in video conferencing and other computer mediated communications
JP6992870B2 (ja) 情報処理システム、制御方法、およびプログラム
US11948241B2 (en) Robot and method for operating same
JP7323098B2 (ja) 対話支援装置、対話支援システム、及び対話支援プログラム
WO2008087621A1 (en) An apparatus and method for animating emotionally driven virtual objects
US20190251970A1 (en) System and method for disambiguating a source of sound based on detected lip movement
CN108139988A (zh) 信息处理系统和信息处理方法
US11164341B2 (en) Identifying objects of interest in augmented reality
KR102412823B1 (ko) 번역 기능을 제공하는 실시간 양방향 온라인 회의 시스템
WO2024062779A1 (ja) 情報処理装置、および情報処理システム、並びに情報処理方法
JP2004193809A (ja) 通信装置
JP7197957B2 (ja) 反応解析システムおよび反応解析装置
WO2020194828A1 (ja) 情報処理システム、情報処理装置、および情報処理方法
JP7465040B1 (ja) コミュニケーション可視化システム
JP7231301B2 (ja) オンライン会議サポートシステムおよびオンライン会議サポートプログラム
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
WO2023074898A1 (ja) 端末、情報処理方法、プログラム、および記録媒体
US20240112389A1 (en) Intentional virtual user expressiveness
WO2023175704A1 (ja) オンライン会議システム、オンライン会議システムの制御方法、およびプログラム
WO2021140800A1 (ja) コミュニケーション支援システムおよびコミュニケーション支援プログラム
JP2023038572A (ja) ネット会合システム及びネット会合プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23867905

Country of ref document: EP

Kind code of ref document: A1