WO2018135304A1 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2018135304A1
WO2018135304A1 PCT/JP2018/000016 JP2018000016W WO2018135304A1 WO 2018135304 A1 WO2018135304 A1 WO 2018135304A1 JP 2018000016 W JP2018000016 W JP 2018000016W WO 2018135304 A1 WO2018135304 A1 WO 2018135304A1
Authority
WO
WIPO (PCT)
Prior art keywords
player
information
utterance
utterance range
range
Prior art date
Application number
PCT/JP2018/000016
Other languages
English (en)
French (fr)
Inventor
真一 河野
祐平 滝
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201880006672.XA priority Critical patent/CN110178125B/zh
Priority to US16/471,882 priority patent/US11311803B2/en
Priority to EP18742309.0A priority patent/EP3572947A4/en
Priority to JP2018563264A priority patent/JP7124715B2/ja
Publication of WO2018135304A1 publication Critical patent/WO2018135304A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/25Output arrangements for video game devices
    • A63F13/28Output arrangements for video game devices responding to control signals received from the game device for affecting ambient conditions, e.g. for vibrating players' seats, activating scent dispensers or affecting temperature or light
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/424Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • A63F13/537Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • A63F13/537Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen
    • A63F13/5372Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen for tagging characters, objects or locations in the game scene, e.g. displaying a circle under the character controlled by the player
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/79Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/85Providing additional services to players
    • A63F13/87Communicating with other players during game play, e.g. by e-mail or chat
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1081Input via voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/57Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of game services offered to the player
    • A63F2300/572Communication between players during game play of non game information, e.g. e-mail, chat, file transfer, streaming of audio and streaming of video
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8082Virtual reality

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program, and in particular, in communication between players in a virtual reality space (VR: Virtual Reality), without losing an immersive feeling and without damaging the VR world view.
  • the present invention relates to an information processing apparatus, an information processing method, and a program that can control a communication partner.
  • VR virtual reality space
  • Patent Literature a method for delivering audio to a communication partner while maintaining reality (while maintaining a VR world view)
  • Patent Document 1 it is based on the position information, and is uniformly transmitted to the other party in the same range, so that it is switched between transmitting only to a specific partner and transmitting to all members. Cannot be controlled, and only one of them can be controlled uniformly.
  • the user utters without knowing the person to whom he / she is transmitted, and he / she is concerned about who the utterance content is transmitted to.
  • the communication partner could not be controlled without losing the immersive feeling and without damaging the VR world view.
  • communication between players in VR it is difficult to know the destination and source, and direct messages and public messages cannot be distinguished, so it is necessary to speak without knowing who it is communicated with. There was a risk that doing it would be painful.
  • the present disclosure has been made in view of such a situation, and in particular, in communication with a player in VR, it is possible to control a communication partner without losing an immersive feeling and without damaging the VR world view. Is.
  • An information processing apparatus includes an utterance range determination unit that determines, as an utterance range, a range in which another player capable of recognizing the uttered content exists when a player utters based on context information It is a processing device.
  • the utterance range may be a range in which other players that can recognize information based on voice data uttered by the player exist.
  • the context information may include voice data, behavior information, posture information, line-of-sight information, and surrounding context information of the player.
  • an audio data acquisition unit that acquires the utterance of the player as audio data can be further included, and the utterance range determination unit determines the utterance range based on the audio data. Can be determined.
  • the utterance range determination unit can determine the utterance range based on the level of the voice data.
  • the speech range determination unit can determine the speech range based on the speech speed of the voice data.
  • the behavior information and the behavior information posture information acquisition unit that acquires the posture information can be further included, and the utterance range determination unit includes the behavior information and the posture information.
  • the utterance range can be determined based on the above.
  • a line-of-sight information acquisition unit that acquires the line-of-sight information can be further included, and the speech range determination unit determines the speech range based on the line-of-sight information. can do.
  • a peripheral context information acquisition unit that acquires the peripheral context information may be further included, and the utterance range determination unit determines the utterance range based on the peripheral context information. You can make it.
  • the peripheral context information can include VR (Virtual Reality) context information.
  • a line-of-sight information acquisition unit that acquires the line-of-sight information and a display unit that displays a VR space based on the VR context information can be further included.
  • the display unit displays the predetermined player on the position where the predetermined player is displayed.
  • a line-of-sight stagnation mark representing a time during which the line of sight is stagnant can be displayed.
  • the utterance range determination unit is configured to display, on the basis of the line-of-sight information, the player's line of sight stays longer than a predetermined time at a position where another player exists in the VR space displayed by the display unit.
  • the other player may be determined as an utterance range, and a mark indicating that the utterance range has been determined by the line of sight is displayed on the display unit on a position where the other player is displayed. .
  • the display unit When the utterance range determining unit determines the player within the utterance range based on the line of sight of the other player based on the line of sight information of the other player in the VR space, the display unit The line-of-sight stagnation mark can be displayed on the position where other players are displayed.
  • the utterance range determination unit can confirm that the line-of-sight stagnation mark has been visually recognized based on the line-of-sight information of the player in the VR space, the other range player is determined as the utterance range,
  • the display unit may display a mark indicating that the eye contact is established on a position where the other player is displayed.
  • a display unit that displays a VR space, a voice data acquisition unit that acquires, as voice data, the utterance of the player in the context information, and the voice acquired by the voice data acquisition unit Based on the data, it is possible to further include a transmission control unit that controls to which player included in the utterance range, the transmission control unit includes a voice recognition result of the voice data.
  • the transmission control unit includes a voice recognition result of the voice data.
  • the transmission control unit can cause the display unit to display a text that is visible to a player within the utterance range and that is not visible to a player outside the utterance range. .
  • the utterance range can be presented to the player by any one of an image, a warning sound, a warning vibration, a warning synthesized sound, or a combination thereof.
  • An information processing method is an information processing method including a step of determining, as a speech range, a range in which another player capable of recognizing spoken content exists when a player speaks based on context information. is there.
  • a program causes a computer to function as an utterance range determination unit that determines a range in which another player capable of recognizing the uttered content exists as an utterance range when the player utters based on context information It is a program.
  • a range in which another player capable of recognizing the spoken content exists is determined as the speech range.
  • Example 1 which controls transmission of information according to the situation where the utterance range was decided. It is a figure explaining the example 1 of a display of a voice recognition result. It is a figure explaining the example 2 of a display of a voice recognition result. It is a figure explaining the example 3 of a display of a voice recognition result. It is a figure explaining the example 4 of a display of a voice recognition result. It is a figure explaining cancellation
  • the information processing system in FIG. 1 is an information processing apparatus 11- mounted on a user who is a player of a game or the like realized in a virtual reality space (hereinafter also referred to as VR: Virtual Reality), for example, like a head-mounted display. 1 to 11-n and a cloud server group 12 that realizes generation and control of various information presented to the information processing apparatuses 11-1 to 11-n.
  • VR Virtual Reality
  • Each of the information processing apparatuses 11-1 to 11-n is simply referred to as the information processing apparatus 11 unless it is necessary to distinguish between them.
  • the information processing apparatus 11 detects the context and positional relationship in the VR, the behavior, the posture, and the line of sight as well as the voice at the time of speaking as the context information of the user, and based on the context information that is the detection result, the user
  • the player in the VR who is the partner to transmit the utterance of is determined as the utterance range.
  • the information processing apparatus 11 presents the utterance range by displaying it in a form that can be recognized by the user wearing the utterance range, for example, a display. This presentation enables the user to speak while recognizing his / her utterance range, and is freed from the pain of communicating without knowing to whom the utterance is transmitted in VR.
  • the information processing apparatus 11 narrows down the players in the utterance range according to the utterance content, and notifies the utterance content to the other information processing apparatus 11 that is used by the player to whom the information is transmitted. 11 to the user who uses it. At this time, the information processing apparatus 11 presents various information through the user's vision, hearing, and touch.
  • the voice data of the context information is sent to the cloud server group 12 including a plurality of server computers as necessary. Send, analyze, and use analysis results.
  • the cloud server group 12 analyzes the voice data in the context information and transmits the analysis result to the information processing apparatus 11.
  • the information processing apparatus 11 acquires information specifying a partner to be transmitted from the cloud server group 12 and to which the player who is the user who wears the user intends to transmit information in the VR, and based on the specified partner information In the VR, the user is notified (presented) of the utterance range that is the range of the utterance of the user wearing the VR and the opponent player in the utterance range.
  • a user who controls a player such as a game realized by VR can communicate with the other party in the space realized by VR without compromising the immersive feeling in VR and without damaging the VR world view. That is, it is possible to speak while switching the partner to transmit information (controlling the switching of the partner).
  • the information processing apparatus 11 includes a CPU (Central Processing Unit) 31, a memory 32, a storage unit 33, a vibration unit 34, a communication unit 35, a voice acquisition unit 36, an image output unit 37, a voice output unit 38, and a VR context information acquisition unit 39.
  • the behavior information acquisition unit 40 and the line-of-sight recognition processing unit 41 are provided.
  • the CPU 31 controls various components connected via the bus 42 to control the entire operation of the information processing apparatus 11. Further, the CPU 31 reads out a program stored in the storage unit 33 including a HDD (Hard Disk Drive) or an SSD (Solid State Drive), expands and executes the program on the memory 32 including a semiconductor memory, and the like. Realize the function. More specifically, the CPU 31 functions as an utterance range control unit 31a and a transmission control unit 31b by executing a program stored in the storage unit 33.
  • a program stored in the storage unit 33 including a HDD (Hard Disk Drive) or an SSD (Solid State Drive)
  • the CPU 31 functions as an utterance range control unit 31a and a transmission control unit 31b by executing a program stored in the storage unit 33.
  • the utterance range control unit 31a determines the utterance range of the player controlled by the user based on the context information acquired by the voice acquisition unit 36, the VR context information acquisition unit 39, the behavior information acquisition unit 40, and the line-of-sight recognition processing unit 41. decide. More specifically, when the player controlled by the user speaks in the VR, the speech range control unit 31a includes a range in which another player who can recognize the spoken content exists, or the spoken content. The other player who can recognize is determined.
  • the context information is information representing the state of the player. More specifically, the context information is, for example, voice data acquired by the voice acquisition unit 36, VR context information acquired by the VR context information acquisition unit 39, behavior information and posture acquired by the behavior information acquisition unit 40 Information and line-of-sight information acquired by the line-of-sight recognition processing unit 41.
  • the VR context information includes the player and object controlled by the user in the VR and the positions and situations of the surrounding players and objects.
  • Context information related to voice data includes, for example, voice pitch, volume, frequency, language, etc., and also includes emotions required based on the voice data.
  • Context information regarding behavior information is information for identifying a player's behavior such as stopping, walking, and running.
  • Context information related to posture information is information for identifying the posture of the player such as orientation, sitting, and standing.
  • the context information related to the line-of-sight information is information related to the line of sight of the player, such as the line-of-sight direction and the gaze state.
  • the context information includes the situation of the player, for example, the situation of the player such as crying, laughing, cheering, sad, or happy.
  • the transmission control unit 31b further narrows down the target to be transmitted within the utterance range based on the voice data when the user utters in the state where the utterance range is specified, and the information to be transmitted and the transmission method To control.
  • the vibration unit 34 switches and vibrates a plurality of parts of the main body of the information processing apparatus 11 including a head-mounted display, and stimulates various parts of the head of the user wearing the information processing apparatus 11 by vibration. give.
  • the communication unit 35 realizes, for example, LAN (Local Area Network) communication by wireless communication or wired communication in a predetermined frequency band, and executes transmission / reception of predetermined data and programs via the Internet or the like.
  • LAN Local Area Network
  • the voice acquisition unit 36 is constituted by, for example, a microphone, acquires a voice uttered by a user wearing the information processing apparatus 11, and outputs the voice as voice data to the CPU 31 via the bus 42.
  • the image output unit 37 is composed of, for example, an LCD (Liquid Crystal Display) or an organic EL (Electroluminescence).
  • LCD Liquid Crystal Display
  • organic EL Electrode
  • the audio output unit 38 includes, for example, a speaker and headphones, and outputs audio in the VR to the user.
  • the VR context information acquisition unit 39 acquires VR context information including various objects and player positions and situations (including positions and situations of other players) in the VR, and supplies them to the CPU 31 via the bus 42. .
  • the behavior information acquisition unit 40 acquires the behavior information and posture information of the user who controls the operation of the player in the VR, and supplies it to the CPU 31. More specifically, the behavior information acquisition unit 40 includes, for example, a gyro sensor, an image recognition camera, a pulse sensor, an acceleration sensor, and a lip recognition sensor.
  • the line-of-sight recognition processing unit 41 recognizes the line-of-sight direction from, for example, an eye image captured by a camera that captures the eyes of the user who controls the operation of the player in the VR.
  • the cloud server group 12 includes a plurality of server computer groups existing on a network including the Internet (not shown), and includes a speech analysis processing unit 61, a speech recognition unit 62, a natural language processing unit 63, a semantic analysis processing unit 64, emotions. It functions as an estimation processing unit 65 and a speech synthesis (TTS) unit 66.
  • Various functions of the cloud server group 12 may be realized by a single server computer, or may be realized by a plurality of server computers.
  • the voice analysis processing unit 61 performs noise removal and enhancement of voice of a predetermined frequency on the voice data supplied from the information processing apparatus 11, and performs analysis of various kinds of voice data.
  • the speech analysis processing unit 61 for example, language type (Japanese, English, French, etc.) based on speech data, the level of speech uttered according to the frequency for each fundamental frequency, and the speech speed based on the number of phonemes per unit time. Analyze volume, inflection.
  • the voice analysis processing unit 61 supplies the voice data from which noise has been removed to the voice recognition unit 62.
  • the voice recognition unit 62 recognizes words (for example, text data) uttered from the voice data supplied from the voice analysis processing unit 61, and supplies the recognition result together with the voice data to the natural language processing unit 63.
  • the natural language processing unit 63 performs natural language processing on the recognition result based on the speech data supplied from the speech recognition unit 62 and the recognition result, and outputs a processing result including, for example, text data to the semantic analysis processing unit 64. To do.
  • the semantic analysis processing unit 64 analyzes the meaning based on the processing result including, for example, text data subjected to natural language processing, and outputs the analysis result to the emotion estimation processing unit 65.
  • the emotion estimation processing unit 65 estimates the emotion of the user who controls the player who has produced the voice composed of the voice data based on the voice analysis result and the semantic analysis result. For specific methods of emotion estimation based on speech data, see, for example, “Application of speech cranial nerve analysis technology, technology for quantitative measurement of heart (http://agi-web.co.jp/docs/Univ-Tokyo .pdf) ”.
  • a speech synthesis (TTS: Text-to-Speech) unit 66 generates synthesized speech by TTS based on text data converted into a natural language as a natural language processing result.
  • the image output unit 37 is, for example, a so-called head mounted display that is mounted on the head of the user H as shown in the left part of FIG. .
  • an image P1 as shown in the right part of FIG. 2 is displayed.
  • An image P1 shown in the right part of FIG. 2 is an example of a battle scene in the game, and shows a gun held by a player controlled by the user H and a player 91-1 operated by the hand holding the gun. , Players 91-2 to 91-4 who are allies of friends, and players 92-1 and 92-2 which are enemies are shown.
  • the image output unit 37 of the information processing apparatus 11 worn by each user who controls each player 91-2 to 91-4, 92-1, 92-2 corresponds to the positional relationship of each player in the VR. An image is displayed.
  • a VR context information feedback display field 101 that feeds back VR context information
  • an input situation feedback display field 102 that feeds back an input situation (voice data)
  • a mark indicating a line of sight 103 is provided.
  • the player controlled by the user H based on the context information acquired by the VR context information acquisition unit 39, the behavior information acquired by the behavior information acquisition unit 40, and the posture information is The images viewed within are displayed. Therefore, based on the context information, the action information, and the posture information, for example, if it is recognized that the player is running and moving in a predetermined posture toward the front, An image capable of recognizing that the landscape has changed and the player is running forward with a predetermined posture is displayed as an image P1.
  • the VR context information feedback display column 101 shows the position of the player controlled by the user H based on the VR context information acquired by the VR context information acquisition unit 39. Centering around the point 91P-1 that is the intersection of the horizontal straight line and the vertical straight line, points indicating the arrangement of surrounding players when the upper arrow direction in the figure is the front of the player are displayed.
  • points 91P-2 to 91P- representing the positions of the fellow players are located on the left front side. 4 and a point 92P-1 representing the position of the enemy player are displayed, points 92P-2 and 92P-x representing the position of the enemy player are displayed on the right front side, and on the left rear side.
  • a point 91P-m representing the position of the fellow player is displayed, and a point 91P-n representing the position of the fellow player is displayed on the right rear side.
  • the input status feedback display column 102 displays a waveform representing the signal level of the sound acquired by the sound acquisition unit 36.
  • the user H By viewing the image P1 as shown in FIG. 3 in this way, the user H recognizes the direction and distance of the player other than himself / herself in the VR, and inputs the voice spoken by himself / herself. It is possible to recognize whether or not this is sufficiently done.
  • a mark 103 indicating a line of sight based on the line-of-sight information acquired by the line-of-sight recognition processing unit 41 is displayed in the lower left part of the image P1 in FIG.
  • the mark 103 is an icon that looks like an eye, and is indicated at a position corresponding to the line-of-sight direction in the image P ⁇ b> 1 of the user H wearing the information processing apparatus 11.
  • the voice uttered as voice is collected and acquired and supplied to the CPU 31 as voice data.
  • the utterance range control unit 31 a controlled by the CPU 31 controls the communication unit 35 to transmit voice data to the cloud server group 12.
  • the voice analysis processing unit 61 acquires the voice data, it performs a process suitable for the analysis such as a noise removal process, then analyzes the voice data, and transmits the analysis result to the information processing apparatus 11.
  • the voice data is transmitted to the voice recognition unit 62 and the emotion estimation processing unit 65. More specifically, the speech analysis processing unit 61, based on the speech data, for example, the type of language, the level of speech uttered at the frequency of each fundamental frequency, the speech speed by the number of phonemes per unit time, volume, and Analyze for inflection.
  • the voice recognition unit 62 recognizes the voice as a language based on the voice data, converts it into, for example, text data as a voice recognition result, and supplies it to the natural language processing unit 63 and the voice synthesis unit 66.
  • the natural language processing unit 63 converts the speech recognition result composed of text data or the like so as to become a natural language based on the context before and after and supplies the conversion result to the semantic analysis processing unit 64.
  • the semantic analysis processing unit 64 analyzes the meaning uttered by the user H based on the conversion result supplied from the natural language processing unit 63 and supplies it to the emotion estimation processing unit 65 as a semantic analysis result.
  • the emotion estimation processing unit 65 estimates the emotion of the user H based on the voice data supplied from the voice analysis processing unit 61 and the semantic analysis result of the semantic analysis processing unit 64, and the emotion estimation result and the semantic analysis result Is transmitted to the information processing apparatus 11.
  • the speech synthesizer 66 generates synthesized speech by TTS based on the natural language processing result composed of text data, and transmits the synthesized speech to the information processing apparatus 11.
  • the utterance range control unit 31a identifies the utterance range based on the emotion estimation result and the semantic analysis result, and displays them as, for example, the utterance range 121 in the VR context information feedback display column 101 and the utterance range 122 in the image P1. To do.
  • the utterance range control unit 31a shows, for example, the utterance content of the user H such as “What should I do if an enemy has come” based on the semantic analysis result in, for example, the display field M1 in FIG. As shown, the image is displayed on the upper part of the image P1 in the image output unit 37. Further, the utterance range control unit 31a obtains the relationship between the fundamental frequency of the voice and the occurrence frequency as shown by the waveform G1 at the bottom of FIG. 4 based on the analysis result of the fundamental frequency of the voice data, for example, Emotion is estimated based on whether or not the frequency band exceeding Fthresh is high.
  • the utterance range control unit 31a It is considered that the sound is generated only by the close friends around the player of the user H.
  • the utterance range control unit 31a displays the utterance range 121 in, for example, the VR context information feedback display column 101 of FIG. That is, in the utterance range 121 in the VR context information feedback display field 101 of FIG. 4, the point 91P indicating the positions of the players 91-2 and 91-3 that are very close to the point 91P-1 indicating the position of the user H's player. -2 and 91P-3 are included in the utterance range, and are displayed as the utterance range 121, for example.
  • the utterance range control unit 31a displays, as the utterance range 122, a range where the players 91-2 and 91-3 that are very close to the point indicating the position of the player 91-1 of the user H in the image P1 exist.
  • the information uttered by the user thereafter is transmitted only to the players within the utterance range by the processing described later.
  • the user H can recognize his / her utterance range only by looking at the utterance ranges 121 and 122 in the image output unit 37.
  • the user can now execute the utterance after recognizing to whom the information he / she uttered will be transmitted, so that he / she utters in a state where he / she does not know who will be transmitted to the utterance Anxiety can be reduced.
  • the display of the text data of the utterance content of the user H such as “What should the enemy do?” Shown in the display field M1 in FIG. 4 may be transmitted to the user H by other methods.
  • synthesized speech may be generated by the speech synthesizer 66 and output from the speech output unit 38 as speech.
  • voice processing results the processing results obtained by the same processing as the processing by the above will be collectively referred to as voice processing results, and the description will be omitted as appropriate.
  • the voice acquisition unit 36 of the information processing apparatus 11 possessed by the user other than the user H who operates the player 91-m collects and acquires the voice uttered as voice and supplies the voice data to the CPU 31.
  • the utterance range control unit 31a controlled by the CPU 31 controls the communication unit 35 to transmit voice data to the cloud server group 12 and obtains it as a voice processing result by the series of processes described above, The utterance range is determined by the same processing. Then, the utterance range control unit 31 a transmits information on the determined utterance range and the voice processing result to the other information processing apparatus 11.
  • the utterance range control unit 31a of the information processing apparatus 11 attached by the user H controls the communication unit 35 to acquire the utterance range information transmitted from the other information processing apparatus 11.
  • the speech processing result is generated by the speech synthesizing unit 66 based on the text data such as “Wow, Tsuyoso” recognized from the speech data by the natural language processing unit 63 and the text data. ,...
  • the utterance range control unit 31a is based on the VR context information of the player 91-m acquired by the VR context information acquisition unit 39, and information on the utterance range from the information processing apparatus 11 worn by the user corresponding to the player 91-m. Then, the utterance range of the player 91-m is recognized. Then, the utterance range control unit 31a displays, for example, the utterance range of the player 91-m as the utterance range 121 in FIG. 5 in the VR context information feedback display field 101, for example.
  • the utterance range 121 includes a center position in the VR context information feedback display column 101 indicating the position where the user H exists, and a pointer 91P-m in the VR of the player 91-m.
  • the utterance range control unit 31a outputs, based on the natural language processing result, the utterance content of the user H such as “Wow, ...” as an image output as shown in the display column M11 of FIG. It is displayed on the upper part of the image P1 in the part 37.
  • the user H can recognize the utterance range of players other than himself / herself only by looking at the utterance range 121 in the image output unit 37.
  • the utterance range may be expressed by another method of displaying as an image on the image output unit 37, as indicated by the utterance ranges 121 and 122 in FIG.
  • the utterance range control unit 31a controls the voice output unit 38 based on the context information of the player 91-m, and positions in the VR context information feedback display column 101
  • the warning sound 132 “buzzy” may be output from the left rear, which is the direction corresponding to.
  • the direction and distance of the utterance range can be recognized only by voice by increasing the volume when the distance is short and decreasing the volume when the distance is long.
  • the utterance range control unit 31a controls the vibration unit 34 based on the context information of the player 91-m, so that the VR context information feedback display field 101 has A warning vibration 133 corresponding to the position may be generated from the left rear. At this time, it is possible to recognize the direction and the distance of the utterance range only by the vibration by making the large vibration when the distance is short and making the small vibration when the distance is far.
  • the utterance range control unit 31a controls the audio output unit 38 based on the context information of the player 91-m, so that the VR context information feedback display field 101 It is also possible to output the warning synthesized sound 134 “Wow, tsuyoso” generated by the speech synthesizer 66 from the left rear, corresponding to the position of.
  • the direction and distance of the utterance range can be recognized only by voice by increasing the volume when the distance is short and decreasing the volume when the distance is long.
  • the utterance range is expressed not only by the image but also by the warning voice, the warning vibration, and the warning synthesized sound so that the user H can know the direction and distance of the player existing in the utterance range. It only has to be done.
  • the voice acquisition unit 36 collects and acquires the voice uttered as voice and supplies it to the CPU 31 as voice data.
  • the utterance range control unit 31 a controlled by the CPU 31 controls the communication unit 35 to transmit voice data to the cloud server group 12.
  • the utterance range control unit 31a determines the utterance range based on the voice processing result obtained by the processing of the cloud server group 12, for example, the utterance range 121 in the VR context information feedback display column 101, and the utterance in the image P1. Displayed as a range 122.
  • a speech analysis result and a natural language processing result are used as the speech processing result.
  • the utterance range control unit 31a determines, based on the results of natural language processing, “forward, attention, and rare items” and “possible”.
  • the content of the utterance of the user H such as “Maru-” is displayed on the upper part of the image P1 in the image output unit 37, for example, as shown in the display field M21 of FIG.
  • the utterance range control unit 31a determines to which player around the user H the utterance based on, for example, the number of phonemes per unit time, that is, the speech analysis result of the speech speed. For example, in the case of FIG. 6, since there is a long sound code, it is estimated that the speech speed is slow. Therefore, the speech range control unit 31a considers the speech speed to be lower than a predetermined speed and exists nearby. It is considered to be for all players who will be friends.
  • the utterance range control unit 31a displays the utterance range 121 in, for example, the VR context information feedback display column 101 of FIG. That is, in the utterance range 121 in the VR context information feedback display field 101 of FIG. 6, the players 91-2 to 91-4, 91-m, 91- A range including points 91P-2 to 91P-4, 91P-m, 91P-n indicating the position of n is displayed as an utterance range 121.
  • the utterance range control unit 31a displays the range where the friendly players 91-2 to 91-4 are present in the image P1 near the position of the player 91-1 of the user H as the utterance range 122.
  • the user H can recognize his / her utterance range only by looking at the utterance ranges 121 and 122 in the image output unit 37.
  • the voice acquisition unit 36 collects and acquires the voice uttered as voice. , And supplied to the CPU 31 as audio data.
  • the utterance range control unit 31 a controlled by the CPU 31 controls the communication unit 35 to transmit voice data to the cloud server group 12.
  • the utterance range control unit 31a specifies the utterance range based on the natural language processing result and the emotion estimation result among the voice processing results obtained from the cloud server group 12, and, for example, the utterance in the VR context information feedback display column 101
  • the range 121 and the utterance range 122 in the image P2 are displayed.
  • the player 151-0 controlled by the user H and the child players 151-1 to 151-5 are shown, and of these, the child player 151-1 is laughing, The player 151-2 is idle, the player 151-3 is playing, and the players 151-4 and 151-5 are crying.
  • the state of each child player 151-1 to 151-5 is included in the VR context information.
  • the utterance range control unit 31a displays the natural language processing result “What's okay, for example, at the top of the image P1 in the image output unit 37 as shown in the display field M31 of FIG. "Kana" is displayed. Also, the utterance range control unit 31a, based on the emotion estimation result, based on the analysis result of the voice data by the emotion estimation processing unit 65, for example, whether or not the input voice is small and is spoken gently. It is determined whether it is an utterance to a nearby crying player. For example, in the case of FIG. 7, since the players 151-4 and 151-5 are in a state of crying, the utterance range control unit 31a regards the child who is crying as if it is gently speaking to the crying child. Considered to be for the player.
  • the utterance range control unit 31a displays the utterance range 121 in, for example, the VR context information feedback display column 101 of FIG. That is, in the utterance range 121 in the VR context information feedback display field 101 of FIG. 7, points 151P-4, which indicate the positions of the player 151-0 of the user H and the crying players 151-4, 151-5, The range including 151P-5 is displayed as the speech range 121.
  • the utterance range control unit 31a displays a range where the player 151-0 of the user H and the crying child players 151-4 and 151-5 exist in the image P2 as the utterance range 122.
  • the user H can recognize his / her utterance range only by looking at the utterance ranges 121 and 122 in the image output unit 37.
  • the utterance range control unit 31a specifies the utterance range based on the behavior information and the posture information, and displays the utterance range 121 in the VR context information feedback display column 101 and the utterance range 122 in the image P1, for example.
  • the utterance range control unit 31a determines, for example, which player around the user H based on the VR context information It is determined whether it is an utterance for.
  • the utterance range control unit 31a is similarly configured around the user H based on the VR context information. It is considered to be for a player who is standing and running.
  • the utterance range control unit 31a displays the utterance range 121 in, for example, the VR context information feedback display column 101 of FIG. That is, in the utterance range 121 in the VR context information feedback display field 101 of FIG. 8, the players 91-2 and 91-3 who are close friends from the point 91P-1 indicating the position of the player 91-1 of the user H A range including the points 91P-2 and 91P-3 indicating the position is displayed as an utterance range 121.
  • the utterance range control unit 31a displays the range in which fellow players 91-2 and 91-3 near the position of the player 91-1 of the user H in the image P1 exist as the utterance range 122.
  • the user H since the utterance ranges 121 and 122 are displayed in the image P1, the user H only looks at the utterance ranges 121 and 122 in the image output unit 37, and the player H takes the same action and posture as the player H.
  • An existing range can be recognized as an utterance range.
  • the utterance range control unit 31a identifies the utterance range based on the line-of-sight information, and displays it, for example, as the utterance range 121 in the VR context information feedback display column 101 and the utterance range 122 in the image P1.
  • the utterance range control unit 31a determines to which player in the image P1 the line of sight is directed, and determines which player around the user H is set as the utterance range. To do.
  • the utterance range control unit 31a recognizes that the line of sight is directed toward the player 91-2 around the user H based on the line of sight information.
  • the utterance range control unit 31a displays the utterance range 121 in the VR context information feedback display column 101, for example, as shown by an image P1-1 in FIG. That is, as shown by an image P1-1 in FIG. 9, in the utterance range 121 in the VR context information feedback display column 101, the VR context information feedback display that is the position of the player 91-1 controlled by the user H is displayed.
  • the range including the point 91P-2 indicating the position of the intersection point between the horizontal line and the vertical line in the circle in the column 101 (hereinafter referred to as the intersection position) and the position of the player 91-2 is defined as an utterance range. 121 is displayed.
  • the utterance range control unit 31a includes a point where the position of the player of the user H and the fellow player 91-2 in the sight line direction of the user H exist. Is displayed as the utterance range 122, and further, a mark 103-1 indicating that the line of sight is directed on the player 91-2 is displayed.
  • the utterance range control unit 31a indicates that the predetermined time has elapsed since the line of sight was directed.
  • a mark 103-2 is displayed instead of the mark 103-1 indicating that the line of sight is directed upward.
  • the utterance range control unit 31a has a remaining time of 3 seconds from when the line of sight is directed to when the line of sight is determined.
  • a mark 103-3 is displayed instead of the mark 103-2 indicating that the line of sight is directed on the player 91-2.
  • the utterance range control unit 31a has a remaining time of 2 seconds from when the line of sight is directed to when the line of sight is determined.
  • a mark 103-4 is displayed instead of the mark 103-3 indicating that the line of sight is directed on the player 91-2.
  • the utterance range control unit 31a has a remaining time of 1 second from the time when the line of sight is directed to the timing when the line of sight is determined.
  • a mark 103-5 is displayed instead of the mark 103-4 indicating that the line of sight is directed on the player 91-2.
  • the utterance range control unit 31a turns the line of sight on the player 91-2 to indicate that the line-of-sight direction has been determined.
  • a mark 103-6 is displayed instead of the mark 103-5 indicating that the image is displayed.
  • the user H can make eye contact with his / her own line of sight only by looking at the utterance ranges 121 and 122 in the image output unit 37. Can be determined as the utterance range.
  • ⁇ Speaking range display example 7> a display example 7 of the utterance range based on the line-of-sight information of other players will be described.
  • the utterance range is displayed so that the user H recognizes that the eye contact is directed to the user H from the fellow player, and the sent eye contact is displayed.
  • eye contact is established when the line of sight is sent accordingly.
  • the image and utterance range control unit 31a of FIG. 9 includes line-of-sight information from another information processing apparatus 11 worn by a user who controls the communication unit 35 to control the player to which the line of sight is directed. Context information is sent.
  • the utterance range control unit 31a specifies the utterance range based on the line-of-sight information from the other information processing apparatus 11 worn by the user who controls the other player, for example, in the image P1 of FIG. Information indicating that the line of sight is sent to is displayed.
  • the utterance range control unit 31a determines which player's line of sight is directed in the image P1. Then, it is determined which player around the user H is the speech range. For example, in the case of FIG. 10, the utterance range control unit 31a recognizes that the line of sight from the player 91-2 is directed based on the line-of-sight information of another player.
  • the utterance range control unit 31a displays a mark 171-1 indicating that the line of sight is directed on the fellow player 91-2 whose line of sight is directed, as indicated by an image P1-11 in FIG. .
  • the utterance range control unit 31a indicates the elapsed time since the line of sight was directed.
  • a mark 171-2 is displayed instead of the mark 171-1 indicating that the mark has been displayed.
  • the utterance range control unit 31a indicates the elapsed time since the line of sight was directed.
  • a mark 171-3 is displayed instead of the mark 171-2 indicating that it is directed.
  • the utterance range control unit 31a indicates the elapsed time since the line of sight was directed, so the line of sight is directed on the player 91-2.
  • the mark 171-4 is displayed instead of the mark 171-3 indicating that the mark has been displayed.
  • the mark 171-4 describes “Look at me”, which indicates that it accepts eye contact.
  • the utterance range control unit 31 a indicates that the eye contact has been established, as indicated by an image P 1-15 in FIG. 10. Instead, a mark 171-5 indicating that the eye contact with the player 91-2 has been confirmed is displayed.
  • the mark 171-5 describes “eye-contact” and indicates that eye contact has been established. In this case, the same information is displayed on the other information processing apparatus 11 as the counterpart.
  • the utterance range control unit 31a indicates that the utterance range has been confirmed and the utterance range has been confirmed.
  • the control unit 31 a displays the utterance range 121 in the VR context information feedback display field 101. That is, as shown by an image P1-16 in FIG. 10, the utterance range control unit 31a has an intersection position and a point 91P indicating the positions of the player of the user H and the player 91-2 in the VR context information feedback display field 101. -2 is displayed as the utterance range 121.
  • the utterance range 122 including the player 91-1 and the player 91-2 of the user H is displayed.
  • the process of receiving the eye contact is performed, so that the utterance ranges 121 and 122 show the mutual images of the players who sent the eye contact. Since it is displayed in P1, the user who has sent the eye contact only establishes an eye contact with the opponent player just by looking at the utterance ranges 121 and 122 in the image output unit 37. Can be recognized.
  • the eye contact may not be established according to the time to send the line of sight, but may be established if the mutual line of sight satisfies a predetermined condition even for a moment. For example, when the inner product of the vectors indicating the mutual line-of-sight directions is smaller than a predetermined value using the mutual line-of-sight information of the players, it is assumed that the mutual line-of-sight directions coincide and the eye contact is established. Good.
  • Example 1 of controlling the transmission of information according to the situation where the utterance range is fixed ⁇ Example 1 of controlling the transmission of information according to the situation where the utterance range is fixed>
  • the voice acquisition unit 36 collects and acquires the voice uttered as voice and supplies it to the CPU 31 as voice data.
  • the utterance range control unit 31 a controlled by the CPU 31 controls the communication unit 35 to transmit voice data to the cloud server group 12.
  • the voice analysis processing unit 61 acquires the voice data, it performs a process suitable for the analysis such as a noise removal process, then analyzes the voice data, and transmits the analysis result to the information processing apparatus 11.
  • the voice data is transmitted to the voice recognition unit 62 and the emotion estimation processing unit 65. More specifically, the voice analysis processing unit 61 analyzes, based on the voice data, the level of the spoken voice at the frequency for each fundamental frequency, the speech speed by the number of phonemes per unit time, the volume, and the presence or absence of inflection. .
  • the voice recognition unit 62 recognizes the voice as a language based on the voice data, converts it into, for example, text data as a voice recognition result, and supplies it to the natural language processing unit 63 and the voice synthesis unit 66.
  • the natural language processing unit 63 converts the recognition information made up of text data or the like into a natural language from the contexts before and after the text, and supplies the text data that is the conversion result to the semantic analysis processing unit 64.
  • the semantic analysis processing unit 64 analyzes the meaning uttered by the user H based on the conversion result supplied from the natural language processing unit 63 and supplies the semantic analysis result, which is the analysis result, to the emotion estimation processing unit 65.
  • the emotion estimation processing unit 65 estimates the emotion of the user H based on the voice data supplied from the voice analysis processing unit 61 and the analysis result of the semantic analysis processing unit 64, and stores the emotion estimation result and the semantic analysis result as information. It transmits to the processing apparatus 11.
  • the speech synthesizer 66 generates synthesized speech by TTS based on the natural language processing result composed of text data, and transmits the synthesized speech to the information processing apparatus 11.
  • the transmission control unit 31b specifies the utterance range based on the emotion estimation result and the natural language processing result, and displays the utterance range, for example, as the utterance range 121 in the VR context information feedback display column 101 and the utterance range 122 in the image P1. To do.
  • the utterance ranges 121 and 122 displayed in FIG. 11 are actually uttered in contrast to the utterance ranges 121 and 122 once determined by the utterance range control unit 31a displayed in FIGS. Sometimes, it can be said that the transmission control unit 31b further narrows down the utterance range.
  • the transmission control unit 31b based on the text data that is the natural language processing result, based on the content of the utterance of the user H such as “What should the enemy do? As indicated by M41, the image is displayed on the top of the image P1 in the image output unit 37.
  • the transmission control unit 31b when the utterance range 121 is displayed in the VR context information feedback display field 101 in the upper part of FIG. 11 and the utterance range 121 is fixed, for example, the volume of the input voice due to the utterance based on the audio data Is greater than the predetermined value, and when there is an utterance such as “Let me support physical strength recovery”, the transmission control unit 31b considers that the utterance has been made to fellow players 91-m and 91-n behind. For this reason, the transmission control unit 31b displays the utterance range 121-1 including the pointers 91P-m and 91P-n corresponding to the positions of the players 91-m and 91-n in the lower part of FIG.
  • the transmission control unit 31b displays, for example, as shown in the display field M42 in FIG. .
  • the transmission control unit 31b when the utterance range 121 is displayed in the VR context information feedback display field 101 in the upper part of FIG. 11 and the utterance range 121 is fixed, the volume of the input voice due to the utterance is determined by, for example, voice data.
  • the transmission control unit 31b considers the utterance to the fellow players 91-2 and 91-3 ahead. Therefore, the transmission control unit 31b displays the utterance range 121-2 including the pointers 91P-2 and 91P-2 corresponding to the positions of the players 91-2 and 91-3 in the lower part of FIG.
  • the transmission control unit 31b displays the text data as the natural language processing result based on the utterance contents of the user H such as “attack with rifle” as shown in the display column M43 in FIG. 11, for example.
  • the volume is smaller than the predetermined value.
  • the transmission control unit 31b performs the player 91-3 on the image P1 corresponding to the points 91P-2 and 91P-3 included in the utterance range 121-2 in the VR context information feedback display field 101 in the lower part of FIG. , 91-2, the text plate 191 displayed as “attack with rifle” is moved and displayed as indicated by the dotted arrow.
  • the text plate 191 displayed as “attack with a rifle” reaches the player 91-2 via the player 91-3 on the image P1, as indicated by a dotted arrow. At this time, only the corresponding players 91-3 and 91-2 are displayed so that the information on the text plate 191 can be read.
  • the text plate 191 is displayed so as to be transmitted so as to sequentially circulate between the players 91 in the order of one stroke as shown by the image P1 in the lower part of FIG.
  • the text plate 191 is transmitted to the players within the utterance range by moving between the players 91 within the utterance range. That is, when the player 91-1 controlled by the user H displays the text plate 191 simultaneously with respect to a plurality of players 91, especially to which player when the number of players is enormous. This is because it is impossible to recognize whether the text plate 191 has been sent and to which player it was transmitted.
  • the transmission control unit 31b determines the player to be transmitted, the information to be transmitted, and the transmission method (transmission method).
  • the determined information is transmitted to the determined player to be transmitted by the determined transmission method.
  • the user when the user controls the movement of the player in the VR, the user can determine an appropriate utterance range based on the VR context information only by performing his / her natural behavior, posture, utterance, and gaze movement. As well as being able to utter while recognizing the determined utterance range, it is possible to dispel the anxiety caused by not knowing the content of the utterance to whom, so it is possible to speak with confidence It becomes possible.
  • the utterance range is determined, only a natural utterance is performed, and within the utterance range, a player to be transmitted, information to be transmitted, and a transmission method (transmission method) are determined, and the utterance is determined. It is possible to transmit the information to be transmitted determined in accordance with the utterance to the player to be transmitted determined in accordance with the utterance by the transmission method determined in accordance with the utterance.
  • the text data that is the speech recognition result subjected to natural language processing is composed of, for example, three-dimensional text. For example, when it is expressed by the text plate 191 in FIG.
  • the transmission control unit 31b displays the text plate T1 so as to move from the player H3 to the player H1 as indicated by the dotted arrow.
  • the text plate T1 faces the players H1 and H3 when moving from the player H3 to the player H1, so that the players H1 and H3 can visually recognize the text plate T1 appropriately.
  • the player H1 can recognize what kind of content the player H3 has spoken.
  • the player H2 may not be able to properly visually recognize the text plate T1, as shown in the upper right part of FIG. .
  • a three-dimensional text plate is set so as to face up from any of the players H1 to H3.
  • the display is made like T2.
  • the left part in the lower right part of FIG. 12 shows the arrangement of the players H1 to H3 as viewed from above, and the right part in the lower right part of FIG. 12 shows the player H1 as a starting point with respect to the player H1. It is shown that the three-dimensional text plate T2 that moves as indicated by the dotted arrow is calculated and displayed so that it can be viewed by any of the players H1 to H3.
  • ⁇ Display example 2 of voice recognition result> As shown in the state J1 of FIG. 13, when the players H1 to H3 exist in the VR, the player H2 speaks “let's defeat that enemy”, and the players H1 and H3 are included in the speech range.
  • the transmission control unit 31b corrects the recognition result obtained by recognizing the spoken voice as the text plate T11 from the player H2 to the player H3 as indicated by the dotted arrow as indicated by the state J2. It is displayed to move while facing. Next, the transmission control unit 31b displays the text plate T11 so as to move while facing the player H1 from the player H3 as indicated by the state J3.
  • one text plate T11 is displayed so as to be sequentially transmitted to a plurality of players in the utterance range, so that the expression can be transmitted to a plurality of players at a time. Therefore, by viewing the image output unit 37, the user H of the player H2 recognizes the player within the utterance range and surely recognizes to which player the utterance content is transmitted to the utterance range. It becomes possible.
  • the transmission control unit 31b responds to the utterance from the player H11, and the text plate T12 described as “let's defeat that enemy”, “What to do next?
  • the text plate T13 described as “K” and the text plate T14 described as “Everyone farewell” may be arranged and transmitted in a time series according to the timing at which the speech is spoken.
  • the state J4 of FIG. 13 the transmission control unit 31b responds to the utterance from the player H11, and the text plate T12 described as “let's defeat that enemy”, “What to do next?
  • the text plate T13 described as “K” and the text plate T14 described as “Everyone farewell” may be arranged and transmitted in a time series according to the timing at which the speech is spoken.
  • ⁇ Display example 3 of voice recognition result> As shown in the state J11 of FIG. 14, when the players H1 to H3 exist in the VR, the player H2 speaks “Let's defeat that enemy”, and only the player H3 is included in the utterance range, the transmission is performed.
  • the controller 31b moves the recognition result obtained by recognizing the spoken voice as indicated by a dotted arrow as a text plate T21 provided with a blindfold for the player H1, as indicated by the state J12. To display. At this time, the text plate T21 as a recognition result moves relative to the player H1 from the player H2 while being viewable to the player H3 and not viewable from the player H1.
  • the player H2 indicates that the text plate T21 that is the content of the utterance can be viewed by the players H2 and H3 within the utterance range and cannot be viewed by the player H1. It becomes possible to recognize. That is, by such display, it is possible to recognize that the content of the utterance is transmitted to the player within the utterance range and is not transmitted to the player outside the utterance range.
  • the transmission control unit 31b blinds the unrecognizable players H1 and H4 as shown in the state J33, and expresses them as players H1 ′ and H4 ′, and the recognition result text plate.
  • T32 may be displayed.
  • the player H2 can recognize that the content spoken by the player H2 is in a state recognizable to the players H3 and H5 and not recognizable from the players H1 and H4. You may be able to do it.
  • the utterance range control unit 31a cancels the utterance range after a predetermined period has elapsed since the utterance range was set.
  • the utterance range control unit 31a sets the utterance range 121 (or the utterance range 122) in the VR context information feedback display column 101 as shown in FIG. 16, for example, “Lock remain 30 sec” is displayed. Then, a display field 201 for displaying the remaining time from the set timing is displayed. Then, when a predetermined time elapses, the utterance range control unit 31a displays the display column 202 displayed as “unlocked” indicating release, and the utterance range 121 (or the utterance range) in the VR context information feedback display column 101. 122) is released.
  • Such a display allows the user to recognize that the utterance range 121 (or the utterance range 122) has been canceled.
  • the utterance range control unit 31a may cancel the utterance range 121 when the utterance is “release range”.
  • the utterance range control unit 31a determines the utterance range 121 (or the utterance range 122) when specific gestures such as “shake a head” and “stay a line of sight” are detected based on the behavior information and the posture information. You may make it cancel.
  • the user H watches the image P2 in FIG. 17 (corresponding to the image P2 in FIG. 7), and the sound acquisition unit 36 collects the sound uttered as sound. Are acquired and supplied to the CPU 31 as audio data.
  • the utterance range control unit 31 a controlled by the CPU 31 controls the communication unit 35 to transmit voice data to the cloud server group 12.
  • the voice analysis processing unit 61 acquires the voice data, it performs a process suitable for the analysis such as a noise removal process, then analyzes the voice data, and transmits the analysis result to the information processing apparatus 11.
  • the voice data is transmitted to the voice recognition unit 62 and the emotion estimation processing unit 65. More specifically, the voice analysis processing unit 61 analyzes, based on the voice data, the level of the spoken voice at the frequency for each fundamental frequency, the speech speed by the number of phonemes per unit time, the volume, and the presence or absence of inflection. .
  • the voice recognition unit 62 recognizes the voice as a language based on the voice data, converts it into, for example, text data as a voice recognition result, and supplies it to the natural language processing unit 63 and the voice synthesis unit 66.
  • the natural language processing unit 63 converts the recognition information made up of text data or the like into a natural language from the contexts before and after the text, and supplies the text data that is the conversion result to the semantic analysis processing unit 64.
  • the semantic analysis processing unit 64 analyzes the meaning uttered by the user H based on the conversion result supplied from the natural language processing unit 63 and supplies the semantic analysis result, which is the analysis result, to the emotion estimation processing unit 65.
  • the emotion estimation processing unit 65 estimates the emotion of the user H based on the voice data supplied from the voice analysis processing unit 61 and the analysis result of the semantic analysis processing unit 64, and stores the emotion estimation result and the semantic analysis result as information. It transmits to the processing apparatus 11.
  • the speech synthesizer 66 generates synthesized speech by TTS based on the natural language processing result composed of text data, and transmits the synthesized speech to the information processing apparatus 11.
  • the transmission control unit 31b specifies the utterance range based on the emotion estimation result and the natural language processing result, and displays the utterance range, for example, as the utterance range 121 in the VR context information feedback display column 101 and the utterance range 122 in the image P2. To do.
  • the transmission control unit 31b is based on the utterance content of the user H such as “Why is it okay”, for example, as indicated by the display field M51 in the upper part of FIG. Then, it is displayed on the upper part of the image P 2 in the image output unit 37.
  • the transmission control unit 31b is based on, for example, voice data From the emotion estimation result, when there is a lot of inflection of the voice of the input voice, it is determined that the emotion detected based on the voice is severe, and it is said to the children 151-4 of the relatives that they do not cry forever.
  • the image is displayed in the lower part of the image P2 in the image output unit 37.
  • the transmission control unit 31b performs, for example, an emotion based on voice data. From the estimation result, when there is no inflection of the voice of the input voice, it is determined that it is easy as the emotion analyzed by the voice, and the content of the utterance of the user H saying “It's all right” to the child 151-5 for others For example, as shown in the display column M53, the image is displayed on the lower part of the image P2 in the image output unit 37, for example.
  • the child player 151-4 is a child of the player 151-0 controlled by the user H
  • the child player 151-5 is another player 151-0 controlled by the user H.
  • the utterance range is determined by the utterance range control unit 31a and then uttered, whereby the transmission control unit 31b is a player to be transmitted (for example, a child player 151-4 or 151-5). ), Information to be transmitted (for example, “Don't cry indefinitely” or “It ’s all right”), how to convey (for example, display by text data like the display fields M52 and 53, or “indefinitely Decide “Do not cry” or “Synthetic speech generated from the result of natural language processing”. Communicate information with the determined transmission method.
  • Information to be transmitted for example, “Don't cry indefinitely” or “It ’s all right”
  • how to convey for example, display by text data like the display fields M52 and 53, or “indefinitely Decide “Do not cry” or “Synthetic speech generated from the result of natural language processing”.
  • the user when the user controls the movement of the player in the VR, the user can determine an appropriate utterance range considering the VR context information only by performing his / her natural behavior, posture, utterance, and gaze movement. In addition to being able to utter while recognizing the determined utterance range, it is possible to dispel the anxiety caused by not knowing to whom the uttered content is transmitted, and to speak with peace of mind. .
  • the utterance range is determined, only a natural utterance is performed, and within the utterance range, a player to be transmitted, information to be transmitted, and a transmission method (transmission method) are determined, and the utterance is determined. It is possible to transmit the information to be transmitted determined in accordance with the utterance to the player to be transmitted determined in accordance with the utterance by the transmission method determined in accordance with the utterance.
  • step S11 the utterance range control unit 31a executes the utterance range determination process to determine the utterance range.
  • the utterance range determination process will be described later in detail with reference to the flowchart of FIG.
  • step S12 the transmission control unit 31b executes a transmission control process to transmit voice or text to the determined utterance range.
  • the details of the transmission control process will be described later with reference to the flowchart of FIG.
  • the utterance range is determined, and the voice and text plate corresponding to the utterance content of the user H are transmitted to the players within the utterance range.
  • step S31 the VR context information acquisition unit 39 acquires VR context information of players and various objects in the VR, and supplies them to the utterance range control unit 31a.
  • the utterance range control unit 31 a stores the VR context information in the storage unit 33.
  • step S32 the behavior information acquisition unit 40 acquires the behavior information and the posture information and supplies them to the utterance range control unit 31a.
  • the utterance range control unit 31 a stores behavior information and posture information in the storage unit 33.
  • step S33 the line-of-sight recognition processing unit 41 recognizes the line-of-sight information of the user H and supplies it to the utterance range control unit 31a.
  • the utterance range control unit 31 a stores the line-of-sight information in the storage unit 33.
  • step S34 the voice acquisition unit 36 acquires the voice generated by the utterance of the user H as voice data and supplies the voice data to the utterance range control unit 31a.
  • the utterance range control unit 31 a stores voice data in the storage unit 33.
  • step S35 the utterance range control unit 31a determines whether or not the end of the process is instructed. If the end of the process is not instructed, the process returns to step S31 and the same process is repeated. If the end of the process is instructed in step S35, the process ends.
  • VR context information In the above processing, VR context information, behavior information and posture information, line-of-sight information, and audio data (including audio processing results), which are context information, are repeatedly acquired and sequentially rewritten to the latest information, and the storage unit 33. Is remembered.
  • step S51 the utterance range control unit 31a reads the context information stored in the storage unit 33 by repeating the context information collection process described with reference to the flowchart of FIG.
  • step S52 the utterance range control unit 31a analyzes the read context information.
  • step S53 the utterance range control unit 31a determines the utterance range based on the analysis result of the context information.
  • step S54 the utterance range control unit 31a notifies the information processing apparatus 11 of the determined utterance range information via the communication unit 35, and the vibration unit 34, the image output unit 37, and the audio output unit 38. At least one of them is controlled to present the determined speech range.
  • step S ⁇ b> 55 the utterance range control unit 31 a receives the notification of the utterance range information of the other information processing apparatus 11 via the communication unit 35, and receives the vibration unit 34, the image output unit 37, and the voice output unit 38.
  • the utterance range of the other information processing apparatus 11 is presented by controlling at least one of them.
  • the user H presents the utterance range information as the player of the information processing apparatus 11 worn by the user H and the utterance range information of the other player wearing the other information processing apparatus 11. Therefore, it becomes possible to recognize and speak the own utterance range and the utterance range of other players.
  • FIG. 20 an example in which both the utterance range of the player and the utterance range of another player are presented has been described.
  • the utterance range shown in FIGS. 4 to 10 can be determined by the above processing.
  • step S71 the transmission control unit 31b controls the voice acquisition unit 36 to acquire the speech of the user H as voice data, and controls the communication unit 35 to transmit the acquired voice data to the cloud server group 12. .
  • step S72 the speech analysis processing unit 61 of the cloud server group 12 performs noise removal on the speech data to a level necessary for speech recognition processing and semantic analysis processing.
  • a level necessary for speech recognition processing and semantic analysis processing For example, the type of language (Japanese, French, English, etc.), the level of spoken speech according to the frequency of each fundamental frequency, the speech speed based on the number of phonemes per unit time, volume, and presence / absence of inflection are analyzed.
  • the voice recognition unit 62 recognizes the voice as a language based on the voice data, converts it into, for example, text data as a voice recognition result, and supplies it to the natural language processing unit 63 and the voice synthesis unit 66.
  • the natural language processing unit 63 converts a speech recognition result made up of text data or the like so that it becomes a natural language from the contexts before and after, and supplies the conversion result to the semantic analysis processing unit 64.
  • the semantic analysis processing unit 64 analyzes the meaning based on the spoken word that is the speech recognition result subjected to natural language processing, and transmits the semantic analysis result to the information processing apparatus 11.
  • the emotion estimation processing unit 65 estimates the emotion of the uttered user based on the voice data and the semantic analysis result, and transmits the emotion estimation result to the information processing apparatus 11.
  • step S74 the transmission control unit 31b should convey information among the players in the utterance range using at least one of the voice data, the voice analysis result, the natural language processing result, the semantic analysis result, and the emotion estimation result.
  • the target player is determined.
  • step S75 the transmission control unit 31b determines information to be transmitted using at least one of voice data, a voice analysis result, a natural language processing result, a semantic analysis result, and an emotion estimation result. That is, the transmission control unit 31b determines, for example, information to be transmitted to any one of a predetermined user's utterance content, warning sound, vibration, and synthesized voice.
  • step S76 the transmission control unit 31b determines how to transmit the information to be transmitted using at least one of the voice data, the voice analysis result, the natural language processing result, the semantic analysis result, and the emotion estimation result.
  • the transmission control unit 31b determines, for example, a method for displaying a speech recognition result.
  • step S77 the transmission control unit 31b notifies the determined target of the determined information in the determined manner of transmission.
  • step S78 the transmission control unit 31b cancels the utterance range.
  • the target player, the information to be transmitted, and the transmission method are determined and notified.
  • the transmission control processing shown in FIGS. 11 to 15 can be realized by the utterance after the utterance range is determined by the above processing.
  • the player A when the player issues an instruction C to two people by speaking Japanese, the player A is instructed to convert the instruction C into English and display the text data as an image.
  • the instruction C can be converted into French and transmitted with synthesized speech. That is, depending on the utterance content, either the player A or B is determined as the utterance target, the information to be transmitted is determined as either the English instruction C or the French instruction C, and the transmission method uses the text data. It is determined to be displayed and transmitted as an image or transmitted as synthesized speech.
  • the user who controls any player does not need to be aware of his / her own obstacles, language, etc., and controls the communication partner without losing the immersive feeling in VR and without damaging the VR worldview. Is possible.
  • the utterance range determination process determines the target utterance range based on the context information, and after this is notified to the user, the user can speak while confirming the utterance range.
  • the transmission control process based on the above, a player who is a subject of speech is determined at a higher level, information to be transmitted and a transmission method are determined, and the information is notified.
  • ⁇ Example executed by software> By the way, the series of processes described above can be executed by hardware, but can also be executed by software.
  • a program constituting the software may execute various functions by installing a computer incorporated in dedicated hardware or various programs. For example, it is installed from a recording medium in a general-purpose personal computer or the like.
  • FIG. 22 shows a configuration example of a general-purpose personal computer.
  • This personal computer incorporates a CPU (Central Processing Unit) 1001.
  • An input / output interface 1005 is connected to the CPU 1001 via a bus 1004.
  • a ROM (Read Only Memory) 1002 and a RAM (Random Access Memory) 1003 are connected to the bus 1004.
  • the input / output interface 1005 includes an input unit 1006 including an input device such as a keyboard and a mouse for a user to input an operation command, an output unit 1007 for outputting a processing operation screen and an image of the processing result to a display device, programs, and various types.
  • a storage unit 1008 including a hard disk drive for storing data, a LAN (Local Area Network) adapter, and the like are connected to a communication unit 1009 that executes communication processing via a network represented by the Internet.
  • magnetic disks including flexible disks
  • optical disks including CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc)), magneto-optical disks (including MD (Mini Disc)), or semiconductors
  • a drive 1010 for reading / writing data from / to a removable medium 1011 such as a memory is connected.
  • the CPU 1001 is read from a program stored in the ROM 1002 or a removable medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, installed in the storage unit 1008, and loaded from the storage unit 1008 to the RAM 1003. Various processes are executed according to the program.
  • the RAM 1003 also appropriately stores data necessary for the CPU 1001 to execute various processes.
  • the CPU 1001 loads the program stored in the storage unit 1008 to the RAM 1003 via the input / output interface 1005 and the bus 1004 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 1001) can be provided by being recorded on the removable medium 1011 as a package medium, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 1008 via the input / output interface 1005 by attaching the removable medium 1011 to the drive 1010. Further, the program can be received by the communication unit 1009 via a wired or wireless transmission medium and installed in the storage unit 1008. In addition, the program can be installed in advance in the ROM 1002 or the storage unit 1008.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Accordingly, a plurality of devices housed in separate housings and connected via a network and a single device housing a plurality of modules in one housing are all systems. .
  • the present disclosure can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is processed jointly.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • this indication can also take the following structures.
  • An information processing apparatus including an utterance range determination unit that determines, as an utterance range, a range in which another player capable of recognizing the uttered content exists when a player utters based on context information.
  • the utterance range is a range in which another player capable of recognizing information based on voice data uttered by the player exists.
  • the context information includes voice data, behavior information, posture information, line-of-sight information, and peripheral context information of the player.
  • a voice data acquisition unit that acquires the utterance of the player as voice data among the context information
  • the information processing apparatus according to ⁇ 3>, wherein the utterance range determination unit determines the utterance range based on the voice data.
  • the utterance range determination unit determines the utterance range based on a level of the voice data.
  • the utterance range determination unit determines the utterance range based on a speech speed of the voice data.
  • the speech range determination unit determines the speech range based on the behavior information and the posture information.
  • a line-of-sight information acquisition unit that acquires the line-of-sight information among the context information
  • the speech range determination unit determines the speech range based on the line-of-sight information.
  • a peripheral context information acquisition unit that acquires the peripheral context information out of the context information
  • the peripheral context information includes VR (Virtual Reality) context information.
  • a line-of-sight information acquisition unit that acquires the line-of-sight information;
  • a display unit for displaying a VR space based on the VR context information;
  • the display unit displays the predetermined player when the utterance range determination unit stays at a position where the predetermined player exists in the VR space for a predetermined time based on the visual line information.
  • a line-of-sight stagnation mark representing a time during which the line of sight stagnates is displayed on a position.
  • the utterance range determination unit stays longer than a predetermined time at a position where another player exists in the VR space where the line of sight of the player is displayed by the display unit.
  • the display unit displays a mark indicating that the utterance range is determined by the line of sight on a position where the other player is displayed.
  • ⁇ 13> When the utterance range determination unit determines the player within the utterance range based on the line of sight of the other player based on the line of sight information of the other player in the VR space, The information processing apparatus according to ⁇ 12>, wherein the display unit displays a line-of-sight stagnation mark on a position where the other player is displayed. ⁇ 14> The utterance range determination unit determines the other player as the utterance range when it is confirmed that the sight line stagnation mark is visually recognized based on the sight line information of the player in the VR space. And The information processing apparatus according to ⁇ 13>, wherein the display unit displays a mark indicating that eye contact is established on a position where the other player is displayed.
  • a display unit that displays the VR space;
  • an audio data acquisition unit that acquires the utterance of the player as audio data;
  • a transmission control unit that controls which player included in the utterance range is to be transmitted based on the audio data acquired by the audio data acquisition unit;
  • the transmission control unit displays the voice recognition result of the voice data as text on the display unit, and when there are a plurality of the players in the utterance range, the text is sequentially input to each of the plurality of players.
  • the transmission control unit displays text on the display unit that is visible to a player within the utterance range and not visible to a player outside the utterance range.
  • the information processing apparatus described. ⁇ 17>
  • the utterance range is presented to the player by any one of an image, a warning sound, a warning vibration, a warning synthesized sound, or a combination thereof.
  • Information processing device. ⁇ 18> An information processing method including a step of determining, as an utterance range, a range in which another player capable of recognizing the uttered content exists when the player utters based on context information.
  • a program that causes a computer to function as an utterance range determination unit that determines a range in which another player capable of recognizing the uttered content exists as an utterance range when the player utters based on context information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Optics & Photonics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本開示は、仮想現実空間(VR:Virtual Reality)におけるプレイヤとのコミュニケーションにおいて、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御することができるようにする情報処理装置、および情報処理方法、並びにプログラムに関する。 コンテキスト情報に基づいて、プレイヤが発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する。以降においては、発話範囲として確認できているプレイヤに対してのみ発話された情報が送信されるので、発話したときの相手をコンテキスト情報により制御することができる。本開示は、情報処理装置に適用することができる。

Description

情報処理装置、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、および情報処理方法、並びにプログラムに関し、特に、仮想現実空間(VR:Virtual Reality)におけるプレイヤ間のコミュニケーションにおいて、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御できるようにした情報処理装置、および情報処理方法、並びにプログラムに関する。
 仮想現実空間(以下、VR:Virtual Realityと称する)における音源とプレイヤの位置情報に基づき、リアリティを保ちつつ(VR世界観を保ちつつ)コミュニケーション相手へ音声を届ける手法が提案されている(特許文献1参照)。
特開2016-187063号公報
 しかしながら、上述した特許文献1に係る技術においては、位置情報に基づいており、同じ範囲にいる相手に一様に伝わってしまい、特定の相手にのみ伝える、および、全員に伝えるといったことを切り替えるような制御ができず、いずれか一方のみを一律に制御することしかできない。
 このため、ユーザは、伝わる相手を把握できないまま発話することになり、自らの発話内容が誰に伝わってしまうのか不安を抱くことになる。
 また、UI(User Interface)等を出すことで、特定の相手にのみ伝える、および、全員に伝えるといったことを切り替えるような制御は可能となるが、一般的な、UI操作だと、本来の目的であるゲーム等の操作に影響が出てしまい、VRの世界観を大幅に損なう恐れがある。
 さらに、VRにおけるプレイヤ間のコミュニケーションにおいては、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御することができなかった。すなわち、VRにおけるプレイヤ間のコミュニケーションにおいては、送付先や送付元が分かりづらく、ダイレクトメッセージとパブリックメッセージを区別できないので、誰に伝わるかわからない状態で発話する必要があり、このような状況下でコミュニケーションすること自体が苦痛を伴うものとなってしまう恐れがあった。
 本開示は、このような状況に鑑みてなされたものであり、特に、VRにおけるプレイヤとのコミュニケーションにおいて、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御できるようにするものである。
 本開示の一側面の情報処理装置は、コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部を含む情報処理装置である。
 前記発話範囲は、前記プレイヤが発話した音声データに基づいた情報を認識可能な他のプレイヤが存在する範囲とすることができる。
 前記コンテキスト情報には、前記プレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含ませるようにすることができる。
 前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記音声データに基づいて、前記発話範囲を決定させるようにすることができる。
 前記発話範囲決定部には、前記音声データの高低に基づいて、前記発話範囲を決定させるようにすることができる。
 前記発話範囲決定部には、前記音声データの話速に基づいて、前記発話範囲を決定させるようにすることができる。
 前記コンテキスト情報のうち、前記行動情報、および前記姿勢情報を取得する行動情報姿勢情報取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記行動情報、および前記姿勢情報に基づいて、前記発話範囲を決定させるようにすることができる。
 前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記視線情報に基づいて、前記発話範囲を決定させるようにすることができる。
 前記コンテキスト情報のうち、前記周辺コンテキスト情報を取得する周辺コンテキスト情報取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記周辺コンテキスト情報に基づいて、前記発話範囲を決定させるようにすることができる。
 前記周辺コンテキスト情報には、VR(Virtual Reality)コンテキスト情報を含ませるようにすることができる。
 前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部と、前記VRコンテキスト情報に基づいて、VR空間を表示する表示部とをさらに含ませるようにすることができ、前記発話範囲決定部が、前記視線情報に基づいて、前記プレイヤの視線が前記VR空間内における所定のプレイヤの存在する位置に所定時間停滞するとき、前記表示部には、前記所定のプレイヤを表示する位置上に、前記視線が停滞する時間を表す視線停滞マークを表示させるようにすることができる。
 前記発話範囲決定部には、前記視線情報に基づいて、前記プレイヤの視線が、前記表示部により表示される、前記VR空間内における他のプレイヤの存在する位置に所定時間より長時間停滞するとき、前記他のプレイヤを発話範囲として決定させ、前記表示部には、前記他のプレイヤを表示する位置上に、前記視線により発話範囲に決定したことを示すマークを表示させるようにすることができる。
 前記発話範囲決定部が、前記VR空間における、前記他のプレイヤの前記視線情報に基づいて、前記プレイヤを前記他のプレイヤの視線により前記発話範囲内に決定したとき、前記表示部には、前記他のプレイヤを表示する位置上に被視線停滞マークを表示させるようにすることができる。
 前記発話範囲決定部には、前記VR空間における、前記プレイヤの前記視線情報に基づいて、前記被視線停滞マークを視認したことが確認できた場合、前記他のプレイヤを前記発話範囲に決定させ、前記表示部には、前記他のプレイヤを表示する位置上に、アイコンタクトが成立したことを表すマークを表示させるようにすることができる。
 前記VRコンテキスト情報に基づいて、VR空間を表示する表示部と、前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部と、前記音声データ取得部により取得された前記音声データに基づいて、前記発話範囲に含まれるどのプレイヤに対して伝達するかを制御する伝達制御部をさらに含ませるようにすることができ、前記伝達制御部には、前記音声データの音声認識結果をテキストとして前記表示部に表示し、前記発話範囲に複数の前記プレイヤが存在する場合、前記複数のプレイヤのそれぞれに対して順次テキストを順番に移動させて表示させるようにすることができる。
 前記伝達制御部には、前記発話範囲内のプレイヤに対しては視認可能であって、かつ、前記発話範囲外のプレイヤには視認不能なテキストを前記表示部に表示させるようにすることができる。
 前記発話範囲は、前記プレイヤに対して、画像、警告音声、警告振動、および警告合成音のいずれか、または、その組み合わせにより提示されるようにすることができる。
 本開示の一側面の情報処理方法は、コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定するステップを含む情報処理方法である。
 本開示の一側面のプログラムは、コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部としてコンピュータを機能させるプログラムである。
 本開示の一側面においては、コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲が発話範囲として決定される。
 本開示の一側面によれば、特に、仮想現実空間(VR:Virtual Reality)におけるプレイヤとのコミュニケーションにおいて、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御することが可能となる。
本開示の情報処理システムの構成例を示すブロック図である。 図1の画像出力部の表示例を説明する図である。 フィードバック表示欄を説明する図である。 発話範囲の表示例1を説明する図である。 発話範囲の表示例2を説明する図である。 発話範囲の表示例3を説明する図である。 発話範囲の表示例4を説明する図である。 発話範囲の表示例5を説明する図である。 発話範囲の表示例6を説明する図である。 発話範囲の表示例7を説明する図である。 発話範囲が確定した状況に応じて情報の伝達を制御する例1を説明する図である。 音声認識結果の表示例1を説明する図である。 音声認識結果の表示例2を説明する図である。 音声認識結果の表示例3を説明する図である。 音声認識結果の表示例4を説明する図である。 発話範囲の解除を説明する図である。 発話範囲が確定した状況に応じて情報の伝達を制御する例2を説明する図である。 制御処理を説明するフローチャートである。 コンテキスト情報収集処理を説明するフローチャートである。 発話範囲決定処理を説明するフローチャートである。 伝達制御処理を説明するフローチャートである。 汎用のパーソナルコンピュータの構成例を説明する図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 <情報処理システムの構成例>
 本開示の技術を適用した、情報処理装置とクラウドサーバ群とからなる情報処理システムの構成例について説明する。
 図1の情報処理システムは、仮想現実空間(以下、VR:Virtual Realityとも称する)で実現されるゲーム等のプレイヤであるユーザに、例えば、ヘッドマウントディスプレイのように装着される情報処理装置11-1乃至11-nと、情報処理装置11-1乃至11-nに提示される様々な情報の生成と制御を実現するクラウドサーバ群12とから構成される。尚、情報処理装置11-1乃至11-nのそれぞれは、特に区別する必要がない場合、単に、情報処理装置11と称する。
 情報処理装置11は、ユーザのコンテキスト情報として、VR内での状況および位置関係、行動、姿勢、および視線、並びに、発話する際の音声を検出し、検出結果であるコンテキスト情報に基づいて、ユーザの発話を伝える相手となるVR内のプレイヤを発話範囲として決定する。情報処理装置11は、発話範囲を、自らを装着するユーザに認識できる形態、例えば、ディスプレイなどで表示することにより提示する。この提示により、ユーザは、自らの発話範囲を認識しながら発話することが可能となり、VR内で自らの発話がどの相手に伝わっているのかわからないままコミュニケーションする苦痛から解放される。
 また、情報処理装置11は、発話内容に応じて、発話範囲内のプレイヤを絞り込んで発話内容を、伝える相手となるプレイヤにより使用される他の情報処理装置11に通知し、他の情報処理装置11を使用するユーザに提示する。この際、情報処理装置11は、様々な情報を、ユーザの視覚、聴覚、および触覚を通して提示する。
 さらに、情報処理装置11は、様々な情報を視覚、聴覚、触覚を通してユーザに提示するにあたって、コンテキスト情報のうち、音声データを、必要に応じて、複数のサーバコンピュータなどからなるクラウドサーバ群12に送信し、解析させ、解析結果を利用する。
 クラウドサーバ群12は、コンテキスト情報のうち音声データを解析し、解析結果を情報処理装置11に送信する。
 情報処理装置11は、クラウドサーバ群12から送信される、自らを装着するユーザであるプレイヤがVR内で情報を伝えようとする相手を特定する情報を取得し、特定した相手の情報に基づいて、VR内における、自らを装着しているユーザの発話の届く範囲である発話範囲や、発話範囲内の相手であるプレイヤをユーザに通知(提示)する。
 このような構成により、VRで実現されるゲーム等のプレイヤを制御するユーザは、VRで実現される空間内において、VR内における没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手、すなわち、情報を伝えようとする相手を切り替えながら(相手の切り替えを制御しながら)発話することが可能となる。
 以下、より具体的に、図1の情報処理システムを構成する情報処理装置11およびクラウドサーバ群12の構成例について説明する。
 尚、以降においては、VR内において実現されるゲームを例として説明を進めるものとし、ゲーム内の登場人物をプレイヤと称し、情報処理装置11を装着するユーザは、それぞれにゲーム内に登場するプレイヤを制御することで、VR内において実現されるゲームに参加する。
 情報処理装置11は、CPU(Central Processing Unit)31、メモリ32、記憶部33、振動部34、通信部35、音声取得部36、画像出力部37、音声出力部38、VRコンテキスト情報取得部39、行動情報取得部40、および視線認識処理部41を備えている。
 CPU31は、バス42を介して、接続された各種の構成を制御して、情報処理装置11の動作の全体を制御している。またCPU31は、HDD(Hard Disc Drive)、または、SSD(Solid State Drive)などからなる記憶部33に格納されているプログラムを読み出し、半導体メモリなどからなるメモリ32に展開して実行し、所定の機能を実現する。より詳細には、CPU31は、記憶部33に格納されているプログラムを実行することにより、発話範囲制御部31a、および伝達制御部31bとして機能する。
 発話範囲制御部31aは、音声取得部36、VRコンテキスト情報取得部39、行動情報取得部40、および視線認識処理部41により取得されるコンテキスト情報に基づいて、ユーザが制御するプレイヤの発話範囲を決定する。より具体的には、発話範囲制御部31aは、ユーザにより制御されるプレイヤが、VR内で発話する際、発話した内容を認識することができる他のプレイヤが存在する範囲、または、発話した内容を認識することができる他のプレイヤを決定する。
 ここで、コンテキスト情報は、プレイヤの状態を表す情報である。より具体的には、コンテキスト情報は、例えば、音声取得部36により取得される音声データ、VRコンテキスト情報取得部39により取得されるVRコンテキスト情報、行動情報取得部40により取得される行動情報および姿勢情報、および視線認識処理部41により取得される視線情報である。また、VRコンテキスト情報は、VR内におけるユーザが制御するプレイヤやオブジェクトと、その周辺のプレイヤやオブジェクトの位置や状況を含むものである。
 音声データに関するコンテキスト情報は、例えば、音声のピッチ、音量、周波数、言語などであり、さらに、音声データに基づいて求められる感情なども含む。
 行動情報に関するコンテキスト情報は、例えば、止まる、歩く、走るといったプレイヤの行動を識別する情報である。
 姿勢情報に関するコンテキスト情報は、例えば、向き、座る、立つといったプレイヤの姿勢を識別する情報である。
 視線情報に関するコンテキスト情報は、例えば、視線方向、および注視状態などのプレイヤの視線に関する情報である。
 さらに、コンテキスト情報は、上述の他に、プレイヤの状況を含むものであり、例えば、泣いている、笑っている、すましている、悲しんでいる、喜んでいるといったプレイヤの状況を含む。
 伝達制御部31bは、発話範囲が特定されている状態で、ユーザが発話する際の音声データに基づいて、発話範囲内において、さらに、伝達するべき対象を絞り込むと共に、伝達する情報、および伝達方法を制御する。
 振動部34は、ヘッドマウントディスプレイなどからなる情報処理装置11の本体の複数の部位を切り替えて振動させ、情報処理装置11を装着するユーザの頭部の各種の部位に対して、振動による刺激を与える。
 通信部35は、所定の周波数帯域の無線通信、または、有線通信により、例えば、LAN(Local Area Network)の通信を実現し、インターネットなどを介して、所定のデータやプログラムの送受信を実行する。
 音声取得部36は、例えば、マイクロフォンより構成されており、情報処理装置11を装着しているユーザにより発せられる音声を取得して、音声データとしてバス42を介してCPU31に出力する。
 画像出力部37は、例えば、LCD(Liquid Crystal Display)や有機EL(Electroluminescence)からなり、情報処理装置11が全体としてヘッドマウントディスプレイとして機能するとき、ユーザに対してVR内の画像を表示するVRディスプレイとして機能する。
 音声出力部38は、例えば、スピーカやヘッドフォンからなり、ユーザに対してVR内の音声を出力する。
 VRコンテキスト情報取得部39は、VR内における各種のオブジェクトやプレイヤの位置および状況(他のプレイヤの位置や状況を含む)を含めたVRコンテキスト情報を取得し、バス42を介してCPU31に供給する。
 行動情報取得部40は、VR内のプレイヤの動作を制御するユーザの行動情報や姿勢情報を取得し、CPU31に供給する。より具体的には、行動情報取得部40は、例えば、ジャイロセンサ、画像認識カメラ、脈拍センサ、加速度センサ、および唇認識センサからなる。
 視線認識処理部41は、例えば、VR内のプレイヤの動作を制御するユーザの目を撮像するカメラにより撮像された目の画像より視線方向を認識する。
 クラウドサーバ群12は、図示せぬインターネットなどからなるネットワーク上に存在する複数のサーバコンピュータ群からなり、音声解析処理部61、音声認識部62、自然言語処理部63、意味解析処理部64、感情推定処理部65、および音声合成(TTS)部66として機能する。クラウドサーバ群12の各種の機能は、単独のサーバコンピュータで実現するようにしてもよいし、複数のサーバコンピュータにより実現するようにしてもよい。
 音声解析処理部61は、情報処理装置11より供給される音声データに対して、ノイズ除去や所定の周波数の音声を強調すると共に、各種の音声データの解析を実行する。音声解析処理部61は、例えば、音声データに基づいた言語の種別(日本語、英語、フランス語など種別)、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。また、音声解析処理部61は、ノイズ除去した音声データを音声認識部62に供給する。
 音声認識部62は、音声解析処理部61より供給される音声データより発せられている言葉(例えば、テキストデータ)として認識し、音声データと共に認識結果を自然言語処理部63に供給する。
 自然言語処理部63は、音声認識部62より供給される音声データと認識結果に基づいて、認識結果に自然言語処理を施して、例えば、テキストデータからなる処理結果を意味解析処理部64に出力する。
 意味解析処理部64は、自然言語処理された、例えば、テキストデータからなる処理結果に基づいて、意味を解析して解析結果を感情推定処理部65に出力する。
 感情推定処理部65は、音声解析結果および意味解析結果に基づいて、音声データからなる音声を発したプレイヤを制御するユーザの感情を推定する。尚、音声データに基づいた感情推定の具体的な手法については、例えば、「音声脳神経分析技術の応用 心を定量計測する技術(http://agi-web.co.jp/docs/Univ-Tokyo.pdf)」を参照されたい。
 音声合成(TTS:Text to Speech)部66は、自然言語処理結果である自然な言語に変換されたテキストデータに基づいてTTSにより合成音声を生成する。
 <画像出力部の表示例について>
 次に、図2を参照して、画像出力部の表示例ついて説明する。
 画像出力部37は、例えば、図2の左部で示されるようにユーザHの頭部に装着され、かつ、ユーザHの目視により視聴可能な画像が表示される、いわゆる、ヘッドマウントディスプレイである。
 画像出力部37には、例えば、図2の右部で示されるような画像P1が表示される。図2の右部で示される画像P1は、ゲーム中の戦闘シーンの画像例であり、ユーザHが制御するプレイヤにより構える銃と、銃を持つ手により自らが操作するプレイヤ91-1が表現され、味方の仲間であるプレイヤ91-2乃至91-4、および敵となるプレイヤ92-1,92-2がそれぞれ表されている。各プレイヤ91-2乃至91-4,92-1,92-2を制御するそれぞれのユーザが装着する情報処理装置11の画像出力部37には、それぞれのプレイヤのVR内における位置関係に対応する画像が表示される。
 <フィードバック表示欄>
 また、画像P1には、図3で示されるように、VRコンテキスト情報をフィードバックするVRコンテキスト情報フィードバック表示欄101、入力状況(音声データ)をフィードバックする入力状況フィードバック表示欄102、および視線を示すマーク103が設けられている。
 図3の画像P1には、VRコンテキスト情報取得部39により取得されたコンテキスト情報、および行動情報取得部40により取得された行動情報、および姿勢情報に基づいて、ユーザHが制御するプレイヤが、VR内で視聴される画像が表示される。したがって、コンテキスト情報、並びに、行動情報、および姿勢情報に基づいて、例えば、プレイヤが前方に向かって、所定の姿勢で、走って移動していることが認識されれば、対応して、周囲の風景が変化し、プレイヤが前方に向かって、所定の姿勢で走って移動していることを認識できる画像が画像P1として表示される。
 図3の画像P1の右上部で示されるように、VRコンテキスト情報フィードバック表示欄101には、VRコンテキスト情報取得部39により取得されたVRコンテキスト情報に基づいた、ユーザHが制御するプレイヤの位置が水平方向直線および垂直方向直線の交点となるポイント91P-1を中心として、図中上方の矢印方向を、プレイヤの前方としたときの周囲のプレイヤの配置を表すポイントが表示されている。
 図3においては、中心位置となる自らの位置を表すポイント91P-1に対して、それ以外のプレイヤの存在する位置を表すポイントの方向、および距離が認識できるように表示されている。
 すなわち、図3で示されるように、ユーザHが制御するプレイヤが存在する中心位置であるポインタ91P-1から見て、左前方には、仲間のプレイヤの位置を表すポイント91P-2乃至91P-4、および敵のプレイヤの位置を表すポイント92P-1が表示されており、右前方には、敵のプレイヤの位置を表すポイント92P-2,92P-xが表示されており、左後方には、仲間のプレイヤの位置を表すポイント91P-mが表示されており、右後方には、仲間のプレイヤの位置を表すポイント91P-nが表示されている。
 また、図3の画像P1の右下部で示されるように、入力状況フィードバック表示欄102には、音声取得部36により取得された音声の信号レベルを表す波形が表示されている。
 このように図3で示されるような画像P1を視聴することで、ユーザHは、VRにおける自ら以外のプレイヤの、自らを中心とした方向と距離を認識すると共に、自らが発話した音声による入力が十分になされているのか否かを認識することが可能となる。
 また、図3の画像P1における左下部には、視線認識処理部41により取得された視線情報に基づいて視線を示すマーク103が表示される。マーク103は、目を象ったアイコンであり、情報処理装置11を装着しているユーザHの画像P1内における視線方向に対応する位置に示される。
 <発話範囲の表示例1>
 次に、図4を参照して、自らの発話の音声の高低に基づいた発話範囲の表示例1について説明する。
 ユーザHが、図4の画像P1を視聴しながら、敵となるプレイヤの接近が見えて、例えば、「敵が来たな さてどうしようかな」といった発話があった場合、音声取得部36は、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信する。
 この処理により、音声解析処理部61は、音声データを取得すると、ノイズ除去処理などの、解析に適した処理を施した後、音声データを解析し、解析結果を情報処理装置11に送信すると共に、音声データを音声認識部62および感情推定処理部65に送信する。より詳細には、音声解析処理部61は、音声データに基づいて、例えば、言語の種別、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。
 音声認識部62は、音声データに基づいて、音声を言語として認識し、音声認識結果として、例えば、テキストデータに変換して自然言語処理部63および音声合成部66に供給する。
 自然言語処理部63は、テキストデータなどからなる音声認識結果を、前後の文脈などから自然な言語となるように変換して、変換結果を意味解析処理部64に供給する。
 意味解析処理部64は、自然言語処理部63より供給される変換結果に基づいて、ユーザHの発話した意味を解析して意味解析結果として感情推定処理部65に供給する。
 感情推定処理部65は、音声解析処理部61より供給されてくる音声データ、および意味解析処理部64の意味解析結果に基づいて、ユーザHの感情を推定し、感情推定結果と意味解析結果とを情報処理装置11に送信する。
 音声合成部66は、テキストデータからなる自然言語処理結果に基づいてTTSにより合成音声を生成して、情報処理装置11に送信する。
 発話範囲制御部31aは、感情推定結果および意味解析結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P1内の発話範囲122として表示する。
 より詳細には、発話範囲制御部31aは、例えば、意味解析結果に基づいて、「敵が来たな さてどうしようかな」といったユーザHの発話内容を、例えば、図4の表示欄M1で示されるように、画像出力部37内における画像P1の上部などに表示させる。また、発話範囲制御部31aは、例えば、音声データの基本周波数の解析結果に基づいて、図4の下部の波形G1で示されるように、音声の基本周波数と、発生頻度の関係を求め、閾値Fthreshを超える周波数帯域の発生頻度が高いか否かに基づいて、感情を推定する。
 例えば、図4の下部の波形図G1で示されるように、閾値Fthreshを超えない周波数帯域の発生頻度が高く、低い声で発声されているとみなされた場合、発話範囲制御部31aは、冷静に発声されているものとみなし、ユーザHのプレイヤの周囲の極近い仲間のプレイヤにのみ発生されているものとみなす。
 このとき、発話範囲制御部31aは、例えば、図4のVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図4のVRコンテキスト情報フィードバック表示欄101内の、発話範囲121には、ユーザHのプレイヤの位置を示すポイント91P-1から極近いプレイヤ91-2,91-3の位置を示すポイント91P-2,91P-3が含まれる範囲を発話範囲に決定し、例えば、発話範囲121として表示する。
 同様に、発話範囲制御部31aは、画像P1内におけるユーザHのプレイヤ91-1の位置を示すポイントから極近いプレイヤ91-2,91-3が存在する範囲を、発話範囲122として表示する。
 このように発話範囲が決定された場合、後述処理により、以降において、ユーザが発話した情報は、発話範囲内のプレイヤにのみ伝達される。
 このように発話範囲121,122が、画像P1内に表示されるので、ユーザHは、画像出力部37における発話範囲121,122を目視するだけで、自らの発話範囲を認識することができる。
 結果として、ユーザは、今、自らが発話した情報が、どの相手に伝わるのかを認識した上で、発話を実行することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。
 尚、図4の表示欄M1で示される「敵が来たな さてどうしようかな」といったユーザHの発話内容のテキストデータの表示については、他の方法でユーザHに伝達できるようにしてもよいものであり、例えば、音声合成部66により合成音声を生成させて、音声出力部38より音声として出力させるようにしてもよい。
 また、図4を参照して説明した、クラウドサーバ群12の音声解析処理部61、音声認識部62、自然言語処理部63、意味解析処理部64、感情推定処理部65、および音声合成部66による処理と同様の処理により得られる処理結果ついては、以降の説明において、必要に応じて、音声処理結果と総称し、適宜説明を省略する。
 <発話範囲の表示例2>
 次に、図5を参照して、他のプレイヤの発話に基づいた発話範囲の表示例2について説明する。
 例えば、図5のVRコンテキスト情報フィードバック表示欄101内における、ユーザHの左後方の、画像P1内に表示されないプレイヤ91-mが、「うわぁ、、、つよそう」といった発話があった場合、ユーザH以外のユーザであって、プレイヤ91-mを操作するユーザの所持する情報処理装置11の音声取得部36が、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信し、上述した一連の処理により音声処理結果として取得すると、上述した一連の処理と同様の処理により発話範囲を決定する。そして、発話範囲制御部31aは、決定した発話範囲の情報と音声処理結果を他の情報処理装置11に対して送信する。
 ユーザHにより装着された情報処理装置11の発話範囲制御部31aは、通信部35を制御して、他の情報処理装置11より送信される発話範囲の情報を取得する。
 ここでは、音声処理結果は、自然言語処理部63により音声データより認識された「うわぁ、、、つよそう」といったテキストデータ、およびテキストデータに基づいて音声合成部66により生成された「うわぁ、、、つよそう」の合成音声である。
 発話範囲制御部31aは、VRコンテキスト情報取得部39により取得されたプレイヤ91-mのVRコンテキスト情報、プレイヤ91-mに対応するユーザが装着する情報処理装置11からの発話範囲の情報に基づいて、プレイヤ91-mの発話範囲を認識する。そして、発話範囲制御部31aは、例えば、VRコンテキスト情報フィードバック表示欄101内において、プレイヤ91-mの発話範囲を、例えば、図5の発話範囲121として表示する。発話範囲121には、ユーザHの存在する位置を示すVRコンテキスト情報フィードバック表示欄101内の中心位置と、プレイヤ91-mのVR内のポインタ91P-mとが含まれている。
 発話範囲制御部31aは、例えば、自然言語処理結果に基づいて、「うわぁ、、、つよそう」といったユーザHの発話内容を、例えば、図5の表示欄M11で示されるように、画像出力部37内における画像P1の上部などに表示させる。
 このように発話範囲121が、画像P1内に表示されるので、ユーザHは、画像出力部37における発話範囲121を目視するだけで、自ら以外のプレイヤの発話範囲を認識することができる。
 尚、発話範囲は、図5の発話範囲121,122で示されるように、画像出力部37に画像として表示する他の方法で表現するようにしてもよい。
 例えば、図5の左下部で示されるように、発話範囲制御部31aは、プレイヤ91-mのコンテキスト情報に基づいて、音声出力部38を制御して、VRコンテキスト情報フィードバック表示欄101内の位置に対応する方向である、左後方から「ピピピッ」という警告音声132を出力させるようにしてもよい。この際、距離が近いときには大音量とし、遠いときには小音量にすることで、音声のみで発話範囲の方向および距離を認識することが可能となる。
 また、例えば、図5の中央下部で示されるように、発話範囲制御部31aは、プレイヤ91-mのコンテキスト情報に基づいて、振動部34を制御して、VRコンテキスト情報フィードバック表示欄101内の位置に対応する、左後方から警告振動133を発生させるようにしてもよい。この際、距離が近いときには大振動とし、遠いときには小振動にすることで、振動のみで発話範囲の方向および距離を認識することが可能となる。
 さらに、例えば、図5の右下部で示されるように、発話範囲制御部31aは、プレイヤ91-mのコンテキスト情報に基づいて、音声出力部38を制御して、VRコンテキスト情報フィードバック表示欄101内の位置に対応する、左後方から音声合成部66により生成された「うわぁ、、、つよそう」という警告合成音134を出力させるようにしてもよい。この際、距離が近いときには大音量とし、遠いときには小音量にすることで、音声のみで発話範囲の方向および距離を認識することが可能となる。
 このように発話範囲は、画像のみならず、警告音声、警告振動、および警告合成音などにより、このようにユーザHに対して、発話範囲内に存在するプレイヤの方向や距離がわかるように表現されればよいものである。
 結果として、どの相手からの音声が伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に対して応答すべきかを認識しながら、発話することが可能となるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。
 <発話範囲の表示例3>
 次に、図6を参照して、自らの発話の音声の話速に基づいた発話範囲の表示例3について説明する。
 ユーザHが、画像P1を視聴しながら、敵となるプレイヤの接近が見えて、例えば、「前方にぃー、注目ぅー、レアアイテムをぉー、保持しているぅー、可能性がぁー、あーりますー」といった発話があった場合、音声取得部36は、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信する。
 発話範囲制御部31aは、クラウドサーバ群12の処理により得られる音声処理結果に基づいて、発話範囲を決定し、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P1内の発話範囲122として表示する。ここで、音声処理結果として使用されるのは、例えば、音声解析結果および自然言語処理結果である。
 より詳細には、発話範囲制御部31aは、自然言語処理結果に基づいて、「前方にぃー、注目ぅー、レアアイテムをぉー、保持しているぅー、可能性がぁー、あーりますー」といったユーザHの発話内容を、例えば、図6の表示欄M21で示されるように、画像出力部37内における画像P1の上部などに表示させる。また、発話範囲制御部31aは、例えば、単位時間当たりの音素数の大小、すなわち、話速の音声解析結果に基づいて、ユーザHの周辺の、どのプレイヤに対する発話であるかを判定する。例えば、図6の場合、長音符号があることからゆっくりとした話速であることが推定されるので、発話範囲制御部31aは、話速が所定の速度よりも低いものとみなし、近くに存在する仲間となるプレイヤ全員に対するものであるものとみなす。
 このとき、発話範囲制御部31aは、例えば、図6のVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図6のVRコンテキスト情報フィードバック表示欄101内の、発話範囲121には、ユーザHのプレイヤ91-1の位置から近い仲間となるプレイヤ91-2乃至91-4,91-m,91-nの位置を示すポイント91P-2乃至91P-4,91P-m,91P-nが含まれる範囲を、発話範囲121として表示する。
 同様に、画像P1内におけるユーザHのプレイヤ91-1の位置から近い味方のプレイヤ91-2乃至91-4が存在する範囲を、発話範囲制御部31aは、発話範囲122として表示する。
 このように発話範囲121,122が、画像P1内に表示されるので、ユーザHは、画像出力部37における発話範囲121,122を目視するだけで、自らの発話範囲を認識することができる。
 結果として、伝わる相手を確認してから、発話を実行することが可能となり、発話に際して、どの相手に伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。
 <発話範囲の表示例4>
 次に、図7を参照して、VRコンテキスト情報に基づいた発話範囲の表示例4について説明する。
 ユーザHが、例えば、図7の画像P2を視聴しながら、例えば、「どうしたの 大丈夫かな」といった発話があった場合、音声取得部36は、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信する。
 発話範囲制御部31aは、クラウドサーバ群12より得られる音声処理結果のうち自然言語処理結果および感情推定結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P2内の発話範囲122として表示する。ここで、画像P2には、ユーザHが制御するプレイヤ151-0、および、子供のプレイヤ151-1乃至151-5が映し出されており、このうち、子供のプレイヤ151-1は笑っており、プレイヤ151-2は、すましており、プレイヤ151-3は、遊んでおり、プレイヤ151-4,151-5が、泣いている状態である。それぞれの子供のプレイヤ151-1乃至151-5の状態は、VRコンテキスト情報に含まれている。
 そこで、この場合、発話範囲制御部31aは、例えば、図7の表示欄M31で示されるように、画像出力部37内における画像P1の上部などに、自然言語処理結果である「どうしたの 大丈夫かな」と表示させる。また、発話範囲制御部31aは、感情推定結果に基づいて、感情推定処理部65による音声データの、例えば、入力音声が小さく、優しく発話されているか否かの解析結果に基づいて、ユーザHの周辺の泣いているプレイヤに対する発話であるかを判定する。例えば、図7の場合、プレイヤ151-4,151-5が、泣いている状態であるので、発話範囲制御部31aは、泣いている子に優しく話しかけているものとみなし、泣いている子供のプレイヤに対するものであるものとみなす。
 このとき、発話範囲制御部31aは、例えば、図7のVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図7のVRコンテキスト情報フィードバック表示欄101内の、発話範囲121には、ユーザHのプレイヤ151-0、および泣いているプレイヤ151-4,151-5の位置を示すポイント151P-4,151P-5が含まれる範囲を、発話範囲121として表示する。
 同様に、画像P2内におけるユーザHのプレイヤ151-0と、泣いている子供のプレイヤ151-4,151-5とが存在する範囲を、発話範囲制御部31aは、発話範囲122として表示する。
 このように発話範囲121,122が、画像P2内に表示されるので、ユーザHは、画像出力部37における発話範囲121,122を目視するだけで、自らの発話範囲を認識することができる。
 結果として、発話により伝わる相手を確認してから、発話を実行することが可能となり、発話に際して、どの相手に伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。
 <発話範囲の表示例5>
 次に、図8を参照して、行動情報および姿勢情報に基づいた発話範囲の表示例5について説明する。
 発話範囲制御部31aは、行動情報および姿勢情報に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P1内の発話範囲122として表示する。
 より詳細には、行動情報および姿勢情報に基づいて、ユーザHが立って、かつ、走っている場合、発話範囲制御部31aは、例えば、VRコンテキスト情報に基づいて、ユーザHの周辺のどのプレイヤに対する発話であるかを判定する。
 例えば、図8の場合、ユーザHが制御するプレイヤ91-1が立って、かつ、走っているので、発話範囲制御部31aは、VRコンテキスト情報に基づいて、ユーザHの周辺で、同様に、立って、かつ、走っているプレイヤに対するものであるものとみなす。
 このとき、発話範囲制御部31aは、例えば、図8のVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図8のVRコンテキスト情報フィードバック表示欄101内の、発話範囲121には、ユーザHのプレイヤ91-1の位置を示すポイント91P-1から近い味方となるプレイヤ91-2,91-3の位置を示すポイント91P-2,91P-3が含まれる範囲を、発話範囲121として表示する。
 同様に、画像P1内におけるユーザHのプレイヤ91-1の位置から近い仲間のプレイヤ91-2,91-3が存在する範囲を、発話範囲制御部31aは、発話範囲122として表示する。
 このように発話範囲121,122が、画像P1内に表示されるので、ユーザHは、画像出力部37における発話範囲121,122を目視するだけで、自らと同様の行動と姿勢をとるプレイヤの存在する範囲を発話範囲として認識することができる。
 結果として、発話により伝わる相手を確認してから、発話することが可能となり、発話に際して、どの相手に伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。
 <発話範囲の表示例6>
 次に、図9を参照して、ユーザHの視線情報に基づいた発話範囲の表示例6について説明する。
 発話範囲制御部31aは、視線情報に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P1内の発話範囲122として表示する。
 より詳細には、視線情報に基づいて、発話範囲制御部31aは、画像P1内におけるどのプレイヤに視線が向けられているかを判定し、ユーザHの周辺のどのプレイヤを発話範囲とするかを判定する。
 例えば、図9の場合、発話範囲制御部31aは、視線情報に基づいて、ユーザHの周辺で、プレイヤ91-2に対して視線が向けられていることを認識する。
 このとき、発話範囲制御部31aは、例えば、図9の画像P1-1で示されるように、VRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図9の画像P1-1で示されるように、VRコンテキスト情報フィードバック表示欄101内の、発話範囲121には、ユーザHにより制御されるプレイヤ91-1の位置となるVRコンテキスト情報フィードバック表示欄101の円内の水平方向の直線と垂直方向の直線との交点の位置(以下、交点位置と称する)と、プレイヤ91-2の位置を示すポイント91P-2が含まれる範囲を、発話範囲121として表示する。
 同様に、発話範囲制御部31aは、図9の画像P1-1で示されるように、ユーザHのプレイヤの位置を示すポイントと、ユーザHの視線方向の仲間のプレイヤ91-2が存在する範囲を、発話範囲122として表示し、さらに、プレイヤ91-2上に視線が向けられていることを示すマーク103-1を表示する。
 さらに、所定時間が経過すると、図9の画像P1-2で示されるように、発話範囲制御部31aは、視線が向けられてから所定時間が経過していることを示すため、プレイヤ91-2上に視線が向けられていることを示すマーク103-1に代えて、マーク103-2を表示する。
 さらにまた、所定時間が経過すると、図9の画像P1-3で示されるように、発話範囲制御部31aは、視線が向けられてから視線方向が確定するタイミングまで、残り時間が3秒であることを示すため、プレイヤ91-2上に視線が向けられていることを示すマーク103-2に代えて、マーク103-3を表示する。
 さらにまた、所定時間が経過すると、図9の画像P1-4で示されるように、発話範囲制御部31aは、視線が向けられてから視線方向が確定するタイミングまで、残り時間が2秒であることを示すため、プレイヤ91-2上に視線が向けられていることを示すマーク103-3に代えて、マーク103-4を表示する。
 さらにまた、所定時間が経過すると、図9の画像P1-5で示されるように、発話範囲制御部31aは、視線が向けられてから視線方向が確定するタイミングまで、残り時間が1秒であることを示すため、プレイヤ91-2上に視線が向けられていることを示すマーク103-4に代えて、マーク103-5を表示する。
 さらにまた、所定時間が経過すると、図9の画像P1-6で示されるように、発話範囲制御部31aは、視線方向が確定されたことを示すため、プレイヤ91-2上に視線が向けられていることを示すマーク103-5に代えて、マーク103-6を表示する。
 このように発話範囲121,122が、画像P1内に表示されるので、ユーザHは、画像出力部37における発話範囲121,122を目視するだけで、自らが視線によるアイコンタクトを、特定のプレイヤに対して送っていることを発話範囲として決定することができる。
 結果として、アイコンタクトのような視線による合図を送っているか否かを認識することが可能となり、視線により発話範囲を決定させることが可能となる。
 <発話範囲の表示例7>
 次に、図10を参照して、他のプレイヤの視線情報に基づいた発話範囲の表示例7について説明する。ここでは、図9を参照して説明した処理により、仲間のプレイヤからユーザHに、アイコンタクトが自らに向けられていることを認識させるように発話範囲を表示し、送られているアイコンタクトに応じて視線を送るとアイコンタクトが成立する例である。例えば、図9の画像、発話範囲制御部31aは、通信部35を制御して、視線が向けられているプレイヤを制御するユーザにより装着されている他の情報処理装置11から、視線情報を含むコンテキスト情報が送信される。
 そこで、発話範囲制御部31aは、他のプレイヤを制御するユーザにより装着されている他の情報処理装置11からの視線情報に基づいて、発話範囲を特定して、例えば、図10の画像P1内に視線が送られていることを示す情報を表示する。
 より詳細には、他のプレイヤの情報処理装置11からのコンテキスト情報に含まれる視線情報に基づいて、発話範囲制御部31aは、画像P1内におけるどのプレイヤからの視線が向けられているかを判定し、ユーザHの周辺のどのプレイヤを発話範囲とするかを判定する。例えば、図10の場合、発話範囲制御部31aは、他のプレイヤの視線情報に基づいて、プレイヤ91-2からの視線が向けられていることを認識する。
 発話範囲制御部31aは、図10の画像P1-11で示されるように、視線が向けられている仲間のプレイヤ91-2上に視線が向けられていることを示すマーク171-1を表示する。
 さらに、所定時間が経過すると、図10の画像P1-12で示されるように、発話範囲制御部31aは、視線が向けられてからの経過時間を示すため、プレイヤ91-2上に視線が向けられていることを示すマーク171-1に代えて、マーク171-2を表示する。
 さらにまた、所定時間が経過すると、図10の画像P1-13で示されるように、発話範囲制御部31aは、視線が向けられてからの経過時間を示すため、プレイヤ91-2上に視線が向けられていることを示すマーク171-2に代えて、マーク171-3を表示する。
 さらにまた、所定時間が経過すると、図10の画像P1-14で示されるように、発話範囲制御部31aは、視線が向けられてから経過時間を示すため、プレイヤ91-2上に視線が向けられていることを示すマーク171-3に代えて、マーク171-4を表示する。マーク171-4には「Look at me」と記載されており、アイコンタクトに応じる旨の記載がされている。
 ここで、ユーザHがマーク171-4に視線を向けると、図10の画像P1-15で示されるように、発話範囲制御部31aは、アイコンタクトが成立したことを示すため、マーク171-4に代えて、プレイヤ91-2とのアイコンタクトが確認できたことを示すマーク171-5を表示する。マーク171-5には、「eye-contact」と記載されており、アイコンタクトが成立したことを示す。尚、この場合、相手となる他の情報処理装置11においても同様の表示がなされる。
 さらにまた、所定時間が経過すると、図10の画像P1-16で示されるように、発話範囲制御部31aは、アイコンタクトが確認できて、かつ、発話範囲が確定したことを示すため、発話範囲制御部31aは、VRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図10の画像P1-16で示されるように、発話範囲制御部31aは、VRコンテキスト情報フィードバック表示欄101内において、ユーザHのプレイヤとプレイヤ91-2の位置を示す交点位置とポイント91P-2が含まれる範囲を、発話範囲121として表示する。同様に、図10の画像P1-16で示されるように、ユーザHのプレイヤ91-1とプレイヤ91-2とが含まれた発話範囲122が表示される。
 このように、図9を参照して説明したアイコンタクトを送る処理と併せて、アイコンタクトを受ける処理がなされることにより、発話範囲121,122が、アイコンタクトを送りあったプレイヤの相互の画像P1内に表示されるので、アイコンタクトを送りあったユーザは、画像出力部37における発話範囲121,122を目視するだけで、相手となるプレイヤとのアイコンタクトが成立し、相互に発話範囲として認識することができる。
 結果として、アイコンタクトのような視線を向けるだけの合図による意思疎通が図れているか否かを認識することが可能となり、目線だけでの発話範囲を確認させることが可能となり、例えば、アイコンタクトが成立した後は、アイコンタクトが成立したプレイヤ同士で発話範囲に設定されるので、アイコンタクトが成立したプレイヤ間のみでの会話を実現することが可能となる。
 尚、図9,図10を参照して説明した処理により、アイコンタクトの授受は可能となるが、例えば、サッカーやバスケットボールなどでは、アイコンタクトの授受を一瞬で行う必要があり、上述したように数秒程度時間の掛かるアイコンタクトでは使用に耐えない。
 このため、上述したように視線を送る時間に応じて、アイコンタクトを成立させるのではなく、一瞬であっても、相互の視線が所定の条件を満たせば、成立するようにしてもよい。例えば、プレイヤ相互の視線情報を用いて、相互の視線方向を示すベクトルの内積が、所定値よりも小さい場合、相互の視線方向が一致したものとみなして、アイコンタクトを成立するようにしてもよい。
 <発話範囲が確定した状況に応じて情報の伝達を制御する例1>
 次に、図11を参照して、上述の処理により発話範囲が確定した状況に応じて情報の伝達を制御する例1について説明する。
 上述の処理により発話範囲が確定した状態で、ユーザHが、画像P1を視聴しながら、敵となるプレイヤの接近が見えて、例えば、「敵が来たな さてどうしようかな」といった発話があった場合、音声取得部36は、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信する。
 この処理により、音声解析処理部61は、音声データを取得すると、ノイズ除去処理などの、解析に適した処理を施した後、音声データを解析し、解析結果を情報処理装置11に送信すると共に、音声データを音声認識部62および感情推定処理部65に送信する。より詳細には、音声解析処理部61は、音声データに基づいて、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。
 音声認識部62は、音声データに基づいて、音声を言語として認識し、音声認識結果として、例えば、テキストデータに変換して自然言語処理部63および音声合成部66に供給する。
 自然言語処理部63は、テキストデータなどからなる認識情報を、前後の文脈などから自然な言語となるように変換して、変換結果となるテキストデータを意味解析処理部64に供給する。
 意味解析処理部64は、自然言語処理部63より供給される変換結果に基づいて、ユーザHの発話した意味を解析して解析結果である意味解析結果を感情推定処理部65に供給する。
 感情推定処理部65は、音声解析処理部61より供給されてくる音声データ、および意味解析処理部64の解析結果に基づいて、ユーザHの感情を推定し感情推定結果と意味解析結果とを情報処理装置11に送信する。
 音声合成部66は、テキストデータからなる自然言語処理結果に基づいてTTSにより合成音声を生成して、情報処理装置11に送信する。
 伝達制御部31bは、感情推定結果および自然言語処理結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P1内の発話範囲122として表示する。
 尚、図4乃至図10で表示される、発話範囲制御部31aにより一旦決定された発話範囲121,122に対して、図11で表示される発話範囲121,122は、実際に発話があったときに、伝達制御部31bにより、さらに、発話範囲の絞り込みが掛けられたものといえる。
 また、伝達制御部31bは、自然言語処理結果であるテキストデータに基づいて、「敵が来たな さてどうしようかな」といったユーザHの発話内容に基づいて、例えば、図11の上段における表示欄M41で示されるように、画像出力部37内における画像P1の上部などに表示させる。
 ここで、例えば、図11の上段におけるVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示させ、発話範囲121が確定している場合において、例えば、音声データにより、発話による入力音声の音量が所定値よりも大きく、かつ、「体力回復支援よろしく」といった発話があったとき、伝達制御部31bは、後方にいる仲間のプレイヤ91-m,91-nに発話したものとみなす。このため、伝達制御部31bは、図11の下段におけるプレイヤ91-m,91-nの位置に対応したポインタ91P-m,91P-nを含む発話範囲121-1を表示させる。
 伝達制御部31bは、自然言語処理結果であるテキストデータに基づいて、「体力回復支援よろしく」といったユーザHの発話内容に基づいて、例えば、図11における表示欄M42で示されるように、表示させる。尚、ここでは、音量がVolume=50とされており、例えば、所定値がVolume=20であるとき、所定値よりも大きいことが示されている。
 一方、例えば、図11の上段におけるVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示させ、発話範囲121が確定している場合において、例えば、音声データにより、発話による入力音声の音量が所定値よりも小さく、かつ、「ライフルで攻撃」といった発話があったとき、伝達制御部31bは、前方にいる仲間のプレイヤ91-2,91-3に発話したものとみなす。このため、伝達制御部31bは、図11の下段におけるプレイヤ91-2,91-3の位置に対応したポインタ91P-2,91P-2を含む発話範囲121-2を表示させる。
 伝達制御部31bは、自然言語処理結果であるテキストデータに基づいて、「ライフルで攻撃」といったユーザHの発話内容に基づいて、例えば、図11における表示欄M43で示されるように、表示させる。尚、ここでは、音量がVolume=10とされており、例えば、所定値がVolume=20であるとき、所定値よりも小さいことが示されている。
 このとき、伝達制御部31bは、図11の下段におけるVRコンテキスト情報フィードバック表示欄101内における発話範囲121-2に含まれるポイント91P-2,91P-3に対応する画像P1上でプレイヤ91-3,91-2に対して、「ライフルで攻撃」と表示されたテキストプレート191を、点線の矢印で示されるように移動させて表示する。
 すなわち、「ライフルで攻撃」と表示されたテキストプレート191は、点線の矢印で示されるように、画像P1上でプレイヤ91-3を経由して、プレイヤ91-2に到達する。このとき、対応するプレイヤ91-3,91-2にのみ、テキストプレート191の情報が読み取れるように表示される。
 テキストプレート191は、図11の下部の画像P1で示されるように、一筆書きのような順序でプレイヤ91間を順次回覧するように伝達するように表示する。このようにテキストプレート191が、発話範囲内のプレイヤ91間を移動することにより、発話範囲内のプレイヤに伝達されていることを確実に認識することが可能となる。すなわち、ユーザHにより制御されるプレイヤ91-1から、同時に、複数のプレイヤ91に対してテキストプレート191が同時に移動するような表示にすると、特に、プレイヤ数が膨大なときには、どのプレイヤに対してテキストプレート191が送られたのかを認識できず、どのプレイヤに伝達されたのかを認識できなくなる恐れがあるからである。
 以上の処理により、発話範囲制御部31aにより発話範囲が確定した後、発話されることにより、伝達制御部31bが、伝達するべき対象となるプレイヤ、伝達するべき情報、伝え方(伝達方法)を決定して、決定した伝達すべき対象となるプレイヤに対して、決定した伝達すべき情報を、決定した伝達方法で伝達する。
 結果として、ユーザは、VR内のプレイヤの動きを制御する際、自らの自然な行動、姿勢、発話、視線の動きを行うだけで、VRコンテキスト情報に基づいた適切な発話範囲を決定することができる上、決定された発話範囲を認識しながら発話することができるので、誰に発話した内容が伝達されているのかわからないことによる不安を払拭することが可能となるので、安心して発話することが可能となる。
 また、発話範囲が決定された後は、自然な発話をするだけで、発話範囲内で、伝達するべき対象となるプレイヤ、伝達するべき情報、および伝え方(伝達方法)が決定されて、発話に応じて決定された伝達すべき対象となるプレイヤに対して、発話に応じて決定された伝達すべき情報を、発話に応じて決定された伝達方法で伝達することが可能となる。
 <音声認識結果の表示例1>
 発話範囲内のプレイヤに対して、発話した音声データが音声認識されてテキストデータに変換された後、さらに、自然言語処理された音声認識結果であるテキストデータを、例えば、3次元のテキストからなる、例えば、図12のテキストプレート191で表現する場合、伝える相手に対して正対するように表示する必要がある。
 例えば、図12の左部で示されるような場合、VRにおいて、プレイヤH3が、「あの敵を倒そうよ」と発話し、音声認識結果が、3次元のテキストプレートT1として表現されるとき、プレイヤH1,H2が発話範囲内であれば、伝達制御部31bは、テキストプレートT1を、プレイヤH3を起点として、点線の矢印で示されるようにプレイヤH1に移動するように表示させる。
 このとき、テキストプレートT1は、プレイヤH3からプレイヤH1に移動するとき、プレイヤH1,H3に対しては正対しているので、プレイヤH1,H3は、適切にテキストプレートT1を視認することができ、プレイヤH3がどのような内容の発話をしたのかをプレイヤH1が認識することができる。
 これに対して、テキストプレートT1は、プレイヤH2に対しては正対していないので、図12の右上部で示されるように、プレイヤH2はテキストプレートT1を適切に視認することができない恐れがある。
 そこで、プレイヤH3の発話範囲内にプレイヤH1,H2が含まれているような場合、図12の右下部で示されるように、プレイヤH1乃至H3のいずれからも正対するように3次元のテキストプレートT2のように表示するようにする。
 尚、図12の右下部における左部には、上部からみたプレイヤH1乃至H3の配置が示されており、図12の右下部における右部には、プレイヤH3を起点にして、プレイヤH1に対して点線の矢印で示されるように移動する3次元のテキストプレートT2は、プレイヤH1乃至H3のいずれからも視認できるように方向が計算されて表示されることが示されている。
 図12のような表示によりプレイヤH1乃至H3が、それぞれの位置からテキストプレートT11を視認できるので、発話範囲内の全プレイヤがテキストプレートで表示される内容を適切に認識することが可能となる。
 <音声認識結果の表示例2>
 図13の状態J1で示されるように、VR内にプレイヤH1乃至H3が存在し、プレイヤH2が「あの敵を倒そう」と発話し、発話範囲内にプレイヤH1,H3が含まれている場合、伝達制御部31bは、発話した音声が音声認識された認識結果を、状態J2で示されるように、テキストプレートT11として、点線の矢印で示されるように、プレイヤH2からプレイヤH3に対して正対しながら移動するように表示させる。次に、伝達制御部31bは、状態J3で示されるように、テキストプレートT11を、プレイヤH3からプレイヤH1に対して正対しながら移動させるように表示する。
 図13の状態J1乃至J3のような表示によりプレイヤH1乃至H3が、それぞれの位置からテキストプレートT11に正対するので、VR内において、プレイヤH2により発話された「あの敵を倒そう」が、発話範囲内に含まれる全プレイヤであるプレイヤH1,H3に対して伝達されたことを認識することが可能となる。
 また、このように1個のテキストプレートT11が、発話範囲内の複数のプレイヤに対して順番に伝達されるように表示されることで、一度に、複数のプレイヤに伝達されるような表現にならないので、プレイヤH2のユーザHは画像出力部37を視聴することで、発話範囲内のプレイヤを認識しつつ、自らの発話内容が発話範囲内のどのプレイヤに伝達されたのかを確実に認識することが可能となる。
 尚、以上においては、最新の1回の発話に関するテキストデータがテキストプレートとして伝達される例について説明してきたが、時系列の発話内容を複数に伝達するようにしてもよい。例えば、伝達制御部31bは、図13の状態J4で示されるように、プレイヤH11からの発話に対応して、「あの敵を倒そう」と記載されたテキストプレートT12、「次は何をしようか」と記載されたテキストプレートT13、および「みんなお別れ」と記載されたテキストプレートT14が発話されたタイミングに応じた時系列に配置して伝達させるようにしてもよい。図13の状態J4においては、「みんなお別れ」と記載されたテキストプレートT14に対応する発話が最も前のタイミングでなされ、その次に、「次は何をしようか」と記載されたテキストプレートT13に対応する発話され、最後に、「あの敵を倒そう」と記載されたテキストプレートT12に対応する発話がなされたことが示されている。
 <音声認識結果の表示例3>
 図14の状態J11で示されるように、VR内にプレイヤH1乃至H3が存在し、プレイヤH2が「あの敵を倒そう」と発話し、発話範囲にプレイヤH3のみが含まれている場合、伝達制御部31bは、発話された音声が認識された認識結果を、状態J12で示されるように、プレイヤH1に対しては目隠しが設けられたテキストプレートT21として、点線の矢印で示されるように移動するように表示させる。このとき、認識結果となるテキストプレートT21は、プレイヤH2より、プレイヤH3に対して視聴可能な状態で、かつ、プレイヤH1からは視聴できない状態で、プレイヤH1に対して移動する。
 図14のような表示により、プレイヤH2は、発話範囲内のプレイヤH2,H3には発話内容であるテキストプレートT21が視聴可能であり、プレイヤH1には視聴不能であることを、VR内において、認識することが可能となる。すなわち、このような表示により、発話範囲内のプレイヤに対しては、自らの発話内容が伝達され、発話範囲外のプレイヤには伝達されていないことを認識することが可能となる。
 <音声認識結果の表示例4>
 図15の状態J31で示されるように、VR内にプレイヤH1乃至H5が存在し、プレイヤH2が「あの敵を倒そう」と発話し、発話範囲にプレイヤH3,H5のみが含まれている場合、伝達制御部31bは、発話された音声が認識された認識結果を、状態J32で示されるように視認できるプレイヤH3,H5を、全体を囲んた、プレイヤH3’,H5’として表現し、認識結果であるテキストプレートT31が引き出し線で結びつけられるように表示する。このような表示により、プレイヤH2が発話した内容が、プレイヤH3,H5に対して認識可能な状態で、かつ、プレイヤH1,H4からは認識できない状態であることを、プレイヤH2が認識することができる。
 図15のような表示によりプレイヤH3,H5にはテキストプレートT31が視聴可能であり、プレイヤH1には視聴不能であることを、VR内において、認識することが可能となる。
 また、伝達制御部31bは、認識結果を、状態J33で示されるように、視認できないプレイヤH1,H4には、目隠しをして、プレイヤH1’,H4’として表現し、認識結果であるテキストプレートT32を表示させるようにしてもよい。このような表示により、プレイヤH2が発話した内容が、プレイヤH3,H5に対して認識可能な状態で、かつ、プレイヤH1,H4からは認識できない状態であることを、プレイヤH2が認識することができるようにしてもよい。
 <発話範囲の解除>
 発話範囲制御部31aは、発話範囲が設定されてから所定の期間が経過した後、発話範囲を解除する。
 すなわち、発話範囲制御部31aは、例えば、図16で示されるように、VRコンテキスト情報フィードバック表示欄101内に発話範囲121(または発話範囲122)を設定すると、例えば、「Lock remain 30sec」と表示し、設定したタイミングからの残り時間が表示される表示欄201を表示する。そして、発話範囲制御部31aは、所定の時間が経過すると、解除を示す「unlocked」と表示された表示欄202を表示して、VRコンテキスト情報フィードバック表示欄101内の発話範囲121(または発話範囲122)を解除する。
 このような表示により、発話範囲121(または発話範囲122)が解除されたことをユーザに認識させることが可能となる。
 尚、以上においては、発話範囲121(または発話範囲122)が設定されてからの経過時間に応じて解除される例について説明してきたが、それ以外の方法で発話範囲121(または発話範囲122)が解除されるようにしてもよい。例えば、「範囲を解除」と発話されるとき、発話範囲制御部31aは、発話範囲121を解除するようにしてもよい。また、発話範囲制御部31aは、「首を振る」、および「視線を遠くに滞留させる」といった特定のジェスチャが行動情報および姿勢情報により検出された場合、発話範囲121(または発話範囲122)を解除するようにしてもよい。
 <発話範囲が確定した状況に応じて情報の伝達を制御する例2>
 次に、図17を参照して、上述の処理により発話範囲が確定した状況に応じて情報の伝達を制御する例2について説明する。
 上述の処理により発話範囲が確定した状態で、ユーザHが、図17の画像P2(図7の画像P2に対応する)を視聴しながら、音声取得部36は、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信する。
 この処理により、音声解析処理部61は、音声データを取得すると、ノイズ除去処理などの、解析に適した処理を施した後、音声データを解析し、解析結果を情報処理装置11に送信すると共に、音声データを音声認識部62および感情推定処理部65に送信する。より詳細には、音声解析処理部61は、音声データに基づいて、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。
 音声認識部62は、音声データに基づいて、音声を言語として認識し、音声認識結果として、例えば、テキストデータに変換して自然言語処理部63および音声合成部66に供給する。
 自然言語処理部63は、テキストデータなどからなる認識情報を、前後の文脈などから自然な言語となるように変換して、変換結果となるテキストデータを意味解析処理部64に供給する。
 意味解析処理部64は、自然言語処理部63より供給される変換結果に基づいて、ユーザHの発話した意味を解析して解析結果である意味解析結果を感情推定処理部65に供給する。
 感情推定処理部65は、音声解析処理部61より供給されてくる音声データ、および意味解析処理部64の解析結果に基づいて、ユーザHの感情を推定し感情推定結果と意味解析結果とを情報処理装置11に送信する。
 音声合成部66は、テキストデータからなる自然言語処理結果に基づいてTTSにより合成音声を生成して、情報処理装置11に送信する。
 伝達制御部31bは、感情推定結果および自然言語処理結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P2内の発話範囲122として表示する。
 より詳細には、伝達制御部31bは、自然言語処理結果に基づいて、「どうしたの 大丈夫かな」といったユーザHの発話内容に基づいて、例えば、図17の上部における表示欄M51で示されるように、画像出力部37内における画像P2の上部などに表示させる。
 ここで、例えば、図17の上段におけるVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示させ、発話範囲121が確定している場合、伝達制御部31bは、例えば、音声データに基づいた感情推定結果より、入力音声の声の抑揚が多くついているときは、音声に基づいて検出される感情として厳しいと判定されて、身内の子供のプレイヤ151-4に「いつまでも泣いてないで」というユーザHの発話内容に基づいて、例えば、表示欄M52で示されるように、画像出力部37内における画像P2の下部などに表示させる。
 一方、例えば、図17の下段におけるVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示させ、発話範囲121が確定している場合、伝達制御部31bは、例えば、音声データに基づいた感情推定結果より、入力音声の声の抑揚が付いてない時は、音声により解析される感情としてやさしいと判定されて、他人向けの子供151-5に「もう大丈夫だよ」というユーザHの発話内容に基づいて、例えば、表示欄M53で示されるように、画像出力部37内における画像P2の下部などに表示させる。
 尚、図17においては、子供のプレイヤ151-4は、ユーザHが制御するプレイヤ151-0の身内の子供であり、子供のプレイヤ151-5は、ユーザHが制御するプレイヤ151-0の他人の子供であるものとする。
 以上の処理により、発話範囲制御部31aにより発話範囲が確定した後、発話されることにより、伝達制御部31bが、伝達するべき対象となるプレイヤ(例えば、子供のプレイヤ151-4または151-5)、伝達するべき情報(例えば、「いつまでも泣いてないで」または「もう大丈夫だよ」)、伝え方(例えば、伝達方法:表示欄M52,53のようなテキストデータによる表示、または、「いつまでも泣いてないで」または「もう大丈夫だよ」の自然言語処理結果より生成される合成音声のいずれか)を決定して、決定した伝達すべき対象となるプレイヤに対して、決定した伝達すべき情報を、決定した伝達方法で伝達する。
 結果として、ユーザは、VR内のプレイヤの動きを制御する際、自らの自然な行動、姿勢、発話、視線の動きを行うだけで、VRコンテキスト情報を考慮した適切な発話範囲を決定することができる上、決定された発話範囲を認識しながら発話することができるので、誰に発話した内容が伝達されているのかわからないことによる不安を払拭することができ、安心して発話することが可能となる。
 また、発話範囲が決定された後は、自然な発話をするだけで、発話範囲内で、伝達するべき対象となるプレイヤ、伝達するべき情報、および伝え方(伝達方法)が決定されて、発話に応じて決定された伝達すべき対象となるプレイヤに対して、発話に応じて決定された伝達すべき情報を、発話に応じて決定された伝達方法で伝達することが可能となる。
 <情報処理装置の制御処理>
 次に、図18のフローチャートを参照して、制御部の制御処理について説明する。
 ステップS11において、発話範囲制御部31aが、発話範囲決定処理を実行して、発話範囲を決定する。尚、発話範囲決定処理は、図20のフローチャートを参照して、詳細を後述する。
 ステップS12において、伝達制御部31bは、伝達制御処理を実行して、決定された発話範囲に対して音声、またはテキストを伝達する。尚、伝達制御処理については、図21のフローチャートを参照して、詳細を後述する。
 以上の処理により、発話範囲が決定されて、発話範囲に対して、ユーザHの発話内容に応じた音声、およびテキストプレートが、発話範囲内のプレイヤに伝達される。
 <コンテキスト情報収集処理>
 次に、図19のフローチャートを参照して、コンテキスト情報収集処理について説明する。
 ステップS31において、VRコンテキスト情報取得部39は、VR内におけるプレイヤや各種のオブジェクトのVRコンテキスト情報を取得し、発話範囲制御部31aに供給する。発話範囲制御部31aは、VRコンテキスト情報を記憶部33に格納する。
 ステップS32において、行動情報取得部40は、行動情報、および姿勢情報を取得し、発話範囲制御部31aに供給する。発話範囲制御部31aは、行動情報、および姿勢情報を記憶部33に格納する。
 ステップS33において、視線認識処理部41は、ユーザHの視線情報を認識し、発話範囲制御部31aに供給する。発話範囲制御部31aは、視線情報を記憶部33に格納する。
 ステップS34において、音声取得部36は、ユーザHの発話による音声を音声データとして取得し、発話範囲制御部31aに供給する。発話範囲制御部31aは、音声データを記憶部33に格納する。
 ステップS35において、発話範囲制御部31aは、処理の終了が指示されたか否かを判定し、終了が指示されない場合、処理は、ステップS31に戻り、同様の処理が繰り返される。そして、ステップS35において、処理の終了が指示された場合、処理は終了する。
 以上の処理により、コンテキスト情報である、VRコンテキスト情報、行動情報および姿勢情報、視線情報、および音声データ(音声処理結果を含む)が、繰り返し取得されて順次最新の情報に書き換えられて記憶部33に記憶される。
 <発話範囲決定処理>
 次に、図20のフローチャートを参照して、発話範囲決定処理について説明する。
 ステップS51において、発話範囲制御部31aは、図19のフローチャートを参照して説明したコンテキスト情報収集処理が繰り返されることで、記憶部33に格納されているコンテキスト情報を読み出す。
 ステップS52において、発話範囲制御部31aは、読み出されたコンテキスト情報を解析する。
 ステップS53において、発話範囲制御部31aは、コンテキスト情報の解析結果に基づいて、発話範囲を決定する。
 ステップS54において、発話範囲制御部31aは、通信部35を介して、決定した発話範囲の情報を他の情報処理装置11に通知し、振動部34、画像出力部37、および音声出力部38のうちの少なくともいずれかを制御して、決定した発話範囲を提示する。
 ステップS55において、発話範囲制御部31aは、通信部35を介して、他の情報処理装置11の発話範囲の情報の通知を受信し、振動部34、画像出力部37、および音声出力部38のうちの少なくともいずれかを制御して、他の情報処理装置11の発話範囲を提示する。
 以上の処理により、ユーザHは、自らが装着する情報処理装置11のプレイヤとしての発話範囲の情報と、他の情報処理装置11を装着した、他のプレイヤの発話範囲の情報とを提示することが可能となるので、自らの発話範囲と、他のプレイヤの発話範囲とを認識して発話することが可能となる。尚、図20のフローチャートにおいては、自らの発話範囲と、他のプレイヤの発話範囲とのいずれについても提示する例について説明しているが、いずれか一方のみでもよい。
 より具体的には、以上の処理により、図4乃至図10の発話範囲を決定させることが可能となる。
 <伝達制御処理>
 次に、図21のフローチャートを参照して、伝達制御処理について説明する。ここで、伝達制御処理は、発話範囲が決定していることが前提となる。
 ステップS71において、伝達制御部31bは、音声取得部36を制御して、ユーザHの発話を音声データとして取得し、通信部35を制御して、取得した音声データをクラウドサーバ群12に送信する。
 ステップS72において、クラウドサーバ群12の音声解析処理部61は、音声データを音声認識処理、および意味解析処理に必要なレベルにノイズ除去するなどした後音声解析処理部61は、音声データに基づいて、例えば、言語の種別(日本語、フランス語、英語など)、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。
 ステップS73において、音声認識部62は、音声データに基づいて、音声を言語として認識し、音声認識結果として、例えば、テキストデータに変換して自然言語処理部63および音声合成部66に供給する。自然言語処理部63は、テキストデータなどからなる音声認識結果を、前後の文脈などから自然な言語となるように変換して、変換結果を意味解析処理部64に供給する。
 意味解析処理部64は、自然言語処理された音声認識結果である発話されている言葉に基づいて、意味を解析し、意味解析結果を情報処理装置11に送信する。感情推定処理部65は、音声データ、および意味解析結果に基づいて、発話したユーザの感情を推定し、感情推定結果を情報処理装置11に送信する。
 ステップS74において、伝達制御部31bは、音声データ、音声解析結果、自然言語処理結果、意味解析結果、および感情推定結果の少なくともいずれかを用いて、発話範囲となるプレイヤのうち、情報を伝えるべき対象となるプレイヤを決定する。
 ステップS75において、伝達制御部31bは、音声データ、音声解析結果、自然言語処理結果、意味解析結果、および感情推定結果の少なくともいずれかを用いて、伝える情報を決定する。すなわち、伝達制御部31bは、例えば、所定のユーザの発話内容、警告音、振動、および、合成音声のいずれか伝える情報を決定する。
 ステップS76において、伝達制御部31bは、音声データ、音声解析結果、自然言語処理結果、意味解析結果、および感情推定結果の少なくともいずれかを用いて、伝える情報の伝え方を決定する。伝達制御部31bは、例えば、音声認識結果の表示方法などを決定する。
 ステップS77において、伝達制御部31bは、決定した対象に対して、決定した情報を、決定した伝え方で、通知する。
 ステップS78において、伝達制御部31bは、発話範囲を解除する。
 以上の処理により、ユーザHにより発話された音声データ、音声認識結果、意味解析結果、および感情推定結果の少なくともいずれかにより、発話範囲決定処理により決定された発話範囲内に存在するプレイヤのいずれかを対象とするプレイヤ、伝えるべき情報、および伝え方が決定されて、通知される。
 より具体的には、以上の処理により、発話範囲が決定された後の発話による、図11乃至図15の伝達制御処理を実現させることが可能となる。
 また、これを応用することで、例えば、VR内において味方に複数の言語を使用する仲間が存在するような場合、移動する際に近くの仲間に対して指示を出すにあたり、発話範囲内に、英語のみでしかコミュニケーションがとれないプレイヤAとフランス語でしかコミュニケーションが取れないプレイヤBとの二人が存在し、自らは日本語でしか指示が出せず、さらに、プレイヤAのユーザは、視覚は通常であるが、聴覚障害があり、プレイヤBのユーザは、視覚障害であるが、聴覚は通常である場合を想定する。
 この場合、自らが日本語の発話により二人に指示Cを出すときには、プレイヤAに対しては指示Cを英語に変換して、かつ、テキストデータを画像で表示するように伝達し、プレイヤBに対しては指示Cをフランス語に変換して、かつ、合成音声で伝達するといったことが可能となる。すなわち、発話内容に応じて、発話の対象がプレイヤAまたはBのいずれかが決定され、伝えるべき情報が英語の指示Cまたはフランス語の指示Cのいずれかに決定され、伝達方法が、テキストデータを画像で表示して伝達する、または、合成音声で伝達する、のいずれかに決定される。この際、いずれのプレイヤを制御するユーザも自らの障害や使用言語などを意識する必要がない上、VR内における没入感を崩さず、また、VR世界観を損なわないままコミュニケーション相手を制御することが可能となる。
 また、図9,図10を参照して説明したアイコンタクトを授受する状態を発話範囲として表示する例を応用することで、例えば、VR内における会食やパーティなどで、ビジネスシーンとして営業を掛けたい相手に対してアイコンタクトを送り、相互のアイコンタクトが成立したタイミングで、アイコンタクトが成立した相手同士でのビジネスの会話を実現できるようにしてもよい。この場合、発話範囲は、アイコンタクトが成立した相手同士であるので、秘匿性の高い会話も可能となる。
 さらに、以上においては、VR内での発話範囲と伝達制御について説明してきたが、相互に通信装置を用いなければ対話ができない、例えば、水中や宇宙空間などであれば、現実空間においても発話範囲と伝達制御を応用することが可能である。
 いずれにおいても、発話範囲決定処理により、コンテキスト情報に基づいて、対象となる発話範囲が決められて、これがユーザに通知された後、発話範囲を確認しながら、発話することができ、さらに、発話に基づいた伝達制御処理により、より高度に発話の対象となるプレイヤが決定されて、伝えるべき情報、および伝え方が決定されて、情報が通知される。
 結果として、VR内のプレイヤ間のコミュニケーションにおいて、送付先や送付元が明確なので、快適なVR内のプレイヤ間のコミュニケーションを実現することができる。また、ダイレクトメッセージとパブリックメッセージとを区別することができ、さらに、誰に伝わるか明確な状態で発話してコミュニケーションをとることができるので、VR内における没入感を崩さず、また、VR世界観を損なわないままコミュニケーション相手を制御することが可能となる。
 <ソフトウェアにより実行させる例>
 ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
 図22は、汎用のパーソナルコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタ-フェイス1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
 入出力インタ-フェイス1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブルメディア1011に対してデータを読み書きするドライブ1010が接続されている。
 CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブルメディア1011ら読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
 以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 尚、図22におけるCPU1001が、CPU31に対応するものである。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本開示は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 尚、本開示は、以下のような構成も取ることができる。
<1> コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部を含む
 情報処理装置。
<2> 前記発話範囲は、前記プレイヤが発話した音声データに基づいた情報を認識可能な他のプレイヤが存在する範囲である
 <1>に記載の情報処理装置。
<3> 前記コンテキスト情報は、前記プレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含む
 <1>または<2>に記載の情報処理装置。
<4> 前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部をさらに含み、
 前記発話範囲決定部は、前記音声データに基づいて、前記発話範囲を決定する
 <3>に記載の情報処理装置。
<5> 前記発話範囲決定部は、前記音声データの高低に基づいて、前記発話範囲を決定する
 <4>に記載の情報処理装置。
<6> 前記発話範囲決定部は、前記音声データの話速に基づいて、前記発話範囲を決定する
 <4>に記載の情報処理装置。
<7> 前記コンテキスト情報のうち、前記行動情報、および前記姿勢情報を取得する行動情報姿勢情報取得部をさらに含み、
 前記発話範囲決定部は、前記行動情報、および前記姿勢情報に基づいて、前記発話範囲を決定する
 <3>に記載の情報処理装置。
<8> 前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部をさらに含み、
 前記発話範囲決定部は、前記視線情報に基づいて、前記発話範囲を決定する
 <3>に記載の情報処理装置。
<9> 前記コンテキスト情報のうち、前記周辺コンテキスト情報を取得する周辺コンテキスト情報取得部をさらに含み、
 前記発話範囲決定部は、前記周辺コンテキスト情報に基づいて、前記発話範囲を決定する
 <3>に記載の情報処理装置。
<10> 前記周辺コンテキスト情報は、VR(Virtual Reality)コンテキスト情報を含む
 <9>に記載の情報処理装置。
<11> 前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部と、
 前記VRコンテキスト情報に基づいて、VR空間を表示する表示部とをさらに含み、
 前記発話範囲決定部が、前記視線情報に基づいて、前記プレイヤの視線が前記VR空間内における所定のプレイヤの存在する位置に所定時間停滞するとき、前記表示部は、前記所定のプレイヤを表示する位置上に、前記視線が停滞する時間を表す視線停滞マークを表示する
 <10>に記載の情報処理装置。
<12> 前記発話範囲決定部は、前記視線情報に基づいて、前記プレイヤの視線が、前記表示部により表示される、前記VR空間内における他のプレイヤの存在する位置に所定時間より長時間停滞するとき、前記他のプレイヤを発話範囲として決定し、
 前記表示部は、前記他のプレイヤを表示する位置上に、前記視線により発話範囲に決定したことを示すマークを表示する
 <11>に記載の情報処理装置。
<13> 前記発話範囲決定部が、前記VR空間における、前記他のプレイヤの前記視線情報に基づいて、前記プレイヤを前記他のプレイヤの視線により前記発話範囲内に決定したとき、
 前記表示部は、前記他のプレイヤを表示する位置上に被視線停滞マークを表示する
 <12>に記載の情報処理装置。
<14> 前記発話範囲決定部は、前記VR空間における、前記プレイヤの前記視線情報に基づいて、前記被視線停滞マークを視認したことが確認できた場合、前記他のプレイヤを前記発話範囲に決定し、
 前記表示部は、前記他のプレイヤを表示する位置上に、アイコンタクトが成立したことを表すマークを表示する
 <13>に記載の情報処理装置。
<15> 前記VRコンテキスト情報に基づいて、VR空間を表示する表示部と、
 前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部と、
 前記音声データ取得部により取得された前記音声データに基づいて、前記発話範囲に含まれるどのプレイヤに対して伝達するかを制御する伝達制御部をさらに含み、
 前記伝達制御部は、前記音声データの音声認識結果をテキストとして前記表示部に表示し、前記発話範囲に複数の前記プレイヤが存在する場合、前記複数のプレイヤのそれぞれに対して順次テキストを順番に移動させて表示する
 <10>に記載の情報処理装置。
<16> 前記伝達制御部は、前記発話範囲内のプレイヤに対しては視認可能であって、かつ、前記発話範囲外のプレイヤには視認不能なテキストを前記表示部に表示する
 <15>に記載の情報処理装置。
<17> 前記発話範囲は、前記プレイヤに対して、画像、警告音声、警告振動、および警告合成音のいずれか、または、その組み合わせにより提示される
 <1>乃至<16>のいずれかに記載の情報処理装置。
<18> コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する
 ステップを含む情報処理方法。
<19> コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部
 としてコンピュータを機能させるプログラム。
 11,11-1乃至11-n 情報処理装置, 12 クラウドサーバ群, 31 CPU, 31a 発話範囲制御部, 31b 伝達制御部, 32 メモリ, 33 記憶部, 34 振動部, 35 通信部, 36 音声取得部, 37 画像出力部, 38 音声出力部, 39 VRコンテキスト情報取得部, 40 行動情報取得部, 41 視線認識処理部, 61 音声解析処理部, 62 音声認識部, 63 自然言語処理部, 64 意味解析処理部, 65 感情推定処理部, 66 音声合成部

Claims (19)

  1.  コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部を含む
     情報処理装置。
  2.  前記発話範囲は、前記プレイヤが発話した音声データに基づいた情報を認識可能な他のプレイヤが存在する範囲である
     請求項1に記載の情報処理装置。
  3.  前記コンテキスト情報は、前記プレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含む
     請求項1に記載の情報処理装置。
  4.  前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部をさらに含み、
     前記発話範囲決定部は、前記音声データに基づいて、前記発話範囲を決定する
     請求項3に記載の情報処理装置。
  5.  前記発話範囲決定部は、前記音声データの高低に基づいて、前記発話範囲を決定する
     請求項4に記載の情報処理装置。
  6.  前記発話範囲決定部は、前記音声データの話速に基づいて、前記発話範囲を決定する
     請求項4に記載の情報処理装置。
  7.  前記コンテキスト情報のうち、前記行動情報、および前記姿勢情報を取得する行動情報姿勢情報取得部をさらに含み、
     前記発話範囲決定部は、前記行動情報、および前記姿勢情報に基づいて、前記発話範囲を決定する
     請求項3に記載の情報処理装置。
  8.  前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部をさらに含み、
     前記発話範囲決定部は、前記視線情報に基づいて、前記発話範囲を決定する
     請求項3に記載の情報処理装置。
  9.  前記コンテキスト情報のうち、前記周辺コンテキスト情報を取得する周辺コンテキスト情報取得部をさらに含み、
     前記発話範囲決定部は、前記周辺コンテキスト情報に基づいて、前記発話範囲を決定する
     請求項3に記載の情報処理装置。
  10.  前記周辺コンテキスト情報は、VR(Virtual Reality)コンテキスト情報を含む
     請求項9に記載の情報処理装置。
  11.  前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部と、
     前記VRコンテキスト情報に基づいて、VR空間を表示する表示部とをさらに含み、
     前記発話範囲決定部が、前記視線情報に基づいて、前記プレイヤの視線が前記VR空間内における所定のプレイヤの存在する位置に所定時間停滞するとき、前記表示部は、前記所定のプレイヤを表示する位置上に、前記視線が停滞する時間を表す視線停滞マークを表示する
     請求項10に記載の情報処理装置。
  12.  前記発話範囲決定部は、前記視線情報に基づいて、前記プレイヤの視線が、前記表示部により表示される、前記VR空間内における他のプレイヤの存在する位置に所定時間より長時間停滞するとき、前記他のプレイヤを発話範囲として決定し、
     前記表示部は、前記他のプレイヤを表示する位置上に、前記視線により発話範囲に決定したことを示すマークを表示する
     請求項11に記載の情報処理装置。
  13.  前記発話範囲決定部が、前記VR空間における、前記他のプレイヤの前記視線情報に基づいて、前記プレイヤを前記他のプレイヤの視線により前記発話範囲内に決定したとき、
     前記表示部は、前記他のプレイヤを表示する位置上に被視線停滞マークを表示する
     請求項12に記載の情報処理装置。
  14.  前記発話範囲決定部は、前記VR空間における、前記プレイヤの前記視線情報に基づいて、前記被視線停滞マークを視認したことが確認できた場合、前記他のプレイヤを前記発話範囲に決定し、
     前記表示部は、前記他のプレイヤを表示する位置上に、アイコンタクトが成立したことを表すマークを表示する
     請求項13に記載の情報処理装置。
  15.  前記VRコンテキスト情報に基づいて、VR空間を表示する表示部と、
     前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部と、
     前記音声データ取得部により取得された前記音声データに基づいて、前記発話範囲に含まれるどのプレイヤに対して伝達するかを制御する伝達制御部をさらに含み、
     前記伝達制御部は、前記音声データの音声認識結果をテキストとして前記表示部に表示し、前記発話範囲に複数の前記プレイヤが存在する場合、前記複数のプレイヤのそれぞれに対して順次テキストを順番に移動させて表示する
     請求項10に記載の情報処理装置。
  16.  前記伝達制御部は、前記発話範囲内のプレイヤに対しては視認可能であって、かつ、前記発話範囲外のプレイヤには視認不能なテキストを前記表示部に表示する
     請求項15に記載の情報処理装置。
  17.  前記発話範囲は、前記プレイヤに対して、画像、警告音声、警告振動、および警告合成音のいずれか、または、その組み合わせにより提示される
     請求項1に記載の情報処理装置。
  18.  コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する
     ステップを含む情報処理方法。
  19.  コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部
     としてコンピュータを機能させるプログラム。
PCT/JP2018/000016 2017-01-18 2018-01-04 情報処理装置、および情報処理方法、並びにプログラム WO2018135304A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201880006672.XA CN110178125B (zh) 2017-01-18 2018-01-04 信息处理设备、信息处理方法和程序
US16/471,882 US11311803B2 (en) 2017-01-18 2018-01-04 Information processing device, information processing method, and program
EP18742309.0A EP3572947A4 (en) 2017-01-18 2018-01-04 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM
JP2018563264A JP7124715B2 (ja) 2017-01-18 2018-01-04 情報処理装置、および情報処理方法、並びにプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-006897 2017-01-18
JP2017006897 2017-01-18

Publications (1)

Publication Number Publication Date
WO2018135304A1 true WO2018135304A1 (ja) 2018-07-26

Family

ID=62909296

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/000016 WO2018135304A1 (ja) 2017-01-18 2018-01-04 情報処理装置、および情報処理方法、並びにプログラム

Country Status (5)

Country Link
US (1) US11311803B2 (ja)
EP (1) EP3572947A4 (ja)
JP (1) JP7124715B2 (ja)
CN (1) CN110178125B (ja)
WO (1) WO2018135304A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020156589A (ja) * 2019-03-25 2020-10-01 株式会社バンダイナムコエンターテインメント ゲームシステム、プログラム及びゲーム装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114253386A (zh) * 2020-09-11 2022-03-29 成都木帆科技有限公司 一种基于感知的通信系统
CN112764856A (zh) * 2021-01-20 2021-05-07 温州医科大学慈溪生物医药研究院 一种学术成果富媒体展示系统及其应用方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005322125A (ja) * 2004-05-11 2005-11-17 Sony Corp 情報処理システム、情報処理方法、プログラム
JP2010262523A (ja) * 2009-05-08 2010-11-18 Nintendo Co Ltd ネットワークシステム,情報処理装置および情報処理プログラム
WO2016002445A1 (ja) * 2014-07-03 2016-01-07 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016187063A (ja) 2015-03-27 2016-10-27 ブラザー工業株式会社 情報処理装置及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3070719B2 (ja) 1995-07-05 2000-07-31 日本電信電話株式会社 仮想空間共有方法およびこの方法を実施する装置
US5736982A (en) * 1994-08-03 1998-04-07 Nippon Telegraph And Telephone Corporation Virtual space apparatus with avatars and speech
US8210927B2 (en) * 2001-08-03 2012-07-03 Igt Player tracking communication mechanisms in a gaming machine
US7491123B2 (en) * 2004-07-29 2009-02-17 Nintendo Co., Ltd. Video game voice chat with amplitude-based virtual ranging
TW200941271A (en) 2008-01-17 2009-10-01 Vivox Inc Scalable techniques for providing real-time per-avatar streaming data in virtual reality systems that employ per-avatar rendered environments
US9258337B2 (en) * 2008-03-18 2016-02-09 Avaya Inc. Inclusion of web content in a virtual environment
JP4743721B2 (ja) 2008-07-17 2011-08-10 任天堂株式会社 ゲームプログラム、ゲーム装置、ゲームシステム、および方法
US9384469B2 (en) * 2008-09-22 2016-07-05 International Business Machines Corporation Modifying environmental chat distance based on avatar population density in an area of a virtual world
CN102918466B (zh) * 2010-04-01 2016-11-16 视瑞尔技术公司 用于在全息系统中编码包含透明物体的三维场景的方法和装置
WO2016136468A1 (ja) * 2015-02-23 2016-09-01 ソニー株式会社 送信装置、送信方法、受信装置、受信方法、情報処理装置および情報処理方法
JP6598522B2 (ja) * 2015-06-12 2019-10-30 任天堂株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
CN105879390A (zh) * 2016-04-26 2016-08-24 乐视控股(北京)有限公司 虚拟现实游戏处理方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005322125A (ja) * 2004-05-11 2005-11-17 Sony Corp 情報処理システム、情報処理方法、プログラム
JP2010262523A (ja) * 2009-05-08 2010-11-18 Nintendo Co Ltd ネットワークシステム,情報処理装置および情報処理プログラム
WO2016002445A1 (ja) * 2014-07-03 2016-01-07 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016187063A (ja) 2015-03-27 2016-10-27 ブラザー工業株式会社 情報処理装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3572947A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020156589A (ja) * 2019-03-25 2020-10-01 株式会社バンダイナムコエンターテインメント ゲームシステム、プログラム及びゲーム装置
JP7399623B2 (ja) 2019-03-25 2023-12-18 株式会社バンダイナムコエンターテインメント ゲームシステム、プログラム及びゲーム装置

Also Published As

Publication number Publication date
CN110178125B (zh) 2023-05-02
EP3572947A1 (en) 2019-11-27
US11311803B2 (en) 2022-04-26
US20200122033A1 (en) 2020-04-23
JP7124715B2 (ja) 2022-08-24
CN110178125A (zh) 2019-08-27
EP3572947A4 (en) 2020-01-15
JPWO2018135304A1 (ja) 2019-11-21

Similar Documents

Publication Publication Date Title
JP7100092B2 (ja) ワードフロー注釈
US11030788B2 (en) Virtual reality presentation of body postures of avatars
US11222632B2 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
JP6510484B2 (ja) 音声/テキスト変換の触覚による拡張を目的とするシステムと方法
US20180077095A1 (en) Augmentation of Communications with Emotional Data
US9949056B2 (en) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
US10325396B2 (en) Virtual reality presentation of eye movement and eye contact
US20170243582A1 (en) Hearing assistance with automated speech transcription
WO2017165035A1 (en) Gaze-based sound selection
WO2018135304A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2011027475A1 (ja) テレビ会議装置
WO2018135057A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
US10643636B2 (en) Information processing apparatus, information processing method, and program
JP2007142957A (ja) 遠隔対話方法及び装置
EP4322090A1 (en) Information processing device and information processing method
JP2011118632A (ja) 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
US11935557B2 (en) Techniques for detecting and processing domain-specific terminology
WO2023058393A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2023228433A1 (ja) 視線制御装置及び方法、非一時的記憶媒体、並びにコンピュータプログラム
WO2023058451A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN112153461B (zh) 用于定位发声物的方法、装置、电子设备及可读存储介质
US11826648B2 (en) Information processing apparatus, information processing method, and recording medium on which a program is written
US20240078731A1 (en) Avatar representation and audio generation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18742309

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018563264

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018742309

Country of ref document: EP

Effective date: 20190819