WO2018128161A1 - 音声出力装置、ヘッドマウントディスプレイ、音声出力方法及びプログラム - Google Patents

音声出力装置、ヘッドマウントディスプレイ、音声出力方法及びプログラム Download PDF

Info

Publication number
WO2018128161A1
WO2018128161A1 PCT/JP2017/047225 JP2017047225W WO2018128161A1 WO 2018128161 A1 WO2018128161 A1 WO 2018128161A1 JP 2017047225 W JP2017047225 W JP 2017047225W WO 2018128161 A1 WO2018128161 A1 WO 2018128161A1
Authority
WO
WIPO (PCT)
Prior art keywords
space
voice
image
unit
user
Prior art date
Application number
PCT/JP2017/047225
Other languages
English (en)
French (fr)
Inventor
良雄 宮崎
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to JP2018560395A priority Critical patent/JP6616023B2/ja
Priority to US16/472,560 priority patent/US11086587B2/en
Publication of WO2018128161A1 publication Critical patent/WO2018128161A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems

Definitions

  • the present invention relates to an audio output device, a head mounted display, an audio output method, and a program.
  • a technology for displaying an augmented reality space image composed of an image including a portion occupied by an image of the virtual reality space and a portion occupied by an image of the real space taken by a camera that captures the periphery of the user is known.
  • mixed reality (MR) technology that incorporates real space information into a virtual space created by computer graphics and fuses the real space with the virtual reality space has begun to attract attention.
  • MR mixed reality
  • the inventors have displayed the augmented reality space or the mixed reality space on a head mounted display (HMD) that can be viewed in front of the user wearing the head mounted on the head.
  • HMD head mounted display
  • a user wearing an HMD receives, for example, sound in a virtual reality space such as BGM, sound effects, and a voice of a virtual object such as a character placed in the virtual reality space from the ear of the user such as an earphone or a headphone. It can be heard from a speaker arranged in the vicinity.
  • a virtual reality space such as BGM
  • sound effects sound effects
  • a voice of a virtual object such as a character placed in the virtual reality space from the ear of the user such as an earphone or a headphone. It can be heard from a speaker arranged in the vicinity.
  • One of the objects of the present invention is to provide an audio output device, a head-mounted display, an audio output method, and a program that can improve the presence of augmented reality space and mixed reality space.
  • an audio output device includes a head mount that includes a portion occupied by an image in virtual reality space and a portion occupied by an image in real space taken by a camera that captures the periphery of the user.
  • a synthesized voice is generated by synthesizing an image in the augmented reality space or a mixed reality space displayed on the display unit of the display and a voice in the virtual reality space and a voice in the real space around the user.
  • a voice output unit that outputs the synthesized voice emitted from a speaker arranged in the vicinity of the user's ear.
  • the synthesized speech generation unit generates the synthesized speech by synthesizing the sound in the virtual reality space and the sound in the real space with a volume balance according to the line of sight of the user.
  • the synthesized speech generation unit may synthesize the synthesized speech by synthesizing the virtual reality space speech and the real space speech in which the speech in the direction of the user's line of sight is emphasized. Is generated.
  • the sound in the virtual reality space is sound represented by stored sound data or a received sound stream.
  • the head mounted display includes a camera unit that captures the user's surroundings, a microphone unit that acquires sound around the user, a portion occupied by an image in the virtual reality space, and an actual image captured by the camera.
  • a display unit that displays an image of an augmented reality space or a mixed reality space including a portion occupied by an image of the space, and a synthesized voice of the voice of the virtual reality space and the voice of the real space acquired by the microphone.
  • an audio output unit for outputting via a speaker arranged in the vicinity of the.
  • the audio output method according to the present invention is displayed on a display unit of a head mounted display including a portion occupied by an image of the virtual reality space and a portion occupied by an image of the real space photographed by a camera that captures the periphery of the user.
  • Generating an image of the augmented reality space or the mixed reality space synthesizing the sound of the virtual reality space and the sound of the real space around the user to generate a synthesized sound, and the user's ear Outputting the synthesized speech emitted from a speaker arranged in the vicinity of.
  • the program according to the present invention is displayed on a display unit of a head mounted display including a portion occupied by an image of the virtual reality space and a portion occupied by an image of the real space taken by a camera that captures the periphery of the user.
  • FIG. 1 is a diagram showing an example of the overall configuration of an entertainment system 10 according to an embodiment of the present invention.
  • FIG. 2A is a diagram illustrating an example of the configuration of the head mounted display (HMD) 12 according to the present embodiment.
  • FIG. 2B is a diagram illustrating an example of the configuration of the entertainment apparatus 14 according to the present embodiment.
  • FIG. 2C is a diagram illustrating an example of the configuration of the relay device 16 according to the present embodiment.
  • the entertainment system 10 includes an HMD 12, an entertainment device 14, a relay device 16, a display 18, a camera microphone unit 20, and a controller 22.
  • the HMD 12 includes a processor 30, a storage unit 32, a communication unit 34, an input / output unit 36, a display unit 38, a sensor unit 40, an audio output unit 42, a camera unit 44, A line-of-sight detection unit 46 and a microphone unit 48 are included.
  • the communication unit 34 includes a first communication unit 34a and a second communication unit 34b.
  • the processor 30 is a program control device such as a microprocessor that operates according to a program installed in the HMD 12, for example.
  • the HMD 12 may include a control circuit capable of implementing the processing executed by the processor 30 instead of the processor 30.
  • the storage unit 32 is, for example, a storage element such as a ROM or a RAM.
  • the storage unit 32 stores a program executed by the processor 30 and the like.
  • the first communication unit 34a and the second communication unit 34b are each a communication interface such as a wireless LAN module.
  • the first communication unit 34 a and the second communication unit 34 b are disposed on the upper front side of the HMD 12.
  • the communication standard for communication performed by the first communication unit 34a is different from the communication standard for communication performed by the second communication unit 34b.
  • the first communication unit 34a performs communication in the 60 GHz band
  • the second communication unit 34b performs communication in the 5 GHz band or the 2.4 GHz band.
  • the input / output unit 36 is an input / output port such as an HDMI (registered trademark) (High-Definition Multimedia Interface) port, a USB port, an AUX port, or the like.
  • HDMI registered trademark
  • AUX AUX port
  • the display unit 38 is a display such as a liquid crystal display or an organic EL display disposed on the front side of the HMD 12 and displays a video generated by the entertainment device 14.
  • the display unit 38 is housed in the housing of the HMD 12.
  • the display unit 38 may receive a video signal output from the entertainment device 14 and relayed by the relay device 16 and output a video represented by the video signal.
  • the display unit 38 according to the present embodiment can display a three-dimensional image by displaying a left-eye image and a right-eye image, for example.
  • the display unit 38 may not be able to display a three-dimensional image and can only display a two-dimensional image.
  • the sensor unit 40 is a sensor such as a motion sensor capable of detecting acceleration and angular velocity, for example.
  • the sensor unit 40 outputs detection results such as the rotation amount and movement amount of the HMD 12 to the processor 30 at a predetermined sampling rate.
  • the audio output unit 42 is a speaker arranged in the vicinity of the user's ear, such as a headphone or an earphone, for example, and outputs the audio represented by the audio data generated by the entertainment device 14.
  • the audio output unit 42 receives an audio signal output from the entertainment device 14 and relayed by the relay device 16, for example, and outputs the audio represented by the audio signal.
  • the camera unit 44 is a camera such as a digital camera, for example, and shoots a situation around the user wearing the HMD 12 at a predetermined frame rate. As shown in FIG. 1, two camera units 44 according to the present embodiment are arranged above the display unit 38 so that the front of the display unit 38 can be photographed. Therefore, the camera unit 44 according to the present embodiment can photograph the front of the user wearing the HMD 12.
  • the camera unit 44 according to the present embodiment is a stereo camera including a lens for taking a left-eye image and a lens for generating a right-eye image, for example.
  • the line-of-sight detection unit 46 is a sensor that detects the line of sight of the user wearing the HMD 12, for example.
  • the line-of-sight detection unit 46 is disposed, for example, inside the housing of the HMD 12.
  • the line-of-sight detection unit 46 may include an infrared camera that detects the direction of the line of sight of the user wearing the HMD 12.
  • the microphone unit 48 is, for example, a microphone that acquires ambient sound, converts the sound into sound data, and outputs the sound data.
  • the microphone unit 48 may have a function of outputting audio data in which audio in a specific direction is emphasized.
  • the microphone unit 48 may be a microphone whose direction of direction is variable, such as an array microphone.
  • the microphone unit 48 may be a stereo microphone.
  • a program capable of executing a process for processing a voice input to the stereo microphone and emphasizing a voice in a specific direction is stored in the storage unit 32, and even if the program is executed by the processor 30. Good.
  • the entertainment device 14 is a computer such as a game console, a DVD player, a Blu-ray (registered trademark) player, or the like.
  • the entertainment device 14 according to the present embodiment generates video and audio by, for example, executing a stored game program or reproducing content recorded on an optical disc. Then, the entertainment device 14 according to the present embodiment outputs a video signal representing the generated video and an audio signal representing the generated audio to the HMD 12 and the display 18 via the relay device 16.
  • the entertainment device 14 includes a processor 50, a storage unit 52, a communication unit 54, and an input / output unit 56, for example, as shown in FIG. 2B.
  • the processor 50 is a program control device such as a CPU that operates in accordance with a program installed in the entertainment device 14, for example.
  • the processor 50 according to the present embodiment also includes a GPU (Graphics Processing Unit) that draws an image in a frame buffer based on graphics commands and data supplied from the CPU.
  • the entertainment device 14 may include a control circuit capable of implementing processing executed by the processor 50 instead of the processor 50.
  • the storage unit 52 is, for example, a storage element such as a ROM or a RAM, a hard disk drive, or the like.
  • the storage unit 52 stores a program executed by the processor 50 and the like.
  • a frame buffer area in which an image is rendered by the GPU is secured.
  • the communication unit 54 is a communication interface such as a wireless LAN module.
  • the input / output unit 56 is an input / output port such as an HDMI port or a USB port.
  • the relay device 16 is a computer that relays video signals and audio signals output from the entertainment device 14 and outputs them to the HMD 12 and the display 18.
  • the relay device 16 includes a processor 60, a storage unit 62, two communication units 64 (first communication unit 64a and second communication unit 64b), and an input / output unit 66. included.
  • the processor 60 is a program control device such as a CPU that operates according to a program installed in the relay device 16, for example.
  • the relay device 16 may include a control circuit capable of implementing the processing executed by the processor 60 instead of the processor 60.
  • the storage unit 62 is a storage element such as a ROM or a RAM.
  • the storage unit 62 stores a program executed by the processor 60 and the like.
  • the first communication unit 64a and the second communication unit 64b are communication interfaces such as a wireless LAN module.
  • a first communication unit 64 a and a second communication unit 64 b are included on the front side of the relay device 16.
  • the communication standard for communication performed by the first communication unit 64a is different from the communication standard for communication performed by the second communication unit 64b.
  • the first communication unit 64a performs communication in the 60 GHz band
  • the second communication unit 64b performs communication in the 5 GHz band or the 2.4 GHz band.
  • the input / output unit 66 is an input / output port such as an HDMI port or a USB port.
  • the display 18 is, for example, a liquid crystal display, and displays a video or the like represented by a video signal output from the entertainment device 14.
  • the camera microphone unit 20 includes a camera 20a that outputs data representing the state of the periphery of the camera microphone unit 20, such as an image obtained by capturing a subject, to the entertainment device 14.
  • the camera 20a according to this embodiment is a stereo camera.
  • the camera microphone unit 20 according to the present embodiment includes a microphone 20b that acquires ambient sound, converts the sound into sound data, and outputs the sound data to the entertainment device 14.
  • the HMD 12 and the relay device 16 can mutually transmit and receive data by wireless communication, for example.
  • the entertainment device 14 and the relay device 16 are connected via, for example, an HDMI cable or a USB cable.
  • the relay device 16 and the display 18 are connected via, for example, an HDMI cable.
  • the entertainment apparatus 14 and the camera microphone unit 20 are connected via, for example, an AUX cable.
  • the controller 22 is an operation input device for performing operation input to the entertainment device 14.
  • the user can perform various operation inputs using the controller 22 by pressing a direction key or button provided in the controller 22 or tilting an operation stick.
  • the controller 22 outputs input data associated with the operation input to the entertainment device 14.
  • the controller 22 according to the present embodiment includes a USB port. And the controller 22 can output input data to the entertainment apparatus 14 with a wire by connecting with the entertainment apparatus 14 with a USB cable.
  • the controller 22 according to the present embodiment includes a wireless communication module and the like, and can output input data to the entertainment apparatus 14 wirelessly.
  • the entertainment device 14 executes a program such as a game program. And the entertainment apparatus 14 produces
  • the camera unit 44 captures an image of the real space around the user.
  • an augmented reality space image based on the virtual reality space image generated by the entertainment device 14 and the captured real space image is displayed on the display unit 38.
  • an augmented reality space image is displayed on the display unit 38.
  • the present embodiment is also applied to a case in which a mixed reality space (MR space) image is displayed on the display unit 38. It goes without saying that it is possible.
  • MR space mixed reality space
  • the virtual reality space is referred to as a VR space
  • the augmented reality space is referred to as an AR space
  • an image of a real space where a user exists which is captured by the camera unit 44, is referred to as a real space image.
  • the VR space video generated by the entertainment device 14 is referred to as a VR space video.
  • An AR space image based on the real space image and the VR space image is referred to as an AR space image.
  • FIG. 3 is a diagram showing an example of a frame image constituting the AR space video displayed on the display unit 38.
  • the frame image constituting the AR space video illustrated in FIG. 3 is referred to as an AR space image 70.
  • the AR space image 70 includes a real space portion 72 that is a portion occupied by a frame image constituting a real space video, and a VR space portion 74 that is a portion occupied by a frame image constituting a VR space video. It is included.
  • an image of a virtual object arranged in the virtual reality space is shown as a VR space portion 74.
  • the AR space image 70 may be an image in which a frame image constituting the VR space image is superimposed on a frame image constituting the real space image.
  • the synthesized voice of the sound in the virtual reality space generated or reproduced by the entertainment device 14 executing the program and the sound in the real space around the user wearing the HMD 12 is the sound output unit. Sound is emitted from 42.
  • the sound in the virtual reality space generated or reproduced by executing the program is referred to as VR space sound
  • the sound in the real space around the user wearing the HMD 12 is referred to as real space sound.
  • the synthesized voice obtained by synthesizing the VR space voice and the real space voice is emitted from the voice output unit 42. Therefore, the presence in the augmented reality space is improved as compared with the case where only the VR space sound is emitted from the sound output unit 42 in a state where the sound in the real space around the user is blocked.
  • examples of the VR space sound include sound related to virtual objects such as BGM, sound effects, and voices of characters.
  • the VR space audio may be audio obtained by reproducing audio data stored in the storage unit 52 or audio data recorded on a recording medium such as a DVD disc or a Blu-ray disc.
  • the VR space audio may be audio represented by an audio stream received via the Internet or the like.
  • the synthesized voice obtained by synthesizing the VR space voice and the real space voice is emitted from the voice output unit 42 with the balance of the volume according to the user's line of sight detected by the line of sight detection unit 46.
  • the volume of the VR space sound in the synthesized sound and the volume of the real space sound A balance may be set depending on whether the user's line of sight detected by the line-of-sight detection unit 46 is facing the real space part 72 or the virtual space part 74.
  • FIG. 4 is a diagram illustrating an example of a gazing point P associated with the user's line of sight.
  • the line-of-sight direction 78 based on the user's viewpoint 76 and the line-of-sight direction 78 are associated with each other based on the line-of-sight detection result by the line-of-sight detection unit 46.
  • the position of the gazing point P is specified.
  • a synthesized sound obtained by synthesizing the VR space sound and the real space sound with a volume balance according to the position of the gazing point P is emitted from the sound output unit 42.
  • positions corresponding to the center, upper left corner, upper right corner, lower left corner, and lower right corner of the display unit 38 are positions P0, P1, P2, P3 in the three-dimensional space, and , Shown as position P4.
  • position P0 is specified as the gazing point P.
  • position P1, the position P2, the position P3, and the position P4 are respectively set as the gazing point P. Identified.
  • FIG. 3 shows a gaze point Pa, a gaze point Pb, and a gaze point Pc as examples of the gaze point P that is specified.
  • the position of the gazing point Pa exists in the VR space portion 74.
  • a synthesized speech in which the volume of the VR space sound is larger than the volume of the real space sound is generated and emitted from the sound output unit 42.
  • the volume balance may be set so that the volume of the VR space audio is double the volume of the real space audio.
  • the positions of the gazing point Pb and the gazing point Pc exist in the real space portion 72.
  • a synthesized speech in which the volume of the real space sound is larger than the volume of the VR space sound is generated and emitted from the sound output unit 42.
  • the balance may be set so that the volume of the real space audio is double the volume of the VR space audio.
  • the user can control the balance of the volume of the VR space sound and the real space sound by changing the line of sight. For example, by changing the line of sight, the VR space sound is emphasized when the user's gaze target is a virtual object, and the real space sound is emphasized when the user's gaze target is an object in real space. It will be possible to control.
  • the audio from the direction corresponding to the position of the gazing point P is emphasized.
  • the sound from the line-of-sight direction 78 may be emphasized.
  • sound from the direction in which the vector of the line-of-sight direction 78 is projected on the horizontal plane may be emphasized.
  • FIG. 6 is a diagram schematically showing an example of a region in the real space that is emphasized in the real space speech.
  • FIG. 6 shows a state in which the user wearing the HMD 12 is viewed from above.
  • the sound from the left front direction may be emphasized as shown in the region R1 in FIG. .
  • the sound from the right front direction may be emphasized as shown in the region R2 in FIG.
  • the sound from the front direction may be emphasized as illustrated in the region R ⁇ b> 3 in FIG. 6.
  • each image of a plurality of objects arranged in the real space is shown in the real space portion 72 using a known image recognition technique.
  • a specific object for example, a wall or a ceiling
  • the user can control the directing direction of the real space sound synthesized with the VR space sound by changing the line of sight.
  • the user may be able to set the overall volume of the audio output from the audio output unit 42 by operating the controller 22 or the like.
  • FIG. 7 is a functional block diagram showing an example of functions implemented by the HMD 12 and the entertainment device 14 according to the present embodiment. Note that it is not necessary for the HMD 12 and the entertainment device 14 according to the present embodiment to implement all the functions shown in FIG. 7, and functions other than the functions shown in FIG. 7 may be implemented.
  • the HMD 12 functionally includes, for example, a detection unit 80, a line-of-sight information transmission unit 82, a real space audio supply unit 84, a real space audio transmission unit 86, and a synthesized audio reception unit 88.
  • a synthesized audio output unit 90 a real space video acquisition unit 92, a real space video transmission unit 94, an AR space video reception unit 96, and an AR space video display control unit 98.
  • the detection unit 80 is mainly mounted with the line-of-sight detection unit 46.
  • the line-of-sight information transmission unit 82, the real space audio transmission unit 86, the synthesized audio reception unit 88, the real space image transmission unit 94, and the AR space image reception unit 96 are mainly implemented by the communication unit 34.
  • the real space audio supply unit 84 mainly includes the microphone unit 48 or the processor 30 and the microphone unit 48.
  • the synthesized speech output unit 90 is mainly implemented by the processor 30 and the speech output unit 42.
  • the real space video acquisition unit 92 is mainly implemented by the camera unit 44.
  • the AR space video display control unit 98 is mainly mounted with the processor 30 and the display unit 38.
  • the above functions may be implemented by causing the processor 30 to execute a program that is installed in the HMD 12 that is a computer and that includes instructions corresponding to the above functions.
  • This program may be supplied to the HMD 12 via a computer-readable information storage medium such as an optical disk, a magnetic disk, a magnetic tape, a magneto-optical disk, or a flash memory, or via the Internet.
  • the entertainment device 14 functionally includes, for example, a line-of-sight information receiving unit 100, a real space audio receiving unit 102, a balance determining unit 104, a VR space audio supplying unit 106, and a synthesis.
  • An audio generation unit 108, a synthesized audio transmission unit 110, a real space video reception unit 112, a VR space image supply unit 114, an AR space image generation unit 116, and an AR space image transmission unit 118 are included.
  • the line-of-sight information receiving unit 100, the real space audio receiving unit 102, the synthesized audio transmitting unit 110, the real space image receiving unit 112, and the AR space image transmitting unit 118 are mainly mounted with the input / output unit 56.
  • the balance determination unit 104, the VR space audio supply unit 106, the synthesized audio generation unit 108, the VR space image supply unit 114, and the AR space image generation unit 116 are mainly implemented by the processor 50.
  • the above functions may be implemented by causing the processor 50 to execute a program that is installed in the entertainment device 14 that is a computer and that includes instructions corresponding to the above functions.
  • This program may be supplied to the entertainment apparatus 14 via a computer-readable information storage medium such as an optical disk, a magnetic disk, a magnetic tape, a magneto-optical disk, or a flash memory, or via the Internet.
  • the detection unit 80 detects the line of sight of the user, and generates line-of-sight information used for determining the balance of the synthesized speech based on the detection result of the line of sight.
  • the detection unit 80 may generate information indicating the position of the gazing point P in the AR space image 70 or information indicating the vector of the line-of-sight direction 78 as the line-of-sight information.
  • the detection unit 80 may generate the AR space image 70 on which the mark indicating the position of the gazing point P is superimposed as the line-of-sight information.
  • the line-of-sight information transmission unit 82 transmits line-of-sight information generated by the detection unit 80 to the entertainment apparatus 14 via the relay apparatus 16, for example.
  • the real space audio supply unit 84 supplies the above-described real space audio to the real space audio transmission unit 86, for example.
  • the real space audio supply unit 84 supplies the real space audio transmission unit 86 with directional sound in which the sound in the direction specified based on the line-of-sight information generated by the detection unit 80 is emphasized as described above. May be.
  • the real space audio transmission unit 86 transmits the real space audio supplied from the real space audio supply unit 84 to the entertainment device 14 via the relay device 16, for example.
  • the synthesized voice receiving unit 88 receives synthesized voice of VR space voice and real space voice, for example.
  • the synthesized voice receiving unit 88 may emit synthesized voice from a speaker arranged in the vicinity of the user's ear.
  • the synthesized voice output unit 90 outputs the synthesized voice received by the synthesized voice receiving unit 88, for example.
  • the real space image acquisition unit 92 acquires, for example, a real space image captured by the camera unit 44.
  • the real space video transmission unit 94 transmits the real space video acquired by the real space video acquisition unit 92 to the entertainment device 14 via the relay device 16.
  • the AR space image receiving unit 96 receives an AR space image generated by the entertainment device 14, for example.
  • the AR space image display control unit 98 displays the AR space image received by the AR space image receiving unit 96 on the display unit 38, for example.
  • the line-of-sight information receiving unit 100 receives line-of-sight information transmitted by the line-of-sight information transmitting unit 82, for example.
  • the real space audio receiving unit 102 receives the real space audio transmitted by the real space audio transmitting unit 86, for example.
  • the balance determination unit 104 determines the balance between the VR space sound and the real space sound in the synthesized sound based on the line-of-sight information received by the line-of-sight information reception unit 100.
  • the volume of the VR space sound is higher than the volume of the real space sound.
  • the balance may be determined so as to increase.
  • the volume of the real space sound is higher than that of the VR space sound.
  • the balance may be determined so as to be larger than the volume.
  • the VR space sound supply unit 106 supplies, for example, VR space sound to the synthesized sound generation unit 108.
  • the VR spatial sound may be, for example, stored sound data or sound represented by a received sound stream.
  • the synthesized speech generation unit 108 synthesizes VR space speech and real space speech to generate synthesized speech.
  • the synthesized voice generation unit 108 may synthesize the VR space voice supplied by the VR space voice supply unit 106 and the real space voice received by the real space voice receiving unit 102 to generate a synthesized voice.
  • the synthesized speech generation unit 108 may generate synthesized speech by synthesizing the VR space sound and the real space sound with a balance of volume according to the user's line of sight.
  • the real space sound synthesized with the VR space sound may be a sound in which the sound in the direction of the user's line of sight is emphasized.
  • the synthesized voice transmission unit 110 transmits the synthesized voice generated by the synthesized voice generation unit 108 to the HMD 12 via the relay device 16.
  • the synthesized voice transmitting unit 110 plays a role as a voice output unit that outputs synthesized voice emitted from a speaker arranged near the user's ear, such as headphones or earphones.
  • the real space video receiving unit 112 receives the real space video transmitted by the real space video transmission unit 94, for example.
  • the VR space image supply unit 114 supplies the VR space image to the AR space image generation unit 116, for example.
  • the AR space image generation unit 116 generates an AR space image based on the real space image received by the real space image reception unit 112 and the VR space image supplied by the VR space image supply unit 114.
  • the AR space image 70 that is a frame image of the AR space image
  • a space portion 72 may be included.
  • the AR space image transmission unit 118 transmits the AR space image generated by the AR space image generation unit 116 to the HMD 12 via the relay device 16.
  • the detection unit 80 generates line-of-sight information indicating the position of the gazing point P in the displayed AR space image 70 based on the detected line of sight of the user (S101).
  • line-of-sight information in which a mark indicating the position of the gazing point P is superimposed on the displayed AR space image 70 may be generated.
  • the real space audio supply unit 84 generates real space audio data representing the real space audio (S102).
  • real space audio data representing real space audio from the generation timing of real space audio data in the previous loop to the current time may be generated.
  • voice supply part 84 changes the directivity direction of the microphone part 48 so that the audio
  • the real space video acquisition unit 92 acquires a frame image taken by the camera unit 44 (S104).
  • the frame image acquired in the process shown in S104 is referred to as a real space image.
  • the HMD 12 transmits the line-of-sight information generated in the process shown in S101, the real space audio data generated in the process shown in S102, and the real space image acquired in the process shown in S104 to the entertainment apparatus 14.
  • the line-of-sight information transmission unit 82 transmits line-of-sight information
  • the real space audio transmission unit 86 transmits real space audio data
  • the real space video transmission unit 94 transmits a real space image.
  • the entertainment device 14 receives these line-of-sight information, real space audio data, and real space images (S105).
  • the AR space image generation unit 116 generates an AR space image 70 that includes the real space image received in the process shown in S105 as the real space portion 72 and includes the image supplied by the VR space image supply unit 114 as the VR space portion 74. (S106).
  • the balance determination unit 104 determines the balance between the VR space sound and the real space sound based on the line-of-sight information received in the process shown in S105 (S107).
  • the synthesized voice generation unit 108 synthesizes the VR space voice supplied by the VR space voice supply unit 106 and the voice represented by the real space voice data received in the process shown in S105 with the balance determined in the process shown in S107. Synthetic voice data representing the synthesized voice is generated (S108).
  • the entertainment device 14 transmits the AR space image 70 generated in the process shown in S106 and the synthesized voice data generated in the process shown in S108 to the HMD 12.
  • the synthesized audio transmission unit 110 transmits synthesized audio data
  • the AR space video transmission unit 118 transmits the AR space image 70.
  • the HMD 12 receives these synthesized voice data and the AR space image 70 (S109).
  • the AR space image display control unit 98 displays the AR space image 70 received in the process shown in S109 on the display unit 38, and the synthesized voice output unit 90 displays the synthesized voice data received in the process shown in S109. Sound is emitted from the sound output unit 42 (S110). Then, the process returns to S101.
  • the processing shown in S101 to S110 is repeatedly executed at predetermined time intervals.
  • the method of generating real space audio data is not limited to the above method.
  • the real space audio supply unit 84 receives a sound input from a direction associated with the line-of-sight information generated in the process shown in S101 immediately before the sound acquired by the microphone unit 48. You may perform the process which emphasizes. And the real space audio
  • the method for determining the balance between the volume of the VR space sound and the volume of the real space sound is not limited to the above-described method.
  • a balance with spatial audio may be determined.
  • the position of the gazing point P associated with the line-of-sight information received in the process shown in S105 in the AR space image 70 generated in the process shown in S106 may be specified.
  • the balance between the VR space sound and the real space sound in the synthesized sound may be determined according to whether the gazing point P exists in the VR space portion 74 or the real space portion 72.
  • the entertainment apparatus 14 may transmit the AR space image 70 generated in the process shown in S106 and the stream data including the synthesized voice data generated in the process shown in S108 to the HMD 12. Good. Then, the AR space image display control unit 98 may extract the AR space image 70 from the stream data received by the HMD 12. The synthesized voice output unit 90 may extract synthesized voice data from the stream data received by the HMD 12. Then, the AR space video display control unit 98 displays the extracted AR space image 70 on the display unit 38, and the synthesized voice output unit 90 emits the synthesized voice represented by the extracted synthesized voice data from the voice output unit 42. May be.
  • a synthesized speech in which a speech associated with a portion other than the portion including the gazing point P is muted may be generated.
  • a synthesized sound in which the real space sound is muted may be generated.
  • a synthesized sound in which the VR space sound is muted may be generated.
  • a plurality of virtual object images may be included in the AR space image 70 as the VR space portion 74.
  • a synthesized sound in which the volume of the sound associated with the virtual object is larger than the volume of the sound associated with the other virtual object may be generated.
  • a synthesized voice in which the voice volume of the character is larger than the voice volume of another character is generated. Also good.
  • the audio output unit 42 may be headphones or earphones that are separate from the HMD 12.
  • the sound acquired by the microphone unit 48 may be used as the above-described real space sound.
  • the HMD 12 determines the balance between the VR space sound and the real space sound in the synthesized sound based on the AR space image 70 displayed on the display unit 38 and the user's line of sight detected by the line of sight detection unit 46. May be.
  • HMD12 may synthesize
  • the present invention can also be applied to a case where an image of the mixed reality space (MR space) is displayed on the display unit 38.
  • MR space mixed reality space
  • the interaction between virtual objects placed in virtual reality space or virtual reality space environment and objects placed in real space or real space environment is more important than augmented reality technology.
  • the user views a television set in the real space together with a character that is a virtual object, or the user has a natural conversation with the character.
  • the character and the user play using real space voice, or the user enjoys the reaction of the character to the real space voice.
  • the VR space image supply unit 114 moves in the direction of the user's line of sight. You may supply the image by which the virtual object which faces the existing object is arrange
  • the VR space audio supply unit 106 may supply audio associated with an object in the real space that exists in the direction of the user's line of sight. Specifically, for example, a voice that talks about an object in a real space that exists in the direction of the line of sight of the user may be supplied. Then, the synthesized speech generation unit 108 may synthesize synthesized speech by synthesizing speech that uses an object in real space as a topic in conversation and real space speech. The synthesized voice generated in this way may be transmitted to the HMD 12 and output from the voice output unit 42.
  • the AR space video generation unit 116 generates a composite space image that includes, as the VR space portion 74, an image of a virtual object that has a conversation about a topic related to an object in the real space that exists in the direction of the user's line of sight. May be. Further, the AR space video generation unit 116 may generate an image of a complex space including, as the VR space portion 74, a virtual object image that performs an operation according to an object in the real space that exists in the direction of the user's line of sight.
  • the presence in the mixed reality space is improved.
  • the above-described real space speech is considered to be an important element constituting the environment of the real space. Therefore, in the mixed reality technology, it is more important to improve the sense of reality in the mixed reality space as described above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

拡張現実空間や複合現実空間の臨場感を向上できる音声出力装置、ヘッドマウントディスプレイ、音声出力方法及びプログラムを提供する。AR空間映像生成部(116)は、仮想現実空間の画像が占める部分とユーザの周辺を撮影するカメラで撮影された実空間の画像が占める部分とを含む、ヘッドマウントディスプレイの表示部に表示される拡張現実空間又は複合現実空間の画像を生成する。合成音声生成部(108)は、仮想現実空間の音声とユーザの周辺の実空間の音声とを合成して合成音声を生成する。合成音声送信部(110)は、ユーザの耳の近傍に配置されるスピーカから放音される合成音声を出力する。

Description

音声出力装置、ヘッドマウントディスプレイ、音声出力方法及びプログラム
 本発明は、音声出力装置、ヘッドマウントディスプレイ、音声出力方法及びプログラムに関する。
 仮想現実空間の画像が占める部分とユーザの周辺を撮影するカメラで撮影された実空間の画像が占める部分とを含む画像から構成される拡張現実空間の映像を表示する技術が知られている。また近年、コンピュータグラフィックスで作られた仮想空間に実空間の情報を取り込み、実空間と仮想現実空間とを融合させる複合現実(MR)の技術が注目され始めている。実空間と仮想現実空間とが融合した複合現実空間においては、仮想現実空間に配置された仮想オブジェクトや仮想現実空間の環境と実空間に配置された物体や実空間の環境とのインタラクションがより重要となる。
 発明者らは、このような拡張現実空間や複合現実空間の映像を、頭部に装着して眼前に表示される映像を鑑賞できるヘッドマウントディスプレイ(HMD)に表示させることで、拡張現実空間や複合現実空間の中にいるような感覚をユーザに体験させることを検討している。
 一般的に、HMDを装着したユーザには、例えばBGM、効果音、仮想現実空間に配置されたキャラクタ等の仮想オブジェクトの声などといった仮想現実空間の音声が、イヤホンやヘッドホン等のユーザの耳の近傍に配置されるスピーカから聞こえるようになっている。
 しかしこの場合、上記スピーカから放音される音声によってユーザの周辺の実空間の音声が遮られるため、拡張現実空間や複合現実空間の臨場感が阻害されていた。
 本発明の目的の一つは、拡張現実空間や複合現実空間の臨場感を向上できる音声出力装置、ヘッドマウントディスプレイ、音声出力方法及びプログラムを提供することにある。
 上記課題を解決するために、本発明に係る音声出力装置は、仮想現実空間の画像が占める部分とユーザの周辺を撮影するカメラで撮影された実空間の画像が占める部分とを含む、ヘッドマウントディスプレイの表示部に表示される拡張現実空間又は複合現実空間の画像を生成する画像生成部と、前記仮想現実空間の音声と前記ユーザの周辺の実空間の音声とを合成して合成音声を生成する合成音声生成部と、前記ユーザの耳の近傍に配置されるスピーカから放音される前記合成音声を出力する音声出力部と、を含む。
 本発明の一態様では、前記合成音声生成部は、前記ユーザの視線に応じた音量のバランスで前記仮想現実空間の音声と前記実空間の音声とを合成して前記合成音声を生成する。
 また、本発明の一態様では、前記合成音声生成部は、前記仮想現実空間の音声と、前記ユーザの視線の方向の音声が強調された前記実空間の音声と、を合成して前記合成音声を生成する。
 また、本発明の一態様では、前記仮想現実空間の音声は、記憶されている音声データ又は受信する音声ストリームが表す音声である。
 また、本発明に係るヘッドマウントディスプレイは、ユーザの周辺を撮影するカメラ部と、前記ユーザの周辺の音声を取得するマイク部と、仮想現実空間の画像が占める部分と前記カメラで撮影された実空間の画像が占める部分とを含む拡張現実空間又は複合現実空間の画像を表示する表示部と、前記仮想現実空間の音声と前記マイクが取得する実空間の音声との合成音声を前記ユーザの耳の近傍に配置されるスピーカを介して出力する音声出力部と、を含む。
 また、本発明に係る音声出力方法は、仮想現実空間の画像が占める部分とユーザの周辺を撮影するカメラで撮影された実空間の画像が占める部分とを含む、ヘッドマウントディスプレイの表示部に表示される拡張現実空間又は複合現実空間の画像を生成するステップと、前記仮想現実空間の音声と前記ユーザの周辺の実空間の音声とを合成して合成音声を生成するステップと、前記ユーザの耳の近傍に配置されるスピーカから放音される前記合成音声を出力するステップと、を含む。
 また、本発明に係るプログラムは、仮想現実空間の画像が占める部分とユーザの周辺を撮影するカメラで撮影された実空間の画像が占める部分とを含む、ヘッドマウントディスプレイの表示部に表示される拡張現実空間又は複合現実空間の画像を生成する手順と、前記仮想現実空間の音声と前記ユーザの周辺の実空間の音声とを合成して合成音声を生成する手順と、前記ユーザの耳の近傍に配置されるスピーカから放音される前記合成音声を出力する手順と、をコンピュータに実行させる。
本発明の一実施形態に係るエンタテインメントシステムの全体構成の一例を示す図である。 本発明の一実施形態に係るヘッドマウントディスプレイの構成の一例を示す図である。 本発明の一実施形態に係るエンタテインメント装置の構成の一例を示す図である。 本発明の一実施形態に係る中継装置の構成の一例を示す図である。 AR空間画像の一例を示す図である。 注視点の一例を示す図である。 合成音声におけるVR空間音声の音量と実空間音声の音量とのバランスの一例を示す図である。 合成音声におけるVR空間音声の音量と実空間音声の音量とのバランスの別の一例を示す図である。 実空間音声において強調される実空間内の領域の一例を模式的に示す図である。 本発明の一実施形態に係るヘッドマウントディスプレイ及びエンタテインメント装置で実装される機能の一例を示す機能ブロック図である。 本発明の一実施形態に係るヘッドマウントディスプレイ及びエンタテインメント装置において行われる処理の流れの一例を示すフロー図である。
 以下、本発明の一実施形態について、図面を参照しながら説明する。
 図1は、本発明の一実施形態に係るエンタテインメントシステム10の全体構成の一例を示す図である。図2Aは、本実施形態に係るヘッドマウントディスプレイ(HMD)12の構成の一例を示す図である。図2Bは、本実施形態に係るエンタテインメント装置14の構成の一例を示す図である。図2Cは、本実施形態に係る中継装置16の構成の一例を示す図である。
 図1に示すように、本実施形態に係るエンタテインメントシステム10は、HMD12とエンタテインメント装置14と中継装置16とディスプレイ18とカメラマイクユニット20とコントローラ22とを含んでいる。
 本実施形態に係るHMD12には、例えば図2Aに示すように、プロセッサ30、記憶部32、通信部34、入出力部36、表示部38、センサ部40、音声出力部42、カメラ部44、視線検出部46、マイク部48が含まれる。そして通信部34には、第1通信部34aと第2通信部34bとが含まれる。
 プロセッサ30は、例えばHMD12にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。なお、HMD12に、プロセッサ30の代わりに、プロセッサ30によって実行される処理の実装が可能な制御回路が含まれるようにしてもよい。
 記憶部32は、例えばROMやRAM等の記憶素子などである。記憶部32には、プロセッサ30によって実行されるプログラムなどが記憶される。
 第1通信部34a及び第2通信部34bは、それぞれ例えば無線LANモジュールなどの通信インタフェースである。本実施形態では図1に示すように、第1通信部34a及び第2通信部34bは、HMD12の前側上方に配置されている。
 本実施形態では第1通信部34aで行われる通信の通信規格と第2通信部34bで行われる通信の通信規格とは異なっている。例えば第1通信部34aでは60GHz帯での通信が行われ、第2通信部34bでは5GHz帯又は2.4GHz帯での通信が行われる。
 入出力部36は、例えばHDMI(登録商標)(High-Definition Multimedia Interface)ポート、USBポート、AUXポートなどの入出力ポートである。
 表示部38は、HMD12の前側に配置されている、例えば液晶ディスプレイや有機ELディスプレイ等のディスプレイであり、エンタテインメント装置14が生成する映像などを表示させる。また表示部38は、HMD12の筐体に収容される。表示部38は、例えばエンタテインメント装置14が出力して中継装置16で中継される映像信号を受信して、当該映像信号が表す映像を出力するようにしてもよい。本実施形態に係る表示部38は、例えば左目用の画像と右目用の画像を表示することによって三次元画像を表示させることができるようになっている。なお表示部38は三次元画像の表示ができず二次元画像の表示のみができるものであっても構わない。
 センサ部40は、例えば加速度や角速度を検出可能なモーションセンサなどといったセンサである。センサ部40は、HMD12の回転量、移動量などの検出結果を所定のサンプリングレートで、プロセッサ30に出力する。
 音声出力部42は、例えばヘッドホンやイヤホン等の、ユーザの耳の近傍に配置されるスピーカであり、エンタテインメント装置14が生成する音声データが表す音声などを出力する。音声出力部42は、例えばエンタテインメント装置14が出力して中継装置16で中継される音声信号を受信して、当該音声信号が表す音声を出力する。
 カメラ部44は、例えばデジタルカメラなどのカメラであり、所定のフレームレートでHMD12を装着するユーザの周辺の様子を撮影する。図1に示すように、本実施形態に係るカメラ部44は、表示部38の上方に、表示部38の前方を撮影できるように2つ配置されている。そのため本実施形態に係るカメラ部44は、HMD12を装着するユーザの前方を撮影できることとなる。また本実施形態に係るカメラ部44は、例えば左目用の画像を撮影するためのレンズ及び右目用の画像を生成するためのレンズを備えたステレオカメラである。
 視線検出部46は、例えばHMD12を装着したユーザの視線を検出するセンサである。視線検出部46は、例えば、HMD12の筐体の内側に配置される。また視線検出部46は、HMD12を装着したユーザの視線の方向を検出する赤外線カメラを含んでいてもよい。
 マイク部48は、例えば周囲の音声を取得して当該音声を音声データに変換して出力するマイクである。またマイク部48が、特定の方向の音声が強調された音声データを出力する機能を備えていてもよい。例えばマイク部48が、アレイマイクロフォン等といった指向方向が可変なマイクであっても構わない。また例えばマイク部48が、ステレオマイクであってもよい。そしてこの場合に、ステレオマイクに入力された音声を加工して特定の方向の音声を強調する処理が実行可能なプログラムが記憶部32に記憶されており、当該プログラムがプロセッサ30により実行されてもよい。
 本実施形態に係るエンタテインメント装置14は、例えばゲームコンソール、DVDプレイヤ、Blu-ray(登録商標)プレイヤなどといったコンピュータである。本実施形態に係るエンタテインメント装置14は、例えば記憶されているゲームプログラムの実行や光ディスクに記録されたコンテンツの再生などによって映像や音声を生成する。そして本実施形態に係るエンタテインメント装置14は、生成される映像を表す映像信号や生成される音声を表す音声信号を、中継装置16を経由して、HMD12やディスプレイ18に出力する。
 本実施形態に係るエンタテインメント装置14には、例えば図2Bに示すように、プロセッサ50、記憶部52、通信部54、入出力部56が含まれる。
 プロセッサ50は、例えばエンタテインメント装置14にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。本実施形態に係るプロセッサ50には、CPUから供給されるグラフィックスコマンドやデータに基づいてフレームバッファに画像を描画するGPU(Graphics Processing Unit)も含まれている。なお、エンタテインメント装置14に、プロセッサ50の代わりに、プロセッサ50によって実行される処理の実装が可能な制御回路が含まれるようにしてもよい。
 記憶部52は、例えばROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部52には、プロセッサ50によって実行されるプログラムなどが記憶される。また、本実施形態に係る記憶部52には、GPUにより画像が描画されるフレームバッファの領域が確保されている。
 通信部54は、例えば無線LANモジュールなどの通信インタフェースである。
 入出力部56は、HDMIポート、USBポートなどの入出力ポートである。
 本実施形態に係る中継装置16は、エンタテインメント装置14から出力される映像信号や音声信号を中継してHMD12やディスプレイ18に出力するコンピュータである。
 本実施形態に係る中継装置16には、例えば図2Cに示すように、プロセッサ60、記憶部62、2つの通信部64(第1通信部64a及び第2通信部64b)、入出力部66が含まれる。
 プロセッサ60は、例えば中継装置16にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。なお、中継装置16に、プロセッサ60の代わりに、プロセッサ60によって実行される処理の実装が可能な制御回路が含まれるようにしてもよい。
 記憶部62は、例えばROMやRAM等の記憶素子などである。記憶部62には、プロセッサ60によって実行されるプログラムなどが記憶される。
 第1通信部64a及び第2通信部64bは、例えば無線LANモジュールなどの通信インタフェースである。本実施形態では、図1に示すように、中継装置16の前側に、第1通信部64a及び第2通信部64bが含まれている。
 本実施形態では第1通信部64aで行われる通信の通信規格と第2通信部64bで行われる通信の通信規格とは異なっている。例えば第1通信部64aでは60GHz帯での通信が行われ、第2通信部64bでは5GHz帯又は2.4GHz帯での通信が行われる。
 入出力部66は、HDMIポート、USBポートなどの入出力ポートである。
 本実施形態に係るディスプレイ18は、例えば液晶ディスプレイ等であり、エンタテインメント装置14から出力される映像信号が表す映像などを表示させる。
 本実施形態に係るカメラマイクユニット20は、例えば被写体を撮像した画像などといったカメラマイクユニット20の周辺の様子を表すデータをエンタテインメント装置14に出力するカメラ20aを含んでいる。また本実施形態に係るカメラ20aはステレオカメラである。また本実施形態に係るカメラマイクユニット20は、周囲の音声を取得して当該音声を音声データに変換してエンタテインメント装置14に出力するマイク20bを含んでいる。
 HMD12と中継装置16とは、例えば、無線通信によるデータの送受信が互いに可能になっている。エンタテインメント装置14と中継装置16とは、例えば、HDMIケーブルやUSBケーブルなどを介して接続されている。中継装置16とディスプレイ18とは、例えば、HDMIケーブルなどを介して接続されている。エンタテインメント装置14とカメラマイクユニット20とは、例えば、AUXケーブルなどを介して接続されている。
 本実施形態に係るコントローラ22は、エンタテインメント装置14に対する操作入力を行うための操作入力装置である。ユーザは、コントローラ22が備える方向キーやボタンを押下したり、操作スティックを傾けたりすることで、コントローラ22を用いて各種の操作入力を行うことができる。そして本実施形態では、コントローラ22は、操作入力に対応付けられる入力データをエンタテインメント装置14に出力する。また本実施形態に係るコントローラ22は、USBポートを備えている。そしてコントローラ22は、USBケーブルでエンタテインメント装置14と接続することで、有線で入力データをエンタテインメント装置14に出力することができる。また本実施形態に係るコントローラ22は、無線通信モジュール等を備えており、無線で入力データをエンタテインメント装置14に出力することができるようにもなっている。
 本実施形態では例えば、エンタテインメント装置14で、ゲームプログラム等のプログラムが実行される。そしてエンタテインメント装置14は、当該プログラムの実行状況に応じた3次元の仮想現実空間の映像を生成する。
 また本実施形態では、カメラ部44によりユーザの周辺の実空間の映像が撮影される。
 そして本実施形態では、エンタテインメント装置14が生成する仮想現実空間の映像と撮影される実空間の映像とに基づく拡張現実空間の映像が表示部38に表示される。なお以下では、表示部38に拡張現実空間の映像が表示される場合の一例について説明するが、表示部38に複合現実空間(MR空間)の映像が表示される場合についても本実施形態が適用可能であることは言うまでもない。
 以下、仮想現実空間をVR空間と呼び、拡張現実空間をAR空間と呼ぶこととする。また、カメラ部44により撮影される、ユーザが存在する実空間の映像を実空間映像と呼ぶこととする。また、エンタテインメント装置14が生成するVR空間の映像をVR空間映像と呼ぶこととする。また、実空間映像とVR空間映像とに基づくAR空間の映像をAR空間映像と呼ぶこととする。
 図3は、表示部38に表示されるAR空間映像を構成するフレーム画像の一例を示す図である。以下、図3に例示する、AR空間映像を構成するフレーム画像をAR空間画像70と呼ぶこととする。図3に示すように、AR空間画像70には、実空間映像を構成するフレーム画像が占める部分である実空間部分72とVR空間映像を構成するフレーム画像が占める部分であるVR空間部分74とが含まれている。図3の例では、仮想現実空間内に配置された仮想オブジェクトの画像が、VR空間部分74として示されている。ここでAR空間画像70は、実空間映像を構成するフレーム画像にVR空間映像を構成するフレーム画像が重畳された画像であっても構わない。
 そして本実施形態では、エンタテインメント装置14がプログラムを実行することにより生成又は再生される仮想現実空間の音声と、HMD12を装着するユーザの周辺の実空間の音声と、の合成音声が、音声出力部42から放音される。以下、プログラムを実行することにより生成又は再生される仮想現実空間の音声をVR空間音声と呼び、HMD12を装着するユーザの周辺の実空間の音声を実空間音声と呼ぶこととする。
 このように本実施形態では、VR空間音声と実空間音声とが合成された合成音声が音声出力部42から放音される。そのため、ユーザの周辺の実空間の音声が遮られた状態で音声出力部42からVR空間音声だけが放音される場合よりも拡張現実空間の臨場感が向上することとなる。
 ここでVR空間音声として、例えば、BGM、効果音、キャラクタの声などといった仮想オブジェクトに関する音声、などが挙げられる。またVR空間音声は、記憶部52に記憶された音声データやDVDディスクやBlu-rayディスク等の記録媒体に記録された音声データを再生することにより得られる音声であってもよい。またVR空間音声は、インターネットなどを介して受信する音声ストリームが表す音声であってもよい。
 そして本実施形態では、視線検出部46が検出するユーザの視線に応じた音量のバランスでVR空間音声と実空間音声とが合成された合成音声が音声出力部42から放音される。ここで例えば、視線検出部46が検出するユーザの視線が実空間部分72を向いているか仮想空間部分74を向いているかに応じて合成音声におけるVR空間音声の音量と実空間音声の音量とのバランスが設定されてもよい。
 図4は、ユーザの視線に対応付けられる注視点Pの一例を示す図である。本実施形態では、公知のアイトラッキング技術を用いることにより、視線検出部46による視線の検出結果に基づいて、ユーザの視点76を基準とした視線方向78、及び、当該視線方向78に対応付けられる注視点Pの位置が特定されることとする。そして本実施形態では例えば、注視点Pの位置に応じた音量のバランスでVR空間音声と実空間音声とが合成された合成音声が音声出力部42から放音される。
 図4には、表示部38の中心、左上隅、右上隅、左下隅、及び、右下隅のそれぞれに対応する位置が、3次元空間内の位置P0、位置P1、位置P2、位置P3、及び、位置P4として示されている。そして本実施形態では例えば、ユーザが正面を見ている際には、位置P0が注視点Pとして特定される。同様に、同様にユーザが表示部38の左上隅、右上隅、左下隅、右下隅、を見ている際には、それぞれ、位置P1、位置P2、位置P3、位置P4が、注視点Pとして特定される。
 そして図3には、特定される注視点Pの例として、注視点Pa、注視点Pb、及び、注視点Pcが示されている。
 ここで図3の例では、注視点Paの位置は、VR空間部分74内に存在している。この場合、図5Aに示すように、VR空間音声の音量の方が実空間音声の音量よりも大きい合成音声が生成されて、音声出力部42から放音される。この場合に例えば、図5Aに示すように、VR空間音声の音量が実空間音声の音量の倍となるよう音量のバランスが設定されてもよい。
 一方、注視点Pb、及び、注視点Pcの位置は、実空間部分72内に存在している。この場合、図5Bに示すように、実空間音声の音量の方がVR空間音声の音量よりも大きい合成音声が生成されて、音声出力部42から放音される。この場合に例えば、図5Bに示すように、実空間音声の音量がVR空間音声の音量の倍となるようバランスが設定されてもよい。
 以上のようにして本実施形態では、ユーザは視線を変えることによりVR空間音声と実空間音声との音量のバランスを制御できることとなる。例えばユーザは視線を変えることにより、ユーザの注視対象が仮想オブジェクトである場合にはVR空間音声が強調され、ユーザの注視対象が実空間内のオブジェクトである場合には実空間音声が強調されるよう制御できることとなる。
 また本実施形態に係る実空間音声は、注視点Pの位置に応じた方向からの音声が強調されるようになっている。ここで例えば、視線方向78からの音声が強調されてもよい。また例えば、視線方向78のベクトルを水平面に投影した方向からの音声が強調されてもよい。
 図6は、実空間音声において強調される実空間内の領域の一例を模式的に示す図である。図6には、HMD12を装着しているユーザを上から見た様子が描かれている。ここで例えば、注視点Pが図3に示す注視点Paのように正面より左側である場合に、図6の領域R1に示すように、左前方向からの音声が強調されるようにしてもよい。また例えば、注視点Pが図3に示す注視点Pbのように正面より右側である場合に、図6の領域R2に示すように、右前方向からの音声が強調されるようにしてもよい。また例えば、注視点Pが図3に示す注視点Pcのように正面である場合に、図6の領域R3に示すように、正面方向からの音声が強調されるようにしてもよい。
 また例えば、注視点Paのように、注視点Pの位置がVR空間部分74内である場合に、図6の領域R4に示すように、実空間音声における全方向の音声の音量が等しくてもよい。すなわち、この場合は実空間音声が無指向であってもよい。
 また例えば、公知の画像認識技術を用いて、実空間部分72内において、実空間に配置されている複数の物体のそれぞれの像が示されている部分の特定ができる場合がある。この場合、注視点Pの位置が特定の物体(例えば壁や天井など)の像が示されている部分内に存在する際には、図6の領域R4に示すように、実空間音声が無指向であってもよい。
 以上のようにして本実施形態では、ユーザは視線を変えることによりVR空間音声と合成される実空間音声の指向方向を制御できることとなる。
 なお本実施形態において、ユーザはコントローラ22を操作することなどにより、音声出力部42から出力されている音声の全体の音量を設定できてもよい。
 以下、本実施形態に係るHMD12及びエンタテインメント装置14の機能並びに本実施形態に係るHMD12及びエンタテインメント装置14で実行される処理についてさらに説明する。
 図7は、本実施形態に係るHMD12及びエンタテインメント装置14で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係るHMD12及びエンタテインメント装置14で、図7に示す機能のすべてが実装される必要はなく、また、図7に示す機能以外の機能が実装されていても構わない。
 図7に示すように、本実施形態に係るHMD12は、機能的には例えば、検出部80、視線情報送信部82、実空間音声供給部84、実空間音声送信部86、合成音声受信部88、合成音声出力部90、実空間映像取得部92、実空間映像送信部94、AR空間映像受信部96、AR空間映像表示制御部98、を含んでいる。
 検出部80は、視線検出部46を主として実装される。視線情報送信部82、実空間音声送信部86、合成音声受信部88、実空間映像送信部94、AR空間映像受信部96は、通信部34を主として実装される。実空間音声供給部84は、マイク部48、又は、プロセッサ30及びマイク部48を主として実装される。合成音声出力部90は、プロセッサ30及び音声出力部42を主として実装される。実空間映像取得部92は、カメラ部44を主として実装される。AR空間映像表示制御部98は、プロセッサ30及び表示部38を主として実装される。
 以上の機能は、コンピュータであるHMD12にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ30で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してHMD12に供給されてもよい。
 また図7に示すように、本実施形態に係るエンタテインメント装置14は、機能的には例えば、視線情報受信部100、実空間音声受信部102、バランス決定部104、VR空間音声供給部106、合成音声生成部108、合成音声送信部110、実空間映像受信部112、VR空間映像供給部114、AR空間映像生成部116、AR空間映像送信部118、を含んでいる。
 視線情報受信部100、実空間音声受信部102、合成音声送信部110、実空間映像受信部112、AR空間映像送信部118は、入出力部56を主として実装される。バランス決定部104、VR空間音声供給部106、合成音声生成部108、VR空間映像供給部114、AR空間映像生成部116は、プロセッサ50を主として実装される。
 以上の機能は、コンピュータであるエンタテインメント装置14にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ50で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してエンタテインメント装置14に供給されてもよい。
 検出部80は、本実施形態では例えば、ユーザの視線を検出して、当該視線の検出結果に基づいて、合成音声のバランスの決定に用いられる視線情報を生成する。ここで検出部80が、例えば、AR空間画像70内における注視点Pの位置を示す情報や、視線方向78のベクトルを表す情報を視線情報として生成してもよい。また検出部80が、例えば、注視点Pの位置を示す目印が重畳されたAR空間画像70を視線情報として生成してもよい。
 視線情報送信部82は、本実施形態では例えば、検出部80が生成する視線情報を、中継装置16経由でエンタテインメント装置14に送信する。
 実空間音声供給部84は、本実施形態では例えば、上述の実空間音声を実空間音声送信部86に供給する。ここで例えば実空間音声供給部84は、上述のように検出部80が生成する視線情報に基づいて特定される方向の音声が強調された指向性のある音声を実空間音声送信部86に供給してもよい。
 実空間音声送信部86は、本実施形態では例えば、実空間音声供給部84から供給される実空間音声を、中継装置16経由でエンタテインメント装置14に送信する。
 合成音声受信部88は、本実施形態では例えば、VR空間音声と実空間音声との合成音声を受信する。ここで合成音声受信部88は、ユーザの耳の近傍に配置されるスピーカから合成音声を放音してもよい。
 合成音声出力部90は、本実施形態では例えば、合成音声受信部88が受信する合成音声を出力する。
 実空間映像取得部92は、本実施形態では例えば、カメラ部44が撮影する実空間映像を取得する。
 実空間映像送信部94は、本実施形態では例えば、実空間映像取得部92が取得する実空間映像を中継装置16経由でエンタテインメント装置14に送信する。
 AR空間映像受信部96は、本実施形態では例えば、エンタテインメント装置14が生成するAR空間映像を受信する。
 AR空間映像表示制御部98は、本実施形態では例えば、AR空間映像受信部96が受信するAR空間映像を表示部38に表示させる。
 視線情報受信部100は、本実施形態では例えば、視線情報送信部82が送信する視線情報を受信する。
 実空間音声受信部102は、本実施形態では例えば、実空間音声送信部86が送信する実空間音声を受信する。
 バランス決定部104は、本実施形態では例えば、視線情報受信部100が受信する視線情報に基づいて、合成音声におけるVR空間音声と実空間音声とのバランスを決定する。ここで例えば、視線情報に基づいて注視点Pの位置がVR空間部分74内であることが特定される場合には、図5Aに示すように、VR空間音声の音量が実空間音声の音量よりも大きくなるようバランスが決定されてもよい。一方例えば、視線情報に基づいて、注視点Pの位置が実空間部分72内であることが特定される場合には、図5Bに示すように、実空間音声の音量の方がVR空間音声の音量よりも大きくなるようバランスが決定されてもよい。
 VR空間音声供給部106は、本実施形態では例えば、VR空間音声を合成音声生成部108に供給する。ここで上述のようにVR空間音声は、例えば、記憶されている音声データ又は受信する音声ストリームが表す音声であってもよい。
 合成音声生成部108は、本実施形態では例えば、VR空間音声と実空間音声とを合成して合成音声を生成する。合成音声生成部108は、VR空間音声供給部106が供給するVR空間音声と実空間音声受信部102が受信する実空間音声とを合成して合成音声を生成してもよい。また合成音声生成部108は、ユーザの視線に応じた音量のバランスでVR空間音声と実空間音声とを合成して合成音声を生成してもよい。またVR空間音声と合成される実空間音声は、ユーザの視線の方向の音声が強調された音声であってもよい。
 合成音声送信部110は、本実施形態では例えば、合成音声生成部108が生成する合成音声を中継装置16経由でHMD12に送信する。本実施形態に係る合成音声送信部110は、ヘッドホンやイヤホン等の、ユーザの耳の近傍に配置されるスピーカから放音される合成音声を出力する音声出力部としての役割を担うこととなる。
 実空間映像受信部112は、本実施形態では例えば、実空間映像送信部94が送信する実空間映像を受信する。
 VR空間映像供給部114は、本実施形態では例えば、VR空間映像をAR空間映像生成部116に供給する。
 AR空間映像生成部116は、本実施形態では例えば、実空間映像受信部112が受信する実空間映像とVR空間映像供給部114が供給するVR空間映像とに基づいてAR空間映像を生成する。上述のようにAR空間映像のフレーム画像であるAR空間画像70には、VR空間の画像が占めるVR空間部分74とユーザの周辺を撮影するカメラ部44で撮影された実空間の画像が占める実空間部分72とが含まれていてもよい。
 AR空間映像送信部118は、本実施形態では例えば、AR空間映像生成部116が生成するAR空間映像を中継装置16経由でHMD12に送信する。
 以下、本実施形態に係るHMD12及びエンタテインメント装置14で実行される処理の流れの一例を、図8に例示するフロー図を参照しながら説明する。なお本処理例では、以下に示すS101~S110に示す処理が繰り返し実行される。なお以下に示すS101~S110に示す処理が所定時間間隔で繰り返し実行されてもよい。
 まず検出部80が、検出されるユーザの視線に基づいて、表示されているAR空間画像70内における注視点Pの位置を示す視線情報を生成する(S101)。S101に示す処理では例えば表示されているAR空間画像70に注視点Pの位置を示す目印が重畳された視線情報が生成されてもよい。
 そして実空間音声供給部84が、実空間音声を表す実空間音声データを生成する(S102)。S102に示す処理では、前回のループにおける実空間音声データの生成タイミングから現在時刻までの実空間音声を表す実空間音声データが生成されてもよい。
 そして実空間音声供給部84は、S101に示す処理で生成された視線情報に対応付けられる方向から入力される音声が強調されるよう、マイク部48の指向方向を変更する(S103)。そのため本処理例では、S101に示す処理で生成された視線方向に応じた方向から入力される音声が強調された実空間音声を表す実空間音声データが、次回のループにおけるS102に示す処理で生成されることとなる。
 そして実空間映像取得部92が、カメラ部44が撮影するフレーム画像を取得する(S104)。以下S104に示す処理で取得されるフレーム画像を実空間画像と呼ぶこととする。
 そしてHMD12が、S101に示す処理で生成された視線情報、S102に示す処理で生成された実空間音声データ、及び、S104に示す処理で取得された実空間画像をエンタテインメント装置14に送信する。ここで機能的には、視線情報送信部82が視線情報を送信し、実空間音声送信部86が実空間音声データを送信し、実空間映像送信部94が実空間画像を送信する。
 そしてエンタテインメント装置14がこれらの視線情報、実空間音声データ、及び、実空間画像を受信する(S105)。
 そしてAR空間映像生成部116が、S105に示す処理で受信した実空間画像を実空間部分72として含みVR空間映像供給部114が供給する画像をVR空間部分74として含むAR空間画像70を生成する(S106)。
 そしてバランス決定部104が、S105に示す処理で受信した視線情報に基づいて、VR空間音声と実空間音声とのバランスを決定する(S107)。
 そして合成音声生成部108が、S107に示す処理で決定されたバランスで、VR空間音声供給部106が供給するVR空間音声とS105に示す処理で受信した実空間音声データが表す音声とを合成した合成音声を表す合成音声データを生成する(S108)。
 そしてエンタテインメント装置14は、S106に示す処理で生成されたAR空間画像70及びS108に示す処理で生成された合成音声データをHMD12に送信する。ここで機能的には、合成音声送信部110が合成音声データを送信し、AR空間映像送信部118がAR空間画像70を送信する。
 そしてHMD12がこれらの合成音声データ、及び、AR空間画像70を受信する(S109)。
 そしてAR空間映像表示制御部98が、S109に示す処理で受信したAR空間画像70を表示部38に表示させるとともに、合成音声出力部90が、S109に示す処理で受信した合成音声データが表す合成音声を音声出力部42から放音する(S110)。そしてS101に示す処理に戻る。
 そして上述のように本処理例では所定の時間間隔でS101~S110に示す処理が繰り返し実行されることとなる。
 なお実空間音声データの生成方法は上述の方法に限定されない。例えば上述のS102に示す処理において、実空間音声供給部84が、マイク部48が取得する音声に対して、直前のS101に示す処理で生成された視線情報に対応付けられる方向から入力される音声を強調する処理を実行してもよい。そして実空間音声供給部84が、強調する処理が実行された音声を表す実空間音声データを生成してもよい。
 またVR空間音声の音量と実空間音声の音量とのバランスの決定方法は上述の方法に限定されない。例えばS107に示す処理において、直前のS106に示す処理で生成されたAR空間画像70と、その前のS105に示す処理で受信された視線情報と、に基づいて、合成音声におけるVR空間音声と実空間音声とのバランスが決定されてもよい。例えばS106に示す処理で生成されたAR空間画像70内における、S105に示す処理で受信された視線情報に対応付けられる注視点Pの位置が特定されてもよい。そして注視点PがVR空間部分74に存在するか実空間部分72に存在するかに応じて合成音声におけるVR空間音声と実空間音声とのバランスが決定されてもよい。
 また例えば上述のS109に示す処理で、エンタテインメント装置14は、S106に示す処理で生成されたAR空間画像70及びS108に示す処理で生成された合成音声データを含むストリームデータをHMD12に送信してもよい。そしてAR空間映像表示制御部98が、HMD12が受信した当該ストリームデータからAR空間画像70を抽出してもよい。また合成音声出力部90が、HMD12が受信した当該ストリームデータから合成音声データを抽出してもよい。そしてAR空間映像表示制御部98が、抽出されたAR空間画像70を表示部38に表示させ、合成音声出力部90が、抽出された合成音声データが表す合成音声を音声出力部42から放音してもよい。
 なお、本発明は上述の実施形態に限定されるものではない。
 例えば、注視点Pが含まれる部分以外に対応付けられる音声がミュートされた合成音声が生成されてもよい。例えば注視点Pの位置がVR空間部分74内である場合は、実空間音声がミュートされた合成音声が生成されてもよい。また例えば、注視点Pの位置が実空間部分72内である場合は、VR空間音声がミュートされた合成音声が生成されてもよい。
 また例えば複数の仮想オブジェクトの像がVR空間部分74としてAR空間画像70に含まれていてもよい。そしてある仮想オブジェクトの像に注視点Pが含まれる場合に、当該仮想オブジェクトに対応付けられる音声の音量が他の仮想オブジェクトに対応付けられる音声の音量よりも大きい合成音声が生成されてもよい。具体的には例えば、仮想オブジェクトがキャラクタであり、あるキャラクタの像に注視点Pが含まれる場合に、当該キャラクタの声の音量が他のキャラクタの声の音量よりも大きい合成音声が生成されてもよい。
 また例えば、音声出力部42は、HMD12とは別体であるヘッドホンやイヤホンであっても構わない。
 また例えば、マイク部48が取得する音声の代わりにマイク20bが取得する音声が上述の実空間音声として用いられてもよい。
 また以上の説明における図7においてエンタテインメント装置14の機能として示されている示す機能の一部又は全部が、HMD12や中継装置16において実装されても構わない。具体的には例えばHMD12が、表示部38に表示されているAR空間画像70と視線検出部46が検出するユーザの視線に基づいて、合成音声におけるVR空間音声と実空間音声とのバランスを決定してもよい。そしてHMD12が、エンタテインメント装置14から受信するVR空間音声とマイク部48が取得する実空間音声とを合成して合成音声を生成してもよい。
 また上述のように本発明は、表示部38に複合現実空間(MR空間)の映像が表示される場合についても適用可能である。複合現実の技術においては、拡張現実の技術よりも、仮想現実空間に配置された仮想オブジェクトや仮想現実空間の環境と実空間に配置された物体や実空間の環境とのインタラクションがより重要となる。例えば、複合現実空間においては、仮想オブジェクトであるキャラクタと一緒にユーザが実空間に配置されたテレビを視聴することや、ユーザがキャラクタと自然な形で会話することが考えられる。また複合現実空間においては、例えば実空間音声を用いてキャラクタとユーザとが遊んだり、実空間音声に対するキャラクタの反応をユーザが楽しんだりすることも考えられる。
 ここで例えば、VR空間音声とユーザの視線の方向の音声が強調された実空間音声とが合成された合成音声が生成される場合に、VR空間映像供給部114が、ユーザの視線の方向に存在する物体を向く仮想オブジェクトが配置された画像を供給してもよい。そしてAR空間映像生成部116が、ユーザの視線の方向に存在する実空間内の物体を向くキャラクタ等の仮想オブジェクトの画像をVR空間部分74として含む複合空間の画像を生成してもよい。そしてこのようにして生成される複合空間の画像がHMD12に送信され、表示部38に表示されてもよい。
 またあるいは、VR空間音声供給部106が、ユーザの視線の方向に存在する実空間内の物体に対応付けられる音声を供給してもよい。具体的には例えば、ユーザの視線の方向に存在する実空間内の物体を会話における話題とする音声が供給されてもよい。そして合成音声生成部108が、実空間内の物体を会話における話題とする音声と実空間音声とを合成して合成音声を生成してもよい。そしてこのようにして生成される合成音声がHMD12に送信され、音声出力部42から出力されてもよい。
 またこの場合に、AR空間映像生成部116が、ユーザの視線の方向に存在する実空間内の物体に関する話題の会話を行う仮想オブジェクトの画像をVR空間部分74として含む複合空間の画像を生成してもよい。またAR空間映像生成部116が、ユーザの視線の方向に存在する実空間内の物体に応じた動作を行う仮想オブジェクトの画像をVR空間部分74として含む複合空間の画像を生成してもよい。
 例えば以上のようにすれば、複合現実空間における臨場感が向上することとなる。複合現実の技術では、上述の実空間音声が実空間の環境を構成する重要な一要素となると考えられる。そのため複合現実の技術においては、上述のようにして複合現実空間の臨場感を向上させることはより重要となる。
 また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims (7)

  1.  仮想現実空間の画像が占める部分とユーザの周辺を撮影するカメラで撮影された実空間の画像が占める部分とを含む、ヘッドマウントディスプレイの表示部に表示される拡張現実空間又は複合現実空間の画像を生成する画像生成部と、
     前記仮想現実空間の音声と前記ユーザの周辺の実空間の音声とを合成して合成音声を生成する合成音声生成部と、
     前記ユーザの耳の近傍に配置されるスピーカから放音される前記合成音声を出力する音声出力部と、
     を含むことを特徴とする音声出力装置。
  2.  前記合成音声生成部は、前記ユーザの視線に応じた音量のバランスで前記仮想現実空間の音声と前記実空間の音声とを合成して前記合成音声を生成する、
     ことを特徴とする請求項1に記載の音声出力装置。
  3.  前記合成音声生成部は、前記仮想現実空間の音声と、前記ユーザの視線の方向の音声が強調された前記実空間の音声と、を合成して前記合成音声を生成する、
     ことを特徴とする請求項1又は2に記載の音声出力装置。
  4.  前記仮想現実空間の音声は、記憶されている音声データ又は受信する音声ストリームが表す音声である、
     ことを特徴とする請求項1から3のいずれか一項に記載の音声出力装置。
  5.  ユーザの周辺を撮影するカメラ部と、
     前記ユーザの周辺の音声を取得するマイク部と、
     仮想現実空間の画像が占める部分と前記カメラで撮影された実空間の画像が占める部分とを含む拡張現実空間又は複合現実空間の画像を表示する表示部と、
     前記仮想現実空間の音声と前記マイクが取得する実空間の音声との合成音声を前記ユーザの耳の近傍に配置されるスピーカを介して出力する音声出力部と、
     を含むことを特徴とするヘッドマウントディスプレイ。
  6.  仮想現実空間の画像が占める部分とユーザの周辺を撮影するカメラで撮影された実空間の画像が占める部分とを含む、ヘッドマウントディスプレイの表示部に表示される拡張現実空間又は複合現実空間の画像を生成するステップと、
     前記仮想現実空間の音声と前記ユーザの周辺の実空間の音声とを合成して合成音声を生成するステップと、
     前記ユーザの耳の近傍に配置されるスピーカから放音される前記合成音声を出力するステップと、
     を含むことを特徴とする音声出力方法。
  7.  仮想現実空間の画像が占める部分とユーザの周辺を撮影するカメラで撮影された実空間の画像が占める部分とを含む、ヘッドマウントディスプレイの表示部に表示される拡張現実空間又は複合現実空間の画像を生成する手順と、
     前記仮想現実空間の音声と前記ユーザの周辺の実空間の音声とを合成して合成音声を生成する手順と、
     前記ユーザの耳の近傍に配置されるスピーカから放音される前記合成音声を出力する手順と、
     をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2017/047225 2017-01-06 2017-12-28 音声出力装置、ヘッドマウントディスプレイ、音声出力方法及びプログラム WO2018128161A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018560395A JP6616023B2 (ja) 2017-01-06 2017-12-28 音声出力装置、ヘッドマウントディスプレイ、音声出力方法及びプログラム
US16/472,560 US11086587B2 (en) 2017-01-06 2017-12-28 Sound outputting apparatus and method for head-mounted display to enhance realistic feeling of augmented or mixed reality space

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-001267 2017-01-06
JP2017001267 2017-01-06

Publications (1)

Publication Number Publication Date
WO2018128161A1 true WO2018128161A1 (ja) 2018-07-12

Family

ID=62791284

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/047225 WO2018128161A1 (ja) 2017-01-06 2017-12-28 音声出力装置、ヘッドマウントディスプレイ、音声出力方法及びプログラム

Country Status (3)

Country Link
US (1) US11086587B2 (ja)
JP (1) JP6616023B2 (ja)
WO (1) WO2018128161A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113039815A (zh) * 2018-11-09 2021-06-25 候本株式会社 声音生成方法及执行其的装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10871939B2 (en) * 2018-11-07 2020-12-22 Nvidia Corporation Method and system for immersive virtual reality (VR) streaming with reduced audio latency
US11711332B2 (en) * 2021-05-25 2023-07-25 Samsung Electronics Co., Ltd. System and method for conversation-based notification management

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10153946A (ja) * 1996-11-25 1998-06-09 Mitsubishi Electric Corp 感覚情報提示装置
JP2016033764A (ja) * 2014-07-31 2016-03-10 セイコーエプソン株式会社 表示装置、表示装置の制御方法、および、プログラム
JP2016208348A (ja) * 2015-04-24 2016-12-08 セイコーエプソン株式会社 表示装置、表示装置の制御方法、及び、プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4926916B2 (ja) * 2007-11-07 2012-05-09 キヤノン株式会社 情報処理装置、情報処理方法、およびコンピュータプログラム
US8624924B2 (en) * 2008-01-18 2014-01-07 Lockheed Martin Corporation Portable immersive environment using motion capture and head mounted display
US20090219224A1 (en) * 2008-02-28 2009-09-03 Johannes Elg Head tracking for enhanced 3d experience using face detection
US9480919B2 (en) * 2008-10-24 2016-11-01 Excalibur Ip, Llc Reconfiguring reality using a reality overlay device
JP2011170282A (ja) * 2010-02-22 2011-09-01 Toshiba Corp 再生装置および再生方法
US20130328925A1 (en) * 2012-06-12 2013-12-12 Stephen G. Latta Object focus in a mixed reality environment
US9618747B2 (en) * 2013-03-13 2017-04-11 Jason Villmer Head mounted display for viewing and creating a media file including omnidirectional image data and corresponding audio data
US9710130B2 (en) * 2013-06-12 2017-07-18 Microsoft Technology Licensing, Llc User focus controlled directional user input
US10062208B2 (en) * 2015-04-09 2018-08-28 Cinemoi North America, LLC Systems and methods to provide interactive virtual environments
US20170277257A1 (en) * 2016-03-23 2017-09-28 Jeffrey Ota Gaze-based sound selection
US10481682B2 (en) * 2016-03-29 2019-11-19 Google Llc System and method for generating virtual marks based on gaze tracking
WO2017214040A1 (en) * 2016-06-06 2017-12-14 Warner Bros. Entertainment Inc. Mixed reality system
JP6757420B2 (ja) * 2016-12-09 2020-09-16 株式会社ソニー・インタラクティブエンタテインメント 音声制御装置、音声制御方法及びプログラム
JP7252965B2 (ja) * 2018-02-15 2023-04-05 マジック リープ, インコーポレイテッド 複合現実のための二重聴取者位置
US10516959B1 (en) * 2018-12-12 2019-12-24 Verizon Patent And Licensing Inc. Methods and systems for extended reality audio processing and rendering for near-field and far-field audio reproduction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10153946A (ja) * 1996-11-25 1998-06-09 Mitsubishi Electric Corp 感覚情報提示装置
JP2016033764A (ja) * 2014-07-31 2016-03-10 セイコーエプソン株式会社 表示装置、表示装置の制御方法、および、プログラム
JP2016208348A (ja) * 2015-04-24 2016-12-08 セイコーエプソン株式会社 表示装置、表示装置の制御方法、及び、プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113039815A (zh) * 2018-11-09 2021-06-25 候本株式会社 声音生成方法及执行其的装置
US20220021998A1 (en) * 2018-11-09 2022-01-20 Whoborn Inc. Method for generating sound and devices for performing same
CN113039815B (zh) * 2018-11-09 2022-11-11 候本株式会社 声音生成方法及执行其的装置

Also Published As

Publication number Publication date
US11086587B2 (en) 2021-08-10
JP6616023B2 (ja) 2019-12-04
JPWO2018128161A1 (ja) 2019-06-27
US20190324708A1 (en) 2019-10-24

Similar Documents

Publication Publication Date Title
US11669298B2 (en) Virtual and real object recording in mixed reality device
KR102197544B1 (ko) 공간화 오디오를 가진 혼합 현실 시스템
US9219961B2 (en) Information processing system, computer-readable non-transitory storage medium having stored therein information processing program, information processing control method, and information processing apparatus
US11373379B2 (en) Image generation apparatus and image generation method for generating augmented reality images based on user interaction
US9241231B2 (en) Information processing system, computer-readable non-transitory storage medium having stored therein information processing program, information processing control method, and information processing apparatus
JP2019087226A (ja) 情報処理装置、情報処理システムおよび表情画像出力方法
JP6616023B2 (ja) 音声出力装置、ヘッドマウントディスプレイ、音声出力方法及びプログラム
US20240042318A1 (en) Gaming with earpiece 3d audio
WO2020026419A1 (ja) 画像生成装置および画像生成方法
JP6757420B2 (ja) 音声制御装置、音声制御方法及びプログラム
CN112272817A (zh) 用于在沉浸式现实中提供音频内容的方法和装置
JP2020501275A (ja) 画像処理システムおよび方法
CN114422935A (zh) 音频处理方法、终端及计算机可读存储介质
WO2018007779A1 (en) Augmented reality system and method
KR20210056414A (ko) 혼합 현실 환경들에서 오디오-가능 접속된 디바이스들을 제어하기 위한 시스템
US11882172B2 (en) Non-transitory computer-readable medium, information processing method and information processing apparatus
JP2022022871A (ja) 処理装置および没入度導出方法
WO2022149497A1 (ja) 情報処理装置、情報処理方法およびコンピュータプログラム
WO2022149496A1 (ja) エンタテインメントシステムおよびロボット
JP2023167168A (ja) 情報処理装置、情報処理方法及びプログラム
TW202410699A (zh) 用於多個音訊串流的延遲最佳化
JP2020020966A (ja) 仮想空間及び音声提供システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17890121

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018560395

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17890121

Country of ref document: EP

Kind code of ref document: A1