WO2017098772A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- WO2017098772A1 WO2017098772A1 PCT/JP2016/077745 JP2016077745W WO2017098772A1 WO 2017098772 A1 WO2017098772 A1 WO 2017098772A1 JP 2016077745 W JP2016077745 W JP 2016077745W WO 2017098772 A1 WO2017098772 A1 WO 2017098772A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- space
- communication
- sound
- information processing
- unit
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 59
- 238000003672 processing method Methods 0.000 title claims abstract description 6
- 230000006854 communication Effects 0.000 claims abstract description 230
- 238000004891 communication Methods 0.000 claims abstract description 230
- 238000000926 separation method Methods 0.000 claims abstract description 30
- 230000007613 environmental effect Effects 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000004807 localization Effects 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 47
- 238000000034 method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M11/00—Telephonic communication systems specially adapted for combination with other electrical systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/157—Conference systems defining a virtual conference space and using avatars or agents
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
Definitions
- the present disclosure relates to an information processing apparatus, an information processing method, and a program.
- a video teleconference system that allows conversation between two places where there are multiple participants.
- a display device, a camera, a microphone, and a speaker are provided at each location, and a video captured at one location and collected audio data are displayed in real time at the other location. Output from the device and speaker.
- Patent Document 1 when a call is made by sharing content with a communication partner, the content indicated by the content data is selectively shared while preventing infringement of the privacy of the user. A system that can be made to do so has been proposed.
- Patent Document 2 it is proposed that the degree of request for communication between the user and the communication partner can be determined based on the user's status information so that comfortable communication without inconvenience can be performed. Yes. As a result, it is possible to avoid receiving a call that is inconvenient for the user, such as when the other party misses the status information and makes a call, or the other party forcibly calls.
- Patent Document 1 it is possible to selectively share content with a communication partner, but no consideration is given to the distance between spaces such as the distance to the communication partner and the time between them.
- an information processing apparatus and a control that can realize a more comfortable communication by using a virtual three-dimensional space for connection with a communication partner and aurally producing a distance in the space. Propose methods and programs.
- the audio data in the communication destination space is received according to the distance between the reception unit that receives data from the communication destination and the communication destination and the communication source that are arranged in a virtual three-dimensional space.
- An information processing apparatus comprising: a reproduction control unit that controls reproduction from an audio output unit in the communication source space with an output value that differs for each sound source type.
- the processor receives the data from the communication destination, and the voice of the communication destination space according to the separation distance between the communication destination and the communication source arranged in the virtual three-dimensional space.
- Proposing an information processing method including: controlling data to be reproduced from an audio output unit in the communication source space with an output value that differs for each sound source type.
- the computer is configured to change the space of the communication destination according to the distance between the reception unit that receives data from the communication destination and the communication destination and the communication source that are arranged in a virtual three-dimensional space.
- a program is proposed for causing audio data to function as a reproduction control unit that controls to reproduce audio data from an audio output unit in the communication source space with an output value that differs for each sound source type.
- FIG. 1 is a diagram illustrating an overview of a telepresence system according to an embodiment of the present disclosure.
- FIG. It is a block diagram which shows an example of a structure of the communication control apparatus by this embodiment. It is a figure explaining the distance of the space on the three-dimensional space by this embodiment. It is a figure explaining the distance of the space on the three-dimensional space by this embodiment. It is a figure which shows an example of the calculation formula of the connection requirement level of a user by this embodiment. It is a figure which shows an example of the calculation formula of the optimal connection degree by this embodiment. It is a figure explaining volume control according to the distance of the space on the three-dimensional space by this embodiment.
- the telepresence system 1 allows distant spaces to be connected by video / audio / other information channels, and makes it feel as if the other party is present by connecting the places. For example, when a parent and a child are living apart from each other, it is possible to make it appear as if the living spaces of each other are connected through windows and doors. When the living spaces are connected to each other, the user can live while roughly grasping the state of the partner space (the state of the child, the state of the parent, etc.).
- a method of applying a two-dimensional planar filter process such as blur processing (blurring) or mask processing (shielding) to the other party's living image is also considered.
- a sense of distance such as depth and direction could not be expressed.
- the present embodiment by using a virtual three-dimensional space as a connection between the spaces and controlling the distance between the connected spaces, it is possible to realize more comfortable communication and provide a comfortable connection degree for the user. To do.
- the distance between the spaces can be audibly produced by reproducing a three-dimensional acoustic space.
- audio data is arranged for each sound source type in a virtual three-dimensional space coordinate and reproduced, or audio data associated with the space is reproduced. It is possible to make the user feel the "space” (also referred to as "distance” in this specification) between the other party's spaces.
- the distance between the spaces can be felt visually.
- the video of the communication destination here, the video of the living space
- the user feels that the other party is present at an arbitrary distance. be able to.
- the distance between the spaces can be optimized automatically and continuously according to the user state and the like, so that it is possible to save time and effort of the user operation.
- the telepresence system 1 includes communication control devices 10A, 10B, and 10C and a processing server 30, which are connected via a network 20.
- Each of the communication control devices 10A, 10B, and 10C has an input unit, acquires information on a space where the user A, the user B, and the user C are present, and transmits the information to another communication control device 10 or the processing server 30.
- Each of the communication control devices 10A, 10B, and 10C has an output unit, and outputs information received from another communication control device 10 or the processing server 30. In the example shown in FIG. 1, three communication control devices 10 are shown, but the present embodiment is not limited to this.
- the processing server 30 performs a bidirectional communication synchronization process between any two or more of the communication control apparatuses 10A to 10C, and a calculation / control of a separation distance based on a connection request level from both.
- the telepresence system 1 may be configured not to include the processing server 30 so that the synchronization processing, the separation distance calculation / control, and the like are performed by the communication control devices 10A, 10B, and 10C.
- FIG. 2 is a block diagram illustrating an example of the configuration of the communication control apparatus 10 according to the present embodiment.
- the communication control device 10 includes an input unit 101, a spatial information processing unit 102, a state determination unit 103, a spatial distance control unit 104, an operation I / F (interface) 105, a 3D courtyard space generation unit 106, A communication unit 107, a spatial information generation unit 108, an output unit 109, a storage unit 110, a transmission information generation unit 111, a sound source discrimination DB (database) 112, and a voice DB 113 are included.
- the input unit 101 has a function of inputting spatial information.
- the input unit 101 is realized by a camera 1011, a microphone (abbreviation of microphone) 1012, and a sensor 1013.
- the camera 1011 captures an image of a space (for example, a living room) and acquires a captured image.
- the sensor 1013 has a function of detecting various information in and around the space. For example, a temperature sensor, a humidity sensor, an illuminance sensor, a human sensor, a door open / close sensor, and the like are assumed.
- the spatial information processing unit 102 acquires various spatial information from the input unit 101, prepares and outputs data so that the state determination unit 103 can use it as a material for state determination. Examples of data preparation include noise processing, image analysis, object recognition, and voice analysis. Furthermore, the spatial information processing unit 102 performs user recognition based on the acquired spatial information. User recognition is the personal identification of the user in the space, the user's position (where in the room, etc.), posture (standing, sitting, sleeping, etc.), emotion (enjoying, sad , Etc.), behavior (preparing for dinner, watching TV, reading a book, etc.), recognition of busyness (whether moving around, etc.). Further, the spatial information processing unit 102 performs environment recognition based on the acquired spatial information.
- Environment awareness refers to the current time of the space (morning, noon, evening, midnight), brightness (room brightness, light from windows), temperature, sound (sound collected in the space), Recognition of the region (where the space exists), the degree of order (room cleanup), etc. are assumed.
- the spatial information processing unit 102 performs sound source separation for sound space (sound image) reproduction and creation of a sound database by sound generation.
- the spatial information processing unit 102 separates audio data for each sound source from audio data collected by a microphone 1012 (for example, an array microphone) provided inside and outside the user-side space (for example, a living space).
- the sound data for each sound source is, for example, speech data for each user, footstep data, object sound data for each object (such as furniture moving sound, faucet sound, metal sound of tableware), environmental sound data (outdoor environmental sound) Etc.) is assumed.
- the spatial information processing unit 102 analyzes the sound source position (direction of arrival, etc.) of the separated audio data together with the sound source separation.
- the sound source discrimination can be performed based on, for example, voice arrival direction, distance, sound frequency and characteristics, voice data stored in the sound source discrimination DB 112, and a captured image taken by the camera 1011.
- the spatial information processing unit 102 can create a database by storing the voice data separated from the sound source in the voice DB 113 in association with a speaker or an event.
- the audio data stored in the audio DB 113 is not limited to audio data acquired in real time, and may be audio data generated using, for example, an acoustic generation algorithm.
- characteristic sounds in the room for example, furniture moving sounds, entrance door opening / closing sounds, stairs up / down sounds, wall clock chimes, etc.
- characteristic sounds in the room for example, furniture moving sounds, entrance door opening / closing sounds, stairs up / down sounds, wall clock chimes, etc.
- the spatial information processing unit 102 outputs the audio data collected by the microphone 1012 and the audio data separated from the sound source to the transmission information generation unit 111 and the state determination unit 103. Also, the spatial information processing unit 102 replaces the voice data collected by the microphone 1012 with the voice data registered in the voice DB 113 in advance, and outputs it to the transmission information generation unit 111 and the state determination unit 103. Good. Further, the spatial information processing unit 102 detects an indoor event detected by the camera 1011, the microphone 1012, or the sensor 1013 (for example, ON / OFF operation or state change in an IoT-compatible device, stairs up / down, door opening / closing, etc.). The associated audio data may be extracted from the audio DB 113 or generated by a predetermined acoustic generation algorithm and output to the transmission information generation unit 111 and the state determination unit 103.
- the state determination unit 103 determines the state of the space and the state of the user (that is, the context of the communication source space) based on the information acquired and output by the spatial information processing unit 102. For example, the state determination unit 103 determines a space state or a user state based on the user recognition result and the environment recognition result by the spatial information processing unit 102.
- the context of the communication source space may include the state of the user, the state of the real space in which the user is present, time, season, weather, place, or relationship with the other user.
- the spatial distance control unit 104 has a function of controlling the distance (depth separation distance) in the three-dimensional space between connected spaces.
- a comfortable connection state is realized by arranging information acquired from a communication destination space at an appropriate distance in a three-dimensional space and showing the depth of the connection.
- FIG. 3A and FIG. 3B the distance between the spaces in the three-dimensional space according to the present embodiment will be described.
- FIGS. 3A and 3B a case will be described in which the counterpart space image 41 is arranged at a predetermined distance in the depth direction on the basis of the window frame 40 displayed on the communication source display 1091A in the three-dimensional space. .
- FIG. 3A shows an arrangement example 400a when the partner space image 41 is arranged at a distance of zero with respect to the window frame 40 in the three-dimensional space.
- the partner space image 41 is displayed in the full window frame 40, and the user can feel that the partner's space is immediately in front of one another through one window.
- the lower part of FIG. 3A shows an arrangement example 400b in the case where the counterpart space image 41 is arranged at a distance slightly away from the window frame 40.
- the other party space image 41 is displayed slightly in the back direction from the window frame 40, and the user is at a position slightly away from the other party's space, so the psychological resistance is lower than when the distance is zero.
- FIG. 3B an arrangement example 400c in the case where the counterpart space image 41 is arranged at a further distance is shown.
- the psychological resistance is lower than in the case of the distance shown in the lower part of FIG. 3A.
- 3B shows an arrangement example 400d in the case where the counterpart space image 41 is arranged at a further distance than the arrangement example 400c in the upper part of FIG. 3B.
- the psychological resistance is lower than the distance shown in the upper part of FIG. 3B.
- the distance from the partner space is adjusted based on, for example, the connection request level of the user and the connection request level of the communication destination user.
- the user connection request level is calculated based on the determination result (context of the communication source space) output from the state determination unit 103 by the spatial distance control unit 104, for example.
- FIG. 4 shows an example of a calculation formula for the user connection request level. As shown in Expression 1 of FIG. 4, the connection request level can be calculated by multiplying the user element (user state) and the environmental element (space state).
- the strength of the required level is calculated with a numerical value between 0 and 100.
- the present embodiment as shown in FIG. 4, it is also possible to calculate “duration” and “clarity” as connection request levels.
- the “space” is a separation distance in a three-dimensional space, and a comfortable connection state can be realized by outputting so as to maintain an appropriate distance from the connected partner.
- “Clarity” is the appearance of the image of the communication destination space. In the present embodiment, it is possible to prevent the other party's video from being clearly seen by blurring or blocking, and the visibility at this time is referred to as “clarity”.
- connection request level of the communication destination user is transmitted from the communication control apparatus 10 of the communication destination via the communication unit 107.
- the spatial distance control unit 104 calculates the optimum connection degree based on the calculated connection request level of the user and the received connection request level of the communication destination user.
- FIG. 5 shows an example of an expression for calculating the optimum connection degree.
- the optimum connection degree is calculated by multiplying the connection request level of the user A and the connection request level of the user B. To do.
- the stronger the optimum degree of connection the shorter the distance between the spaces, and the clearer the video, the more realistic the connection, and the lower the optimum degree of connection, the longer the distance between the spaces.
- the connection is made with a low presence.
- the calculation formula has been described on the assumption that “connection degree” includes both “interval” and “clarity”, but the present embodiment is not limited to this, and “connection degree” is “ It may be calculated as including only “space”.
- the operation I / F (interface) 105 receives an operation input from the user and outputs the operation input to the spatial distance control unit 104 or the 3D courtyard space generation unit 106.
- the user can arbitrarily set the “user connection request level” or set a scene in the space described below.
- operation input from the user to various objects arranged in the three-dimensional space is also possible.
- the 3D courtyard space generation unit 106 includes an image of the communication destination space arranged in the three-dimensional space according to the distance to the communication partner set by the spatial distance control unit 104, and the near side that is the communication source user side.
- the 3D space in between is referred to as “3D courtyard space” and the space is generated.
- Information from the communication source or communication destination is reflected in the “3D courtyard space”, and a designated object can be arranged. This makes it possible to display a screen that is connected to the communication partner's space through a virtual courtyard.
- the surrounding information of the partner space, and the like in the courtyard space it becomes possible to indirectly recognize the partner state.
- the transmission information generation unit 111 can adjust the amount of data to be transmitted to the communication destination via the communication unit 107.
- the output value of the audio data reproduced at the communication destination is controlled according to the distance in the three-dimensional space between the communication source and the communication destination, for example, audio data that is not reproduced at the communication destination is not transmitted. By doing so, it is possible to reduce communication costs and protect user privacy.
- the transmission information generation unit 111 generates a low-resolution video and outputs it to the communication unit 107, and the output of the audio data to the communication unit 107 stops.
- the transmission information generation unit 111 can output only the data indicating the event to the communication unit 107 and transmit it to the communication destination.
- the communication unit 107 is connected to another communication control device 10 or the processing server 30 via the network 20, and transmits and receives data.
- the communication unit 107 uses the spatial information output from the spatial information processing unit 102, the spatial distance output from the spatial distance control unit 104, and the 3D courtyard space information output from the 3D courtyard space generation unit 106 as a communication destination. It transmits to the control apparatus 10 or the processing server 30.
- the communication unit 107 receives the spatial information, the spatial distance, the information on the 3D courtyard space, and the like received from the communication control apparatus 10 or the processing server 30 as the communication destination.
- the displayed 3D courtyard space and the distance in the three-dimensional space can be synchronized at the communication source and the communication destination.
- the communication unit 107 can also receive information (weather information, news, schedule information, etc.) acquired by the processing server 30 from the related service server on the network, or the information directly from the related service server on the network. It is.
- the spatial information generation unit 108 generates spatial information based on the 3D courtyard space generated by the 3D courtyard space generation unit 106 and the image of the communication destination space received via the communication unit 107, and outputs the spatial information to the output unit 109. Send it out.
- the spatial information generation unit 108 generates spatial image information by combining the 3D courtyard space generated by the 3D courtyard space generation unit 106 with the video of the communication destination space received via the communication unit 107, and the display 1091 Control to display.
- the spatial information generation unit 108 controls to generate spatial acoustic information for reproducing an acoustic space (sound image) according to the spatial distance and reproduce it by the speaker 1092.
- the spatial information generation unit 108 includes a courtyard environmental sound corresponding to the 3D courtyard space generated by the 3D courtyard space generation unit 106, a room sound and a room sound in the communication destination space received via the communication unit 107. Is set according to the distance D between the communication source space and the communication destination space in the three-dimensional space.
- the volume control according to the distance between the spaces in the three-dimensional space according to the present embodiment will be described with reference to FIG.
- the room sound has a volume smaller than the room sound when the distance D is short (close), but becomes a volume larger than the room sound from a certain distance away as shown in FIG.
- the spatial information generation unit 108 can reproduce the three-dimensional acoustic space more effectively by performing the sound image localization processing of the sound data for each sound source.
- the output unit 109 has a function of presenting the spatial information generated by the spatial information generation unit 108 to the communication source user.
- the output unit 109 is realized by the display 1091, the speaker 1092, or the indicator 1093.
- sound can be presented by a virtual sound source localization technique or the like using a speaker configuration such as monaural, stereo, or 5.1ch surround in reproduction of an acoustic space.
- a wavefront synthesis speaker or the like using a speaker array, the sound and sound of the other user in the living space of the communication partner can be accurately localized, and a reference plane (for example, a display 1091 is installed by a plane wave). It is also possible to reproduce environmental sounds from the entire wall.
- a configuration in which a sound image localization speaker realized by a stereo speaker or the like and a planar speaker capable of presenting planar sound without localization from the entire reference surface may be combined.
- the storage unit 110 stores data transmitted / received via the communication unit 107.
- the communication unit 107 is connected.
- the present embodiment is not limited to this, and can be used as a storage area of each component included in the communication control device 10.
- the partner space image 41 is arranged at a distance (separation distance) according to the connection degree based on the connection request level of both the communication source and the communication destination in the three-dimensional space, The sound also changes according to the distance.
- distance D1 and distance D2 shown in FIG. 6 examples of output from the display 1091A and the speaker 1092 as the communication source when the separation distance gradually increases from zero (distance D1 and distance D2 shown in FIG. 6) will be described with reference to FIGS. .
- FIG. 7 is a diagram showing an output example when the spatial distance is zero according to the present embodiment.
- the window frame 40 is displayed on the display 1091 ⁇ / b> A installed on the wall surface of the space where the user A is present, and the partner space image 41 is displayed all over the inside of the window frame 40.
- the partner space image 41 is, for example, a captured image of a living room where the partner user B is present.
- Such a video is, for example, a real-time video shot in the partner space.
- a camera 1011 is installed around the display 1091A.
- stereo speakers 1092-1A are installed on both sides of the display 1091A, and a flat speaker 1092-2A is installed on the entire wall on which the display 1091A is installed.
- the sound image localization and volume control are performed so that the indoor sound 60 and the indoor object sound 61 of the communication destination can be heard immediately in front of the user through the window frame 40 displayed on the display 1091A. Played from -1A.
- a microphone 1012 can also be installed around the display 1091A.
- FIG. 8 is a diagram showing a display example at the time of the spatial distance D1 according to the present embodiment.
- the partner space image 41 is displayed in the back away from the window frame 40, so that the user can visually sense the distance to the partner, and feels presence in front of him / herself. It may be a more comfortable connection.
- the partner space image 41 is synthesized with the window portion of the virtual building 51 in, for example, a three-dimensional space.
- the 3D courtyard space S1 exists between the partner space image 41, and the user A can feel that the user A is connected to the partner space via the 3D courtyard space S1.
- the spatial distance and the 3D courtyard space are also synchronized in the partner space, and the near-side video is displayed in real time at the same spatial distance on the partner's display, and the 3D courtyard space is displayed in the same manner.
- FIG. 9 is a view showing a display example at the time of the spatial distance D2 according to the present embodiment. Since the spatial distance D2 is longer in the depth direction than the spatial distance D1, as shown in FIG. 9, the partner space image 41 is displayed at a location further away from the window frame 40, and the user visually determines the distance to the partner. You will feel more. Regarding the sound, the courtyard sounds 66 and 67 are reproduced from the entire wall by the flat speaker 1092-2A at a louder volume than the case shown in FIG. 8, while the room sound and the indoor object sound of the other party space are not reproduced. The user can audibly feel the distance to the partner more than the case shown in FIG.
- FIGS. 7 to 9 described above a scene in which a communication partner user lives in a log house opposite to the forest is applied.
- the present embodiment is not limited to this, and various scenes are used. Can be applied.
- the scene selection may be performed by the communication source user or the communication destination user, or may be automatically determined on the system side.
- Communication control processing> 10 and 11 are sequence diagrams illustrating communication control processing according to the present embodiment.
- the communication control device 10A is a communication source (space A)
- the communication control device 10B is a communication destination (space B)
- data is transmitted / received via the processing server 30. To do.
- the communication control apparatus 10A calls the connection destination to the communication control apparatus 10B (step S103), and receives a connection permission from the communication control apparatus 10B (step S106). Establish (step S109).
- the communication control apparatus 10A acquires the spatial information by the spatial information processing unit 102 (step S112), and the state determination unit 103 determines the state of the user A and the state of the space A (step S115).
- the communication control device 10A transmits spatial information and status information from the communication unit 107 to the communication control device 10B (step S118).
- step S121 acquisition of spatial information
- step S124 the state of user B / space B
- various information is transmitted to the communication control device 10A (step S127). ).
- the communication control apparatus 10A calculates the connection request level of the user A by the spatial distance control unit 104 (step S130), and transmits it to the processing server 30 (step S133).
- the connection request level of the user A may be arbitrarily input by the user A, or may be calculated based on the determination result of the user state or the space state.
- connection request level of the user B is calculated by the spatial distance control unit 104 (step S136) and transmitted to the processing server 30 (step S139).
- the processing server 30 adjusts the distance based on the connection request level of the user A and the connection request level of the user B (step S142). That is, the processing server 30 calculates an optimum connection degree based on the connection request level of the user A and the connection request level of the user B.
- the calculation of the degree of connection can be performed according to Equation 2 described above with reference to FIG.
- the processing server 30 transmits the calculated distance to the communication control devices 10A and 10B, respectively (steps S145 and S148).
- the spatial distance control unit 104 performs optimal control of the spatial distance (steps S151 and S154). Specifically, the spatial distance control unit 104 sets the distance transmitted from the processing server 30 as the spatial distance.
- the processing server 30 transmits scene information to the communication control devices 10A and 10B (steps S157 and S163).
- the transmitted scene information may be information on a scene selected by the user A or the user B, or information on a scene automatically determined by the processing server 30.
- the communication control apparatus 10A uses the 3D courtyard space generation unit 106 to generate a 3D courtyard space using the scene information transmitted from the processing server 30, the spatial information received in step S127, and the state determination information ( Step S160).
- the related information weather information, illuminance in the partner space, cooker state, partner user schedule information, action history, etc.
- the 3D courtyard space generation unit 106 receives the related information. Are also reflected in the 3D courtyard space (step S172).
- step S166 the 3D courtyard space is generated (step S166), and the received related information is reflected in the 3D courtyard space (steps S175 and S178).
- step S193 / Yes the communication control apparatus 10B confirms the connection end to the communication control apparatus 10B (step S196), and the communication control apparatus 10B permits the connection end.
- step S199 the session is disconnected (step S202).
- the processing server 30 performs synchronization processing, calculation of the optimum connection degree, transmission of scene information, and the like.
- the present embodiment is not limited to this, and these processes are performed by the communication control device 10. It is also possible to do this.
- the spatial information processing unit 102 of the communication control apparatus 10 acquires sound collection data in the space (step S203), and performs sound source separation and determination (step S206). Specifically, the spatial information processing unit 102 determines the arrival direction, sound volume, characteristics, and sound source position of the sound data separated from the sound source. At this time, the spatial information processing unit 102 can refer to the sound source discrimination DB 112.
- the spatial information processing unit 102 associates the sound source position and audio data and registers them in the audio DB 113 (step S206).
- the voice DB 113 may be shared with the communication partner.
- the spatial information processing unit 102 transmits the sound data separated from the sound source together with the determination result to the partner user side (communication destination) via the communication unit 107 (step S212).
- FIG. 13 is a flowchart of the sound source reproduction process according to the present embodiment.
- the spatial information generation unit 108 of the communication control device 10 generates spatial information (step S303).
- the generation of the spatial information is performed based on the spatial information received from the communication destination or the voice data associated with the event in the communication destination space extracted from the voice DB 113 shared with the communication destination user.
- the spatial information generation unit 108 instructs the output unit 109 to present spatial information (step S306).
- step S312 / stereo when the corresponding speaker type is stereo (step S312 / stereo), the output unit 109 outputs audio data with a predetermined attribute corresponding to the stereo speaker (step S318).
- the output unit 109 when the corresponding speaker type is a plane (step S312 / plane), the output unit 109 outputs audio data with a predetermined attribute corresponding to the plane speaker (step S315).
- a display installed in the communication source space as a window (or door) and displaying a spatial image in which the image of the communication partner's space is arranged at a predetermined distance in the three-dimensional space. It is also possible to visually express the distance to the communication partner.
- the aspect ratio of the display installed on the wall surface may be realized in accordance with the dimensions used in actual windows and doors. Further, when the display is regarded as a door, the presence of the space beyond the door can be expressed more realistically by arranging the display so that the lower side of the display is located near the floor surface.
- the aspect ratio of the video display area in the communication partner space arranged in the three-dimensional space may be controlled to be the same as the aspect ratio of the display.
- the communication control device 10 or hardware (CPU (Central Processing Unit), ROM (Read Only Memory), and RAM (Random Access Memory)) incorporated in the processing server 30, or the communication control device 10, or A computer program for demonstrating the function of the processing server 30 can also be created.
- a computer-readable storage medium storing the computer program is also provided.
- the voice output unit of the communication source space is output with different output values for each sound source type according to the separation distance between the communication destination and the communication source arranged in a virtual three-dimensional space.
- a playback control unit for controlling playback from An information processing apparatus comprising: (2)
- the information processing apparatus includes: A distance control unit for controlling a virtual separation distance between the communication source and the communication destination in the three-dimensional space; The information according to (1), wherein the distance control unit controls the separation distance according to a connection degree adjusted based on a connection request level from the communication source and a connection request level from the communication destination. Processing equipment.
- the information processing apparatus wherein the connection request level is calculated according to a user context determined based on spatial information.
- the voice data of the communication destination space is voice data received from the communication destination by the receiving unit, or voice data extracted from a predetermined database based on data received from the communication destination by the receiving unit, The information processing apparatus according to any one of (1) to (3).
- the reproduction control unit increases the utterance voice data and object sound data of the communication destination space as the communication destination space is closer to the communication source space arranged in the three-dimensional space, The environmental sound in the communication destination space is controlled to be small, and the farther the communication destination space is, the utterance voice data and object sound data are reduced, and the environmental sound is greatly controlled.
- the information processing apparatus according to any one of claims.
- the reproduction control unit performs sound image localization control so that speech data and object sound data of the audio data are reproduced at corresponding sound image positions, and environmental sound is reproduced from the entire reference plane of the communication source space.
- the information processing apparatus according to (5), wherein the information processing apparatus is controlled.
- the information processing apparatus includes: A sound source separation unit for performing sound source separation of audio data acquired from the communication source space;
- the transmission unit according to any one of (1) to (6), further including: a transmission unit that transmits the data acquired from the communication source space including the audio data separated from the sound source to the communication destination.
- Information processing device is
- the information processing apparatus includes: A generation unit configured to generate spatial image information in which an image corresponding to the communication destination space is arranged at a predetermined position corresponding to the separation distance in the three-dimensional space;
- the information processing apparatus according to any one of (1) to (7), further comprising: a display control unit configured to control the generated spatial image information to be displayed on a display unit in the communication source space. .
- a receiving unit for receiving data from a communication destination;
- the voice output unit of the communication source space is output with different output values for each sound source type according to the separation distance between the communication destination and the communication source arranged in a virtual three-dimensional space.
- a playback control unit for controlling playback from Program to function as
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】通信相手とのつながりに仮想的な3次元空間を用いて、当該空間内の距離を聴覚的に演出し、より快適なコミュニケーションを実現することが可能な情報処理装置、情報処理方法、およびプログラムを提供する。 【解決手段】通信先からデータを受信する受信部と、仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御する再生制御部と、を備える、情報処理装置。
Description
本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
近年、通信技術の発達により、複数人の参加者がいる2つの場所間で会話を行うTV電話会議システムが提案されている。具体的には、例えば表示装置、カメラ、マイク、およびスピーカが各場所に設けられ、一方の場所で撮影された映像および収音された音声データが、リアルタイムで、他方の場所に設置された表示装置およびスピーカから出力される。
このような双方向通信技術に関し、例えば下記特許文献1では、通信相手とコンテンツを共有して通話を行う際に、ユーザのプライバシーの侵害を防止しつつ、コンテンツデータが示すコンテンツを選択的に共有させることができるシステムが提案されている。
また、下記特許文献2では、ユーザの状態情報に基づいて、自分と通信相手の通信に対する要求の度合いを判断し、相互に不都合のない快適なコミュニケーションを行うようにすることができることが提案されている。これにより、相手が状態情報を見逃して呼び出しを行ったり、また、相手が強制的に呼び出しを行う等、ユーザにとって不都合な呼び出しを受けることを回避することができる。
しかしながら、上述した特許文献1では、通信相手とコンテンツを選択的に共有することは可能であるが、通信相手との距離や間合いといった空間同士の距離については考慮されていない。
また、上述した特許文献2においても、空間同士をつなげるタイミング(すなわち呼び出しタイミング)について善処されているが、空間同士の距離については何ら言及されていない。
そこで、本開示では、通信相手とのつながりに仮想的な3次元空間を用いて、当該空間内の距離を聴覚的に演出し、より快適なコミュニケーションを実現することが可能な情報処理装置、制御方法、およびプログラムを提案する。
本開示によれば、通信先からデータを受信する受信部と、仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御する再生制御部と、を備える、情報処理装置を提案する。
本開示によれば、プロセッサが、通信先からデータを受信することと、仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御することと、を含む、情報処理方法を提案する。
本開示によれば、コンピュータを、通信先からデータを受信する受信部と、仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御する再生制御部と、として機能させるための、プログラムを提案する。
以上説明したように本開示によれば、通信相手とのつながりに仮想的な3次元空間を用いて、当該空間内の距離を聴覚的に演出し、より快適なコミュニケーションを実現することが可能となる。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、説明は以下の順序で行うものとする。
1.本開示の一実施形態による情報処理装置の概要
2.通信制御装置の構成
3.空間情報の出力例
4.動作処理
4-1.通信制御処理
4-2.音源分離処理
4-3.音源再生処理
5.まとめ
1.本開示の一実施形態による情報処理装置の概要
2.通信制御装置の構成
3.空間情報の出力例
4.動作処理
4-1.通信制御処理
4-2.音源分離処理
4-3.音源再生処理
5.まとめ
<<1.本開示の一実施形態による情報処理装置の概要>>
本開示の一実施形態によるテレプレゼンスシステム1の概要について図1を参照して説明する。本実施形態によるテレプレゼンスシステム1は、離れた空間同士を映像・音声・その他の情報チャンネルによって接続し、あたかもその場所がつながって相手が存在しているように感じさせることを可能とする。例えば親と子供が離れて暮らしている際に、互いのリビング空間が窓やドアを介してつながっているように見せることを可能とする。互いのリビング空間が接続されると、ユーザは、相手空間の様子(子供の様子、親の様子等)を大まかに把握しながら生活することができる。
本開示の一実施形態によるテレプレゼンスシステム1の概要について図1を参照して説明する。本実施形態によるテレプレゼンスシステム1は、離れた空間同士を映像・音声・その他の情報チャンネルによって接続し、あたかもその場所がつながって相手が存在しているように感じさせることを可能とする。例えば親と子供が離れて暮らしている際に、互いのリビング空間が窓やドアを介してつながっているように見せることを可能とする。互いのリビング空間が接続されると、ユーザは、相手空間の様子(子供の様子、親の様子等)を大まかに把握しながら生活することができる。
ここで、一般的なビデオチャット技術では、映像音声チャネルによる遠隔コミュニケーション時に、映像の表示/非表示や音声のON/OFF(ミュート)といった、0か1かの切替えはできるものの、つながり度合いの細かな調整はできなかった。そのため、常に高臨場感でつながりたくはないが、相手の様子を感じていたいといったユーザのニーズに応えられていなかった。また、接続状態の切替えはユーザが手動で行う必要があり、操作コストの面でも利用頻度の向上を妨げていた。
また、テレプレゼンス通信装置において、つながり度合いを段階的に調整できる事例として、例えば相手のリビング映像にブラー処理(ぼかし)やマスク処理(遮蔽)等の2次元平面的なフィルター処理をかける方式も考えられるが、音響的には、奥行きや方向などの距離感が表現できていなかった。
そこで、本実施形態では、空間のつながりに仮想の3次元空間を用いて、接続する空間同士の距離を制御することで、より快適なコミュニケーションの実現や、ユーザにとって心地よいつながり度合いの提供を可能とする。空間同士の距離は、3次元空間的な音響空間の再現により聴覚的に演出することができる。本実施形態によるテレプレゼンスシステム1は、仮想の3次元空間座標内に音声データを音源種別毎に配置して再生、若しくは空間に関連付けられた音声データを再生することで、聴覚的にユーザ側と相手側の空間同士の「間合い」(本明細書では「距離」とも称す)を感じさせることを可能とする。例えば、仮想の3次元空間内において相手側のリビング空間が近付いてくると、向こう側の室内の細かな物音や相手ユーザの声が聞こえてきて、そのまま自然な会話が可能となる。一方、相手側のリビング空間が離れていくと、物音や声は次第に音量が下がり、代わりに相手側のリビング空間との間の空間(本明細書では「中庭空間」と称す)の環境音として任意の音声データの音量が大きくなる。これにより、ユーザに心地よい聴覚的な間合いを感じさせることができる。
また、空間同士の距離は、視覚的にも感じさせることが可能である。例えば通信先の映像(ここでは、リビング空間の映像)を仮想的な3次元空間内に配置した画像を表示することで、相手が任意の距離に離れて存在しているような感覚を感じさせることができる。
また、空間同士の距離は、ユーザ状態等に応じて自動的かつ連続的に最適化することで、ユーザ操作の手間を省くことが可能となる。
このような本実施形態によるテレプレゼンスシステム1は、図1に示すように、通信制御装置10A、10B、10Cと、処理サーバ30を含み、これらはネットワーク20を介して接続されている。
通信制御装置10A、10B、10Cは、それぞれ、入力部を有し、ユーザA、ユーザB、ユーザCが居る空間の情報を取得して他の通信制御装置10または処理サーバ30に送信する。また、通信制御装置10A、10B、10Cは、それぞれ出力部を有し、他の通信制御装置10または処理サーバ30から受信した情報を出力する。なお図1に示す例では3つの通信制御装置10を示しているが、本実施形態はこれに限定されない。
処理サーバ30は、通信制御装置10A~10Cのいずれか2以上の装置間における双方向通信の同期処理や、双方からのつながり要求レベルに基づく離隔距離の算出・制御等を行う。なお、同期処理、離隔距離の算出・制御等を、各通信制御装置10A、10B、10Cで行うようにして、テレプレゼンスシステム1を処理サーバ30を含まない構成としてもよい。
<<2.通信制御装置の構成>>
続いて、本実施形態による通信制御装置10の構成について図2を参照して説明する。図2は、本実施形態による通信制御装置10の構成の一例を示すブロック図である。
続いて、本実施形態による通信制御装置10の構成について図2を参照して説明する。図2は、本実施形態による通信制御装置10の構成の一例を示すブロック図である。
図2に示すように、通信制御装置10は、入力部101、空間情報処理部102、状態判定部103、空間距離制御部104、操作I/F(インタフェース)105、3D中庭空間生成部106、通信部107、空間情報生成部108、出力部109、記憶部110、送信情報生成部111、音源判別用DB(データベース)112、および音声DB113を有する。
入力部101は、空間情報を入力する機能を有する。例えば入力部101は、カメラ1011、マイク(マイクロホンの略称)1012、およびセンサ1013により実現される。カメラ1011は、複数であってもよく、空間内(例えばリビング)を撮像し、撮像画像を取得する。また、マイク1012は、複数であってもよく、空間内の音声や、空間周辺(例えば隣の部屋、廊下、家の外等)の環境音を集音し、音声データを取得する。また、センサ1013は、空間内や空間周辺の各種情報を検知する機能を有し、例えば、温度センサ、湿度センサ、照度センサ、人感センサ、ドア開閉センサ等が想定される。
空間情報処理部102は、入力部101から様々な空間情報を取得し、状態判定部103により状態判定の素材として用いることができるようデータを準備し、出力する。データの準備とは、例えばノイズ処理、画像解析、物体認識、音声解析等である。さらに、空間情報処理部102は、取得した空間情報に基づいて、ユーザ認識を行う。ユーザ認識とは、その空間に居るユーザの個人識別、ユーザの位置(部屋のどこに居るか等)、姿勢(立っているか、座っているか、寝ているか等)、感情(楽しんでいるか、悲しんでいるか等)、行動(夕飯の準備をしている、テレビを見ている、本を読んでいる等)、繁忙度(忙しそうに動き回っているか等)の認識が想定される。また、空間情報処理部102は、取得した空間情報に基づいて、環境認識を行う。環境認識とは、その空間の現在の時間帯(朝方、昼、夕方、深夜)、明るさ(部屋の明るさ、窓からの光)、温度、音響(空間内で収音された音)、地域(その空間が存在する場所)、整頓度(部屋の片づけ具合)等の認識が想定される。
空間情報処理部102による音声解析についてさらに説明する。本実施形態による空間情報処理部102は、音響空間(音像)再現のための音源分離、および音響生成による音声データベース作成を行う。例えば空間情報処理部102は、ユーザ側空間(例えばリビング空間)の内外に設けられたマイク1012(例えばアレイマイク)が収音した音声データから、音源別に音声データを分離する。音源別の音声データとは、例えばユーザ毎の発話音声データ、足音データ、物体毎の物音データ(家具の動く音、蛇口の音、食器類の金属音等)、環境音データ(屋外の環境音など)等が想定される。また、空間情報処理部102は、音源分離と共に、分離した音声データの音源位置(到来方向等)を解析する。音源判別は、例えば音声の到来方向、距離、音の周波数や特徴と、音源判別用DB112に格納されている音声データや、カメラ1011により撮像された撮像画像に基づいて行われ得る。また、空間情報処理部102は、音源分離した音声データを、発話者や事象と紐付けて音声DB113に格納し、データベースを作成し得る。音声DB113に格納される音声データは、リアルタイムに取得した音声データに限らず、例えば音響生成アルゴリズム等を用いて生成された音声データであってもよい。また、音声DB113には、ガンマイクによって収音された室内の特徴的な音(例えば家具の動く音、玄関ドアの開閉音、階段の昇降音、掛け時計のチャイム等)が予め登録されていてもよい。
空間情報処理部102は、マイク1012により収音された音声データ、および音源分離した音声データを送信情報生成部111、および状態判定部103に出力する。また、空間情報処理部102は、マイク1012により収音された音声データを、予め音声DB113に登録されている音声データに差し替えて、送信情報生成部111、および状態判定部103に出力してもよい。さらに、空間情報処理部102は、カメラ1011、マイク1012、またはセンサ1013により検知した室内での事象(例えばIoT対応機器におけるON/OFF動作や状態変化、階段の上り下り、ドアの開閉等)に紐付けられた音声データを音声DB113から抽出または所定の音響生成アルゴリズムにより生成し、送信情報生成部111および状態判定部103に出力してもよい。
状態判定部103は、空間情報処理部102により取得され、出力された情報に基づいて、空間の状態やユーザの状態(すなわち、通信元の空間のコンテキスト)を判定する。例えば状態判定部103は、空間情報処理部102によるユーザ認識結果および環境認識結果に基づいて、空間の状態やユーザの状態を判定する。なお、通信元の空間のコンテキストには、ユーザの状態、ユーザが居る実空間の状態、時間、季節、天候、場所、または相手ユーザとの関係性が含まれ得る。
空間距離制御部104は、接続された空間同士の3次元空間上の距離(奥行きの離隔距離)を制御する機能を有する。本実施形態では、3次元空間上の適切な距離に、通信先の空間から取得した情報を配置し、つながりに奥行きを見せることで、心地よいつながり状態を実現する。ここで図3Aおよび図3Bを参照して、本実施形態による3次元空間上の空間同士の距離について説明する。図3Aおよび図3Bに示す例では、3次元空間上において、通信元のディスプレイ1091Aに表示される窓枠40を基準として、相手空間画像41が奥行き方向の所定距離に配置される場合について説明する。
図3A上段では、相手空間画像41が、3次元空間上で窓枠40に対して距離ゼロに配置されている場合の配置例400aを示す。この場合、窓枠40いっぱいに相手空間画像41が表示され、ユーザは、相手の空間が一つの窓を介してすぐ目の前にあるように感じることができる。図3A下段では、相手空間画像41が、窓枠40から少し離れた距離に配置されている場合の配置例400bを示す。この場合、窓枠40から多少奥方向に、相手空間画像41が表示され、ユーザは、相手の空間が少し離れた位置にあるため、心理的抵抗が距離ゼロの場合よりも下がる。次いで、図3B上段では、相手空間画像41が、さらに離れた距離に配置されている場合の配置例400cを示す。この場合、ユーザは、相手の空間が離れた位置にあるため、心理的抵抗が図3A下段に示す距離の場合よりも下がる。続いて、図3B下段では、相手空間画像41が、図3B上段の配置例400cよりもさらに離れた距離に配置されている場合の配置例400dを示す。この場合、ユーザは、相手の空間がさらに離れた位置にあるため、心理的抵抗が図3B上段に示す距離の場合よりも下がる。
かかる相手空間との距離は、例えばユーザのつながり要求レベルと通信先ユーザのつながり要求レベルとに基づいて調整される。まず、ユーザのつながり要求レベルは、例えば空間距離制御部104により、状態判定部103から出力された判定結果(通信元の空間のコンテキスト)に基づいて算出される。ここで、図4に、ユーザのつながり要求レベルの算出式の一例を示す。図4の式1に示すように、つながり要求レベルは、ユーザ要素(ユーザの状態)と環境要素(空間の状態)を掛け合わせて算出され得る。例えばユーザが母親で、洗顔中であって、通信先空間の様子を見たいという状態であって、また、空間内は騒がしく、掃除前の時間帯で、晴天といった空間状態である場合に、つながり要求レベルの強弱が0~100の数値で算出される。なお本実施形態では、図4に示すように、つながり要求レベルとして、「間合い」と「明快度」を算出することも可能である。「間合い」とは、すなわち3次元空間上の離隔距離であって、繋がっている相手との適切な距離を保つよう出力することで、心地よい接続状態を実現することができる。「明快度」とは、通信先空間の映像の見え具合である。本実施形態では、ぼかしたり遮蔽したりすることで、相手の映像が鮮明に見えないようにすることが可能であって、この際の見え具合を「明快度」と称す。
通信先ユーザのつながり要求レベルは、通信部107を介して、通信先の通信制御装置10から送信される。
そして、空間距離制御部104は、算出したユーザのつながり要求レベルと、受信した通信先ユーザのつながり要求レベルとに基づいて、最適なつながり度合いを算出する。ここで、図5に、最適なつながり度合いの算出式の一例を示す。図5の式2に示すように、例えばユーザAとユーザBのつながり度合いを算出する場合、ユーザAのつながり要求レベルと、ユーザBのつながり要求レベルとを掛け合わせて、最適なつながり度合いを算出する。本実施形態では、最適なつながり度合いが強い程、空間同士の距離は短く、また、映像も鮮明に見えるため、高臨場感で接続し、最適なつながり度合いが低い程、空間同士の距離は長く、また、映像が鮮明に見えないため、低臨場感で接続する。なお、ここでは一例として「つながり度合い」が「間合い」と「明快度」の両方を含むものとして算出式の説明を行ったが、本実施形態はこれに限定されず、「つながり度合い」が「間合い」のみを含むものとして、算出してもよい。
操作I/F(インタフェース)105は、ユーザからの操作入力を受け付け、空間距離制御部104や3D中庭空間生成部106へ出力する。これにより、例えば、ユーザが任意に「ユーザのつながり要求レベル」を設定したり、次に説明する空間のシーンを設定したりすることが可能となる。また、3次元空間に配置された各種オブジェクトに対するユーザからの操作入力も可能となる。
3D中庭空間生成部106は、空間距離制御部104により設定された通信相手との距離に応じて3次元空間に配置された通信先の空間の映像と、通信元ユーザ側である手前側との間の3D空間を、「3D中庭空間」と称し、かかる空間の生成を行う。「3D中庭空間」には、通信元または通信先からの情報が反映され、また、指定されたオブジェクトが配置されたりすることも可能である。これにより、通信相手の空間と、仮想の中庭を通じてつながっているような画面を表示することが可能となる。また、中庭空間に、通信相手のユーザ状態や空間状態、相手空間の周辺情報等を反映させることで、間接的に相手の状態を認識することが可能となる。
送信情報生成部111は、通信部107を介して通信先へ送信するデータ量を調整することが可能である。本実施形態では、通信元と通信先の3次元空間内での距離に応じて、通信先で再生される音声データの出力値が制御されるため、例えば通信先で再生されない音声データは送信しないようにすることで、通信コストを削減し、また、ユーザのプライバシーも保護することができる。具体的には、例えば空間距離制御部104により設定された最適なつながり度合いに応じた距離が長く、通信元と通信先が3次元空間で遠く離れている場合、通信先で表示される映像は小さく、また、室内の音声データは再生されないため、送信情報生成部111は、低解像度の映像を生成して通信部107へ出力し、音声データの通信部107への出力は停止する。
また、送信情報生成部111は、空間内の事象に対応する音声データを通信相手側が有する場合、事象を示すデータのみを通信部107へ出力して通信先へ送信させることも可能である。
通信部107は、ネットワーク20を介して他の通信制御装置10や処理サーバ30と接続し、データの送受信を行う。例えば通信部107は、空間情報処理部102から出力された空間情報、空間距離制御部104から出力された空間距離、3D中庭空間生成部106から出力された3D中庭空間の情報を通信先の通信制御装置10または処理サーバ30へ送信する。また、通信部107は、通信先の通信制御装置10または処理サーバ30から受信した空間情報、空間距離、3D中庭空間の情報等を受信する。本実施形態では、通信元および通信先において、表示される3D中庭空間および3次元空間上の距離が同期され得る。また、通信部107は、処理サーバ30がネットワーク上の関連サービスサーバから取得した情報(天候情報、ニュース、スケジュール情報等)、またはネットワーク上の関連サービスサーバから当該情報を直接、受信することも可能である。
空間情報生成部108は、3D中庭空間生成部106により生成された3D中庭空間と、通信部107を介して受信した通信先の空間の映像に基づいて、空間情報を生成し、出力部109に送出する。例えば空間情報生成部108は、3D中庭空間生成部106により生成された3D中庭空間に、通信部107を介して受信した通信先の空間の映像を合成した空間画像情報を生成し、ディスプレイ1091で表示するよう制御する。
また、空間情報生成部108は、空間距離に応じた音響空間(音像)再現のための空間音響情報を生成し、スピーカ1092で再生するよう制御する。例えば、空間情報生成部108は、3D中庭空間生成部106により生成された3D中庭空間に対応する中庭環境音と、通信部107を介して受信した通信先の空間における室内音声、室内物音のそれぞれの音量を、3次元空間内における通信元空間および通信先空間の距離Dに応じて設定する。ここで、図6を参照して本実施形態による3次元空間上の空間同士の距離に応じた音量制御について説明する。
図6に示す例では、空間Aと空間Bとの距離がD1の場合、室内音声、室内物音の音量が大きく、中庭環境音の音量が小さい。距離Dが長く(遠く)なる程、室内音声、室内物音の音量が小さく、中庭環境音の音量が大きくなる。また、室内物音は、距離Dが短い(近い)場合は室内音声より小さい音量であるが、図6に示すように、一定距離離れた時点からは室内音声よりも大きい音量となる。図6に示す音量グラフは一例であるが、本実施形態では、このように、3次元空間的な音響処理として、仮想空間内の距離に応じて再生する音声(音量)を変化させることで、聴覚的に空間距離を感じさせ、心地よいつながりを実現することが可能となる。
また、空間情報生成部108は、音源別音声データの音像定位処理を併せて行うことで、より効果的に、3次元音響空間を再現することが可能となる。
出力部109は、空間情報生成部108により生成された空間情報を、通信元のユーザに提示する機能を有する。例えば出力部109は、ディスプレイ1091、スピーカ1092、またはインジケータ1093により実現される。
ここで、本実施形態によるスピーカ1092の構成例について説明する。本実施形態では、音響空間の再現において、モノラル、ステレオ、5.1chサラウンド等のスピーカ構成を用いて、バーチャル音源定位技術等によって音声を提示することができる。また、スピーカーアレイを用いた波面合成スピーカ等を用いることで、通信相手のリビング空間内の相手ユーザの音や物音を正確に音像定位し、また、平面波により基準面(例えばディスプレイ1091が設置されている壁)全面から環境音を再生することも可能となる。
また、本実施形態では、ステレオスピーカ等により実現される音像定位可能なスピーカと、基準面全面から定位のない平面的な音声を提示できる平面スピーカ等を組み合わせた構成としてもよい。
記憶部110は、通信部107を介して送受信されるデータを記憶する。また、図2に示す例では、通信部107に接続しているが、本実施形態はこれに限定されず、通信制御装置10に含まれる各構成の記憶領域として用いられ得る。
<<3.空間情報の出力例>>
上述したように、本実施形態では、相手空間画像41が、3次元空間上において、通信元と通信先の両者のつながり要求レベルに基づいたつながり度合いに応じた距離(離隔距離)に配置され、音声も距離に応じて変化する。ここで、離隔距離がゼロの場合から徐々に広がる場合(図6に示す距離D1、距離D2)における通信元のディスプレイ1091Aおよびスピーカ1092での出力例について図7~図9を参照して説明する。
上述したように、本実施形態では、相手空間画像41が、3次元空間上において、通信元と通信先の両者のつながり要求レベルに基づいたつながり度合いに応じた距離(離隔距離)に配置され、音声も距離に応じて変化する。ここで、離隔距離がゼロの場合から徐々に広がる場合(図6に示す距離D1、距離D2)における通信元のディスプレイ1091Aおよびスピーカ1092での出力例について図7~図9を参照して説明する。
図7は、本実施形態による空間距離ゼロの際の出力例を示す図である。図7に示すように、ユーザAが居る空間の壁面に設置されたディスプレイ1091Aには、窓枠40が表示され、窓枠40の内側いっぱいに相手空間画像41が表示されている。相手空間画像41は例えば相手ユーザBの居るリビングの撮像画像である。かかる映像は、例えば相手空間で撮影されたリアルタイム映像である。また、図7に示すように、ディスプレイ1091Aの周辺には、カメラ1011が設置されている。
さらに、図7に示すように、ディスプレイ1091Aの両側にはステレオスピーカ1092-1Aが設置され、また、ディスプレイ1091Aが設置されている壁全体には平面スピーカ1092-2Aが設置されている。本実施形態では、空間距離ゼロの場合、通信先の室内音声60や室内物音61が、ディスプレイ1091Aに映る窓枠40を介してすぐ目の前から聞こえるよう音像定位、音量制御され、ステレオスピーカ1092-1Aから再生される。
なお図示しないが、ディスプレイ1091Aの周辺にはマイク1012も設置され得る。
図8は、本実施形態による空間距離D1の際の表示例を示す図である。図8に示すように、相手空間画像41が窓枠40から離れて奥に表示されることで、ユーザは、視覚的に相手との距離を感じることができ、すぐ目の前に存在を感じるよりも、快適なつながり具合となる場合がある。相手空間画像41は、例えば3次元空間上において、仮想的な建築物51の窓部分に合成されている。また、相手空間画像41との間には、3D中庭空間S1が存在し、ユーザAは、3D中庭空間S1を介して、相手空間とつながっていると感じることができる。かかる空間距離と3D中庭空間は、相手空間でも同期され、相手側のディスプレイにおいても、同じ空間距離にこちら側の映像がリアルタイムで表示され、その間に3D中庭空間が同様に表示されている。
また、図8に示す例では、通信先の室内音声62や室内物音63が、ディスプレイ1091Aに映る窓枠40から離れて奥に表示されている相手空間画像41との距離に応じた音量および音像位置に定位され、ステレオスピーカ1092-1Aから再生される。さらに、3D中庭空間S1に対応する中庭音声64、65が、平面スピーカ1092-2Aにより壁全体から再生される。これにより、ユーザは聴覚的にも相手との距離を感じることができ、すぐ目の前に存在を感じるよりも、快適なつながり具合となる場合がある。
図9は、本実施形態による空間距離D2の際の表示例を示す図である。空間距離D2は空間距離D1よりさらに奥行き方向に長いため、図9に示すように、相手空間画像41が窓枠40からさらに離れた場所に表示され、ユーザは、視覚的に相手との距離をさらに感じることとなる。また、音響に関しては、中庭音声66、67が、図8に示す場合よりも大きな音量で平面スピーカ1092-2Aにより壁全体から再生される一方、相手空間の室内音声や室内物音は再生されないため、ユーザは聴覚的にも図8に示す場合よりもさらに相手との距離を感じることができる。
以上説明した図7~図9では、森の中にある向かいのログハウスに通信相手のユーザが住んでいるといったシーンが適用されているが、本実施形態はこれに限定されず、様々なシーンが適用され得る。また、シーン選択は、通信元ユーザや通信先ユーザにより行われてもよいし、システム側で自動的に決定されてもよい。
<<4.動作処理>>
次に、本実施形態による動作処理について図10~図13を参照して具体的に説明する。
次に、本実施形態による動作処理について図10~図13を参照して具体的に説明する。
<4-1.通信制御処理>
図10および図11は、本実施形態による通信制御処理を示すシーケンス図である。ここでは、一例として、通信制御装置10Aが通信元(空間A)、通信制御装置10Bが通信先(空間B)であって、処理サーバ30を介してデータの送受信が行われている場合について説明する。
図10および図11は、本実施形態による通信制御処理を示すシーケンス図である。ここでは、一例として、通信制御装置10Aが通信元(空間A)、通信制御装置10Bが通信先(空間B)であって、処理サーバ30を介してデータの送受信が行われている場合について説明する。
図10に示すように、まず、通信制御装置10Aは、接続先の呼び出しを通信制御装置10Bに対して行い(ステップS103)、通信制御装置10Bから接続許可を受信すると(ステップS106)、セッションを確立する(ステップS109)。
次に、通信制御装置10Aは、空間情報処理部102により空間情報を取得し(ステップS112)、状態判定部103により、ユーザAの状態および空間Aの状態を判別する(ステップS115)。
次いで、通信制御装置10Aは、空間情報や、状態情報を、通信部107から通信制御装置10Bへ送信する(ステップS118)。
一方、通信制御装置10B側でも、同様に空間情報の取得(ステップS121)、ユーザBの状態・空間Bの状態判別を行い(ステップS124)、各種情報を通信制御装置10Aへ送信する(ステップS127)。
次に、通信制御装置10Aは、空間距離制御部104により、ユーザAのつながり要求レベルを算出し(ステップS130)、処理サーバ30へ送信する(ステップS133)。ユーザAのつながり要求レベルは、ユーザAにより任意に入力されたものであってもよいし、ユーザ状態や空間状態の判別結果に基づいて算出されてもよい。
次いで、通信制御装置10B側でも同様に、空間距離制御部104により、ユーザBのつながり要求レベルを算出し(ステップS136)、処理サーバ30へ送信する(ステップS139)。
続いて、処理サーバ30は、ユーザAのつながり要求レベルおよびユーザBのつながり要求レベルに基づいて、距離調整を行う(ステップS142)。すなわち、処理サーバ30は、ユーザAのつながり要求レベルおよびユーザBのつながり要求レベルに基づいて、最適なつながり度合いを算出する。つながり度合いの算出は、図5を参照して上述した式2により行われ得る。
次に、処理サーバ30は、算出した距離を、通信制御装置10A、10Bにそれぞれ送信する(ステップS145、S148)。
次いで、通信制御装置10A、10Bでは、空間距離制御部104により、空間距離の最適制御を行う(ステップS151、S154)。具体的には、空間距離制御部104は、処理サーバ30から送信された距離を、空間距離として設定する。
次に、処理サーバ30は、通信制御装置10A、10Bにそれぞれシーン情報を送信する(ステップS157、S163)。送信されるシーン情報は、ユーザAまたはユーザBにより選択されたシーンの情報であってもよいし、処理サーバ30が自動的に決定したシーンの情報であってもよい。
次いで、通信制御装置10Aは、3D中庭空間生成部106により、処理サーバ30から送信されたシーン情報、上記ステップS127で受信した空間情報、状態判別情報を用いて、3D中庭空間の生成を行う(ステップS160)。また、3D中庭空間生成部106は、関連情報(気象情報、相手空間内の照度、調理器の状態、相手ユーザのスケジュール情報、行動履歴等)が送信された場合(ステップS169)、当該関連情報も3D中庭空間に反映させる(ステップS172)。
一方、通信制御装置10B側でも、同様に、3D中庭空間の生成(ステップS166)、受信した関連情報の3D中庭空間への反映(ステップS175、S178)。
次に、通信制御装置10Aは、空間情報生成部108により生成された、3D中庭空間と相手空間画像(空間Bの映像)と、音響情報(空間Bの音声、物音や、3D中庭空間に対応する中庭音声)を含む空間情報を、出力部(ディスプレイ、スピーカ)からそれぞれ提示する(ステップS181)。一方、通信制御装置10B側でも同様に、3D中庭空間と相手空間画像(空間Aの映像)と、音響情報(空間Aの音声、物音や、3D中庭空間に対応する中庭音声)を含む空間情報を、出力部(ディスプレイ、スピーカ)からそれぞれ提示する(ステップS184)。
上述した3D中庭空間および互いの相手空間画像は、処理サーバ30により同期され、互いのディスプレイにおいて、同じタイミング、同じ距離感で表示され得る。また、3D中庭空間に対応する中庭音声も、互いのスピーカにおいて、同じタイミング、同じ距離感で再生され得る。
続いて、通信制御装置10Aは、何らかの情報更新があった場合(ステップS187/Yes)、ステップS112からの処理を繰り返す。また、通信制御装置10Bも、何らかの情報更新があった場合(ステップS190/Yes)、ステップS121からの処理を繰り返す。
そして、通信制御装置10Aは、接続終了が指示されると(ステップS193/Yes)、通信制御装置10Bに対して接続終了の確認を行い(ステップS196)、通信制御装置10Bから接続終了の許可を受信すると(ステップS199)、セッションを切断する(ステップS202)。
以上、本実施形態による通信制御処理について説明した。なお、ここでは一例として処理サーバ30により同期処理や、最適なつながり度合いの算出、シーン情報の送信等を行っているが、本実施形態はこれに限定されず、これらの処理を通信制御装置10で行うことも可能である。
<4-2.音源分離処理>
次に、マイク1012により収音した音声の音源分離処理について図12を参照して説明する。図12は、本実施形態による音源分離処理のフローチャートを示す図である。
次に、マイク1012により収音した音声の音源分離処理について図12を参照して説明する。図12は、本実施形態による音源分離処理のフローチャートを示す図である。
図12に示すように、まず、通信制御装置10の空間情報処理部102は、空間内の収音データを取得し(ステップS203)、音源分離および判別を行う(ステップS206)。具体的には、空間情報処理部102は、音源分離した音声データの到来方向、音量、特徴、および音源位置の判別を行う。この際、空間情報処理部102は、音源判別用DB112を参照し得る。
次に、空間情報処理部102は、音源位置と音声データを紐付けて音声DB113へ登録する(ステップS206)。音声DB113は、通信相手と共有するようにしてもよい。
次いで、空間情報処理部102は、音源分離した音声データを判別結果と共に、相手ユーザ側(通信先)へ通信部107を介して送信する(ステップS212)。
<4-3.音源再生処理>
続いて、スピーカ1092による音源再生処理について図13を参照して説明する。図13は、本実施形態による音源再生処理のフローチャートを示す図である。
続いて、スピーカ1092による音源再生処理について図13を参照して説明する。図13は、本実施形態による音源再生処理のフローチャートを示す図である。
図13に示すように、まず、通信制御装置10の空間情報生成部108は、空間情報の生成を行う(ステップS303)。空間情報の生成は、通信先から受信した空間情報や、通信先ユーザと共有する音声DB113から抽出した通信先空間における事象に紐付けられた音声データに基づいて行われる。
次に、空間情報生成部108は、出力部109に対して、空間情報の提示指示を行う(ステップS306)。
次いで、出力部109は、再生する音源群の属性(音量、音源位置、効果(指向性有無等))と、対応するスピーカを確認する(ステップS309)。
次に、出力部109は、対応するスピーカの種類がステレオである場合は(ステップS312/ステレオ)、ステレオスピーカに対応する所定の属性で音声データを出力する(ステップS318)。一方、出力部109は、対応するスピーカの種類が平面である場合は(ステップS312/平面)、平面スピーカに対応する所定の属性で音声データを出力する(ステップS315)。
<<5.まとめ>>
上述したように、本開示の実施形態による情報処理システムでは、通信相手とのつながりに仮想的な3次元空間を用いて、当該空間内の距離を聴覚的に演出し、より快適なコミュニケーションを実現することを可能とする。
上述したように、本開示の実施形態による情報処理システムでは、通信相手とのつながりに仮想的な3次元空間を用いて、当該空間内の距離を聴覚的に演出し、より快適なコミュニケーションを実現することを可能とする。
また、通信元の空間に設置されたディスプレイを窓(またはドア)に見立てて、3次元空間上の所定の距離離れた場所に、通信相手の空間の映像を配置する空間画像を表示することで、通信相手との距離を視覚的に表現することもできる。なお、壁面に設置されるディスプレイの縦横比は、実際の窓やドアで用いられている寸法に合わせて実現されてもよい。また、ディスプレイをドアに見立てる場合、ディスプレイの下辺が床面付近に位置するように配置することで、よりリアルに、ドアの向こうの空間の存在を表現することができる。
また、3次元空間上に配置される通信相手の空間の映像の表示領域の縦横比を、ディスプレイの縦横比と同じにするよう制御してもよい。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上述した通信制御装置10、または処理サーバ30に内蔵されるCPU(Central Processing Unit)、ROM(Read Only Memory)、およびRAM(Random Access Memory)等のハードウェアに、通信制御装置10、または処理サーバ30の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、本技術は以下のような構成も取ることができる。
(1)
通信先からデータを受信する受信部と、
仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御する再生制御部と、
を備える、情報処理装置。
(2)
前記情報処理装置は、
前記3次元空間上の前記通信元と前記通信先との仮想的な離隔距離を制御する距離制御部をさらに備え、
前記距離制御部は、前記通信元からのつながり要求レベルと前記通信先からのつながり要求レベルに基づいて調整されたつながり度合いに応じて、前記離隔距離を制御する、前記(1)に記載の情報処理装置。
(3)
前記つながり要求レベルは、空間情報に基づいて判定されたユーザのコンテキストに応じて算出される、前記(2)に記載の情報処理装置。
(4)
前記通信先の空間の音声データは、前記受信部により前記通信先から受信した音声データ、または前記受信部により前記通信先から受信したデータに基づいて所定のデータベースから抽出した音声データである、前記(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
前記再生制御部は、前記3次元空間上に配置された前記通信元の空間に対して前記通信先の空間が近い程、前記通信先の空間の発話音声データおよび物体音データを大きく、また、前記通信先の空間の環境音を小さく制御し、前記通信先の空間が遠い程、発話音声データおよび物体音データを小さく、また、環境音を大きく制御する、前記(1)~(4)のいずれか1項に記載の情報処理装置。
(6)
前記再生制御部は、前記音声データのうち、発話音声データおよび物体音データは対応する音像位置で再生するよう音像定位制御を行い、環境音は前記通信元の空間の基準面全体から再生するよう制御する、前記(5)に記載の情報処理装置。
(7)
前記情報処理装置は、
前記通信元の空間から取得した音声データの音源分離を行う音源分離部と、
前記音源分離した音声データを含む、前記通信元の空間から取得したデータを、前記通信先へ送信する送信部と、をさらに備える、前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)
前記情報処理装置は、
前記通信先の空間に対応する画像を、前記3次元空間上において前記離隔距離に対応する所定位置に配置した空間画像情報を生成する生成部と、
前記生成された空間画像情報を前記通信元の空間の表示部に表示するよう制御する表示制御部と、をさらに備える、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
プロセッサが、
通信先からデータを受信することと、
仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御することと、
を含む、情報処理方法。
(10)
コンピュータを、
通信先からデータを受信する受信部と、
仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御する再生制御部と、
として機能させるための、プログラム。
(1)
通信先からデータを受信する受信部と、
仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御する再生制御部と、
を備える、情報処理装置。
(2)
前記情報処理装置は、
前記3次元空間上の前記通信元と前記通信先との仮想的な離隔距離を制御する距離制御部をさらに備え、
前記距離制御部は、前記通信元からのつながり要求レベルと前記通信先からのつながり要求レベルに基づいて調整されたつながり度合いに応じて、前記離隔距離を制御する、前記(1)に記載の情報処理装置。
(3)
前記つながり要求レベルは、空間情報に基づいて判定されたユーザのコンテキストに応じて算出される、前記(2)に記載の情報処理装置。
(4)
前記通信先の空間の音声データは、前記受信部により前記通信先から受信した音声データ、または前記受信部により前記通信先から受信したデータに基づいて所定のデータベースから抽出した音声データである、前記(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
前記再生制御部は、前記3次元空間上に配置された前記通信元の空間に対して前記通信先の空間が近い程、前記通信先の空間の発話音声データおよび物体音データを大きく、また、前記通信先の空間の環境音を小さく制御し、前記通信先の空間が遠い程、発話音声データおよび物体音データを小さく、また、環境音を大きく制御する、前記(1)~(4)のいずれか1項に記載の情報処理装置。
(6)
前記再生制御部は、前記音声データのうち、発話音声データおよび物体音データは対応する音像位置で再生するよう音像定位制御を行い、環境音は前記通信元の空間の基準面全体から再生するよう制御する、前記(5)に記載の情報処理装置。
(7)
前記情報処理装置は、
前記通信元の空間から取得した音声データの音源分離を行う音源分離部と、
前記音源分離した音声データを含む、前記通信元の空間から取得したデータを、前記通信先へ送信する送信部と、をさらに備える、前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)
前記情報処理装置は、
前記通信先の空間に対応する画像を、前記3次元空間上において前記離隔距離に対応する所定位置に配置した空間画像情報を生成する生成部と、
前記生成された空間画像情報を前記通信元の空間の表示部に表示するよう制御する表示制御部と、をさらに備える、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
プロセッサが、
通信先からデータを受信することと、
仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御することと、
を含む、情報処理方法。
(10)
コンピュータを、
通信先からデータを受信する受信部と、
仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御する再生制御部と、
として機能させるための、プログラム。
1 テレプレゼンスシステム
10(10A~10C) 通信制御装置
20 ネットワーク
30 処理サーバ
40 窓枠
41 相手空間画像
100 通信制御装置
101 入力部
1011 カメラ
1012 マイク
1013 センサ
102 空間情報処理部
103 状態判定部
104 空間距離制御部
105 操作I/F
106 中庭空間生成部
107 通信部
108 空間情報生成部
109 出力部
1091 ディスプレイ
1092 スピーカ
1093 インジケータ
110 記憶部
111 送信情報生成部
112 音源判別用DB
113 音声DB113
10(10A~10C) 通信制御装置
20 ネットワーク
30 処理サーバ
40 窓枠
41 相手空間画像
100 通信制御装置
101 入力部
1011 カメラ
1012 マイク
1013 センサ
102 空間情報処理部
103 状態判定部
104 空間距離制御部
105 操作I/F
106 中庭空間生成部
107 通信部
108 空間情報生成部
109 出力部
1091 ディスプレイ
1092 スピーカ
1093 インジケータ
110 記憶部
111 送信情報生成部
112 音源判別用DB
113 音声DB113
Claims (10)
- 通信先からデータを受信する受信部と、
仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御する再生制御部と、
を備える、情報処理装置。 - 前記情報処理装置は、
前記3次元空間上の前記通信元と前記通信先との仮想的な離隔距離を制御する距離制御部をさらに備え、
前記距離制御部は、前記通信元からのつながり要求レベルと前記通信先からのつながり要求レベルに基づいて調整されたつながり度合いに応じて、前記離隔距離を制御する、請求項1に記載の情報処理装置。 - 前記つながり要求レベルは、空間情報に基づいて判定されたユーザのコンテキストに応じて算出される、請求項2に記載の情報処理装置。
- 前記通信先の空間の音声データは、前記受信部により前記通信先から受信した音声データ、または前記受信部により前記通信先から受信したデータに基づいて所定のデータベースから抽出した音声データである、請求項1に記載の情報処理装置。
- 前記再生制御部は、前記3次元空間上に配置された前記通信元の空間に対して前記通信先の空間が近い程、前記通信先の空間の発話音声データおよび物体音データを大きく、また、前記通信先の空間の環境音を小さく制御し、前記通信先の空間が遠い程、発話音声データおよび物体音データを小さく、また、環境音を大きく制御する、請求項1に記載の情報処理装置。
- 前記再生制御部は、前記音声データのうち、発話音声データおよび物体音データは対応する音像位置で再生するよう音像定位制御を行い、環境音は前記通信元の空間の基準面全体から再生するよう制御する、請求項5に記載の情報処理装置。
- 前記情報処理装置は、
前記通信元の空間から取得した音声データの音源分離を行う音源分離部と、
前記音源分離した音声データを含む、前記通信元の空間から取得したデータを、前記通信先へ送信する送信部と、をさらに備える、請求項1に記載の情報処理装置。 - 前記情報処理装置は、
前記通信先の空間に対応する画像を、前記3次元空間上において前記離隔距離に対応する所定位置に配置した空間画像情報を生成する生成部と、
前記生成された空間画像情報を前記通信元の空間の表示部に表示するよう制御する表示制御部と、をさらに備える、請求項1に記載の情報処理装置。 - プロセッサが、
通信先からデータを受信することと、
仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御することと、
を含む、情報処理方法。 - コンピュータを、
通信先からデータを受信する受信部と、
仮想の3次元空間上に配置された前記通信先と通信元との離隔距離に応じて、前記通信先の空間の音声データを音源種別毎に異なる出力値で前記通信元の空間の音声出力部から再生するよう制御する再生制御部と、
として機能させるための、プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017554945A JP6798502B2 (ja) | 2015-12-11 | 2016-09-20 | 情報処理装置、情報処理方法、およびプログラム |
EP16872672.7A EP3389260A4 (en) | 2015-12-11 | 2016-09-20 | Information processing device, information processing method, and program |
US15/778,721 US10511807B2 (en) | 2015-12-11 | 2016-09-20 | Information processing apparatus, information processing method, and program |
CN201680070470.2A CN108886599B (zh) | 2015-12-11 | 2016-09-20 | 信息处理装置、信息处理方法和程序 |
US16/676,905 US10834359B2 (en) | 2015-12-11 | 2019-11-07 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015-242438 | 2015-12-11 | ||
JP2015242438 | 2015-12-11 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/778,721 A-371-Of-International US10511807B2 (en) | 2015-12-11 | 2016-09-20 | Information processing apparatus, information processing method, and program |
US16/676,905 Continuation US10834359B2 (en) | 2015-12-11 | 2019-11-07 | Information processing apparatus, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017098772A1 true WO2017098772A1 (ja) | 2017-06-15 |
Family
ID=59013002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2016/077745 WO2017098772A1 (ja) | 2015-12-11 | 2016-09-20 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (2) | US10511807B2 (ja) |
EP (1) | EP3389260A4 (ja) |
JP (1) | JP6798502B2 (ja) |
CN (1) | CN108886599B (ja) |
WO (1) | WO2017098772A1 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019026678A1 (ja) * | 2017-08-02 | 2019-02-07 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
WO2019225100A1 (ja) * | 2018-05-23 | 2019-11-28 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2020003876A (ja) * | 2018-06-25 | 2020-01-09 | 株式会社バーチャルキャスト | データ送信装置、およびプログラム |
WO2020031453A1 (ja) * | 2018-08-10 | 2020-02-13 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
WO2020031696A1 (ja) * | 2018-08-10 | 2020-02-13 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
JP2020030376A (ja) * | 2018-08-24 | 2020-02-27 | 本田技研工業株式会社 | 音響シーン再構成装置、音響シーン再構成方法、およびプログラム |
WO2020158440A1 (ja) * | 2019-01-30 | 2020-08-06 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体 |
WO2020162035A1 (ja) * | 2019-02-07 | 2020-08-13 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2021162742A (ja) * | 2020-04-01 | 2021-10-11 | Kddi株式会社 | 特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 |
JP2021196433A (ja) * | 2020-06-11 | 2021-12-27 | Kddi株式会社 | 複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 |
WO2023054047A1 (ja) * | 2021-10-01 | 2023-04-06 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US12052528B2 (en) | 2019-11-29 | 2024-07-30 | Sony Group Corporation | Telepresence system |
JP7574647B2 (ja) | 2019-01-30 | 2024-10-29 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6798502B2 (ja) * | 2015-12-11 | 2020-12-09 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP6859807B2 (ja) * | 2017-03-31 | 2021-04-14 | 日本電気株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
US11335357B2 (en) * | 2018-08-14 | 2022-05-17 | Bose Corporation | Playback enhancement in audio systems |
US11240058B2 (en) * | 2019-03-29 | 2022-02-01 | Qualcomm Incorporated | System and method to view occupant status and manage devices of building |
CN110267166B (zh) * | 2019-07-16 | 2021-08-03 | 上海艺瓣文化传播有限公司 | 一种基于双耳效应的虚拟声场实时交互系统 |
JP7400554B2 (ja) * | 2020-03-06 | 2023-12-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
WO2022056492A2 (en) * | 2020-09-14 | 2022-03-17 | NWR Corporation | Systems and methods for teleconferencing virtual environments |
US11750745B2 (en) | 2020-11-18 | 2023-09-05 | Kelly Properties, Llc | Processing and distribution of audio signals in a multi-party conferencing environment |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004056161A (ja) * | 2002-05-28 | 2004-02-19 | Matsushita Electric Works Ltd | マルチメディア通信システム |
JP2006254166A (ja) * | 2005-03-11 | 2006-09-21 | Hitachi Ltd | ビデオ会議システム、会議端末および映像サーバ |
JP2006343447A (ja) * | 2005-06-08 | 2006-12-21 | Konami Digital Entertainment:Kk | 仮想空間共有システム及び仮想空間共有システムの制御方法 |
JP2008067203A (ja) * | 2006-09-08 | 2008-03-21 | Toshiba Corp | 映像合成装置、方法およびプログラム |
JP2009049558A (ja) * | 2007-08-15 | 2009-03-05 | Yahoo Japan Corp | 仮想空間提供サーバ及びシステム |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7012630B2 (en) * | 1996-02-08 | 2006-03-14 | Verizon Services Corp. | Spatial sound conference system and apparatus |
JP3797751B2 (ja) * | 1996-11-27 | 2006-07-19 | 富士通株式会社 | マイクロホンシステム |
US6737957B1 (en) * | 2000-02-16 | 2004-05-18 | Verance Corporation | Remote control signaling using audio watermarks |
US7319992B2 (en) * | 2000-09-25 | 2008-01-15 | The Mission Corporation | Method and apparatus for delivering a virtual reality environment |
AUPR647501A0 (en) * | 2001-07-19 | 2001-08-09 | Vast Audio Pty Ltd | Recording a three dimensional auditory scene and reproducing it for the individual listener |
US7491123B2 (en) * | 2004-07-29 | 2009-02-17 | Nintendo Co., Ltd. | Video game voice chat with amplitude-based virtual ranging |
JP3863165B2 (ja) * | 2005-03-04 | 2006-12-27 | 株式会社コナミデジタルエンタテインメント | 音声出力装置、音声出力方法、ならびに、プログラム |
JP4645355B2 (ja) | 2005-08-11 | 2011-03-09 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
CN101690150A (zh) * | 2007-04-14 | 2010-03-31 | 缪斯科姆有限公司 | 基于虚拟现实的电话会议 |
US8605863B1 (en) * | 2008-03-18 | 2013-12-10 | Avaya Inc. | Method and apparatus for providing state indication on a telephone call |
WO2011043678A1 (en) * | 2009-10-09 | 2011-04-14 | Auckland Uniservices Limited | Tinnitus treatment system and method |
JP5707824B2 (ja) | 2010-09-29 | 2015-04-30 | ソニー株式会社 | 制御装置、および制御方法 |
US8913758B2 (en) * | 2010-10-18 | 2014-12-16 | Avaya Inc. | System and method for spatial noise suppression based on phase information |
US8693713B2 (en) * | 2010-12-17 | 2014-04-08 | Microsoft Corporation | Virtual audio environment for multidimensional conferencing |
EP3913931B1 (en) * | 2011-07-01 | 2022-09-21 | Dolby Laboratories Licensing Corp. | Apparatus for rendering audio, method and storage means therefor. |
DE102011119642A1 (de) * | 2011-11-28 | 2013-05-29 | Shure Europe GmbH | Vorrichtung und Verfahren zur Raumklangsimulation |
CA2898885C (en) * | 2013-03-28 | 2016-05-10 | Dolby Laboratories Licensing Corporation | Rendering of audio objects with apparent size to arbitrary loudspeaker layouts |
WO2015050826A1 (en) * | 2013-10-01 | 2015-04-09 | Dishno Aaron | Three-dimensional (3d) browsing |
US10126823B2 (en) * | 2014-01-03 | 2018-11-13 | Harman International Industries, Incorporated | In-vehicle gesture interactive spatial audio system |
US9253439B2 (en) * | 2014-02-24 | 2016-02-02 | Cellco Partnership | Managing complex video call scenarios in volte calls |
US10251007B2 (en) * | 2015-11-20 | 2019-04-02 | Dolby Laboratories Licensing Corporation | System and method for rendering an audio program |
JP6798502B2 (ja) * | 2015-12-11 | 2020-12-09 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
-
2016
- 2016-09-20 JP JP2017554945A patent/JP6798502B2/ja active Active
- 2016-09-20 WO PCT/JP2016/077745 patent/WO2017098772A1/ja unknown
- 2016-09-20 CN CN201680070470.2A patent/CN108886599B/zh active Active
- 2016-09-20 US US15/778,721 patent/US10511807B2/en active Active
- 2016-09-20 EP EP16872672.7A patent/EP3389260A4/en not_active Ceased
-
2019
- 2019-11-07 US US16/676,905 patent/US10834359B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004056161A (ja) * | 2002-05-28 | 2004-02-19 | Matsushita Electric Works Ltd | マルチメディア通信システム |
JP2006254166A (ja) * | 2005-03-11 | 2006-09-21 | Hitachi Ltd | ビデオ会議システム、会議端末および映像サーバ |
JP2006343447A (ja) * | 2005-06-08 | 2006-12-21 | Konami Digital Entertainment:Kk | 仮想空間共有システム及び仮想空間共有システムの制御方法 |
JP2008067203A (ja) * | 2006-09-08 | 2008-03-21 | Toshiba Corp | 映像合成装置、方法およびプログラム |
JP2009049558A (ja) * | 2007-08-15 | 2009-03-05 | Yahoo Japan Corp | 仮想空間提供サーバ及びシステム |
Non-Patent Citations (1)
Title |
---|
See also references of EP3389260A4 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2019026678A1 (ja) * | 2017-08-02 | 2020-08-13 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
WO2019026678A1 (ja) * | 2017-08-02 | 2019-02-07 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
US11269587B2 (en) | 2017-08-02 | 2022-03-08 | Sony Corporation | Information processing apparatus and information processing method |
WO2019225100A1 (ja) * | 2018-05-23 | 2019-11-28 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US11521471B2 (en) | 2018-05-23 | 2022-12-06 | Sony Corporation | Information processing apparatus and information processing method |
JP2020003876A (ja) * | 2018-06-25 | 2020-01-09 | 株式会社バーチャルキャスト | データ送信装置、およびプログラム |
JP7314944B2 (ja) | 2018-08-10 | 2023-07-26 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
JPWO2020031696A1 (ja) * | 2018-08-10 | 2021-08-26 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
WO2020031696A1 (ja) * | 2018-08-10 | 2020-02-13 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
US11647334B2 (en) | 2018-08-10 | 2023-05-09 | Sony Group Corporation | Information processing apparatus, information processing method, and video sound output system |
WO2020031453A1 (ja) * | 2018-08-10 | 2020-02-13 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
JP2020030376A (ja) * | 2018-08-24 | 2020-02-27 | 本田技研工業株式会社 | 音響シーン再構成装置、音響シーン再構成方法、およびプログラム |
US11373355B2 (en) | 2018-08-24 | 2022-06-28 | Honda Motor Co., Ltd. | Acoustic scene reconstruction device, acoustic scene reconstruction method, and program |
JP7177631B2 (ja) | 2018-08-24 | 2022-11-24 | 本田技研工業株式会社 | 音響シーン再構成装置、音響シーン再構成方法、およびプログラム |
WO2020158440A1 (ja) * | 2019-01-30 | 2020-08-06 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体 |
US11826648B2 (en) | 2019-01-30 | 2023-11-28 | Sony Group Corporation | Information processing apparatus, information processing method, and recording medium on which a program is written |
JP7574647B2 (ja) | 2019-01-30 | 2024-10-29 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラムを記載した記録媒体 |
WO2020162035A1 (ja) * | 2019-02-07 | 2020-08-13 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US11979545B2 (en) | 2019-02-07 | 2024-05-07 | Sony Group Corporation | Information processing apparatus and information processing method |
US12052528B2 (en) | 2019-11-29 | 2024-07-30 | Sony Group Corporation | Telepresence system |
US12132868B2 (en) | 2019-12-13 | 2024-10-29 | Sony Group Corporation | Telepresence system |
JP7316974B2 (ja) | 2020-04-01 | 2023-07-28 | Kddi株式会社 | 特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 |
JP2021162742A (ja) * | 2020-04-01 | 2021-10-11 | Kddi株式会社 | 特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 |
JP7403392B2 (ja) | 2020-06-11 | 2023-12-22 | Kddi株式会社 | 複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 |
JP2021196433A (ja) * | 2020-06-11 | 2021-12-27 | Kddi株式会社 | 複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 |
WO2023054047A1 (ja) * | 2021-10-01 | 2023-04-06 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3389260A4 (en) | 2018-11-21 |
US20180352193A1 (en) | 2018-12-06 |
CN108886599A (zh) | 2018-11-23 |
US10834359B2 (en) | 2020-11-10 |
EP3389260A1 (en) | 2018-10-17 |
US10511807B2 (en) | 2019-12-17 |
JPWO2017098772A1 (ja) | 2018-09-27 |
CN108886599B (zh) | 2021-04-27 |
US20200077048A1 (en) | 2020-03-05 |
JP6798502B2 (ja) | 2020-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017098772A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US11640275B2 (en) | Devices with enhanced audio | |
JP6958360B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7020411B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2020063675A1 (zh) | 一种智能音箱及智能音箱使用的方法 | |
TWI847220B (zh) | 可動態調整目標聆聽點並消除環境物件干擾的音響系統 | |
Hendrikse et al. | Development of Virtual Reality scenes for clinical use with hearing device fine-tuning | |
US9560313B2 (en) | Dialogue system and dialogue method | |
US10986310B2 (en) | Information processing apparatus, information processing method, and program | |
CN115622993A (zh) | 远程交互方法、交互系统、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16872672 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2017554945 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |