WO2015147169A1 - 状況把握用ユニット - Google Patents

状況把握用ユニット Download PDF

Info

Publication number
WO2015147169A1
WO2015147169A1 PCT/JP2015/059391 JP2015059391W WO2015147169A1 WO 2015147169 A1 WO2015147169 A1 WO 2015147169A1 JP 2015059391 W JP2015059391 W JP 2015059391W WO 2015147169 A1 WO2015147169 A1 WO 2015147169A1
Authority
WO
WIPO (PCT)
Prior art keywords
party
data
reproduction
sound
situation
Prior art date
Application number
PCT/JP2015/059391
Other languages
English (en)
French (fr)
Inventor
吏 中野
貴司 折目
広沢 建二
矢島 浩之
本多 健一
康夫 高橋
Original Assignee
大和ハウス工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大和ハウス工業株式会社 filed Critical 大和ハウス工業株式会社
Priority to US15/300,082 priority Critical patent/US20170157514A1/en
Publication of WO2015147169A1 publication Critical patent/WO2015147169A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • H04N7/144Constructional details of the terminal equipment, e.g. arrangements of the camera and the display camera and display on the same optical axis, e.g. optically multiplexing the camera and display for eye to eye contact
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress

Definitions

  • the present invention relates to a situation grasping unit used for grasping the situation of a partner who is away from a user, and in particular, grasps the situation of a partner by a method different from a method of reproducing the partner's video and audio. It is related with the situation grasping unit.
  • Communication technology used for video conferencing is effective in monitoring the home conditions and health status of persons at remote locations. That is, according to the communication technology, it is possible to have a conversation while watching each other's images, and each party (conversator) having a conversation confirms the other party's facial expression and appearance, thereby It is possible to determine whether there is an abnormality.
  • Patent Document 1 when a person who is asleep in the video conference system is detected, the video and audio are temporarily stopped to be put on hold, and when the person who was asleep is awakened is determined. Describes releasing the hold state. According to such a technique, it is possible to protect the privacy of a person who has taken a nap by making it impossible to see a video at the time of a nap.
  • Patent Documents 2 to 4 disclose technologies for protecting the privacy of a talker (or a conversation partner) in a video conference or a video phone. Specifically, Patent Document 2 discloses that an image displayed in a designated area in a display screen for image display is a still image. Patent Documents 3 and 4 disclose that their own images and pre-recorded images are combined to make clothes, hairstyles, backgrounds, and the like different from actual ones and transmit them to a communication partner.
  • Patent Document 1 when video and audio are put on hold, the video and audio on hold cannot be confirmed, so even if an abnormality occurs during the period of the hold state, the abnormality is difficult to be detected.
  • Patent Document 2 if an image displayed in a certain area in the display screen is a still image, it is difficult to accurately grasp the conversation partner's own state and the surrounding atmosphere.
  • Patent Documents 3 and 4 if another video (previously registered video) is combined with an actual video and transmitted as in Patent Documents 3 and 4, the images of the conversation partner and the surrounding environment are intentionally changed. It becomes difficult to accurately grasp the other party's appearance and the surrounding atmosphere.
  • Patent Documents 1 to 4 may not be able to sufficiently smooth the conversations performed by those who are remote from each other. Therefore, the present invention has been made in view of the above-mentioned problems, and the object of the present invention is to accurately grasp the situation of the other party while considering the privacy of the other party at a remote location. Is to provide a simple situation grasping unit.
  • the problem is a situation grasping unit used for grasping the situation of a partner in a location where the user is away, and (A) the user can recognize the situation An effect device that performs an effect operation different from the operation of reproducing the other party's video and audio, and (B) a control that controls the effect device to perform the effect operation and communicates with an opponent terminal used by the opponent (C) the control device is (c1) presence / absence of the opponent, video including the opponent, sound collected in the space where the opponent is present, and vibration caused by the action of the opponent A data acquisition process for acquiring data indicating at least one of the data through communication with the counterpart terminal, and (c2) the position of the counterpart, the state of the counterpart from the data acquired in the data acquisition process And a content specifying process for specifying content related to at least one item in the atmosphere of the space where the opponent is present, and (c3) the effect operation in the effect mode according to the content specified in the content specifying process This is solved by executing an effect request process
  • the rendering device performs a rendering operation different from the operation of reproducing the other party's video and audio.
  • the production device specifies the content related to at least one of the position and appearance of the opponent, the atmosphere of the space where the opponent is, the sound emitted by the opponent, and the vibration caused by the action of the opponent, and according to the specification result
  • the production operation is performed in the production mode.
  • the control device acquires sound data indicating a sound collected in the space where the opponent is in the data acquisition process, and in the content specifying process, the sound data is It is even more preferable to specify at least one of the volume and quality of the sound to be shown.
  • the volume and sound quality of the sound collected in the space where the other party exists are specified, and a production
  • the volume and sound quality of the sound collected in the space where the other party is located are effective information for grasping the state of the other party and the surrounding atmosphere. Therefore, the presentation operation is performed in the production mode according to the volume and quality of the sound collected in the space where the other party is present, so that the user can more accurately grasp the situation of the other party.
  • the control apparatus acquires position data indicating the position of the opponent together with the sound data
  • the control device acquires the sound indicated by the sound data. It is more preferable to specify at least one of volume and sound quality and to specify the position of the opponent with respect to a reference position in the space where the opponent is present.
  • a user's position in the said space is pinpointed with the volume and sound quality of the sound collected in the space where the other party exists, and the production mode is performed in the production mode according to the identification result. Become. As a result, the user can grasp the current position and situation where the other party is.
  • the effect device performs the effect operation of displaying a pattern image on a display screen, and the control device displays the pattern image when executing the effect request process. It is more preferable to cause the effect device to perform the effect operation so that the pattern image is displayed in the display mode corresponding to the content specified in the content specifying process.
  • the display operation of a pattern image is performed as production
  • the display mode of the pattern image in the said display operation becomes a mode according to the other party's state and its surrounding atmosphere. As a result, the user can accurately grasp the other party's situation through visual presentation using the pattern image.
  • the control device switches the display mode in conjunction with the change in the content in the effect request process, It is even more preferable that the rendering device perform the rendering operation so that the pattern image is displayed in the display mode after switching.
  • the display mode of a pattern image switches according to the said change.
  • a reproduction device that performs a reproduction operation that reproduces at least one of the partner's video and audio, and an operation that the user performs to cause the reproduction device to perform the reproduction operation.
  • An operation receiving device that receives the operation, and the control device further executes a reproduction request process for controlling the reproduction device to perform the reproduction operation when the operation receiving device receives the operation, It is more preferable that the operation accepting device accepts the operation when the effect device is performing the effect operation.
  • the rendering operation is performed before the reproduction operation is performed, and the reproduction operation is started on the condition that the user operation for starting the reproduction operation is performed during the rendering operation.
  • the rendering device and the reproduction device are a common device. According to the above configuration, since the rendering device and the reproduction device are a common device, it is possible to suppress an increase in the number of devices / equipment constituting the situation grasping unit. As a result, it is possible to simplify the configuration of the situation grasping unit including the reproduction device.
  • the situation grasping unit of the present invention it is possible to grasp the other party's situation without reproducing the other party's video and audio. That is, by using the situation grasping unit of the present invention, it is possible to accurately grasp the other party's situation while protecting the other party's privacy. Then, by grasping the situation of the other party, it is possible to have a conversation with the other party based on the situation, thereby realizing a smooth conversation (communication). As described above, the situation grasping unit according to the present invention can be effectively used as a tool when people who are away from each other have a good conversation.
  • the situation grasping unit according to the present embodiment is used for grasping the situation of the other party in which the user is away. Further, the situation grasping unit according to the present embodiment is in common with the communication unit for conversation used in the video conference system or the like for the most part. For this reason, the situation grasping unit according to the present embodiment is used for the purpose of performing a conversation while looking at the face of the opponent at a location where the user is away as shown in FIG.
  • the user and the other party each have a situation grasping unit according to the present embodiment. More specifically, the situation grasping unit according to the present embodiment is provided at the home of each of the conversation partner and the conversation partner. Then, the conversation person uses the situation grasping unit according to the present embodiment in order to interact with the conversation partner in the room where the device constituting the situation grasping unit is installed at home (hereinafter referred to as the dialogue implementation room). .
  • the dialog using the situation grasping unit is not limited to the case where the conversation is performed at the conversation person's home, but is performed at a building other than the house (for example, a facility or building used by the conversation person). Also good.
  • the unit 100 includes a camera 2 and a microphone 3 as input devices for acquiring a user's video / sound, and a display device 4 and a speaker 5 as output devices for reproducing a partner's video / sound. It has. These devices are installed in the user's home interaction room.
  • the camera 2 is configured by a known imaging recorder, and the imaging area is set in the dialogue room. And when a user exists in an imaging area, the camera 2 images a user's whole body image and its surrounding space.
  • the microphone 3 is configured by a known sound collecting microphone, and collects sounds (sounds) emitted from the user and its surroundings in the room while the user is in the room where the dialogue is performed. .
  • two microphones 3 are installed, one on each side of the camera 2. Since the microphones 3 are installed in two places on the right and left in this way, the sound (specifically, the waveform of the sound) It is possible to specify from the (phase difference).
  • the number of microphones 3 and the number of installation locations are not particularly limited, and can be arbitrarily set.
  • the display device 4 corresponds to a reproduction device that reproduces (displays) the other party's video.
  • the display device 4 according to the present embodiment has a rectangular outer shape, and a display screen for video display is formed on the front surface thereof. This display screen has a size capable of displaying a full body image of the opponent and an image of the surrounding environment.
  • the display device 4 is arranged near the wall in the dialogue room as shown in FIG.
  • the arrangement position of the display device 4 is not particularly limited, and can be arranged at an arbitrary position.
  • the display device 4 is equipped with a touch panel 4a.
  • the touch panel 4a constitutes the above display screen and accepts an operation (specifically, a touch operation) performed by the user as an operation accepting device.
  • the operation accepting device is not limited to the touch panel 4a, and a normal input device such as a keyboard or a mouse may be used as the operation accepting device.
  • the speaker 5 corresponds to a reproduction device that reproduces (reproduces) the sound of the other party and its surroundings.
  • the speaker 5 used in this embodiment has the same configuration as a general speaker, and two speakers 5 in total, one on each side of the display device 4 as shown in FIG. Is installed. Since the speakers 5 are installed at the two left and right positions in this way, the position of the sound image can be adjusted on the user side. That is, by controlling the phase and amplitude of the sound emitted from each speaker 5 for each speaker 5, the position of the sound image perceived by the user can be adjusted. As a result of the adjustment of the position of the sound image, an audiovisual effect is obtained such that sound can be heard from the direction of the other party displayed on the display device 4.
  • the number of installed speakers 5 and the installation locations are not particularly limited, and can be arbitrarily set.
  • a vibration sensor 6 as an input device and a vibration device 7 as an output device are further provided as constituent devices of the unit 100.
  • the vibration sensor 6 is configured by a known acceleration sensor, and is installed on the floor of the dialogue room, and detects vibration (hereinafter referred to as walking vibration) generated when the user walks on the floor. Further, in the present embodiment, a plurality of vibration sensors 6 are arranged at a front position of the display device 4 as shown in FIG. 1, and strictly speaking, they are installed at two places on the left and right sides with an interval between the sensors. Since the vibration sensors 6 are installed in two places on the left and right in this way, the vibrations detected by the vibration sensors 6 (specifically, the waveforms of the walking vibrations) It is possible to specify from the detection result of (phase difference).
  • the number of installed vibration sensors 6 and the installation location are not particularly limited, and can be set arbitrarily.
  • the vibration device 7 is a device that reproduces the other party's walking vibration, and is provided in contact with the back surface of the floor material constituting the floor of the dialogue room.
  • the vibration device 7 is configured by an actuator that applies vibration to the floor by a mechanical operation.
  • the vibration device 7 gives a vibration to said floor in the form which synchronizes with the image
  • FIG. As a result, the floor surface vibrates in a manner linked to the image of the other party displayed on the display device 4 (specifically, the image of the other party performing the walking motion). Since the vibration associated with the walking motion of the other party can be reproduced on the user side, the user feels as if he / she is interacting with the other party in the same space (ie, a sense of reality).
  • a plurality of vibration devices 7 are arranged at positions separated from the display device 4 forward, and strictly speaking, the vibration devices 7 are installed at two places on the left and right sides with a space between the devices.
  • the vibration device 7 is installed in two places on the left and right sides, so that it is possible to adjust the generation position of the other party's walking vibration to be reproduced on the user side. That is, by controlling the phase and amplitude of the vibration generated from each vibration device 7 for each vibration device 7, it is possible to adjust the generation position of the walking vibration perceived by the user.
  • the vibration device 7 is not limited to the actuator, and may be another device, for example, a vibration speaker, as long as the device suitably vibrates the floor surface.
  • the unit 100 includes the devices described above, and further includes a home server 1 as shown in FIG.
  • the home server 1 is a so-called home gateway, and includes a CPU, a memory including a RAM and a ROM, a hard disk drive, and a communication interface. Various programs and data are stored in the memory of the home server 1.
  • the program stored in the memory is read and executed by the CPU, so that the home server 1 executes a series of processes for the user to interact with the other party, and among the devices described above in each process, Control the corresponding device. That is, the home server 1 functions as a control device and is connected to be communicable with each device.
  • the home server 1 communicates with a partner terminal used by the partner to perform communication for conversation, specifically, a partner server (hereinafter referred to as partner server), and data is transmitted to the partner server. Send and receive. That is, the home server 1 is communicably connected to the partner server via an external communication network such as the Internet. And the home server 1 acquires the video data which shows the other party's image
  • partner server a partner server
  • the video data transmitted from the user's home server 1 or the partner server is transmitted in the form of audio data superimposed, specifically, in the form of video file data. ing.
  • the video data and audio data are extracted from the video file data, and each extracted data is expanded.
  • the data received by the home server 1 from the partner server includes data related to walking vibration caused by the partner's walking motion.
  • This data is data indicating the amplitude and phase of walking vibration, and is hereinafter referred to as vibration data.
  • the data transmitted from the home server 1 to the other server includes vibration data related to walking vibration caused by the user's walking motion.
  • the home server 1 starts a series of processes related to communication for dialogue, triggered by the user entering the room for dialogue (start condition).
  • the unit 100 further includes a human sensor 8 as a constituent device, as shown in FIG.
  • the human sensor 8 detects the presence of a human in the detection area, and is attached to a predetermined location, for example, a ceiling, in a dialogue room in the user's house. That is, the indoor space of the dialogue room is set as a detection area of the human sensor 8.
  • the human sensor 8 detects the user and outputs an electrical signal indicating the detection result to the home server 1. Further, the human sensor 8 continues to output the above-described electrical signal while the user is present in the dialogue room.
  • the home server 1 when receiving the electrical signal output from the human sensor 8, the home server 1 operates the camera 2, the microphone 3, and the vibration sensor 6, and receives the input signal from each device. That is, when the home server 1 receives the output signal from the human sensor 8, the home server 1 causes the camera 2 to capture images of the user and the surrounding space, and causes the microphone 3 to collect the sound generated in the dialogue room. Then, the vibration sensor 6 detects vibration (walking vibration) associated with the user's walking motion.
  • the home server 1 receives the output signal from the human sensor 8, the home server 1 starts communication with the partner server. At this time, if the other party is present in the room where the conversation is performed at home, the moving image file data and vibration data are transmitted from the other party server. On the other hand, the home server 1 receives moving image file data and vibration data transmitted from the counterpart server.
  • the home server 1 executes a series of processes for the user to interact with the other party.
  • the home server 1 is equipped with a function for sequentially executing each process necessary for performing interactive communication.
  • the “occupancy recognition function”, “data reception function”, “data generation function”, “data transmission function”, “reproduction request function”, and “reproduction condition setting function” It is installed.
  • the presence-in-room recognition function receives an electrical signal output from the human sensor 8 while the user is in the dialogue room and recognizes that the user is in the dialogue room. It is a function. Then, after the presence of the user in the dialogue room is confirmed by the occupancy recognition function, other functions described later are exhibited.
  • Data reception function is a function that receives video file data and vibration data from the other server via the Internet. That is, the home server 1 executes data acquisition processing for communicating with the partner server and acquiring moving image file data and vibration data as processing for the user to interact with the partner. Note that the home server 1 according to the present embodiment requests the counterpart server to provide occupancy information at a stage before executing the data acquisition process.
  • the occupancy information is information about whether or not the other party is present, and more easily, whether or not the other party is present in the room where the conversation is performed at the home.
  • the home server 1 receives data indicating occupancy information from the partner server, the home server 1 confirms from the occupancy information that the partner is occupying the room where the conversation is performed, and executes data acquisition processing thereupon. .
  • the data generation function is a function for generating video data from a video signal indicating video captured by the camera 2 and generating audio data from an audio signal indicating sound collected by the microphone 3. Furthermore, according to the data generation function, moving image file data is generated by superimposing audio data on the generated video data.
  • the data transmission function uses the moving image file data generated by the data generation function or the vibration data acquired from the vibration sensor 6 (strictly, data generated by the home server 1 as data corresponding to the acquired vibration data). This is a function to send to the server.
  • the reproduction request function is a function that controls the display device 4 and the speaker 5 which are reproduction apparatuses, and causes these devices to perform a reproduction operation for reproducing the other party's video and audio. That is, the home server 1 executes a reproduction request process as a process for the user to interact with the other party. In this reproduction request process, first, video data and audio data are extracted from the moving image file data received from the counterpart server. Thereafter, after extracting the extracted video data and audio data, a request for reproducing the video and audio indicated by each data is generated, and the generated request is output to the display device 4 and the speaker 5. When receiving the request from the home server 1, the display device 4 and the speaker 5 perform a reproduction operation according to the request.
  • the reproduction request function includes a function for controlling the vibration device 7 to perform a reproduction operation for reproducing the other party's walking vibration. That is, the home server 1 executes a process (a reproduction request process) for causing the vibration device 7 to perform a reproduction operation for reproducing the other party's walking vibration.
  • a process for causing the vibration device 7 to perform a reproduction operation for reproducing the other party's walking vibration.
  • vibration data received from the counterpart server is developed to generate a request for reproducing the opponent's walking vibration, and the generated request is output to the vibration device 7.
  • the vibration device 7 performs a reproduction operation, that is, a vibration applying operation in accordance with the request.
  • the reproduction condition setting function is a function for setting conditions for causing the display device 4, the speaker 5, and the vibration device 7 to perform a reproduction operation.
  • the reproduction condition set by this function is incorporated in the request generated during the reproduction request process.
  • the reproduction conditions are to be set based on data (specifically, moving image file data and vibration data) received from the other server. More specifically, as described above, the speaker 5 is provided in two places on the right and left in the user's home dialogue execution room, and the reproduction conditions (specifically, the volume and phase of the generated sound) for each speaker 5. Etc.) is to be set.
  • the other party's home dialogue room is provided with two microphones 3 on the left and right sides, and audio data indicating the volume and phase of the sound collected by each microphone 3 is in the form of video file data. Sent from the server. And if the home server 1 specifies the position of a sound image based on said audio
  • the vibration device 7 is provided in two places on the right and left in the user's home dialogue room, and reproduction conditions (specifically, the amplitude and phase of the generated vibration) are set for each vibration device 7. It has become.
  • the vibration sensor 6 is provided in two places on the left and right in the room where the other party's conversation is held, and vibration data indicating the amplitude and phase of the walking vibration detected by each vibration sensor 6 is transmitted from the other server.
  • the And the home server 1 will set the reproduction conditions for every vibration device 7 according to the specific result, if the generation
  • the home server 1 performs communication for communication with the partner server.
  • the user can have a conversation (conversation) with the other party through the microphone 3 and the speaker 5 while viewing the whole body image of the other party and the image of the surrounding space on the display screen of the display device 4.
  • the process for grasping the other party's video and audio is executed at a stage before reproducing the other party's video and audio, and the function for executing such a process is executed.
  • a situation grasping function is mounted on the home server 1.
  • This situation grasping function is a function that the home server 1 originally has as a constituent device of the situation grasping unit, and characterizes this embodiment.
  • a production operation different from the operation of reproducing the other party's video and audio is performed in the previous stage of the process of reproducing the other party's video and audio.
  • Such a production operation can be recognized by the user based on the five senses, and is performed for the purpose of grasping the situation of the other party.
  • an image display operation that replaces the other party's video, a sound or song reproduction operation that replaces the other party's voice, an operation that imparts vibration, and the like are performed as the rendering operation.
  • the content of the rendering operation is not limited to the above content.
  • the production operation it is sufficient that the user can recognize the other party's situation by recognizing the operation, for example, an operation that emits an odor, or an operation for switching the operation state of the lighting device or the air conditioner. It is good also as performing.
  • the production operation is performed by the display device 4, the speaker 5, and the vibration device 7 described above.
  • the display device 4, the speaker 5, and the vibration device 7 as reproduction devices also function as an effect device that performs an effect operation.
  • the rendering device and the reproduction device are a common device.
  • Outline of production operation The content related to the other party's situation is specified, and the production is performed in the production mode according to the identification result.
  • the “partner's situation” is a concept including the position of the partner, the state of the partner, and the atmosphere of the space where the partner is.
  • the “partner position” is a relative position of the opponent with respect to a reference position in the partner's home dialogue execution room, for example, the arrangement position of the display device 4. If it says easily, it will be the distance between the other party in the dialogue implementation room and the display device 4, and the direction where the other party is when viewed from the display device 4.
  • the "partner's appearance” means the other party's facial expression, emotion, posture, presence / absence of the action and the content of the action, health status expressed by activity level, arousal level, body temperature, etc., presence / absence of the abnormality and content of the abnormality Other matters related to the current situation of the other party.
  • the facial expression and emotion of the other party are identified among the relevant items of the “state” described above.
  • the present invention is not limited to this, and matters other than facial expressions and emotions may be specified.
  • the “atmosphere of the space where the other party is” refers to the space where the other party is located, that is, the degree of liveliness in the room where the conversation is conducted (in order to be easy to understand, the volume in the same room), the number of people in the room where the conversation is carried out This refers to the environment in the room where the dialogue is carried out, expressed by temperature, humidity, lighting, etc., and other matters related to the current state of the room where the dialogue is carried out.
  • the degree of crowding in the dialogue room is specified. However, it is not limited to this, It is good also as specifying matters other than a bustling degree.
  • the home server 1 identifies the other party's situation when performing the production operation.
  • the home server 1 specifies the other party's situation from the moving image file data and vibration data acquired from the other party server.
  • the home server 1 receives moving image file data and vibration data from the partner server as data necessary for specifying the partner's situation.
  • the process of receiving moving image file data and vibration data from the counterpart server corresponds to the data acquisition process of acquiring data related to the situation of the counterpart.
  • the home server 1 executes a process (content specifying process) for specifying the content related to the other party's situation from the data acquired from the other server. That is, the home server 1 according to the present embodiment is equipped with a function for specifying the contents related to the other party's situation from the data acquired from the other server. This function will be described with reference to FIG. 3.
  • a “specifying function such as an atmosphere” to be specified and a “walking vibration specifying function” to specify the content related to the other party's walking vibration are mounted. The method for specifying each specific item described above will be described in detail later.
  • the home server 1 executes an effect request process for causing the display device 4, the speaker 5, and the vibration device 7 to perform an effect operation in an effect mode according to the specified result.
  • the home server 1 according to the present embodiment is equipped with an effect request function that controls the display device 4, the speaker 5, and the vibration device 7 that are effect devices and causes these devices to perform an effect operation.
  • a plurality of types of performance operations that can be performed are prepared, and the user designates in advance the performance operation to be actually performed from among the plurality of performance operations.
  • the home server 1 specifies a rendering operation specified by the user (hereinafter referred to as a designated rendering operation) in the rendering request process, generates a request for performing the designated rendering operation, and a device that performs the designated rendering operation. Output the above request.
  • the device that is the output destination of the request from the home server 1 receives the request, the device performs the rendering operation in a predetermined rendering mode.
  • the production mode is set according to the situation of the opponent identified by the home server 1 in the previous stage of the production request process.
  • the home server 1 according to the present embodiment is equipped with an effect mode setting function for setting an effect mode according to the identified situation of the other party.
  • presentation aspect it is integrated in the request
  • the home server 1 performs the rendering operation (specifically, the designated rendering operation) corresponding to the display device 4, the speaker 5 and the vibration device 7 before reproducing the other party's video and audio. ). Through this performance operation, the user can grasp the situation of the other party, and then can talk (converse) with the other party through the microphone 3 and the speaker 5.
  • the rendering operation specifically, the designated rendering operation
  • the user can grasp the situation of the other party, and then can talk (converse) with the other party through the microphone 3 and the speaker 5.
  • the communication flow for dialogue proceeds according to the flow shown in FIG. 4, and as shown in FIG. 4, first, the home server 1 starts when the output signal from the human sensor 8 is received (S001). That is, in the communication flow for dialogue, the human sensor 8 detects that the user has entered the dialogue execution room, and an electric signal indicating the detection result is output from the human sensor 8, and the home server 1 receives the signal. Started when received.
  • the home server 1 requests the partner server to distribute the occupancy information (S002), and when the partner server receiving the request distributes the occupancy information, the occupant information is obtained via the Internet ( S003). Then, when the home server 1 confirms that the other party is present in the dialogue execution room based on the obtained occupancy information (Yes in S004), the home server 1 communicates with the other party server and displays the other party's video, audio, and the like. The moving image file data is received (S005). In addition, when the other party is walking in the dialogue room, vibration data indicating the amplitude and phase of the walking vibration that occurs with the partner is further received.
  • the home server 1 When the data is received from the partner server, the home server 1 does not immediately reproduce the partner's video and audio, but first executes a process of specifying the partner's situation from the received data (S006).
  • This situation specifying process proceeds according to the procedure shown in FIG. 5, and specifically, a step of specifying the opponent's position (S021), a step of specifying the opponent's atmosphere, etc. (S022), and a step of specifying the partner's facial expression. (S023), the step (S024) of specifying the other party's walking vibration is sequentially performed. Note that the order in which the steps S021, S022, S023, and S024 are performed is not particularly limited, and can be set freely.
  • step S021 for specifying the position of the other party the position of the other party is specified from the moving image file data received from the other server, strictly speaking, the audio data extracted from the data. More specifically, when the extracted voice data is analyzed, the amplitude or phase of the sound collected by the microphone 3 is specified for each of the two left and right microphones 3 installed in the room where the other party is located. It becomes possible.
  • the home server 1 specifies the position of the other party based on the amplitude and phase of the sound specified for each microphone 3.
  • the other party's position is the position of the sound image determined from the displacement between the microphones with respect to the amplitude and phase of the sound collected by each microphone 3. More specifically, as shown in FIG. 6, the home server 1 has a distance between the display device 4 and the other party (a distance indicated by a symbol d in FIG. 6) and when viewed from the display device 4. The direction in which the other party is located (for example, whether it is located on the left or right when viewed from the display device 4) is specified.
  • the position of the other party may be specified by applying a technique (specifically, a technique for specifying a position for a predetermined part in an image).
  • the human sensor 8 having a distance calculation function may be used.
  • the human sensor 8 when a partner in the dialogue room is detected, the distance d between the reference position and the partner is calculated at the same time, and therefore the partner's position is specified from the calculation result. It is good.
  • step S022 for identifying the other party's atmosphere or the like the other party's emotions and the degree of bustling conversation room are identified from the moving image file data received from the other party server, strictly speaking, the voice data extracted from the same data. More specifically, by analyzing the sound data, information (sound quality information and sound volume information) obtained by quantifying the sound quality and sound volume indicated by the sound data can be obtained. Then, as shown in FIG. 7, the other party's emotion is specified from the sound quality information, and the bustling degree is specified from the volume information.
  • the sound quality information is information acquired by applying spectrum analysis to audio data, and specifically, information indicating the first formant frequency and the second formant frequency. Then, the first formant frequency and the second formant frequency are set to the values of the coordinate axes, and the coordinates corresponding to the sound quality information are calculated in a coordinate space defined by the coordinate axes (hereinafter, voice space). Further, when the voice space is mapped to a known emotion space, the coordinate corresponding to the calculated coordinate (that is, the coordinate in the emotion space) is specified as a value indicating the other party's emotion.
  • the volume information is information obtained by capturing the magnitude and change of the sound amplitude indicated by the sound data. Then, a value obtained by substituting the magnitude or change of the amplitude of the sound indicated by the volume information into a predetermined arithmetic expression is specified as the degree of liveliness (atmosphere) of the dialogue room.
  • step S023 for identifying the other party's facial expression the video data is extracted from the video file data received from the other server, and then the other party's face image is extracted from the video indicated by the video data, as shown in FIG. To do. Then, by applying a known image processing technique (specifically, a technique for identifying a facial expression from the facial image) to the extracted facial image, the facial expression / emotion of the other party is specified.
  • a known image processing technique specifically, a technique for identifying a facial expression from the facial image
  • step S024 for specifying the other party's walking vibration the generation position of the walking vibration shown in FIG. 9 (in other words, the position where the other party is present) is specified from the vibration data received from the other party server. More specifically, the vibration data is analyzed, and the amplitude and phase of walking vibration detected by the vibration sensor 6 are identified for each of the left and right vibration sensors 6 installed in the room where the other party is located. To do. And the generation
  • the home server 1 executes an effect request process (S007).
  • This effect request process proceeds according to the procedure shown in FIGS. 10A and 10B, and specifically starts from selecting the effect operation to be actually performed (S031).
  • the memory of the home server 1 stores data indicating the rendering operation (that is, the designated rendering operation) designated in advance by the user as the rendering operation to be actually performed.
  • the home server 1 reads the data from the memory and specifies the designated effect operation. Thereby, among the plurality of presentation operations, the presentation operation to be actually performed is selected.
  • the first effect operation is a pattern image display operation for displaying the ripple pattern image P shown in FIG. 11 on the display screen of the display device 4.
  • a program for displaying the ripple pattern image P is stored in the memory of the home server 1.
  • the CPU of the home server 1 reads and executes the above program.
  • data for displaying the pattern image P (hereinafter referred to as pattern image data) is generated and then transmitted to the display device 4.
  • the pattern image data is developed on the display device 4, the pattern image P is displayed on the display screen.
  • a pattern image P indicating a movement that spreads radially like a ripple is displayed.
  • the second effect operation is a BGM reproduction operation for reproducing BGM from the speaker 5.
  • the third performance operation is a vibration applying operation in which the vibration device 7 vibrates the floor of the dialogue room where the user is present.
  • the fourth effect operation is a processed sound reproduction operation in which noise processing is performed on the audio data acquired from the counterpart server, and the sound indicated by the processed data (that is, the noise processed sound) is reproduced from the speaker 5.
  • the home server 1 when the pattern image display operation is selected in the production operation selection step S031 (Yes in S032), the home server 1 performs the production mode setting process for setting the display form of the pattern image P. Execute. In this process, the home server 1 sets a display form corresponding to the identification result in the situation identification process S006.
  • the display position and display size on the display screen are determined (set) according to the position of the other party specified in the situation specifying process S006 (S033). More specifically, as shown in FIG. 11, the display position is set based on the direction in which the other party is present when viewed from the reference position. For example, when it is specified that the opponent is located on the left side of the reference position, the pattern image P is displayed on the left side of the display screen as shown in the left diagram of FIG. On the contrary, when it is specified that the opponent is positioned on the right side of the reference position, the pattern image P is positioned on the right side of the display screen as shown in the right diagram of FIG.
  • the display size is set based on the distance d between the reference position and the opponent as shown in FIG. For example, when the distance d is relatively long, in other words, when it is specified that the opponent is located at a position relatively far from the reference position, the display size is set to a small size as shown in the left diagram of FIG. . On the other hand, when the distance d is relatively short, in other words, when it is specified that the opponent is positioned relatively close to the reference position, the display size is set to a large size as shown in the right diagram of FIG. To do.
  • the coloring of the pattern image P is set according to the emotion of the other party specified in the situation specifying process S006 (S034). More specifically, as described above, the other party's emotion is specified as one coordinate in the emotion space. Then, by applying a known arithmetic expression that converts a coordinate in the emotion space into a point in the hue circle, a color corresponding to the emotion of the opponent expressed as one coordinate in the emotion space is set.
  • the spreading speed is the atmosphere specified in the situation specifying process S006, specifically, the conversation execution room. It sets according to the bustling degree (S035). More specifically, a formula for calculating the spreading speed from a value indicating the degree of bustling is prepared in advance, and the spreading speed is set by substituting the value of the bustling degree specified in the situation specifying process S006 into the above formula.
  • the pattern image P is displayed as a sign for transmitting the presence of the partner in the dialogue room and the atmosphere around the partner.
  • the home server 1 executes the rendering mode setting process for setting the type of BGM to be played.
  • the home server 1 selects a BGM according to the identification result in the situation identification process S006 (S037). More specifically, table data indicating the correspondence between facial expressions and BGM to be reproduced as shown in FIG. 12 is stored in the memory of the home server 1.
  • the home server 1 refers to the table data and selects the BGM corresponding to the facial expression of the opponent identified in the situation identifying process S006 as the BGM to be reproduced.
  • the BGM to be played back by the above procedure for example, when the specified partner's facial expression is a laughing face, an up-tempo BGM or a lively BGM BGM is selected as the BGM to be played. It will be. On the other hand, when the facial expression of the identified partner is a crying face, a BGM with a slow tempo and a quiet BGM are selected as the BGM to be reproduced.
  • the home server 1 When the vibration imparting operation is selected in the rendering operation selecting step S031 (Yes in S038), the home server 1 outputs each output condition (vibration generation condition) of the vibration devices 7 provided at the left and right locations in the dialogue room.
  • An effect mode setting process is set.
  • the home server 1 sets an output condition according to the identification result in the situation identification process S006 (S039). More specifically, the vibration generation condition (for example, occurrence) of each vibration device 7 is vibrated so as to vibrate the position corresponding to the generation position of the walking vibration specified in the situation specifying process S006 in the floor of the user's dialogue room. Set the vibration amplitude and phase. Then, by causing the vibration devices 7 to generate vibrations according to the set vibration generation conditions, the other party's walking vibrations are reproduced on the floor of the dialog room on the user side.
  • the home server 1 When the processing sound reproduction operation is selected in the rendering operation selection step S031 (Yes in S040), the home server 1 generates sound data of the noise processing sound (S041) and plays back the noise processing sound on the speaker 5 An effect mode setting process for setting a sound generation condition when the sound is generated is executed.
  • the audio data of the noise processed sound is generated by applying noise processing to the audio data acquired from the partner server (strictly, the audio data extracted from the moving image file data).
  • the home server 1 sets the sound generation condition according to the specific result in the situation specifying process S006 (S042).
  • the sound generation conditions (for example, the volume and phase of the generated sound) of each speaker 5 are set so that the position of the opponent specified in the situation specifying process S006 matches the position of the sound image related to the noise processed sound. To do. Then, by causing each speaker 5 to generate a noise processing sound according to the set sound generation conditions, the position of the sound image related to the noise processing sound is set to a predetermined position (specifically, the other party's display screen of the display device 4). The noise processed sound is played back so as to be the other party's display position when the video is displayed on the display screen.
  • a predetermined position specifically, the other party's display screen of the display device 4
  • the home server 1 After the production mode of each production operation is set by the procedure described above, the home server 1 generates a request for performing the production operation in the set production mode, and sends the request to the corresponding device.
  • Are output S043. More specifically, a request to perform the pattern image display operation is output to the display device 4, and a request to perform the BGM reproduction operation is output to each speaker 5 to perform the vibration applying operation. The request to be output is output to each vibration device 7, and the request to execute the processed sound reproduction operation is output to each speaker 5.
  • the device that has received the request for performing the rendering operation performs the rendering operation according to the set rendering mode according to the request.
  • the user can easily grasp the other party's situation (specifically, the occupancy status, emotions, facial expressions, atmosphere in the dialogue execution room, etc.) in the dialogue execution room by recognizing the effect operation to be performed. Is possible. If you know the situation of the other party in this way, you can grasp the clue of the conversation in an easy-to-understand manner. Therefore, smooth communication is realized.
  • the home server 1 determines whether or not the situation of the other party specified based on the video file data and vibration data received from the other party server changes. Determination is made by analyzing the file (S008). As a result of the determination, when the other party's situation changes (Yes in S008), the home server 1 repeats the situation specifying process S006 and the rendering request process S007 in the above-described procedure. In other words, in the present embodiment, when the situation of the specified opponent changes, the presentation mode is switched in conjunction with the change of the situation, and the presentation operation is performed in the presentation mode after switching, the display device 4, the speaker 5, and the vibration device. 7 to do.
  • the home server 1 changes the position and emotion after specifying the changed position and emotion.
  • the display mode of the pattern image P is reset (switched) according to the subsequent position and emotion.
  • the home server 1 re-executes the effect request process, generates a request for performing the pattern image display operation so that the pattern image P is displayed in the display mode after switching, and outputs the request to the display device. 4 is output.
  • the effect mode of the effect operation is switched in conjunction with the change. Therefore, when the other party's situation changes, the user can notice the change.
  • the home server 1 determines whether or not a user operation for starting the reproduction operation is performed while the production operation is performed (S009).
  • the user operation for starting the reproduction operation is an operation performed by the user to reproduce the other party's video or audio on the display device 4 or the speaker 5, and in this embodiment, an operation of touching the touch panel 4a. Is applicable.
  • the home server 1 When the user operation for starting the reproduction operation is performed, that is, when the touch panel 4a receives the touch operation, the home server 1 recognizes the user operation by receiving an output signal from the touch panel 4a. Thereafter, the home server 1 executes a reproduction request process for causing the display device 4 and the speaker 5 to perform a reproduction operation (S010). In the reproduction request process, the home server 1 generates a request for displaying the video indicated by the video data received from the partner server on the display screen, and outputs the request to the display device 4. In the same process, the home server 1 generates a request for reproducing the voice indicated by the voice data received from the partner server, and outputs the request to each speaker 5.
  • the display device 4 and each speaker 5 receive a request for performing the reproduction operation, and the reproduction operation is executed according to the request.
  • the rendering operation that has been performed so far is terminated, the other party's video is displayed on the display screen of the display device 4, and the other party's voice is reproduced from the speaker 5.
  • the rendering operation is performed before the reproduction operation is performed, and the reproduction operation is started on the condition that the user operation for starting the reproduction operation is performed during the rendering operation.
  • the reproduction operation for reproducing the other party's video and audio is not immediately started even when the interactive communication flow is started, and is suspended until a user operation for starting the reproduction operation is received.
  • the reproduction operation after receiving the user's operation for starting the reproduction operation and further obtaining the approval of the other party regarding the reproduction operation start.
  • the other party server detects the touch operation and transmits data indicating the detection result.
  • the reproduction operation may be started at the time when the home server 1 receives.
  • the vibration imparting operation is continuously performed as one of the reproduction operations after receiving the user operation for starting the reproduction operation. Then, when either the user or the partner leaves the room where the conversation is performed and the human sensor 8 no longer detects a person (S011), the user's home server 1 and the partner server end communication. At such time, the communication flow for dialogue ends.
  • the production operation is performed as a pre-process for performing the reproduction operation. That is, in the above embodiment, it is assumed that the reproduction operation is performed after the production operation, but the present invention is not limited to this. It is good also as performing only production
  • the position of the opponent, the appearance of the opponent, and the atmosphere of the space in which the opponent is located are all specified in grasping the situation of the opponent.
  • the present invention is not limited to this. It is sufficient to specify at least one of the items.
  • the case where the user and the other party are one person has been described as an example, but there may be a plurality of other persons.
  • the partner may be either a specific person or an unspecified person.
  • the other party is an unspecified person, if the situation of the unspecified person is grasped by the situation grasping unit of the present invention, an effect on crime prevention / security is expected.
  • each step described in the above embodiment (for example, the procedure of steps S021 to S24 for specifying items related to the situation of the other party) is merely an example, and each step is performed. As long as the purpose to achieve is achieved, other procedures may be adopted.

Abstract

 離れた場所にいる相手のプライバシーに配慮しつつ相手の状況を的確に把握する。 離れた場所に居る相手の状況を把握するための状況把握用ユニットにおいて、相手の映像及び音声を再現する動作とは異なる演出動作を行う演出装置と、演出装置を制御して演出動作を行わせるとともに相手側端末と通信する制御装置と、を有する。制御装置は、相手の位置や様子、相手が居る空間の雰囲気、相手が発する音声、及び相手の行動に伴って生じる振動のうちの少なくとも一つの事項に関するデータを相手側端末との通信を通じて取得し、取得したデータから上記の事項に関する内容を特定し、特定した内容に応じた演出態様にて演出動作を演出装置に行わせる。

Description

状況把握用ユニット
 本発明は、ユーザが離れた場所に居る相手の状況を把握するために用いる状況把握用ユニットに係り、特に、相手の映像及び音声を再現する方法とは異なる方法にて相手の状況を把握することが可能な状況把握用ユニットに関する。
 離れた場所に居る者の在宅状況や健康状態を監視する上で、テレビ会議等に用いられている通信技術が有効である。すなわち、当該通信技術によれば、互いの映像を見ながら会話することが可能となり、会話を行っている各当事者(会話者)は、相手の表情や様子を確認し、これにより、当該相手に関する異常の有無を判断することが可能となる。
 一方、被監視者となる者(すなわち、会話の相手)については、プライバシー等の問題から自分の姿を見られたくないケースも生じ得る。このため、互いに遠隔地に居る者同士が会話するための通信技術については、近年、被監視者のプライバシーを保護する技術が求められており、その一例としては特許文献1乃至4に記載の技術が挙げられる。
 特許文献1には、テレビ会議システムにおいて居眠りをしている者を検出した場合、一次的に映像及び音声の送信を止めて保留状態とし、居眠りをしていた者が覚醒したことを判断した際に保留状態を解除することが記載されている。かかる技術によれば、居眠り時の映像を見られないようにすることで、居眠りをしていた者のプライバシーを保護することが可能となる。
 同様に、特許文献2乃至4にも、テレビ会議やテレビ電話において会話者(若しくは会話相手)のプライバシーを保護する技術が開示されている。具体的に説明すると、特許文献2には、画像表示用の表示画面中、指定された領域に表示される画像を静止画像とすることが開示されている。特許文献3及び4には、自身の映像と予め記録していた画像とを合成することで服装、髪型、背景等を実際の物と異ならせて通信相手に送信することが開示されている。
特開2012-100185号公報 特開2012-227624号公報 特開2001-16564号公報 特開2001-309325号公報
 しかしながら、プライバシー保護を過度に重視してしまうと、会話相手の状況を的確に把握することが困難になる虞がある。例えば、特許文献1に示すように映像や音声を保留状態にすると、保留中の映像や音声が確認できないため、保留状態にある期間中に異常が起きたとしても、当該異常が発見され難くなる。また、特許文献2のように、表示画面中の一定領域に表示される画像を静止画像とすると、会話相手自身の様子やその周辺の雰囲気を正確に把握することが困難となる。同様に、特許文献3や4のように実際の映像に他の映像(予め登録されていた映像)を合成して送信すると、会話相手や周辺環境の画像が意図的に変更されるため、会話相手の様子やその周辺の雰囲気が正確に把握され難くなってしまう。
 会話相手の様子やその周辺の雰囲気を把握することは、会話相手との会話をスムーズに進めるにあたり重要となる。かかる意味で、特許文献1乃至4に開示の技術では、互いに遠隔地に居る者同士が行う会話の円滑化を十分に行い得ない可能性がある。そこで、本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、離れた場所にいる相手のプライバシーに配慮しつつ、当該相手の状況を的確に把握することが可能な状況把握用ユニットを提供することである。
 前記課題は、本発明の状況把握用ユニットによれば、ユーザが離れた場所に居る相手の状況を把握するために用いる状況把握用ユニットであって、(A)前記ユーザが認識可能であり前記相手の映像及び音声を再現する動作とは異なる演出動作を、行う演出装置と、(B)該演出装置を制御して前記演出動作を行わせるとともに、前記相手が用いる相手側端末と通信する制御装置と、を有し、(C)該制御装置は、(c1)前記相手の存否、前記相手を含む映像、前記相手が居る空間内で集音した音及び前記相手の行動に伴って生じる振動のうちの少なくとも一つを示すデータを、前記相手側端末との通信を通じて取得するデータ取得処理と、(c2)該データ取得処理において取得した前記データから、前記相手の位置、前記相手の様子及び前記相手が居る空間の雰囲気のうちの少なくとも一つの事項に関する内容を特定する内容特定処理と、(c3)該内容特定処理において特定された前記内容に応じた演出態様にて前記演出動作を前記演出装置に行わせる演出要求処理と、を実行することにより解決される。
 上記のように構成された本発明の状況把握用ユニットでは、演出装置が、相手の映像及び音声を再現する動作とは異なる演出動作を行うことになっている。また、演出装置は、相手の位置や様子、相手が居る空間の雰囲気、相手が発する音声、及び相手の行動に伴って生じる振動のうちの少なくとも一つに関する内容を特定し、その特定結果に応じた演出態様にて演出動作を行う。これにより、相手の映像及び音声を再現しなくとも、演出動作を通じて相手の状況を把握することが可能となる。この結果、相手のプライバシーを保護しつつ、相手の状況を的確に把握することが可能となり、以て、相手との会話を良好に円滑化することが可能となる。
 また、上記の状況把握用ユニットにおいて、前記制御装置は、前記データ取得処理において、前記相手が居る空間内で集音した音を示す音データを取得し、前記内容特定処理において、前記音データが示す音の音量及び音質のうちの少なくとも一方を特定すると、より一層好適である。
 上記の構成によれば、相手が居る空間内で集音した音の音量や音質を特定し、その特定結果に応じた演出態様にて演出装置に演出動作を行わせる。ここで、相手が居る空間内で集音した音の音量や音質は、当該相手の様子やその周辺の雰囲気を把握する上で有効な情報となる。したがって、相手が居る空間内で集音した音の音量や音質に応じた演出態様にて演出動作が行われることで、ユーザは、相手の状況をより的確に把握することが可能となる。
 また、上記の状況把握用ユニットにおいて、前記制御装置は、前記データ取得処理において、前記相手の位置を示す位置データを前記音データとともに取得し、前記内容特定処理において、前記音データが示す音の音量及び音質のうちの少なくとも一方を特定するとともに、前記相手が居る空間内の基準位置に対する前記相手の位置を特定すると、さらに好適である。
 上記の構成によれば、相手が居る空間内で集音した音の音量や音質とともに、当該空間におけるユーザの位置を特定し、その特定結果に応じた演出態様にて演出態様が行われるようになる。この結果、ユーザは、相手が居る現在の位置及び状況を把握することが可能となる。
 また、上記の状況把握用ユニットにおいて、前記演出装置は、表示画面にパターン画像を表示する前記演出動作を実行し、前記制御装置は、前記演出要求処理を実行する際、前記パターン画像の表示態様を前記演出態様とし、前記内容特定処理において特定された前記内容に応じた前記表示態様にて前記パターン画像が表示されるように前記演出動作を前記演出装置に行わせると、益々好適である。
 上記の構成によれば、演出動作としてパターン画像の表示動作が行われ、また、当該表示動作におけるパターン画像の表示態様は、相手の様子やその周辺の雰囲気に応じた態様となる。この結果、ユーザは、パターン画像を用いた視覚的な演出を通じて、相手の状況を的確に把握することが可能となる。
 また、上記の状況把握用ユニットにおいて、前記内容特定処理において特定された前記内容が変化した際、前記制御装置は、前記演出要求処理において、前記内容の変化に連動して前記表示態様を切り替え、切り替え後の前記表示態様にて前記パターン画像が表示されるように前記演出動作を前記演出装置に行わせると、尚一層好適である。
 上記の構成によれば、相手の様子やその周辺の雰囲気が変化した際、当該変化に連動してパターン画像の表示態様が切り替わるようになっている。これにより、相手の状況が変化した場合、ユーザは当該変化に気付くことが可能となる。
 また、上記の状況把握用ユニットにおいて、前記相手の映像及び音声のうちの少なくとも一方を再現する再現動作を行う再現装置と、該再現装置に前記再現動作を行わせるために前記ユーザが行う操作を受け付ける操作受け付け機器と、を更に有し、前記制御装置は、前記操作受け付け機器が前記操作を受け付けた際に前記再現装置を制御して前記再現動作を行わせる再現要求処理をさらに実行し、前記操作受け付け機器は、前記演出装置が前記演出動作を行っている状態にあるときに前記操作を受け付けると、より好適である。
 上記の構成によれば、再現動作の実施前には演出動作が実施され、また、演出動作中に再現動作開始用のユーザ操作が行われることを条件として再現動作が開始されるようになる。このように演出動作を経てから再現動作が開始することで、演出動作を経ず不意に再現動作が開始されるような事態を回避し、以て、相手のプライバシーをより効果的に保護することが可能となる。
 また、上記の状況把握用ユニットにおいて、前記演出装置と前記再現装置とが共通の装置となっていると、一段と好適である。
 上記の構成によれば、演出装置と再現装置とが共通の装置となっているので、状況把握用ユニットを構成する装置/機器の台数が増加するのを抑制することが可能となる。この結果、再現装置を備える状況把握用ユニットの構成をシンプル化することが可能となる。
 本発明の状況把握用ユニットによれば、相手の映像及び音声を再現しなくとも相手の状況を把握することが可能となる。つまり、本発明の状況把握用ユニットを用いることで、相手のプライバシーを保護しつつ、相手の状況を的確に把握することが可能となる。そして、相手側の状況を把握することにより、当該状況を踏まえて相手と会話することが可能となり、以て、円滑な会話(コミュニケーション)が実現されるようになる。以上のように本発明の状況把握ユニットは、互いに離れた場所に居る者同士が良好に会話を行う際のツールとして有効に活用され得るものである。
本発明の状況把握用ユニットの使用例についての説明図である。 本発明の一実施形態に係る状況把握用ユニットの構成を示すブロック図である。 本発明の一実施形態に係る制御装置の機能の一覧図である。 対話用通信フローの流れを示す図である。 状況特定処理の手順を示す図である。 相手の位置を特定する方法についての説明図である。 相手が居る空間の雰囲気等を特定する方法についての説明図である。 相手の表情を特定する方法についての説明図である。 相手の歩行振動を特定する方法についての説明図である。 演出要求処理の手順を示す図である(その1)。 演出要求処理の手順を示す図である(その2)。 パターン画像の表示態様に関する説明図である。 顔の表情と再生するBGMとの対応関係を示す図である。
 以下、本発明の一実施形態(以下、本実施形態)について図面を参照しながら説明する。
 <<本実施形態に係る状況把握用ユニットの概要>>
 先ず、本実施形態に係る状況把握用ユニットについて概説する。
 本実施形態に係る状況把握用ユニットは、そのユーザが離れた場所に居る相手の状況を把握するために用いられる。また、本実施形態に係る状況把握用ユニットは、その構成の大部分がテレビ会議システム等で利用されている対話用通信ユニットと共通している。このため、本実施形態に係る状況把握用ユニットは、図1に示すようにユーザが離れた場所にいる相手の顔を見ながら対話をする目的で用いられる。
 具体的に説明すると、ユーザと相手(以下、両者の一方を対話者と、他方を対話相手とも言う)は、それぞれ本実施形態に係る状況把握用ユニットを保有している。より詳細に説明すると、本実施形態に係る状況把握用ユニットは、対話者及び対話相手の各々の自宅に備え付けられている。そして、対話者は、自宅中、状況把握用ユニットを構成するデバイスが設置された部屋(以下、対話実施部屋)にて対話相手と対話するために、本実施形態に係る状況把握用ユニットを用いる。
 なお、状況把握用ユニットを用いた対話については、対話者の自宅にて行われるケースに限られず、自宅以外の建物(例えば、対話者が利用している施設やビル)にて行われることとしてもよい。
 <<状況把握用ユニットの基本構成>>
 本実施形態に係る状況把握用ユニットの基本構成について図1及び2を参照しながら説明する。本実施形態に係る状況把握用ユニット(以下、本ユニット)100は、前述したようにユーザ及び相手の双方のそれぞれによって保有されており、その機器構成については図2に示すように共通している。したがって、以下では、一方の対話者が保有する本ユニット100(具体的には、ユーザ側の本ユニット100)を例に挙げて、その構成を説明することとする。
 本ユニット100は、図1に示すように、ユーザの映像/音声を取得する入力デバイスとしてのカメラ2及びマイク3、並びに、相手の映像/音声を再現する出力デバイスとしてのディスプレイ機器4及びスピーカ5を備えている。これらのデバイスは、ユーザの自宅の対話実施部屋内に設置されている。
 カメラ2は、公知の撮像レコーダによって構成されており、その撮像エリアについては対話実施部屋内に設定されている。そして、撮像エリア内にユーザが居るとき、カメラ2は、ユーザの全身像とその周辺空間を撮像する。マイク3は、公知の集音マイクによって構成されており、ユーザが対話実施部屋内に在室している間に、同部屋内において、ユーザ及びその周辺から発せられる音声(音)を集音する。なお、本実施形態では、図1に示すように、カメラ2の両脇に1個ずつ、計2個のマイク3が設置されている。このようにマイク3が左右2箇所に設置されていることで、音声を発しているユーザの位置、すなわち、音像の位置を各マイク3が集音した音(具体的には、音の波形の位相差)から特定することが可能となる。なお、マイク3の設置数や設置箇所については特に限定されるものではなく、任意に設定することが可能である。
 ディスプレイ機器4は、相手の映像を再現(表示)する再現装置に相当する。本実施形態に係るディスプレイ機器4は、図1に示すように矩形状の外形形状を有しており、その前面には映像表示用の表示画面が形成されている。この表示画面は、相手の全身像及びその周辺環境の映像を表示することが可能なサイズとなっている。なお、本実施形態においてディスプレイ機器4は、図1に示すように対話実施部屋内の壁際に配置されている。ただし、ディスプレイ機器4の配置位置については特に限定されるものではなく、任意の位置に配置することが可能である。
 また、ディスプレイ機器4はタッチパネル4aを搭載している。このタッチパネル4aは、上記の表示画面を構成するとともに、操作受け付け機器としてユーザが行う操作(具体的には、タッチ操作)を受け付ける。なお、操作受け付け機器についてはタッチパネル4aに限定されるものではなく、キーボードやマウス等をはじめとする通常の入力機器を操作受け付け機器として用いることとしてもよい。
 スピーカ5は、相手やその周辺の音声を再現(再生)する再現装置に相当する。本実施形態で用いられているスピーカ5は、一般的なスピーカと同様の構成となっており、また、図1に示すようにディスプレイ機器4の両脇に1個ずつ、計2個のスピーカ5が設置されている。このようにスピーカ5が左右2カ所に設置されていることで、ユーザ側で音像の位置を調整することが可能となる。つまり、各スピーカ5から発する音の位相や振幅等を各スピーカ5別に制御することにより、ユーザが知覚する音像の位置を調整することが可能となる。そして、音像の位置が調整可能となる結果、ディスプレイ機器4に表示される相手が居る方角から音声が聞こえてくるような視聴覚的効果が得られるようになる。なお、スピーカ5の設置数や設置箇所については特に限定されるものではなく、任意に設定することが可能である。
 本実施形態では、上述の機器の他に、入力デバイスとしての振動センサ6と、出力デバイスとしての振動デバイス7と、が本ユニット100の構成機器として更に設けられている。
 振動センサ6は、公知の加速度センサによって構成されており、対話実施部屋の床に設置されており、ユーザが当該床の上を歩行した際に発する振動(以下、歩行振動)を検知する。また、本実施形態において振動センサ6は、図1に示すようにディスプレイ機器4の前方位置に複数配置され、厳密にはセンサ間に間隔を設けた状態で左右2箇所に設置されている。このように振動センサ6が左右2箇所に設置されていることで、歩行振動の発生源であるユーザの位置を、各振動センサ6が検知した歩行振動(具体的には、歩行振動の波形の位相差)の検知結果から特定することが可能となる。なお、振動センサ6の設置数や設置箇所については特に限定されるものではなく、任意に設定することが可能である。
 振動デバイス7は、相手の歩行振動を再現する装置であり、対話実施部屋の床を構成する床材の裏面に当接させる形で設けられている。また、振動デバイス7は、機械的動作によって床に振動を付与するアクチュエータによって構成されている。そして、振動デバイス7は、ディスプレイ機器4に表示される映像と同期する形で上記の床に対して振動を付与する。これにより、ディスプレイ機器4に表示される相手の映像(具体的には歩行動作を行っている相手の映像)に連動する形で床面が振動するようになる。このよう相手の歩行動作に伴う振動がユーザ側で再現可能となることで、ユーザは、あたかも同じ空間で相手と対話しているような感覚(すなわち、臨場感)を感じるようになる。
 また、本実施形態において振動デバイス7は、ディスプレイ機器4から前方へ幾分離間した位置に複数配置されており、厳密にはデバイス間に間隔を設けた状態で左右2箇所に設置されている。このように振動デバイス7が左右2箇所に設置されていることで、ユーザ側で再現する相手の歩行振動の発生位置を調整することが可能となる。つまり、各振動デバイス7から発する振動の位相や振幅等を各振動デバイス7別に制御することで、ユーザが知覚する歩行振動の発生位置を調整することが可能となる。そして、歩行振動の発生位置が調整可能となる結果、ディスプレイ機器4に表示される相手の立ち位置から歩行振動が伝わってくるような効果が得られるようになり、対話の臨場感が更に向上する。なお、振動デバイス7の設置数や設置箇所については特に限定されるものではなく、任意に設定することが可能である。また、振動デバイス7については、アクチュエータに限られず、床面を好適に振動させる機器であれば他の機器、例えば、振動スピーカであってもよい。
 本ユニット100は、以上までに説明してきた各デバイスを備えているとともに、図2に示すようにホームサーバ1を更に備えている。このホームサーバ1は、いわゆるホームゲートウェイであり、CPU、RAMやROMからなるメモリ、ハードディスクドライブ、及び通信用インタフェースを有する。また、ホームサーバ1のメモリには、各種プログラムやデータが格納されている。
 そして、メモリに格納されたプログラムがCPUによって読み取られて実行されることにより、ホームサーバ1は、ユーザが相手と対話するための一連の処理を実行し、各々の処理において上述したデバイスのうち、対応するデバイスを制御する。つまり、ホームサーバ1は、制御装置として機能し、各デバイスと通信可能に接続されている。
 また、ホームサーバ1は、相手が対話用通信を行うために用いる相手側端末、具体的には相手側のホームサーバ(以下、相手側サーバ)と通信し、当該相手側サーバとの間でデータの送受信を行う。すなわち、ホームサーバ1は、インターネット等の外部通信ネットワークを介して相手側サーバと通信可能に接続されている。そして、ホームサーバ1は、相手側サーバとの通信を通じて、相手の映像を示す映像データや相手の自宅の対話実施部屋で集音された音を示す音声データを取得する。また、ホームサーバ1は、ユーザの映像を示す映像データやユーザ宅の対話実施部屋で集音された音を示す音声データを、相手側サーバに向けて送信する。
 なお、本実施形態では、ユーザのホームサーバ1や相手側サーバから送信される映像データは、音声データが重畳された状態のデータ、具体的には動画ファイルデータの形式で送信されることになっている。かかる動画ファイルデータに格納された映像や音声を再現するに際しては、当該動画ファイルデータから映像データ及び音声データを抽出し、抽出された各データを展開することになる。
 また、ホームサーバ1が相手側サーバから受信するデータの中には、相手の歩行動作によって生じた歩行振動に関するデータが含まれている。このデータは、歩行振動の振幅や位相等を示すデータであって、以下、振動データと言う。同様に、ホームサーバ1が相手側サーバに向けて送信するデータには、ユーザの歩行動作によって生じた歩行振動に関する振動データが含まれている。
 ところで、本実施形態に係るホームサーバ1は、ユーザが対話実施部屋に入室することをトリガー(開始条件)として、対話用通信に係る一連の処理を開始する。より具体的に説明すると、本ユニット100は、図2に示すように、人感センサ8を構成機器として更に有する。この人感センサ8は、その検知エリア内におけるヒトの存在を検知するものであり、ユーザ宅の対話実施部屋の所定箇所、例えば天井に取り付けられている。つまり、対話実施部屋の室内空間は、人感センサ8の検知エリアとして設定されている。そして、検知エリアとしての室内空間内にユーザが居ると、人感センサ8がユーザを検知し、その検知結果を示す電気的信号をホームサーバ1に対して出力する。また、ユーザが対話実施部屋に在室している期間中、人感センサ8は上記の電気的信号を出力し続ける。
 一方、ホームサーバ1は、人感センサ8から出力された電気的信号を受信すると、カメラ2、マイク3及び振動センサ6を作動させ、各々のデバイスからの入力信号を受信する。すなわち、ホームサーバ1は、人感センサ8からの出力信号の受信を契機として、ユーザ及びその周辺空間の映像をカメラ2に撮像させ、対話実施部屋内で発生した音をマイク3に集音させ、ユーザの歩行動作に伴う振動(歩行振動)を振動センサ6に検知させる。
 また、ホームサーバ1は、人感センサ8からの出力信号を受信すると、相手側サーバとの通信を開始する。この際、相手がその自宅の対話実施部屋に在室していれば、相手側サーバから動画ファイルデータや振動データが送信されるようになる。一方で、ホームサーバ1は、相手側サーバから送信されてくる動画ファイルデータや振動データを受信するようになる。
 <<ホームサーバの機能>>
 次に、本実施形態に係るホームサーバ1に搭載された機能について図3を参照しながら説明する。ホームサーバ1は、ユーザが相手と対話するための一連の処理を実行する。換言すると、ホームサーバ1には、対話用の通信を実施するにあたり必要な各処理を順次実行する機能が搭載されている。具体的には、図3に示すように、「在室認識機能」、「データ受信機能」、「データ生成機能」、「データ送信機能」、「再現要求機能」及び「再現条件設定機能」が搭載されている。
 在室認識機能とは、ユーザが対話実施部屋内に在室している間に人感センサ8が出力する電気的信号を受信し、ユーザが対話実施部屋に在室していることを認識する機能である。そして、在室認識機能によって対話実施部屋内におけるユーザの存在が確認された上で、後述する他の機能が発揮されるようになっている。
 データ受信機能とは、インターネットを経由して相手側サーバから動画ファイルデータや振動データを受信する機能である。すなわち、ホームサーバ1は、ユーザが相手と対話するための処理として、相手側サーバと通信して動画ファイルデータや振動データを取得するデータ取得処理を実行する。なお、本実施形態に係るホームサーバ1は、データ取得処理を実行する前段階で相手側サーバに対して在室情報の提供を要求する。在室情報とは、相手の存否、分かり易くは、相手がその自宅の対話実施部屋内に在室しているか否かについての情報である。ホームサーバ1は、在室情報を示すデータを相手側サーバから受信すると、当該在室情報から相手が対話実施部屋内に在室していることを確認し、その上でデータ取得処理を実行する。
 データ生成機能は、カメラ2が撮影した映像を示す映像信号から映像データを生成し、マイク3が集音した音を示す音声信号から音声データを生成する機能である。さらに、データ生成機能によれば、生成された映像データに音声データを重畳することで動画ファイルデータが生成される。
 データ送信機能は、データ生成機能によって生成された動画ファイルデータや、振動センサ6から取得した振動データ(厳密には、取得した振動データに相当するデータとしてホームサーバ1が生成したデータ)を相手側サーバに向けて送信する機能である。
 再現要求機能とは、再現装置であるディスプレイ機器4やスピーカ5を制御し、これらのデバイスに相手の映像や音声を再現する再現動作を行わせる機能である。すなわち、ホームサーバ1は、ユーザが相手と対話するための処理として再現要求処理を実行する。この再現要求処理では、先ず、相手側サーバから受信した動画ファイルデータから映像データ及び音声データを抽出する。その後、抽出された映像データ及び音声データを展開してから、各データが示す映像や音声を再現させるための要求を生成し、生成した当該要求をディスプレイ機器4及びスピーカ5に対して出力する。ディスプレイ機器4及びスピーカ5は、ホームサーバ1からの要求を受け付けると、当該要求に従って再現動作を行うようになる。
 さらに、本実施形態では、再現要求機能に、振動デバイス7を制御して相手の歩行振動を再現する再現動作を行わせる機能が含まれている。すなわち、ホームサーバ1は、相手の歩行振動を再現する再現動作を振動デバイス7に行わせる処理(再現要求処理)を実行する。この処理では、先ず、相手側サーバから受信した振動データを展開して、相手の歩行振動を再現させる要求を生成し、生成した当該要求を振動デバイス7に対して出力する。振動デバイス7は、ホームサーバ1からの要求を受け付けると、当該要求に従って再現動作、すなわち振動付与動作を行うようになる。
 再現条件設定機能は、ディスプレイ機器4、スピーカ5及び振動デバイス7の各々に再現動作を行わせる際の条件を設定する機能である。この機能により設定された再現条件は、再現要求処理の際に生成される要求に組み込まれるようになっている。
 再現条件の設定に関して言うと、相手側サーバから受信したデータ(具体的には、動画ファイルデータや振動データ)に基づいて再現条件が設定されることになっている。より詳細に説明すると、前述したように、ユーザの自宅の対話実施部屋にはスピーカ5が左右2箇所に設けられており、スピーカ5毎に再現条件(具体的には、発生音の音量や位相等)が設定されることになっている。一方で、相手側の自宅の対話実施部屋にはマイク3が左右2箇所に設けられており、各マイク3が集音した音の音量や位相を示す音声データが動画ファイルデータの形式で相手側サーバから送信される。そして、ホームサーバ1は、相手側サーバから受信した上記の音声データに基づいて音像の位置を特定すると、その特定結果に応じてスピーカ5毎の再現条件を設定する。
 また、ユーザの自宅の対話実施部屋には振動デバイス7が左右2箇所に設けられており、振動デバイス7毎に再現条件(具体的には、発生振動の振幅や位相等)が設定されることになっている。一方で、相手側の自宅の対話実施部屋には振動センサ6が左右2箇所に設けられており、各振動センサ6が検知した歩行振動の振幅や位相を示す振動データが相手側サーバから送信される。そして、ホームサーバ1は、相手側サーバから受信した上記の振動データに基づいて歩行振動の発生位置を特定すると、その特定結果に応じて振動デバイス7毎の再現条件を設定する。
 以上までに説明した機能により、ホームサーバ1は、相手側サーバとの間で対話用の通信を実施する。この結果、ユーザは、ディスプレイ機器4の表示画面にて相手の全身像や周辺空間の映像を見ながら、マイク3及びスピーカ5を通じて相手と会話(対話)をすることが可能となる。
 ところで、発明が解決しようとする課題の項で説明したように、対話用の通信を行う際には相手のプライバシーに配慮する必要がある。例えば、人感センサ8からの出力信号を受信した際に、直ちに相手の映像や音声を再現してしまうと、当該相手が自分の姿や声をユーザに伝えたくないと考えていたとしても、その意に反して映像や音声が再現されることになってしまう。
 一方、プライバシー保護を過度に重視してしまうと、相手の状況、具体的には相手の様子やその周辺の雰囲気を的確に把握することが困難になる虞がある。また、相手の状況を正確に把握することは、当該相手との対話(コミュニケーション)をスムーズに行う上で重要となる。
 そのため、本実施形態では、対話用の通信に係る一連の処理において相手の映像や音声を再現する前段階で、相手の状況を把握するための処理を実行することとし、かかる処理を実行する機能(以下、状況把握用機能とも言う)がホームサーバ1に搭載されている。かかる状況把握用機能は、状況把握用ユニットの構成機器としてホームサーバ1が本来的に備える機能であり、本実施形態を特徴付けるものである。
 具体的に説明すると、本実施形態では、相手の映像や音声を再現する動作とは異なる演出動作が、相手の映像や音声を再現する工程の前段階で実施される。かかる演出動作は、ユーザがその五感によって認識することが可能なものであり、相手の状況を把握する目的で行われる。なお、本実施形態では、相手の映像に代わる画像の表示動作、相手の音声に代わる音や曲の再生動作、振動を付与する動作等が演出動作として行われる。ただし、演出動作の内容については、上記の内容に限定されるものではない。演出動作については、ユーザが当該動作を認識することで相手の状況を把握することが可能なものになっていればよく、例えば、臭いを発する動作、あるいは照明装置やエアコンの運転状態を切り替える動作を行うこととしてもよい。
 また、演出動作は、上述したディスプレイ機器4、スピーカ5及び振動デバイス7によって行われる。すなわち、本実施形態では、再現装置としてのディスプレイ機器4、スピーカ5及び振動デバイス7が、演出動作を行う演出装置としても機能する。換言すると、本実施形態では、演出装置と再現装置とが共通の装置となっている。これにより、演出装置と再現装置をそれぞれ個別に用意する構成に比して、本ユニット100の構成がよりシンプル化するようになる。
 演出動作について概説すると、相手の状況に関する内容を特定し、その特定結果に応じた演出態様にて行われる。ここで、「相手の状況」とは、相手の位置、相手の様子及び相手が居る空間の雰囲気を含む概念である。
 また、「相手の位置」とは、相手の自宅の対話実施部屋内における基準位置、例えばディスプレイ機器4の配置位置に対する相手の相対位置のことである。分かり易く言うと、対話実施部屋に居る相手とディスプレイ機器4との間の距離、及び、ディスプレイ機器4から見たときの相手が居る方角のことである。
 また、「相手の様子」とは、相手の表情、感情、姿勢、動作の有無と当該動作の内容、活動度合い、覚醒度、体温等で表される健康状態、異常の有無と当該異常の内容、その他相手の現状に関する事項のことである。なお、本実施形態では、上述した「様子」の該当事項のうち、相手の表情及び感情を特定することとする。ただし、これに限定されるものではなく、表情や感情以外の事項を特定することとしてもよい。
 また、「相手が居る空間の雰囲気」とは、相手が居る空間、すなわち、対話実施部屋における賑わい度合い(分かり易くは、同部屋内の音量)、対話実施部屋に在室しているヒトの人数、温湿度や照明度等によって表される対話実施室内の環境、その他対話実施部屋の現状に関する事項のことである。なお、本実施形態では、上述した「雰囲気」の該当事項のうち、対話実施部屋における賑わい度合いを特定することとする。ただし、これに限定されるものではなく、賑わい度合い以外の事項を特定することとしてもよい。
 以上のように本実施形態に係るホームサーバ1は、演出動作の実施にあたり、相手の状況を特定する。このとき、ホームサーバ1は、相手側サーバから取得した動画ファイルデータや振動データから相手の状況を特定する。換言すると、ホームサーバ1は、相手の状況を特定する上で必要となるデータとして、動画ファイルデータや振動データを相手側サーバから受信する。かかる意味で、相手側サーバから動画ファイルデータや振動データを受信する処理は、相手の状況に関するデータを取得するデータ取得処理に該当すると言える。
 そして、ホームサーバ1は、相手側サーバから取得したデータから相手の状況に関する内容を特定する処理(内容特定処理)を実行する。つまり、本実施形態に係るホームサーバ1には、相手側サーバから取得したデータから相手の状況に関する内容を特定する機能が搭載されている。かかる機能について図3を参照しながら説明すると、相手の位置を特定する「位置特定機能」と、相手の表情を特定する「表情特定機能」と、相手の感情及び対話実施部屋内の賑わい度合いを特定する「雰囲気等特定機能」と、相手の歩行振動に関する内容を特定する「歩行振動特定機能」とが搭載されている。なお、上述した各特定事項を特定する方法については、後に詳しく説明する。
 相手の状況を特定した後、ホームサーバ1は、特定結果に応じた演出態様にて演出動作をディスプレイ機器4、スピーカ5及び振動デバイス7に行わせる演出要求処理を実行する。すなわち、本実施形態に係るホームサーバ1には、演出装置であるディスプレイ機器4、スピーカ5及び振動デバイス7を制御し、これらのデバイスに演出動作を行わせる演出要求機能が搭載されている。
 なお、本実施形態では、実施可能な演出動作が複数種類用意されており、ユーザは、複数の演出動作の中から実際に実施する演出動作を事前に指定することとなっている。ホームサーバ1は、演出要求処理において、ユーザが指定した演出動作(以下、指定演出動作)を特定し、当該指定演出動作を行わせるための要求を生成し、指定演出動作を行うデバイスに対して上記の要求を出力する。ホームサーバ1からの要求の出力先であるデバイスは、当該要求を受け付けると、所定の演出態様にて演出動作を行うようになる。
 演出態様については、ホームサーバ1が演出要求処理の前段階で特定した相手の状況に応じて設定する。すなわち、本実施形態に係るホームサーバ1には、特定した相手の状況に応じて演出態様を設定する演出態様設定機能が搭載されている。なお、演出態様の設定内容については、演出要求処理において生成される要求中に組み込まれる。
 以上までに説明した状況把握用機能により、ホームサーバ1は、相手の映像や音声を再生する前に、ディスプレイ機器4、スピーカ5及び振動デバイス7に対応する演出動作(厳密には、指定演出動作)を行わせる。この演出動作を通じて、ユーザは、相手の状況を把握することが可能となり、その上でマイク3及びスピーカ5を通じて相手と会話(対話)をすることが可能となる。
 <<対話用通信フローについて>>
 次に、上述した演出動作の実施要求を含めて、ホームサーバ1が実行する対話用の通信に係る一連の処理(以下、対話用通信フロー)について説明する。対話用通信フローは、図4に図示した流れに従って進み、同図に示すように、先ず、ホームサーバ1が人感センサ8からの出力信号を受信するところから始まる(S001)。すなわち、対話用通信フローは、ユーザが対話実施部屋に入室したことを人感センサ8が検知し、その検知結果を示す電気的信号が人感センサ8から出力されて同信号をホームサーバ1が受信したときに開始される。
 その後、ホームサーバ1は、相手側サーバに在室情報の配信を要求し(S002)、かかる要求を受け付けた相手側サーバが在室情報を配信すると、インターネット経由で当該在室情報を入手する(S003)。そして、ホームサーバ1は、入手した在室情報から相手が対話実施部屋に在室していることを確認すると(S004でYes)、相手側サーバと通信して、相手の映像や音声等を示す動画ファイルデータを受信する(S005)。また、相手が対話実施部屋内で歩行している場合には、それに伴って発生する歩行振動の振幅や位相を示す振動データを更に受信する。
 相手側サーバからデータを受信すると、ホームサーバ1は、直ちに相手の映像や音声を再現せず、先ず、受信したデータから相手の状況を特定する処理を実行する(S006)。この状況特定処理は、図5に示す手順に従って進行し、具体的には、相手の位置を特定する工程(S021)、相手の雰囲気等を特定する工程(S022)、相手の表情を特定する工程(S023)、相手の歩行振動を特定する工程(S024)が順に行われる。なお、各工程S021、S022、S023、S024が行われる順番については、特に制限されず、自由に設定することが可能である。
 以下、各工程S021、S022、S023、S024の内容について説明する。
 相手の位置を特定する工程S021では、相手側サーバから受信した動画ファイルデータ、厳密には、同データから抽出した音声データから相手の位置を特定する。より具体的に説明すると、抽出した音声データを解析すると、相手が居る対話実施部屋内に設置された左右2つのマイク3の各々について、当該マイク3が集音した音の振幅や位相を特定することが可能となる。
 そして、ホームサーバ1は、各マイク3別に特定した音の振幅や位相に基づいて、相手の位置を特定する。ここで、相手の位置とは、各マイク3が集音した音の振幅や位相についてのマイク間のずれから割り出した音像の位置のことである。より分かり易く説明すると、ホームサーバ1は、図6に示すように、ディスプレイ機器4と相手との間の距離(図6中、記号dにて示す距離)、及び、ディスプレイ機器4から見たときの相手が居る方角(例えば、ディスプレイ機器4から見て左右いずれに位置するか)を特定する。
 なお、相手の位置を特定する方法については、上述の方法以外の方法も考えられ、例えば、相手側サーバから受信した動画ファイルデータ、厳密には、同データから抽出した映像データに対して画像処理技術(具体的には、画像中の所定部位について位置を特定する技術)を適用することで、相手の位置を特定することとしてもよい。
 また、相手の位置として、基準位置(本実施形態では、ディスプレイ機器4の配置位置)からの距離dを特定する場合には、距離算出機能を有する人感センサ8を用いることとしてもよい。かかる人感センサ8を用いれば、対話実施部屋内に居る相手を検知した際、同時に、基準位置と相手との間の距離dが算出されるので、当該算出結果から相手の位置を特定することとしてもよい。
 相手の雰囲気等を特定する工程S022では、相手側サーバから受信した動画ファイルデータ、厳密には、同データから抽出した音声データから相手の感情、及び、対話実施部屋の賑わい度合いを特定する。より具体的に説明すると、音声データを解析することにより、当該音声データが示す音の音質及び音量について、それぞれを定量化した情報(音質情報及び音量情報)が得られる。そして、図7に示すように、音質情報からは相手の感情が特定され、音量情報からは賑わい度合いが特定される。
 より詳しく説明すると、音質情報とは、音声データに対してスペクトル解析を適用することで取得される情報であり、具体的には、第1フォルマント周波数及び第2フォルマント周波数を示す情報である。そして、第1フォルマント周波数と第2フォルマント周波数とを座標軸の値に設定し、当該座標軸によって規定される座標空間(以下、音声空間)において上記の音質情報に相当する座標を算出する。さらに、上記音声空間を公知の感情空間に写像したときに、算出した上記の座標と対応する座標(すなわち、感情空間における座標)を、相手の感情を示す値として特定する。
 また、音量情報は、音声データが示す音の振幅の大きさ及び変化を捉えることで取得される情報である。そして、音量情報が示す音の振幅の大きさや変化を所定の演算式に代入することで得られる値を、対話実施部屋の賑わい度合い(雰囲気)として特定する。
 相手の表情を特定する工程S023では、相手側サーバから受信した動画ファイルデータから映像データを抽出した上で、図8に示すように、当該映像データが示す映像中、相手の顔の画像を抽出する。そして、抽出した顔画像に対して公知の画像処理技術(具体的には、顔画像から表情を識別する技術)を適用することで、相手の表情・感情を特定する。
 相手の歩行振動を特定する工程S024では、図9に図示した歩行振動の発生位置(換言すると、相手が居る位置)を、相手側サーバから受信した振動データから特定する。より具体的に説明すると、上記の振動データを解析し、相手が居る対話実施部屋に設置された左右2つの振動センサ6の各々について、当該振動センサ6が検知した歩行振動の振幅及び位相を特定する。そして、各振動センサ6が検知した振動の振幅や位相についてのセンサ間のずれから、歩行振動の発生位置を特定する。
 以上の手順により相手の状況(位置、表情・感情、雰囲気、表情及び歩行振動)を特定すると、その後、ホームサーバ1が演出要求処理を実行する(S007)。この演出要求処理は、図10A及び10Bに示す手順に従って進行し、具体的には、実際に実施させる演出動作を選別するところから始まる(S031)。より詳しく説明すると、ホームサーバ1のメモリには、実際に実施させる演出動作としてユーザが事前に指定した演出動作(すなわち、指定演出動作)を示すデータが記憶されている。ホームサーバ1は、メモリから当該データを読み出して指定演出動作を特定する。これにより、複数の演出動作のうち、実際に実施させる演出動作が選別されるようになる。
 ところで、本実施形態では、4種類の演出動作が用意されている。第1の演出動作は、図11に図示の波紋状のパターン画像Pをディスプレイ機器4の表示画面に表示するパターン画像表示動作である。かかる波紋状のパターン画像Pを表示するためのプログラムは、ホームサーバ1のメモリに記憶されている。パターン画像表示動作を実行させる際には、ホームサーバ1のCPUが上記のプログラムを読み出して実行する。これにより、パターン画像Pを表示するためのデータ(以下、パターン画像データ)が生成され、その後、ディスプレイ機器4に伝送される。このパターン画像データがディスプレイ機器4にて展開されると、その表示画面にパターン画像Pが表示されるようになる。さらに、本実施形態では、波紋のように放射状に広がる動きを示すパターン画像Pが表示される。
 演出動作の種類について再び説明すると、第2の演出動作は、スピーカ5からBGMを再生するBGM再生動作である。再生するBGMについては複数の候補が有り、各候補のデータがホームサーバ1のハードディスクドライブに保存されている。
 第3の演出動作は、ユーザが居る対話実施部屋の床を振動デバイス7によって振動させる振動付与動作である。第4の演出動作は、相手側サーバから取得した音声データに対してノイズ加工を施し、加工後のデータが示す音(すなわち、ノイズ加工音)をスピーカ5から再生する加工音再生動作である。
 演出要求処理の流れに戻ると、演出動作の選別工程S031においてパターン画像表示動作が選定された場合(S032でYes)、ホームサーバ1は、パターン画像Pの表示形態を設定する演出態様設定処理を実行する。かかる処理において、ホームサーバ1は、状況特定処理S006における特定結果に応じた表示形態を設定する。
 具体的に説明すると、先ず、パターン画像Pの表示態様として、表示画面における表示位置及び表示サイズを、状況特定処理S006において特定した相手の位置に応じて決定(設定)する(S033)。より詳しく説明すると、表示位置については、図11に示すように、基準位置から見たときの相手が居る方角に基づき設定される。例えば、相手が基準位置よりも左側に位置すると特定された場合には、図11の左図に示すように、パターン画像Pを表示画面の左側に表示することとしている。反対に、相手が基準位置よりも右側に位置すると特定された場合には、図11の右図に示すように、パターン画像Pを表示画面の右側に位置することとしている。
 また、表示サイズについては、図11に示すように、基準位置と相手との間の距離dに基づき設定される。例えば、距離dが比較的長いとき、換言すると、基準位置から比較的遠い位置に相手が位置すると特定された場合には、図11の左図に示すように、表示サイズを小サイズに設定する。反対に、距離dが比較的短いとき、換言すると、基準位置から比較的近い位置に相手が位置すると特定された場合には、図11の右図に示すように、表示サイズを大サイズに設定する。
 次に、パターン画像Pの表示態様として、パターン画像Pの彩色を、状況特定処理S006において特定した相手の感情に応じて設定する(S034)。より詳しく説明すると、前述したように、相手の感情は、感情空間における一座標として特定される。そして、感情空間における座標を色相環中の一点に変換する公知の演算式を適用することで、感情空間における一座標として表現された相手の感情、に対応する彩色が設定される。
 次に、パターン画像Pの表示態様として、波紋のように広がるパターン画像Pの動きの速さ(以下、広がり速度)を、状況特定処理S006において特定した雰囲気、具体的には、対話実施部屋の賑わい度合いに応じて設定する(S035)。より詳しく説明すると、賑わい度合いを示す値から広がり速度を算出する式が予め用意されており、状況特定処理S006において特定した賑わい度合いの値を上記の式に代入することにより、広がり速度が設定される。
 以上の手順によって設定された表示態様にてパターン画像Pを表示画面に表示することで、相手の映像を表示することなく、相手の位置や感情並びに対話実施部屋の賑わい度合いを間接的に報知することが可能となる。すなわち、パターン画像Pは、対話実施室における相手の存在感や相手の周囲の雰囲気を伝達するための標識として表示される。
 演出動作の選別工程S031においてBGM再生動作が選定された場合(S036でYes)、ホームサーバ1は、再生するBGMの種類を設定する演出態様設定処理を実行する。かかる処理において、ホームサーバ1は、状況特定処理S006における特定結果に応じたBGMを選定する(S037)。具体的に説明すると、図12に示すような顔の表情と再生するBGMの対応関係を示すテーブルデータが、ホームサーバ1のメモリに記憶されている。ホームサーバ1は、当該テーブルデータを参照し、状況特定処理S006において特定した相手の表情と対応するBGMを、再生対象のBGMとして選定する。以上の手順によって再生対象のBGMが選定される結果、例えば、特定した相手の表情が笑い顔であったときには、再生対象のBGMとして、アップテンポな曲調のBGMや賑やかな曲調のBGMを選定することになる。一方、特定した相手の表情が泣き顔であったときには、再生対象のBGMとして、スローテンポな曲調のBGMや静かな曲調のBGMを選定することになる。
 演出動作の選別工程S031において振動付与動作が選定された場合(S038でYes)、ホームサーバ1は、対話実施部屋において左右2箇所に設けられた振動デバイス7の各々の出力条件(振動発生条件)を設定する演出態様設定処理を実行する。かかる処理において、ホームサーバ1は、状況特定処理S006における特定結果に応じた出力条件を設定する(S039)。具体的に説明すると、ユーザ側の対話実施部屋の床のうち、状況特定処理S006において特定した歩行振動の発生位置と対応する位置を振動させるよう、各振動デバイス7の振動発生条件(例えば、発生振動の振幅や位相)を設定する。そして、設定された振動発生条件に従って各振動デバイス7に振動を発生させることで、ユーザ側の対話実施部屋の床において相手の歩行振動が再現されるようになる。
 演出動作の選別工程S031において加工音再生動作が選定された場合(S040でYes)、ホームサーバ1は、ノイズ加工音の音声データを生成するとともに(S041)、当該ノイズ加工音をスピーカ5に再生させる際の音発生条件を設定する演出態様設定処理を実行する。ノイズ加工音の音声データについては、相手側サーバから取得した音声データ(厳密には動画ファイルデータから抽出した音声データ)に対してノイズ加工を施すことにより生成される。一方、音発生条件を設定する演出態様設定処理において、ホームサーバ1は、状況特定処理S006における特定結果に応じた音発生条件を設定する(S042)。具体的に説明すると、状況特定処理S006において特定した相手の位置とノイズ加工音に関する音像の位置とが一致するように、各スピーカ5の音発生条件(例えば、発生音の音量や位相)を設定する。そして、設定された音発生条件に従って各スピーカ5にノイズ加工音を発生させることで、当該ノイズ加工音に関する音像の位置がディスプレイ機器4の表示画面中の所定位置(具体的には、仮に相手の映像を表示画面に表示した際の相手の表示位置)となるようにノイズ加工音が再生されるようになる。
 以上までに説明してきた手順により各演出動作の演出態様が設定された後、ホームサーバ1は、設定された演出態様にて演出動作を実施させる要求を生成し、当該要求を対応するデバイスに対して出力する(S043)。具体的に説明すると、パターン画像表示動作を実施させる要求については、ディスプレイ機器4に対して出力し、BGM再生動作を実施させる要求については、各スピーカ5に対して出力し、振動付与動作を実施させる要求については、各振動デバイス7に対して出力し、加工音再生動作を実施させる要求については、各スピーカ5に対して出力する。
 そして、演出動作を実施させる要求を受信したデバイスは、当該要求に従い、設定された演出態様に従って演出動作を行うようになる。ユーザは、実施される演出動作を認識することで、相手の状況(具体的には、対話実施部屋における在室状況、感情、表情及び対話実施部屋内の雰囲気等)を簡易的に把握することが可能となる。このように相手の状況を把握しておけば、その後にディスプレイ機器4の表示画面にて相手の顔を見ながら当該相手と対話をする際のきっかけ、分かり易くは会話の糸口を掴むことができ、以て、円滑なコミュニケーションが実現されるようになる。
 対話用通信フローの流れに戻ると、演出要求処理の実行後、ホームサーバ1は、相手側サーバから受信した動画ファイルデータや振動データに基づいて特定した相手の状況が変化するか否かを、上記ファイルを解析することで判定する(S008)。判定の結果、相手の状況が変化する場合には(S008でYes)、ホームサーバ1は、状況特定処理S006及び演出要求処理S007を上述した手順にて繰り返す。つまり、本実施形態では、特定された相手の状況が変化した際、当該状況の変化に連動して演出態様を切り替え、切り替え後の演出態様にて演出動作をディスプレイ機器4、スピーカ5及び振動デバイス7に行わせることとしている。
 具体的に説明すると、例えば、演出動作としてパターン画像表示動作が行われている間に相手の位置や感情が変化した場合、ホームサーバ1は、変化後の位置及び感情を特定した上で、変化後の位置及び感情に応じてパターン画像Pの表示態様を再設定する(切り替える)。そして、ホームサーバ1は、演出要求処理を再実行し、切り替え後の表示態様にてパターン画像Pが表示されるようにパターン画像表示動作を行わせるための要求を生成し、当該要求をディスプレイ機器4に対して出力する。
 以上のように、本実施形態では、相手の様子やその周辺の雰囲気が変化した際、当該変化に連動して演出動作の演出態様が切り替わるようになっている。これにより、相手の状況が変化した場合、ユーザは、当該変化に気付くことが可能となる。
 また、ホームサーバ1は、演出動作が行われている間に再現動作開始用のユーザ操作が行われたか否かを判定する(S009)。ここで、再現動作開始用のユーザ操作とは、ディスプレイ機器4やスピーカ5に相手の映像や音声を再現させるためにユーザが行う操作のことであり、本実施形態では、タッチパネル4aをタッチする操作が該当する。
 そして、再現動作開始用のユーザ操作が行われた場合、すなわち、タッチパネル4aがタッチ操作を受け付けると、ホームサーバ1は、タッチパネル4aからの出力信号を受信することで上記のユーザ操作を認識する。その後、ホームサーバ1は、ディスプレイ機器4やスピーカ5に再現動作を行わせる再現要求処理を実行する(S010)。再現要求処理において、ホームサーバ1は、相手側サーバから受信した映像データが示す映像を表示画面に表示させる要求を生成し、当該要求をディスプレイ機器4に対して出力する。また、同処理において、ホームサーバ1は、相手側サーバから受信した音声データが示す音声を再生させる要求を生成し、当該要求を各スピーカ5に対して出力する。
 再現要求処理が実行されると、ディスプレイ機器4及び各スピーカ5が、再現動作を実施させる要求を受信し、当該要求に従って再現動作が実行されるようになる。これにより、それまで行われていた演出動作が終了し、ディスプレイ機器4の表示画面に相手の映像が表示され、スピーカ5から相手の音声が再生されるようになる。
 以上のように本実施形態では、再現動作の実施前には演出動作が実施され、また、演出動作中に再現動作開始用のユーザ操作が行われることを条件として再現動作が開始されるようになる。換言すると、相手の映像や音声を再現する再現動作は、対話用通信フローが開始されても直ちに開始されず、再現動作開始用のユーザ操作を受け付けるまで保留される。この結果、不意に再現動作が開始されるような事態を回避し、以て、相手のプライバシーをより効果的に保護することが可能となる。
 また、相手のプライバシーを保護する観点では、再現動作開始用のユーザ操作を受け付けた後、さらに、再現動作開始に関して相手の承認を得たときに再現動作を開始することが、より望ましい。具体的に説明すると、例えば、相手が承認操作として相手側のタッチパネル4aをタッチしたときに、相手側サーバが当該タッチ操作を検知して当該検知結果を示すデータを送信し、同データをユーザ側のホームサーバ1が受信した時点で再現動作を開始するとよい。
 なお、演出動作のうち、振動付与動作については、再現動作開始用のユーザ操作を受け付けた後、再現動作の一つとして引き続き行われることとなっている。そして、ユーザ若しくは相手のいずれかが対話実施部屋から退出して人感センサ8がヒトを検知しなくなると(S011)、ユーザ側のホームサーバ1及び相手側サーバが通信を終了する。かかる時点で対話用通信フローが終了する。
 <<その他の実施形態>>
 上記の実施形態では、本発明の状況把握用ユニットについて、一例を挙げて説明した。ただし、上記の実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。
 また、上記の実施形態では、再現動作を実施する前工程として演出動作を実施することとした。すなわち、上記の実施形態では、演出動作後に再現動作を行うことを前提としているが、これに限定されるものではない。再現動作の実施を前提とせずに演出動作のみを実施することとしてもよい。つまり、相手の映像や音声を再現することなく相手の様子やその周辺空間の雰囲気を簡易的に確認する目的のために本発明の状況把握用ユニットを用いることとしてもよい。
 また、上記の実施形態では、相手の状況を把握する上で相手の位置、相手の様子及び相手が居る空間の雰囲気のすべてを特定することとしたが、これに限定されるものではなく、上記の項目のうちの少なくとも一つを特定すればよい。
 また、上記の実施形態では、ユーザと相手とが一人ずつとなったケースを例に挙げて説明したが、相手については複数人であってもよい。さらに、相手については、特定人又は不特定人のいずれであってもよい。特に、相手が不特定人である場合、本発明の状況把握用ユニットにより当該不特定人の状況を把握すれば、防犯・セキュリティ上の効果が期待されるようになる。
 また、上記の実施形態の中で説明した各工程の手順(例えば、相手の状況に関する項目を特定する工程S021~S24の手順)については、あくまでも一例を示したにすぎず、当該各工程を実施する目的が達成される限りにおいては、他の手順を採用することとしてもよい。
1 ホームサーバ(制御装置)
2 カメラ
3 マイク
4 ディスプレイ機器(演出装置、再現装置)
4a タッチパネル(操作受け付け機器)
5 スピーカ(演出装置、再現装置)
6 振動センサ
7 振動デバイス(演出装置)
8 人感センサ
100 本ユニット(状況把握用ユニット)
P パターン画像

Claims (7)

  1.  ユーザが離れた場所に居る相手の状況を把握するために用いる状況把握用ユニットであって、
     前記ユーザが認識可能であり前記相手の映像及び音声を再現する動作とは異なる演出動作を、行う演出装置と、
     該演出装置を制御して前記演出動作を行わせるとともに、前記相手が用いる相手側端末と通信する制御装置と、を有し、
     該制御装置は、
     前記相手の存否、前記相手を含む映像、前記相手が居る空間内で集音した音及び前記相手の行動に伴って生じる振動のうちの少なくとも一つを示すデータを、前記相手側端末との通信を通じて取得するデータ取得処理と、
     該データ取得処理において取得した前記データから、前記相手の位置、前記相手の様子及び前記相手が居る空間の雰囲気のうちの少なくとも一つの事項に関する内容を特定する内容特定処理と、
     該内容特定処理において特定された前記内容に応じた演出態様にて前記演出動作を前記演出装置に行わせる演出要求処理と、を実行することを特徴とする状況把握用ユニット。
  2.  前記制御装置は、前記データ取得処理において、前記相手が居る空間内で集音した音を示す音データを取得し、前記内容特定処理において、前記音データが示す音の音量及び音質のうちの少なくとも一方を特定することを特徴とする請求項1に記載の状況把握用ユニット。
  3.  前記制御装置は、前記データ取得処理において、前記相手の位置を示す位置データを前記音データとともに取得し、前記内容特定処理において、前記音データが示す音の音量及び音質のうちの少なくとも一方を特定するとともに、前記相手が居る空間内の基準位置に対する前記相手の位置を特定することを特徴とする請求項2に記載の状況把握用ユニット。
  4.  前記演出装置は、表示画面にパターン画像を表示する前記演出動作を実行し、
     前記制御装置は、前記演出要求処理を実行する際、前記パターン画像の表示態様を前記演出態様とし、前記内容特定処理において特定された前記内容に応じた前記表示態様にて前記パターン画像が表示されるように前記演出動作を前記演出装置に行わせることを特徴とする請求項1乃至3のいずれか一項に記載の状況把握用ユニット。
  5.  前記内容特定処理において特定された前記内容が変化した際、前記制御装置は、前記演出要求処理において、前記内容の変化に連動して前記表示態様を切り替え、切り替え後の前記表示態様にて前記パターン画像が表示されるように前記演出動作を前記演出装置に行わせることを特徴とする請求項4に記載の状況把握用ユニット。
  6.  前記相手の映像及び音声のうちの少なくとも一方を再現する再現動作を行う再現装置と、
     該再現装置に前記再現動作を行わせるために前記ユーザが行う操作を受け付ける操作受け付け機器と、を更に有し、
     前記制御装置は、前記操作受け付け機器が前記操作を受け付けた際に前記再現装置を制御して前記再現動作を行わせる再現要求処理をさらに実行し、
     前記操作受け付け機器は、前記演出装置が前記演出動作を行っている状態にあるときに前記操作を受け付けることを特徴とする請求項1乃至5のいずれか一項に記載の状況把握用ユニット。
  7.  前記演出装置と前記再現装置とが共通の装置となっていることを特徴とする請求項6に記載の状況把握用ユニット。
PCT/JP2015/059391 2014-03-28 2015-03-26 状況把握用ユニット WO2015147169A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/300,082 US20170157514A1 (en) 2014-03-28 2015-03-26 Condition Ascertainment Unit

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-068735 2014-03-28
JP2014068735A JP6360703B2 (ja) 2014-03-28 2014-03-28 状況把握用ユニット

Publications (1)

Publication Number Publication Date
WO2015147169A1 true WO2015147169A1 (ja) 2015-10-01

Family

ID=54195675

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/059391 WO2015147169A1 (ja) 2014-03-28 2015-03-26 状況把握用ユニット

Country Status (3)

Country Link
US (1) US20170157514A1 (ja)
JP (1) JP6360703B2 (ja)
WO (1) WO2015147169A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7443973B2 (ja) 2020-07-28 2024-03-06 株式会社Jvcケンウッド 音響振動再現システム及び音響振動再現方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474842B2 (en) * 2014-11-07 2019-11-12 Sony Corporation Information processing system, storage medium, and control method
WO2018227290A1 (en) * 2017-06-14 2018-12-20 Roborep Inc. Telepresence management

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003060794A (ja) * 2001-08-15 2003-02-28 Nippon Telegr & Teleph Corp <Ntt> 情報通信装置
JP2005184176A (ja) * 2003-12-17 2005-07-07 Nippon Telegr & Teleph Corp <Ntt> 双方向通信端末および双方向通信システム
JP2008301529A (ja) * 2008-09-01 2008-12-11 Yamaha Corp 遠隔地の様子を伝達する通信システム、通信装置およびプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3589732A (en) * 1969-09-04 1971-06-29 Brunswick Corp Map spot projection system for a golf game
JP4691268B2 (ja) * 2001-05-02 2011-06-01 任天堂株式会社 ゲームシステムおよびゲームプログラム
JP3732497B2 (ja) * 2004-01-14 2006-01-05 コナミ株式会社 メッセージ出力装置、メッセージ制御方法、および、プログラム
KR20070007898A (ko) * 2004-05-10 2007-01-16 가부시키가이샤 세가 전자 게임 장치, 전자 게임 장치에 있어서의 데이터 처리방법과 이를 위한 프로그램 및 기억 매체
US8469824B1 (en) * 2004-09-27 2013-06-25 Hasbro, Inc. Device and method for an electronic tag game
US8585476B2 (en) * 2004-11-16 2013-11-19 Jeffrey D Mullen Location-based games and augmented reality systems
JP3977405B1 (ja) * 2006-03-13 2007-09-19 株式会社コナミデジタルエンタテインメント ゲーム音出力装置、ゲーム音制御方法、および、プログラム
US7803048B2 (en) * 2006-03-15 2010-09-28 Microsoft Corporation Radar manipulation in a video game
JP4037889B2 (ja) * 2006-03-30 2008-01-23 株式会社コナミデジタルエンタテインメント 画像生成装置、画像生成方法、ならびに、プログラム
US20080146302A1 (en) * 2006-12-14 2008-06-19 Arlen Lynn Olsen Massive Multiplayer Event Using Physical Skills
US8506404B2 (en) * 2007-05-07 2013-08-13 Samsung Electronics Co., Ltd. Wireless gaming method and wireless gaming-enabled mobile terminal
EP2150057A3 (en) * 2008-07-29 2013-12-11 Gerald Curry Camera-based tracking and position determination for sporting events
JP5227910B2 (ja) * 2009-07-21 2013-07-03 株式会社コナミデジタルエンタテインメント ビデオゲーム装置、ゲーム画像表示方法及びゲーム画像表示プログラム
JP5757741B2 (ja) * 2011-01-25 2015-07-29 任天堂株式会社 ゲームシステム、ゲーム装置、ゲームプログラム、およびゲーム処理方法
US8864583B1 (en) * 2011-05-03 2014-10-21 Open Invention Network, Llc Computing device independent and transferable game level design and other objects
JP5357230B2 (ja) * 2011-09-14 2013-12-04 株式会社バンダイナムコゲームス プログラム、情報記憶媒体及びゲーム装置
WO2013095383A1 (en) * 2011-12-20 2013-06-27 Intel Corporation User-to-user communication enhancement with augmented reality
CN103988220B (zh) * 2011-12-20 2020-11-10 英特尔公司 存储内容和ar通信的本地传感器加强
WO2015020608A1 (en) * 2013-08-07 2015-02-12 Smartlab Pte Ltd An interactive laser tag system and a method of using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003060794A (ja) * 2001-08-15 2003-02-28 Nippon Telegr & Teleph Corp <Ntt> 情報通信装置
JP2005184176A (ja) * 2003-12-17 2005-07-07 Nippon Telegr & Teleph Corp <Ntt> 双方向通信端末および双方向通信システム
JP2008301529A (ja) * 2008-09-01 2008-12-11 Yamaha Corp 遠隔地の様子を伝達する通信システム、通信装置およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7443973B2 (ja) 2020-07-28 2024-03-06 株式会社Jvcケンウッド 音響振動再現システム及び音響振動再現方法

Also Published As

Publication number Publication date
US20170157514A1 (en) 2017-06-08
JP2015192332A (ja) 2015-11-02
JP6360703B2 (ja) 2018-07-18

Similar Documents

Publication Publication Date Title
JP6468712B2 (ja) 通信ユニット
US8976265B2 (en) Apparatus for image and sound capture in a game environment
JP5339900B2 (ja) コンピューターインタラクティブ処理による選択的音源聴取
JP6775557B2 (ja) 動画配信システム、動画配信方法、及び動画配信プログラム
JPWO2017098772A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2017509181A (ja) ジェスチャ相互作用式の装着可能な空間オーディオシステム
WO2015147169A1 (ja) 状況把握用ユニット
TW200407710A (en) Dialog control for an electric apparatus
JP7465019B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7416903B2 (ja) 動画配信システム、動画配信方法、及び動画配信プログラム
JP2005322125A (ja) 情報処理システム、情報処理方法、プログラム
JP2009166184A (ja) ガイドロボット
JP5206151B2 (ja) 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
JP2004198656A (ja) ロボット視聴覚システム
JP6678315B2 (ja) 音声再生方法、音声対話装置及び音声対話プログラム
JP5143114B2 (ja) 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP6543891B2 (ja) コミュニケーション補助装置、コミュニケーション補助システム、コミュニケーション補助方法及びプログラム
JP6475921B2 (ja) 通信ユニット
JPWO2020021861A1 (ja) 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
JP7361460B2 (ja) コミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法
JP2008249893A (ja) 音声応答装置及びその方法
JP4735965B2 (ja) 遠隔地間対話システム
Okuno et al. Realizing personality in audio-visually triggered non-verbal behaviors
JP6182464B2 (ja) 画像表示システム及び画像表示方法
EP4358084A1 (en) Audio cancellation system and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15769888

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15300082

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 15769888

Country of ref document: EP

Kind code of ref document: A1