WO2023100594A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2023100594A1
WO2023100594A1 PCT/JP2022/041340 JP2022041340W WO2023100594A1 WO 2023100594 A1 WO2023100594 A1 WO 2023100594A1 JP 2022041340 W JP2022041340 W JP 2022041340W WO 2023100594 A1 WO2023100594 A1 WO 2023100594A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
display
information processing
space
attention
Prior art date
Application number
PCT/JP2022/041340
Other languages
English (en)
French (fr)
Inventor
和子 山田
吉弘 田村
祐介 阪井
龍正 小池
光 高鳥
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023100594A1 publication Critical patent/WO2023100594A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program.
  • Telepresence is a coined word consisting of "Tele” and "Presence", and it is two or more different two-way communication of video and voice between physically separated remote locations. It is a general term for technologies that can provide a sense of realism to people in remote locations as if they were sharing the same space face-to-face. As a result, people can seamlessly communicate with each other at any time while being in a remote location, and feel as if they are facing each other in the same space (Patent Document 1).
  • the telepresence system of Patent Document 1 Since telepresence systems are premised on always-on connections and the display area of the display is limited, the telepresence system of Patent Document 1 does not output unnecessary sounds or sounds that should not be output in other spaces. is output from the telepresence system in the other party's space.
  • the present technology has been developed in view of the above points, and provides an information processing device, an information processing method, and an information processing method capable of appropriately adjusting the volume of voice according to the situation of a person in a remote communication system using video and voice.
  • the purpose is to provide a program.
  • the first technology includes an information detection unit that detects information about a person existing in a first space in which a display and a microphone are installed, and an output from the microphone based on the information about the person. and a volume adjustment unit that adjusts the volume of an audio signal that is transmitted to an external device.
  • the second technology detects information about a person existing in a first space in which a display and a microphone are installed, and based on the information about the person, outputs an audio signal output from the microphone and transmitted to an external device.
  • This is an information processing method for adjusting volume.
  • the third technology detects information about a person existing in a first space in which a display and a microphone are installed, and based on the information about the person, outputs an audio signal output from the microphone and transmitted to an external device. It is a program that causes a computer to execute an information processing method for adjusting sound volume.
  • FIG. 1 is a block diagram showing the configuration of a remote communication system 10;
  • FIG. 1 is an external view of a telepresence system 100;
  • FIG. 1 is a block diagram showing the configuration of a telepresence system 100;
  • FIG. 2 is a block diagram showing the configuration of an information processing device 200 according to the first embodiment;
  • FIG. 2 is a block diagram showing the configuration of a server device 1000;
  • FIG. It is a figure which shows the space A in the 1st usage example of 1st Embodiment.
  • FIG. 4 is a sequence diagram showing processing in a first usage example of the first embodiment; It is a figure which shows the space A in the 2nd usage example of 1st Embodiment.
  • FIG. 11 is a sequence diagram showing processing in a second usage example of the first embodiment
  • 2 is a block diagram showing the configuration of an information processing device 200 according to a second embodiment
  • FIG. It is a figure which shows the space A in the usage example of 2nd Embodiment.
  • FIG. 11 is a sequence diagram showing processing in a usage example of the second embodiment;
  • FIG. 10 is an explanatory diagram of attention level calculation;
  • FIG. 11 is a block diagram showing the configuration of an information processing device 200 according to a third embodiment;
  • FIG. FIG. 3 is an explanatory diagram of an attention area specifying unit 208; It is a figure which shows the space A and the space B in the usage example of 3rd Embodiment.
  • FIG. 12 is a sequence diagram showing processing in a usage example of the third embodiment
  • FIG. 11 is a block diagram showing the configuration of a remote communication system 10 according to a fourth embodiment
  • FIG. 19A is a block diagram showing the configuration of an information processing device 200A according to the fourth embodiment
  • FIG. 19B is a block diagram showing the configuration of an information processing device 200B according to the fourth embodiment. It is a figure which shows the space A in the usage example of 4th Embodiment. It is a figure which shows the space B in the usage example of 4th Embodiment.
  • FIG. 11 is a diagram showing a display mode of a display 400 in a usage example of the fourth embodiment
  • FIG. FIG. 14 is a sequence diagram showing processing in a usage example of the fourth embodiment
  • FIG. 10 is an explanatory diagram of attention level calculation
  • 4 is an explanatory diagram of switching of display on the display 400.
  • FIG. FIG. 4 is an explanatory diagram of a small window image display on the display 400;
  • First Embodiment> [1-1. Configuration of remote communication system 10] [1-2. Configuration of telepresence system 100] [1-3. Configuration of information processing device 200] [1-4. Configuration of server device 1000] [1-5. First usage example of the first embodiment] [1-6. Second usage example of the first embodiment] ⁇ 2. Second Embodiment> [2-1. Configuration of information processing device 200] [2-2. Usage example of the second embodiment] ⁇ 3. Third Embodiment> [3-1. Configuration of information processing device 200] [3-2. Usage example of the third embodiment] ⁇ 4. Fourth Embodiment> [4-1. Configuration of remote communication system 10] [4-2. Configuration of information processing device 200] [4-3. Usage example of the fourth embodiment] ⁇ 5. Variation>
  • FIG. 1 shows a telepresence system 100A and a telepresence system 100B that are connected as a plurality of telepresence systems 100 in a one-to-one relationship.
  • the number of telepresence systems 100 constituting the remote communication system 10 may be three or more, and the number is not limited.
  • the telepresence system 100A and the server device 1000, and the telepresence system 100B and the server device 1000 are connected via a network such as the Internet.
  • P2P Peer to Peer
  • the telepresence system 100A is a system composed of an information processing device 200A, a terminal device 300A, a display 400A, a camera 500A, a microphone array 600A, a speaker 700A, and a sensor 800A.
  • the telepresence system 100B is a system composed of an information processing device 200A, a terminal device 300B, a display 400B, a camera 500B, a microphone array 600B, a speaker 700B, and a sensor 800B.
  • the information processing device 200A that performs processing according to the present technology operates in the terminal device 300A, and the information processing device 200B operates in the terminal device 300B.
  • the telepresence system 100 is a system that performs two-way communication for communication between users existing in multiple spaces.
  • Telepresence system 100A is installed in space A as shown in FIG. 2A
  • telepresence system 100B is installed in space B that is different from space A as shown in FIG. 2B.
  • the telepresence system 100A is used for video and audio communication between a person existing in the space where the telepresence system 100A is installed and a person existing in the space where the telepresence system 100B is installed. It is.
  • the telepresence system 100B allows a person existing in the space where the telepresence system 100B is installed and a person existing in the space where the telepresence system 100A is installed to communicate with each other through video and audio. It is used for
  • the telepresence system 100A includes an information processing device 200A, a terminal device 300A, a display 400A, a camera 500A, a microphone array 600A, a speaker 700A, and a sensor 800A.
  • the information processing device 200A operates in the terminal device 300A and performs processing according to the present technology.
  • the configuration of the information processing device 200 will be described later.
  • the terminal device 300A comprises a control section 301A, a storage section 302A, an interface 303A, and an input section 304A.
  • the control unit 301A is composed of a CPU (Central Processing Unit), RAM (Random Access Memory), ROM (Read Only Memory), and the like.
  • the CPU executes various processes according to programs stored in the ROM and issues commands, thereby controlling the terminal device 300A as a whole and each part.
  • the storage unit 302A is a large-capacity storage medium such as a hard disk or flash memory.
  • the storage unit 302 stores various applications and data used in the terminal device 300A.
  • the interface 303A is an interface between the terminal device 300A and the server device 1000A.
  • Interface 303A may include a wired or wireless communication interface. More specifically, the wired or wireless communication interface includes cellular communication such as 3G/LTE, Wi-Fi, Bluetooth (registered trademark), NFC (Near Field Communication), Ethernet (registered trademark), HDMI (registered trademark) (High-Definition Multimedia Interface), USB (Universal Serial Bus), and the like.
  • the interface 303A can include a bus within the terminal device 300A, a data reference within a program module, and the like.
  • the input unit 304A is for the user to input various instructions to the terminal device 300A.
  • a control signal corresponding to the input is generated and supplied to the control section 301A.
  • the control unit 301A performs various processes corresponding to the control signal.
  • the input unit 304A includes a touch panel, voice input by voice recognition, gesture input by human body recognition, etc., in addition to physical buttons.
  • the terminal device 300A is configured as described above. Specific examples of the terminal device 300A include a personal computer, a smart phone, a tablet terminal, and the like. Also, the terminal device 300A may be configured as a device dedicated to the telepresence system. When there is a program necessary for processing according to the present technology, the program may be installed in the terminal device 300A in advance, or may be downloaded or distributed in a storage medium, etc., and installed by the user himself/herself. good.
  • a display 400A, a camera 500A, a microphone array 600A, a speaker 700A, and a sensor 800A are connected to the terminal device 300A as external devices.
  • the connection method of these external devices may be wired or wireless.
  • the display 400A is a large-sized display for telepresence that displays an image captured by the camera 500B of the telepresence system 100B installed in the space B.
  • the video signal transmitted by the terminal device 300B of the telepresence system 100B is transmitted by the server device 1000 to the terminal device 300A.
  • the terminal device 300A performs predetermined processing on the video signal and outputs it to the display 400A, so that the video of the space B captured by the camera 500B is displayed on the display 400A.
  • the camera 500A is composed of a lens, an imaging device, a video signal processing circuit, etc., and is used to photograph the space A in which the telepresence system 100A is installed.
  • the camera 500A is installed at a position capable of photographing the space that spreads out in front of the display 400A.
  • a video signal generated by photographing by the camera 500A is transmitted from the interface 303A of the terminal device 300A to the server device 1000, and transmitted from the server device 1000 to the terminal device 300B.
  • An image captured by the camera 500A is displayed on the display 400B of the telepresence system 100B installed in the space B.
  • FIG. For example, a web camera or the like can be used as the camera 500A.
  • the image captured by camera 500A may be referred to as a camera image.
  • the microphone array 600A is for picking up the sound in the space A where the telepresence system 100A is installed.
  • the microphone array 600A is composed of a plurality of microphones, each of which is a beam forming microphone capable of picking up sounds in a space and switching directivity to any direction. Also, since the microphone array 600A is composed of a plurality of microphones, it is possible to increase or decrease the volume of the audio signal output from any microphone by adjusting the gain of the microphone. This technology utilizes the characteristics of this microphone array.
  • the audio signal generated by the microphone array 600A is transmitted from the interface 303A of the terminal device 300A to the server device 1000, and transmitted from the server device 1000 to the terminal device 300B. Then, the video picked up by the microphone array 600A is output from the speaker 700B of the telepresence system 100B installed in the space B.
  • the speaker 700A is for outputting, in the space A, the sound in the space B picked up by the microphone array 600B that constitutes the telepresence system 100B.
  • the audio signal transmitted by the terminal device 300B of the telepresence system 100B is transmitted by the server device 1000 to the terminal device 300A. Then, the terminal device 300A performs predetermined processing on the audio signal and outputs it to the speaker 700, thereby outputting the audio of the space B picked up by the microphone array 600B.
  • the sensor 800A is a sensor device equipped with multiple sensor functions such as a camera capable of capturing RGB (Red, Green, Blue) or monochromatic color images, a depth sensor using ToF (Time of Flight), etc., and a microphone. .
  • a camera capable of capturing RGB (Red, Green, Blue) or monochromatic color images
  • a depth sensor using ToF (Time of Flight) e.g., Azure kinect (registered trademark) having a camera function and a depth sensor function can be used.
  • a plurality of sensors 800A may be installed in one space.
  • the sensor 800A may have functions such as a distance sensor (such as LiDAR (light detection and ranging)), an IR camera, a temperature sensor, and various other environmental sensors.
  • images, depth information, and the like acquired by the sensor 800A are generally referred to as sensor information.
  • the sensor 800A can photograph the entire space, such as the farthest position in the space A from the position where the display 400A is installed, the center of the rear end of the space, the vicinity of the display 400A, and the ceiling of the room that forms the space. installed in position.
  • the position of the sensor 800A may be changed according to the shape and state of the space A, the number and positions of people in the space, the intended use of the telepresence system 100A, and the like.
  • a plurality of sensors 800A may be installed in one space.
  • the display 400A, the camera 500A, the microphone array 600A, and the speaker 700A may be integrated with the terminal device 300A.
  • the display 400A, the camera 500A and the speaker 700A may be integrally configured and connected to the terminal device 300A.
  • the display 400A, the camera 500A, the microphone array 600A and the speaker 700A may be integrally configured and connected to the terminal device 300A.
  • the telepresence system 100B is configured similarly to the telepresence system 100A.
  • the information processing device 200A includes a human body detection unit 201A, a distance calculation unit 202A, a position determination unit 203A, and a sound volume adjustment unit 204A.
  • the human body detection unit 201A uses known human body detection technology to detect the positions and number of people present in the space A where the telepresence system 100A is installed, based on the camera image captured by the camera 500A and the sensor information acquired by the sensor 800A. to detect The human body detection unit 201A also performs tracking processing for tracking the detected human body.
  • Human body detection technologies include methods based on machine learning and deep learning, methods based on template matching, methods based on skeletal detection (bone detection) that can also detect human movements and postures, and methods using AI (Artificial Intelligence). be. These techniques may be combined to improve detection accuracy. Any method may be adopted as long as it can detect a human body.
  • the human body detection section 201A corresponds to the information detection section in the claims.
  • the distance calculation unit 202A calculates the distance between the person present in the space A detected by the human body detection unit 201A and the display 400A.
  • the position (coordinates) of the display 400A with respect to the sensor 800A can be specified.
  • the position (coordinates) of the person can be obtained with the depth sensor included in the sensor 800A. Therefore, the distance calculation unit 202A can calculate the distance between the display 400A and the person from the position (coordinates) of the display 400A with respect to the sensor 800A and the position (coordinates) of the person.
  • the distance calculation unit 202A calculates the distance between the person present in the space A detected by the human body detection unit 201A and each microphone constituting the microphone array 600A.
  • the position determination unit 203A determines whether or not the person detected by the human body detection unit 201A is within the shooting range (angle of view) of the camera 500A. Since the angle-of-view information of the camera 500A can be acquired in advance from the specifications of the lens provided in the camera 500A, the setting information of the camera 500A, and the like, the imaging range of the camera 500A in the space A can be grasped in advance. By comparing the shooting range of the camera 500A with the position (coordinates) of the person detected by the human body detection unit 201A, it is possible to determine whether or not the person is within the shooting range of the camera 500A. For this process, it is necessary to register in advance the photographing range of the camera 500A in the position determination section 203A.
  • the volume adjustment unit 204A increases or decreases the gain of the audio signal output from the microphone array 600A based on the determination result of the position determination unit 203A. Adjust the volume of the output audio.
  • the volume adjuster 204A can select an audio signal output from a specific microphone among the plurality of microphones forming the microphone array 600A and adjust the gain of the audio signal. Details of the processing of the volume adjustment unit 204A will be described later.
  • the information processing device 200A is configured as described above.
  • the information processing device 200A may be configured as a single device, or may be realized by executing a program in the terminal device 300A having a function as a computer.
  • the program may be pre-installed in the terminal device 300, or may be downloaded or distributed in a storage medium and installed by the user or the like.
  • the information processing device 200B that constitutes the telepresence system 100B is configured similarly to the information processing device 200A.
  • the server device 1000 is for providing the user of the telepresence system 100 with a cloud service for implementing the remote communication system 10 .
  • the server device 1000 comprises at least a control unit 1001, a storage unit 1002, and an interface 1003. Since these are the same as those provided in the terminal device 300A, description thereof will be omitted.
  • the server device 1000 also includes processing blocks such as a reception processing unit 1004 , a transmission processing unit 1005 , a device registration unit 1006 and a matching unit 1007 .
  • the reception processing unit 1004 performs processing for receiving video signals, audio signals, and other various information transmitted from the terminal devices 300A and 300B.
  • the transmission processing unit 1005 performs processing for transmitting the video signal, audio signal, and other various information transmitted from the terminal device 300A to the terminal device 300B.
  • the transmission processing unit 1005 also performs processing for transmitting the video signal, audio signal, and other various information transmitted from the terminal device 300B to the terminal device 300A.
  • the device registration unit 1006 stores information for identifying each terminal device 300 connected to the server device 1000 and constituting the remote communication system 10 in a database.
  • the matching unit 1007 searches for the most suitable device from currently available (on-line) devices in response to a request from the terminal device 300, and matches the terminal devices 300 so that they can be connected.
  • a display 400A, a camera 500A, a microphone array 600A, and a sensor 800A, which constitute the telepresence system 100A, are installed in the space A.
  • the terminal device 300A and the speaker 700A are also installed in the space A, they are omitted for convenience of illustration.
  • the terminal device 300B, the display 400B, the camera 500B, the microphone array 600B, the speaker 700B, and the sensor 800B that constitute the telepresence system 100B are installed in the space B.
  • Space A and space B are physically separated spaces.
  • the camera 500A is installed at a position where it can photograph the space that spreads out in front of the display 400A. This arrangement is merely an example, and the position of the camera 500A is not limited to the position shown in FIG.
  • the sensor 800A is installed in the center of the rear end opposite to the installation position of the display 400A in the space A.
  • the microphone array 600A is installed near the display 400A. Although the microphone array 600A is installed beside the display 400A in FIG. 6, this is a position for convenience of illustration, and the position of the microphone array 600A is not limited to the position in FIG. The position of the microphone array 600A may be anywhere near the display 400. FIG. For example, the microphone array 600A is installed by hanging from the display 400A or the ceiling of the room that forms the space.
  • the voice of the person in the space A will be output from the speaker 700B and heard.
  • the person in the space B does not know who is speaking, can hear the voice but does not know who the person is speaking to, and cannot see the other person even if they feel annoyed and pay attention to whom. Problems such as not knowing what to pay attention to occur.
  • step S111 the information processing device 200A of the telepresence system A starts acquiring sensor information from the sensor 800A installed in the space A.
  • the sensor 800A continues to output sensor information to the information processing device 200A in real time.
  • step S112 the human body detection unit 201A detects the number and positions of people existing in the space A based on the sensor information.
  • step S113 the distance calculation unit 202A calculates the distance between the person detected by the human body detection unit 201A and the display 400A.
  • step S114 the position determination unit 203A determines whether or not the person detected by the human body detection unit 201 exists within the shooting range of the camera 500A.
  • volume adjustment unit 204A reduces the gain of the audio signal output from microphone array 600A in step S115.
  • the audio signal from the microphone closest to the person 1 and the person 2 is multiplied by a predetermined factor to reduce the gain of the audio signal.
  • the volume adjustment unit 204 may increase the amount of gain reduction in inverse proportion to the distance from the display 400A to the person.
  • the distance between the person and the microphone can be calculated by the distance calculation unit 202A as described above.
  • the microphone closest to the detected person can be identified based on the position of the detected person and the positions of the microphones forming microphone array 600A.
  • the approximate center of the positions of the plurality of persons may be used as the reference for the positions of the persons, or the position of the person closest to the microphone array 600 among the plurality of persons may be used as the reference.
  • the gain of the audio signals from all the microphones forming the microphone array 600A may be lowered.
  • the volume adjustment unit 204A does not perform any processing.
  • step S116 the video signal generated by the photographing by the camera 500A and the sound collected by the microphone array 600A are generated from the terminal device 300A to the terminal device 300B via the network, and the processing by the volume adjustment unit 204A is performed.
  • the applied audio signal is transmitted.
  • step S117 in the telepresence system B, the video signal transmitted from the terminal device 300A is displayed as video on the display 400B, and the audio signal is output as audio from the speaker 700B.
  • telepresence system 100A and telepresence system 100B perform remote communication.
  • the sound signal is output from the speaker 700B in the space B.
  • the sound volume of the space A becomes smaller. This solves the problem that a person in space B can hear the voice of a person in space A even though no one is displayed on display 400B. Also, it is possible to solve the problem that a person in space A hears the voice of a person in space B even though the person is not speaking to space B.
  • the processing of the information processing device 200A of the telepresence system 100A in space A has been described above, the information processing device 200B of the telepresence system 100B may also perform similar processing.
  • Steps S111 to S114 are the same as in the first usage example.
  • step S121 the volume adjustment unit 204A reduces the gain of the audio signals output from the microphones closest to person 1 and person 2 outside the shooting range among the microphones forming the microphone array 600A.
  • the volume adjustment unit 204A increases the gain of the audio signal output from the microphone closest to the person 3 and person 4 within the imaging range among the microphones forming the microphone array 600A.
  • the gain amplification amount may increase in proportion to the distance from the display 400A to the person.
  • step S121 and step S122 may be performed in reverse order, or may be performed at the same time or substantially at the same time.
  • step S123 the video signal generated by the imaging by the camera 500A and the sound collected by the microphone array 600A are generated from the terminal device 300A to the terminal device 300B via the network, and the processing by the volume adjustment unit 204A is performed.
  • the applied audio signal is transmitted.
  • step S124 in the telepresence system B, the video signal transmitted from the terminal device 300A is displayed as video on the display 400B, and the audio signal is output as audio from the speaker 700B.
  • telepresence system 100A and telepresence system 100B perform remote communication.
  • the gain of the audio signal from the microphone near the person outside the imaging range of the camera 500A in the space A is reduced, the sound signal output from the speaker 700B in the space B of the camera 500A The volume of the voice of a person outside the shooting range of is reduced.
  • the gain of the audio signal from the microphone close to the person within the imaging range of the camera 500A in the space A is increased, the volume of the voice of the person within the imaging range of the camera 500A output from the speaker 700B in the space B is high. Become.
  • the processing of the information processing device 200A of the telepresence system 100A in space A has been described above, the information processing device 200B of the telepresence system 100B may also perform similar processing.
  • an information processing apparatus 200A includes a face detection unit 205A, a gaze detection unit 206A, and an attention degree calculation unit 207A.
  • the second embodiment differs from the first embodiment.
  • Other configurations of the information processing apparatus 200A, remote communication system 10, telepresence system 100A, telepresence system 100B, and server apparatus 1000 are the same as those of the first embodiment.
  • the face detection unit 205A detects the face of a person existing in the space A from the image captured by the camera 500A and the sensor information obtained by the sensor 800A using a known face detection technology.
  • the face detection unit 205A also performs tracking processing for tracking the detected face.
  • Face detection technologies include methods based on machine learning and deep learning, methods based on template matching, methods based on luminance distribution information, color distribution information, human face feature amounts, etc., and methods using AI (Artificial Intelligence). Also, these techniques may be combined to improve the detection accuracy. Any method may be adopted as long as it can detect a face.
  • the face detection unit 205A can also detect facial expressions and whether or not the person is speaking based on mouth movements.
  • the line-of-sight detection unit 206A uses known line-of-sight detection technology to detect the line of sight of a person existing in the space A from the image captured by the camera 500A and the sensor information obtained by the sensor 800A.
  • the line-of-sight detection unit 206A also performs tracking processing for tracking the detected line of sight.
  • Gaze detection technology includes a method based on the reference point of the eye and the position of the moving point with respect to that reference point, a method based on the pupil and iris of the eye, and an image of the photographer's eyeball with an infrared-compatible imaging device illuminated by an infrared LED.
  • the face detection unit 205A and line-of-sight detection unit 206A correspond to the information detection unit in the claims.
  • the attention level calculation unit 207A calculates the attention level of the person in the space A to the display 400A, that is, the attention level to another space (space B) based on one or both of the face detection result and the line-of-sight detection result. do.
  • the attention degree calculation unit 207A can also calculate the average attention degree of all persons included in the group as the attention degree of the group for a group composed of a plurality of persons. For example, a plurality of persons detected by the human body detection unit 201A whose distance between them is equal to or less than a predetermined threshold can be included in a common group.
  • the volume adjuster 204A adjusts the gain of the audio signal output from the microphone array 600A based on this degree of attention.
  • Steps S111 to S113 are the same as in the first usage example of the first embodiment.
  • step S211 the face detection unit 205A detects the orientation of the face of the person detected by the human body detection unit 201A. Also, the line-of-sight detection unit 206A detects the line-of-sight direction of the person detected by the human body detection unit 201A.
  • step S212 the attention degree calculation unit 207A calculates the degree of attention of the person in the space A to the display 400A based on one or both of the face detection result and line-of-sight detection result.
  • the degree of attention is defined as a value having a predetermined width, and the degree of attention is maximized when both or one of the direction of the face and the direction of the line of sight is directed toward the display 400A as shown in FIGS. 13A and 13B. value. This is because it can be said that the person's attention is focused on the display 400A, ie, the space B, when the person's face and line of sight are directed toward the display 400A.
  • the attention level calculation unit 207 may calculate the attention level based on only one of the face direction and the line-of-sight direction, or may calculate the level of attention comprehensively based on both the face direction and the line-of-sight direction. may be calculated.
  • step S213 the volume adjustment unit 204A reduces the gain of the audio signal output from the microphone closest to the person whose degree of attention is equal to or less than a predetermined threshold among the microphones forming the microphone array 600A.
  • step S214 the video signal generated by the imaging by the camera 500A and the sound collected by the microphone array 600 are generated from the terminal device 300A to the terminal device 300B via the network, and the processing by the volume adjustment unit 204 is performed.
  • the applied audio signal is transmitted.
  • step S215 in the telepresence system B, the video signal transmitted from the terminal device 300A is displayed as video on the display 400B, and the audio signal is output as audio from the speaker 700B.
  • telepresence system 100A and telepresence system 100B perform remote communication.
  • the gain of the audio signal from the microphone close to the person whose attention level is equal to or less than the threshold is reduced. is less than the threshold, the volume of the voice of the person becomes small.
  • the volume adjustment unit 204A can also increase the gain of the audio signal output from the microphone closest to the person whose degree of attention is equal to or higher than a predetermined threshold among the microphones forming the microphone array 600A.
  • the processing of the information processing device 200A of the telepresence system 100A in space A has been described above, the information processing device 200B of the telepresence system 100B may also perform similar processing.
  • the attention level calculation unit 207 may calculate the attention level based on which person each person is speaking to, without being limited to the orientation of the face with respect to the display 400A. Which person each person is speaking to can be estimated based on the detection results of the human body detection unit 201A, the face detection unit 205A, and the line-of-sight detection unit 206A. For example, for a specific person, the human body detection unit 201A detects the direction in which the person's face is facing detected by the face detection unit 205A, or the direction in which the person's line of sight is directed detected by the line of sight detection unit 206A. is present, the specific person is paying attention to another person and not paying attention to the display 400A, that is, the space B, and the degree of attention is calculated to be low.
  • a plurality of persons existing in space A may be grouped and the attention level of the group may be calculated, and the audio signal of the microphone closest to the group may be adjusted based on the attention level of the group.
  • a group can include, for example, a plurality of persons whose position-to-position distances detected by the human body detection unit 201 are equal to or less than a predetermined threshold.
  • the attention level calculation unit 207 can also calculate the average attention level of each person included in the group as the attention level of the group for a group composed of a plurality of persons.
  • an information processing apparatus 200A includes a face detection unit 205A, a line of sight detection unit 206A, an attention area identification unit 208A, and a sound collection instruction unit 209A.
  • the third embodiment differs from the first embodiment.
  • Other configurations of the information processing apparatus 200A, remote communication system 10, telepresence system 100A, telepresence system 100B, and server apparatus 1000 are the same as those of the first embodiment.
  • the information processing device 200B which constitutes the telepresence system 100B installed in the space B, may be provided with at least a volume control unit 204B, and the rest of the configuration may be the same as that of the information processing device 200A. It may be the same as the information processing device 200A in the second embodiment.
  • the attention area specifying unit 208A determines where on the display 400A the person existing in the space A is paying attention, that is, the space displayed on the display 400A, based on one or both of the face detection result and the line-of-sight detection result. Identify where in B the focus is.
  • the display area of the display 400A in space A is divided into a plurality of areas, and each area corresponds to the shooting range of the camera 500B in space B in advance.
  • the display area of the display 400A is vertically divided into three areas of equal size (area A1, area A2, area A3), and each area displays the photographing range of the camera 500B (areas B1, B2, B3) is associated in advance.
  • areas A1 and B1, areas A2 and B2, and areas A3 and B3 correspond to each other. Therefore, the appearance of the area B1 of the space B is displayed on the area A1 of the display 400A, the appearance of the area B2 of the space B is displayed on the area A2 of the display 400A, and the appearance of the area B3 of the space B is displayed on the area A3 of the display 400A. Is displayed. Note that the number of divisions shown in FIG. 15 is merely an example, and the present technology is not limited to a specific number of divisions.
  • attention area specifying unit 208A determines that person 1 is located in area A1 of display 400A, That is, it is specified that the area B1 of the space B is being focused on.
  • the attention area specifying unit 208A can also specify the attention area when the length of time (dwell time of the line of sight) for which the face and line of sight are directed to any area of the display 400A is equal to or greater than a predetermined value. .
  • the sound collection instruction unit 209A determines which area of the space B to pick up the sound from the telepresence system 100A of the space A to the telepresence system 100B of the space B. Sound pickup instruction information for instructing is generated. This sound pickup instruction information is transmitted from the telepresence system 100A to the telepresence system 100B via the network. Then, in the telepresence system 100B, the microphone array 600B picks up the sound based on the instruction to pick up the sound.
  • the face detection unit 205A and line-of-sight detection unit 206A are the same as in the second embodiment.
  • FIG. 1 When person 1 in space A and person 2 in space B are having a conversation using the remote communication system 10, the microphone array 600B picks up the voices of other people in space B (person 3 and person 4). It may be difficult for the person 1 in the space A to hear the voice of the person 2 in the space B because the voice is output from the speaker 700A in the space A. In other words, the conversation is disturbed by the voices of the persons (persons 3 and 4) in the space B who are not related to the conversation, and it is difficult to hear the conversation.
  • the third embodiment solves such problems.
  • Steps S111 to S113 are the same as in the first usage example of the first embodiment.
  • step S311 the attention area specifying unit 208A determines which area of the display area of the display 400A the person 1 detected by the human body detection unit 201 in the space A is based on either or both of the face detection result and the line-of-sight detection result. Identify what you are paying attention to.
  • step S312 the sound pickup instruction unit 209A generates a sound pickup instruction based on the attention area specified by the attention degree calculation unit 207A.
  • the sound collection instruction unit 209A When the person 1 in the space A is looking at the area A2 of the display 400A, it indicates that the person 1 is looking at the area B2 in the space B. Therefore, the sound collection instruction unit 209A generates a sound collection instruction so as to increase the gain of the microphone closest to the region B2 of the space B among the plurality of microphones forming the microphone array 600B in the space B. For this purpose, it is necessary to associate the areas B1 to B3 with the microphones constituting the microphone array 600B in advance based on their positions.
  • step S313 a sound pickup instruction is transmitted from the telepresence system 100A to the telepresence system 100B via the network.
  • step S314 in the telepresence system 100B that has received the sound collection instruction information transmitted from the telepresence system 100A, the volume adjustment unit 204B adjusts the gain of the microphones constituting the microphone array 600B based on the sound collection instruction information. adjust.
  • the person 1 in the space A focuses on the central area A2 of the display 400A, that is, the central area B2 of the space B. Among them, the gain of the audio signal output from the microphone closest to the area B2 of the space B is increased.
  • step S315 the telepresence system 100B transmits the telepresence system 100A via the network to the telepresence system 100A by generating the video signal generated by the image capturing by the camera 500B and the sound collected by the microphone array 600B.
  • the audio signal processed by is transmitted.
  • step S316 in telepresence system 100A that has received the video signal and audio signal transmitted from telepresence system 100B, the video signal is displayed as video on display 400A, and the audio signal is output as audio from speaker 700A. .
  • telepresence system 100A and telepresence system 100B perform remote communication.
  • the person in space A in order to increase the gain of the audio signal from the microphone corresponding to the area in space B that the person in space A is paying attention to, the person in space A is output from speaker 700A.
  • the volume of the voice of the person in the space B where the person is located increases.
  • the processing of the information processing device 200A of the telepresence system 100A in space A has been described above, the information processing device 200B of the telepresence system 100B may also perform similar processing.
  • the gain of the audio signal from the microphone located in the area of space B where the person in space A is focused is increased.
  • the gain of the audio signal from the microphone located in region B may be reduced. This also solves the problem that the conversation is disturbed by the voice of another person unrelated to the conversation, making it difficult to hear the conversation.
  • the sound pickup instruction unit 209A collects so as to lower the gain of all the microphones forming the microphone array 600B in the space B. A sound indication may be generated.
  • the number of people in the space is merely an example, and the present technology is not limited to a specific number of people. .
  • the third embodiment and the first and second embodiments can be installed, for example, in a library or an audiovisual room at a school for interaction between generation and students, or installed in a conference room at a company for employees to communicate with each other. Useful when interacting with It is also useful for setting up in multipurpose halls of public facilities for events and discussions. Furthermore, it is also useful for communication between multiple families living in distant lands.
  • the telepresence system 100 is connected in a relationship of N:1 (many:single).
  • a telepresence system 100A-4 is installed.
  • a telepresence system 100B is installed in space B as the singular side.
  • the telepresence system 100A-1, the telepresence system 100A-2, the telepresence system 100A-3, and the telepresence system 100A-4 do not need to be connected to each other. 100B.
  • the configurations of the telepresence systems 100A-1 to A-4 are the same.
  • FIG. 19A shows the configuration of the information processing device 200A on the majority side.
  • FIG. 19B shows the configuration of the information processing device 200B on the singular side.
  • the information processing device 200A includes a human body detection unit 201A, a distance calculation unit 202A, a volume adjustment unit 204A, a face detection unit 205A, a gaze detection unit 206A, an attention level calculation unit 207A, and a display control unit 210A.
  • 201 A of human body detection parts, 202 A of distance calculation parts, and 204 A of volume adjustment parts are the same as that of 1st Embodiment.
  • the face detection unit 205 and line-of-sight detection unit 206 are the same as those in the second embodiment.
  • the attention degree calculation unit 207A determines whether the person in the space A is paying attention to the display 400A, that is, whether the person in the space B is paying attention, based on one or both of the face detection result and the line-of-sight detection result. The degree of attention shown is calculated. At that time, the degree of attention may be calculated by taking into account that the person in space A is talking or about to talk to the person in space B based on the movement of the mouth.
  • the display control unit 210A receives the feedback information and video signal transmitted from the telepresence system 100B installed in the space B, and displays the small window video on the display 400A. The details of the small window image display will be described later.
  • the information processing device 200B of the telepresence system 100B includes a volume adjustment section 204B, a display control section 210B, and an attention level comparison section 211B.
  • the attention degree comparison unit 211B compares the plurality of attention degrees transmitted from the plurality of telepresence systems 100A-1 to A-4, and identifies the telepresence system 100A that has transmitted the highest degree of attention.
  • the display control unit 210B divides the display area of the display 400B according to the number of telepresence systems 100A connected to the telepresence system 100B, and distributes the video signal transmitted from each telepresence system 100A to each display area. Perform display control to display. Also, the display control unit 210B performs display control so that the video signal transmitted from the telepresence system 100A that has transmitted the highest degree of attention is displayed on the display 400B based on the comparison result of the attention degree comparison unit 211B.
  • the volume adjustment unit 204B increases the gain and volume of the audio signal transmitted from the telepresence system 100A that has transmitted the highest degree of attention based on the comparison result of the attention degree comparison unit 211B. In addition, the audio signals transmitted from the other telepresence system 100A are reduced in gain and volume in the order of attention level.
  • the configuration of the telepresence system 100B other than the information processing device 200B is the same as the telepresence systems A-1 to A-4. Also, the configurations of the remote communication system 10, the telepresence system 100A, the telepresence system 100B, the terminal device 300, and the server device 1000 are the same as in the first embodiment.
  • a telepresence system 100A-1, a A presence system 100A-2, a telepresence system 100A-3, and a telepresence system 100A-4 are installed. Further, as shown in FIG. 21, in space B, a telepresence system 100B is installed.
  • each of the telepresence systems 100A-1 to A-4 and the telepresence system 100B is the same as in the second embodiment.
  • space A a plurality of persons are divided into four groups, and each group uses telepresence systems 100A-1 to A-4.
  • all persons are assumed to be within the imaging range of the camera 500A and within the sensing range of the sensor 800A.
  • the telepresence system 100B in the space B is used by one person 1.
  • the video of the common space B captured by the camera 500B of the telepresence system 100B is displayed on the displays 400A of the telepresence systems 100A-1 to A-4.
  • the display on the display 400B of the telepresence system 100B is divided into the number of telepresence systems 100 connected to the telepresence system 100B (four in this usage example), and each divided display area shows images of spaces A-1 to A-4 shot by the respective cameras 500 of the telepresence systems A-1 to A-4. This display is performed by the display control unit 210B.
  • a person 1 using the telepresence system 100B in the space B, a person using the telepresence system 100A-1, and a person using the telepresence system 100A-2 are displayed in this manner. It is possible to talk to all persons simultaneously while watching the person, the person using the telepresence system 100A-3, and the person using the telepresence system 100A-4. You can also speak privately.
  • Steps S111 to S113 in the information processing device 200A are the same as in the first usage example of the first embodiment.
  • step S411 the attention level calculation unit 207A in the telepresence systems 100A-1 to A-4 calculates the display 400A of all the detected persons based on one or both of the face detection result and line-of-sight detection result. Calculate the degree of attention to
  • the degree of attention is defined as a value having a predetermined range, and that the degree of attention reaches its maximum value when the direction of the face and line of sight with respect to the display 400A is approximately 90 degrees as shown in FIG. 24A.
  • the face orientation of 90 degrees with respect to the display 400A means that the person's face faces the display 400A directly in front, and it can be said that the person is paying attention to the display 400A, that is, the person in the space B.
  • the value of the degree of attention also decreases. This is because the person's face does not face the display 400A as compared with the state of FIG. Note that the attention level calculation method based on the direction of the face and line of sight with respect to the display 400A in the top view, described with reference to FIG. 13, may also be used.
  • step S412 the telepresence systems 100A-1 to 100A-4 send the telepresence system 100B to the telepresence system 100B via the network using the video signal generated by the camera 500A shooting and the sound generated by the microphone array 600A. and the degree of interest is transmitted.
  • step S413 the attention level comparison unit 211B of the information processing device 200B compares the attention levels transmitted from the telepresence systems 100A-1 to A-4 and identifies the telepresence system 100A with the highest attention level.
  • the degree of attention output by the telepresence system 100A-1 is the highest.
  • step S414 the display control unit 210B of the information processing device 200B performs display control so that only the video signal transmitted from the telepresence system 100A-1 with the highest degree of attention is displayed on the display 400B.
  • Video signals transmitted from the telepresence systems 100A-2 to A-4 other than the telepresence system 100A-1 with the highest degree of attention are not displayed on the display 400B.
  • the display on the display 400B of the telepresence system 100B switches from the split display shown in FIG. 25A to the display of only the image from the telepresence system 100A-1, which has the highest degree of attention, as shown in FIG. 25B.
  • step S415 the volume adjustment unit 204B of the telepresence system 100B outputs the audio signals transmitted from the telepresence systems 100A-1 to A-4 from the speaker 700B.
  • the gain of the audio signal transmitted from the telepresence system 100A-1 with the highest degree of attention is increased to increase the volume, and the gains of the other audio signals are decreased in order of increasing degree of attention to decrease the volume. do.
  • the sound of the space A-1, which has the highest degree of attention is output most loudly, and the sounds from the other spaces are output at a low level. It becomes easier to hear the voice in the high space A-1.
  • step S416 the telepresence system 100B transmits feedback indicating the results of video display and audio output to the telepresence systems 100A-1 to A-4.
  • step S417 the display control unit 210A of the telepresence systems 100A-2 to A-4 other than the telepresence system 100A-1, which has the highest degree of attention, displays a small window image on the display 400A.
  • images are captured by the camera 500A of the telepresence system 100A-1 on the display 400A of the telepresence systems 100A-2 to A-4 other than the telepresence system 100A-1 which has the highest degree of attention. image is displayed.
  • the persons in the spaces A-2 to A-4 can grasp that the person 1 is currently talking to the person in the space A-1.
  • persons in spaces A-1 to A-4 may be defined as groups, and the group names may be displayed in the vicinity of the small window image display as shown in FIG. As a result, the groups for which the small window image is not displayed can grasp which group is currently talking to the person 1 in the space B.
  • FIG. 1
  • person 1 in space B may want to talk to a specific group while viewing images of spaces A-1 to A-4 divided and displayed on display 400B.
  • the face detection unit 205 detects the orientation of the face of the person 1 from the camera image captured by the camera 500B
  • the line-of-sight detection unit 206 detects the position of the line of sight of the person 1 on the display 400A and the dwell time.
  • the display on the display 400B is switched from split display to display of only the specific group as shown in FIG. 24B.
  • the spaces A-1 to A-4 may be in one space such as a room, may be spaces physically separated by a wall or the like, or may be different spaces such as spaces in another building.
  • the explanation has been given by taking as an example the case where there are multiple persons in each of the spaces A-1 to A-4, but the number of persons in each of the spaces A-1 to A-4 may be one or any number. Also, the number of persons in the space B may be plural.
  • An example of use of this fourth embodiment is, for example, a person (such as a teacher) who needs to explain or talk to a large number of persons using the telepresence system 100B in space B, and a plurality of people gathered in space A. It is useful when conducting distance learning for a person (such as a student). It is also useful for customer presentations, internal presentations, meetings, and the like.
  • Each processing block included in the information processing device 200 in each embodiment may be included in the server device 1000 . That is, the information processing device 200 may operate in the server device 1000 .
  • the terminal device 300 constituting the telepresence system 100 transmits video signals, audio signals, camera 500 images, sensor information, etc. to the server device 1000 for processing by the information processing device 200 in the server device 1000 .
  • the volume is adjusted by adjusting the gain of the audio signal.
  • the adjustment may raise or lower the volume.
  • the configuration of the information processing apparatus 200 and the contents of processing to be executed are different, but processing blocks of a plurality or all of the embodiments are provided, and processing of a plurality or all of the embodiments is possible.
  • the information processing apparatus 200 may be configured as follows.
  • the present technology can also take the following configurations.
  • an information detection unit that detects information about a person existing in a first space in which a display and a microphone are installed; a volume adjustment unit that adjusts the volume of an audio signal output from the microphone and transmitted to an external device installed in a second space based on the information about the person; Information processing device.
  • the information detection unit is a human body detection unit that detects the position of the person in the first space.
  • the information processing apparatus according to (2) further comprising a position determination unit that determines whether or not the person is within a shooting range of a camera installed in the first space based on the position of the person.
  • the information processing apparatus further comprising an attention level calculation unit that calculates the attention level of the person to the display based on one or both of the person's face and line of sight.
  • an attention level calculation unit that calculates the attention level of the person to the display based on one or both of the person's face and line of sight.
  • the volume adjustment unit reduces the volume of the audio signal.
  • the volume adjustment unit increases the volume of the audio signal when the degree of attention of the person to the display is high.
  • an attention area identifying unit that identifies an attention area of the person in the display area of the display;
  • the attention area specifying unit specifies the attention area based on one or both of a detection result of the face detection unit and a detection result of the line-of-sight detection unit.
  • a display control unit that controls display on the display, The information processing apparatus according to (12), wherein the display control unit displays the video signal transmitted from the external device that has transmitted the highest degree of attention on the display.
  • the volume adjustment unit reduces the volume of the audio signal transmitted from the external device other than the external device that has transmitted the highest degree of attention.
  • the display constitutes a telepresence system that performs two-way communication for communication between persons present at a plurality of locations.
  • the microphone is a microphone array that includes a plurality of microphones and is capable of picking up sound in a plurality of directions.
  • the volume adjustment unit adjusts the volume of the audio signal output from a microphone closest to the person among the plurality of microphones forming the microphone array.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

ディスプレイとマイクロフォンが設置された第1の空間に存在する人物に関する情報を検出する情報検出部と、人物に関する情報に基づいて、マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する音量調整部とを備える情報処理装置である。

Description

情報処理装置、情報処理方法およびプログラム
 本技術は、情報処理装置、情報処理方法およびプログラムに関する。
 近年、テレプレゼンスシステムと呼ばれる技術が注目されている。テレプレゼンスとは、「Tele(遠隔)」と「Presence(面前、存在)」からなる造語であり、物理的に離れた遠隔地同士で映像および音声の双方向通信を行うことにより異なる2つ以上の遠隔地にいる人々に対して対面で同じ空間を共有しているかのような臨場感を提供することができる技術の総称である。これにより、人は遠隔地にいながらいつでもシームレスにコミュニケーションすることができ、同じ空間で対面しているような感覚を得ることができる(特許文献1)。
特開2021-71632号公報
 テレプレゼンスシステムは常時接続が前提であること、ディスプレイの表示領域に制約があることなどから、特許文献1のようなテレプレゼンスシステムでは、不必要な音声や他の空間において出力すべきではない音声を相手の空間におけるテレプレゼンスシステムから出力してしまうという問題がある。
 本技術はこのような点に鑑みなされたものであり、映像と音声を使用した遠隔コミュニケーションシステムにおいて人物の状況に応じて音声の音量を適切に調整することができる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。
 上述した課題を解決するために、第1の技術は、ディスプレイとマイクロフォンが設置された第1の空間に存在する人物に関する情報を検出する情報検出部と、人物に関する情報に基づいて、マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する音量調整部とを備える情報処理装置である。
 また、第2の技術は、ディスプレイとマイクロフォンが設置された第1の空間に存在する人物に関する情報を検出し、人物に関する情報に基づいて、マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する情報処理方法である。
 さらに、第3の技術は、ディスプレイとマイクロフォンが設置された第1の空間に存在する人物に関する情報を検出し、人物に関する情報に基づいて、マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する情報処理方法をコンピュータに実行させるプログラムである。
遠隔コミュニケーションシステム10の構成を示すブロック図である。 テレプレゼンスシステム100の外観図である。 テレプレゼンスシステム100の構成を示すブロック図である。 第1の実施の形態における情報処理装置200の構成を示すブロック図である。 サーバ装置1000の構成を示すブロック図である。 第1の実施の形態の第1の使用例における空間Aを示す図である。 第1の実施の形態の第1の使用例における処理を示すシーケンス図である。 第1の実施の形態の第2の使用例における空間Aを示す図である。 第1の実施の形態の第2の使用例における処理を示すシーケンス図である。 第2の実施の形態における情報処理装置200の構成を示すブロック図である。 第2の実施の形態の使用例における空間Aを示す図である。 第2の実施の形態の使用例における処理を示すシーケンス図である。 注目度算出の説明図である。 第3の実施の形態における情報処理装置200の構成を示すブロック図である。 注目領域特定部208の説明図である。 第3の実施の形態の使用例における空間Aおよび空間Bを示す図である。 第3の実施の形態の使用例における処理を示すシーケンス図である。 第4の実施の形態における遠隔コミュニケーションシステム10の構成を示すブロック図である。 図19Aは第4の実施の形態における情報処理装置200Aの構成を示すブロック図であり、図19Bは第4の実施の形態における情報処理装置200Bの構成を示すブロック図である。 第4の実施の形態の使用例における空間Aを示す図である。 第4の実施の形態の使用例における空間Bを示す図である。 第4の実施の形態の使用例におけるディスプレイ400の表示態様を示す図である。 第4の実施の形態の使用例における処理を示すシーケンス図である。 注目度算出の説明図である。 ディスプレイ400における表示の切り替えの説明図である。 ディスプレイ400における小窓映像表示の説明図である。
 以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<1.第1の実施の形態>
[1-1.遠隔コミュニケーションシステム10の構成]
[1-2.テレプレゼンスシステム100の構成]
[1-3.情報処理装置200の構成]
[1-4.サーバ装置1000の構成]
[1-5.第1の実施の形態の第1の使用例]
[1-6.第1の実施の形態の第2の使用例]
<2.第2の実施の形態>
[2-1.情報処理装置200の構成]
[2-2.第2の実施の形態の使用例]
<3.第3の実施の形態>
[3-1.情報処理装置200の構成]
[3-2.第3の実施の形態の使用例]
<4.第4の実施の形態>
[4-1.遠隔コミュニケーションシステム10の構成]
[4-2.情報処理装置200の構成]
[4-3.第4の実施の形態の使用例]
<5.変形例>
<1.第1の実施の形態>
[1-1.遠隔コミュニケーションシステム10の構成]
 まず、図1を参照して遠隔コミュニケーションシステム10の構成について説明する。遠隔コミュニケーションシステム10は複数のテレプレゼンスシステム100とサーバ装置1000により構成されている。図1では、複数のテレプレゼンスシステム100として1対1の関係で接続されているテレプレゼンスシステム100Aとテレプレゼンスシステム100Bを示している。ただし、遠隔コミュニケーションシステム10を構成するテレプレゼンスシステム100は3つ以上であってもよく、その数に制限はない。
 テレプレゼンスシステム100Aとサーバ装置1000、テレプレゼンスシステム100Bとサーバ装置1000はそれぞれインターネットなどのネットワークを介して接続されており、テレプレゼンスシステム100Aとテレプレゼンスシステム100BはWebRTC(Web Real-Time Communication)のP2P(Peer to Peer)通信を確立している。
 テレプレゼンスシステム100Aは、情報処理装置200A、端末装置300A、ディスプレイ400A、カメラ500A、マイクロフォンアレイ600A、スピーカ700A、センサ800Aにより構成されているシステムである。テレプレゼンスシステム100Bは、情報処理装置200A、端末装置300B、ディスプレイ400B、カメラ500B、マイクロフォンアレイ600B、スピーカ700B、センサ800Bにより構成されているシステムである。本技術における処理を行う情報処理装置200Aは端末装置300Aにおいて動作し、情報処理装置200Bは端末装置300Bにおいてそれぞれ動作する。
 テレプレゼンスシステム100とは、複数の空間に存在するユーザ間のコミュニケーションのために双方向通信を行うシステムである。図2Aに示すようにテレプレゼンスシステム100Aは空間Aに設置され、図2Bに示すようにテレプレゼンスシステム100Bは空間Aとは異なる空間である空間Bに設置されている。テレプレゼンスシステム100Aは、そのテレプレゼンスシステム100Aが設置されている空間に存在する人物と、テレプレゼンスシステム100Bが設置されている空間に存在する人物とが映像および音声でコミュニケーションをとるために用いられるものである。同様に、テレプレゼンスシステム100Bは、そのテレプレゼンスシステム100Bが設置されている空間に存在する人物と、テレプレゼンスシステム100Aが設置されている空間に存在する人物とが映像および音声でコミュニケーションをとるために用いられるものである。
[1-2.テレプレゼンスシステム100の構成]
 次に図3を参照してテレプレゼンスシステム100Aとテレプレゼンスシステム100Bの構成について説明する。テレプレゼンスシステム100Aは、情報処理装置200A、端末装置300A、ディスプレイ400A、カメラ500A、マイクロフォンアレイ600A、スピーカ700A、センサ800Aにより構成されている。
 情報処理装置200Aは端末装置300Aにおいて動作し、本技術における処理を行うものである。情報処理装置200の構成は後述する。
 端末装置300Aは、制御部301A、記憶部302A、インターフェース303A、入力部304Aを備えて構成されている。
 制御部301Aは、CPU(Central Processing Unit)、RAM(Random Access Memory)およびROM(Read Only Memory)などから構成されている。CPUは、ROMに記憶されたプログラムに従い様々な処理を実行してコマンドの発行を行うことによって端末装置300Aの全体および各部の制御を行う。
 記憶部302Aは、例えばハードディスク、フラッシュメモリなどの大容量記憶媒体である。記憶部302には端末装置300Aで使用する各種アプリケーションやデータなどが格納されている。
 インターフェース303Aは端末装置300Aとサーバ装置1000Aとの間のインターフェースである。インターフェース303Aは、有線または無線の通信インターフェースを含みうる。より具体的には、有線または無線の通信インターフェースは、3G/LTEなどのセルラー通信、Wi-Fi、Bluetooth(登録商標)、NFC(Near Field Communication)、イーサネット(登録商標)、HDMI(登録商標)(High-Definition Multimedia Interface)、USB(Universal Serial Bus)などを含みうる。また、インターフェース303Aは、端末装置300A内のバスや、プログラムモジュール内でのデータ参照などを含みうる。
 入力部304Aは、端末装置300Aに対してユーザが各種指示などを入力するためのものである。入力部304Aに対してユーザから入力がなされると、その入力に応じた制御信号が生成されて制御部301Aに供給される。そして、制御部301Aはその制御信号に対応した各種処理を行う。入力部304Aは物理ボタンの他、タッチパネル、音声認識による音声入力、人体認識によるジェスチャ入力などがある。
 端末装置300Aは以上のようにして構成されている。端末装置300Aの具体例としてはパーソナルコンピュータ、スマートフォン、タブレット端末などがある。また、端末装置300Aはテレプレゼンスシステム専用の装置として構成されているものでもよい。本技術に係る処理のために必要なプログラムがある場合、そのプログラムは予め端末装置300Aにインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自らインストールするようにしてもよい。
 端末装置300Aには、外部装置としてのディスプレイ400A、カメラ500A、マイクロフォンアレイ600A、スピーカ700A、センサ800Aが接続されている。それら外部装置の接続方法は有線であっても無線であってもよい。
 ディスプレイ400Aは、図2に示すように、空間Bに設置されたテレプレゼンスシステム100Bのカメラ500Bで撮影された映像を表示するテレプレゼンス用の大型ディスプレイである。テレプレゼンスシステム100Bの端末装置300Bが送信した映像信号はサーバ装置1000により端末装置300Aに送信される。そして、端末装置300Aが映像信号に所定の処理を施してディスプレイ400Aに出力することによりディスプレイ400Aにカメラ500Bで撮影された空間Bの映像が表示される。
 カメラ500Aはレンズ、撮像素子、映像信号処理回路などから構成され、テレプレゼンスシステム100Aが設置されている空間Aを撮影するためのものである。カメラ500Aはディスプレイ400Aの前方に広がる空間を撮影することができる位置に設置されている。カメラ500Aの撮影により生成された映像信号は端末装置300Aのインターフェース303Aからサーバ装置1000に送信され、サーバ装置1000から端末装置300Bに送信される。そして、カメラ500Aで撮影された映像が空間Bに設置されたテレプレゼンスシステム100Bのディスプレイ400Bに表示される。カメラ500Aとしては例えばWebカメラなどを用いることができる。なお、以下の説明においてはカメラ500Aが撮影した映像をカメラ映像と称する場合がある。
 マイクロフォンアレイ600Aはテレプレゼンスシステム100Aが設置されている空間Aにおける音声を収音するためのものである。マイクロフォンアレイ600Aは、複数のマイクロフォンにより構成され、複数のマイクロフォンのそれぞれで空間内の音声を収音することができるともに、指向性を任意の方向へ切り替えることができるビームフォーミングマイクロフォンである。また、マイクロフォンアレイ600Aは複数のマイクロフォンにより構成されているため、マイクロフォンのゲインを調整することにより、任意のマイクロフォンから出力される音声信号の音量を上げる、または下げることが可能である。本技術ではこのマイクロフォンアレイの特性を利用する。マイクロフォンアレイ600Aにより生成された音声信号は端末装置300Aのインターフェース303Aからサーバ装置1000に送信され、サーバ装置1000から端末装置300Bに送信される。そして、マイクロフォンアレイ600Aで収音された映像が空間Bに設置されたテレプレゼンスシステム100Bのスピーカ700Bから出力される。
 スピーカ700Aは、テレプレゼンスシステム100Bを構成するマイクロフォンアレイ600Bで収音された空間Bにおける音声を空間Aにおいて出力するためのものである。テレプレゼンスシステム100Bの端末装置300Bが送信した音声信号はサーバ装置1000により端末装置300Aに送信される。そして、端末装置300Aが音声信号に所定の処理を施してスピーカ700に出力することによりマイクロフォンアレイ600Bで収音された空間Bの音声が出力される。
 センサ800Aは、RGB(Red,Green,Blue)または単色のカラー映像を撮影可能なカメラ、ToF(Time of Flight)などを利用した深度センサ、マイクロフォンなどの複数のセンサ機能を備えたセンサ装置である。センサ800Aとして例えば、カメラ機能および深度センサ機能を備えるAzure kinect(登録商標)などを用いることができる。センサ800Aは一つの空間に複数設置してもよい。なお、センサ800Aは距離センサ(LiDAR(light detection and ranging)など)、IRカメラ、温度センサ、その他各種の環境センサなどの機能を備えていてもよい。以下の説明ではセンサ800Aが取得する映像や深度情報などを総じてセンサ情報と称する。
 センサ800Aは、空間Aにおけるディスプレイ400Aが設置されている位置から最も離れた位置、空間の後方端中央、ディスプレイ400Aの近傍、その空間を形成する部屋の天井など、空間全体を撮影することができる位置に設置されている。センサ800Aの位置は空間Aの形状や状態、空間内にいる人物の人数や位置、テレプレゼンスシステム100Aの使用目的などに応じて設置位置を変更してもよい。センサ800Aは1つの空間に複数設置してもよい。
 なお、ディスプレイ400A、カメラ500A、マイクロフォンアレイ600A、スピーカ700Aは端末装置300Aが一体的に備えているものでもよい。また、ディスプレイ400A、カメラ500Aおよびスピーカ700Aが一体的に構成され、それが端末装置300Aと接続されているという構成でもよい。さらに、ディスプレイ400A、カメラ500A、マイクロフォンアレイ600Aおよびスピーカ700Aが一体的に構成され、それが端末装置300Aと接続されている、という構成でもよい。
 図3Bに示すようにテレプレゼンスシステム100Bもテレプレゼンスシステム100Aと同様に構成されている。
[1-3.情報処理装置200の構成]
 次に図4を参照してテレプレゼンスシステム100Aにおける情報処理装置200Aの構成について説明する。情報処理装置200Aは、人体検出部201A、距離算出部202A、位置判定部203A、音量調整部204Aを備えて構成されている。
 人体検出部201Aは、公知の人体検出技術を用いて、カメラ500Aが撮影したカメラ映像やセンサ800Aで取得したセンサ情報からテレプレゼンスシステム100Aが設置されている空間Aに存在する人物の位置と人数を検出する。また、人体検出部201Aは検出した人体を追跡するトラッキング処理も行う。人体検出技術としては、機械学習やディープラーニングによる方法、テンプレートマッチングによる方法、人の動きや姿勢も検出することができる骨格検出(ボーン検出)に基づく方法、AI(Artificial Intelligence)を用いる方法などがある。これらの手法を組み合わせて検出精度を高めるようにしてもよい。人体を検出することができればどのような方法を採用してもよい。人体検出部201Aは特許請求の範囲における情報検出部に相当するものである。
 距離算出部202Aは、人体検出部201Aにより検出された空間Aに存在する人物とディスプレイ400Aとの間の距離を算出する。予めセンサ800Aに対するディスプレイ400Aの位置を決めておくことにより、センサ800Aに対するディスプレイ400Aの位置(座標)を特定することができる。また、センサ800Aが備える深度センサで人物の位置(座標)を取得することができる。よって、距離算出部202Aはセンサ800Aに対するディスプレイ400Aの位置(座標)と人物の位置(座標)とからディスプレイ400Aと人物の間の距離を算出することができる。また、同様にして距離算出部202Aは人体検出部201Aにより検出された空間Aに存在する人物とマイクロフォンアレイ600Aを構成する各マイクロフォンとの間の距離を算出する。
 位置判定部203Aは、人体検出部201Aにより検出された人物がカメラ500Aの撮影範囲(画角)内にいるか否かを判定する。カメラ500Aの画角情報はカメラ500Aが備えるレンズの仕様やカメラ500Aの設定情報などから予め取得するできるため、予め空間Aにおけるカメラ500Aの撮影範囲を把握することができる。そして、そのカメラ500Aの撮影範囲と人体検出部201Aが検出した人物の位置(座標)を照らし合わせることにより人物がカメラ500Aの撮影範囲内にいるか否かを判定することができる。この処理のためには予めカメラ500Aの撮影範囲を予め位置判定部203Aに登録しておく必要がある。
 音量調整部204Aは、位置判定部203Aの判定結果に基づいてマイクロフォンアレイ600Aから出力される音声信号のゲインを大きくするまたは小さくすることにより、空間Bに設置されたテレプレゼンスシステム100Bのスピーカ700Bから出力される音声の音量を調整する。音量調整部204Aは、マイクロフォンアレイ600Aを構成する複数のマイクロフォンのうちの特定のマイクロフォンから出力される音声信号を選択してそのゲインを調整することができる。音量調整部204Aの処理の詳細については後述する。
 情報処理装置200Aは以上のようにして構成されている。情報処理装置200Aは単体の装置として構成してもよいし、コンピュータとしての機能を有する端末装置300Aにおいてプログラムを実行させることにより実現してもよい。そのプログラムは予め端末装置300にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザなどがインストールするようにしてもよい。
 テレプレゼンスシステム100Bを構成する情報処理装置200Bも情報処理装置200Aと同様に構成されている。
[1-4.サーバ装置1000の構成]
 次に図5を参照してサーバ装置1000の構成について説明する。サーバ装置1000はテレプレゼンスシステム100のユーザに遠隔コミュニケーションシステム10を実現するためのクラウドサービスを提供するためのものである。
 サーバ装置1000は少なくとも、制御部1001、記憶部1002、インターフェース1003を備えて構成されている。これらは端末装置300Aが備えるものと同様のものであるため説明を省略する。
 またサーバ装置1000は、受信処理部1004、送信処理部1005、装置登録部1006、マッチング部1007という処理ブロックを備えている。
 受信処理部1004は、端末装置300Aおよび端末装置300Bから送信された映像信号、音声信号、その他各種情報などを受信する処理を行うものである。
 送信処理部1005は、端末装置300Aから送信された映像信号、音声信号、その他各種情報などを端末装置300Bに送信する処理を行うものである。また、送信処理部1005は、端末装置300Bから送信された映像信号、音声信号、その他各種情報などを端末装置300Aに送信する処理も行う。
 装置登録部1006は、サーバ装置1000に接続されており遠隔コミュニケーションシステム10を構成する各端末装置300を識別するための情報をデータベースに保存する。
 マッチング部1007は、端末装置300からの要求により現在利用可能な(オンラインである)装置の中から最適な装置を検索し、それぞれが接続できるように端末装置300同士のマッチングを行う。
[1-5.第1の実施の形態の第1の使用例]
 次に第1の実施の形態における遠隔コミュニケーションシステム10の第1の使用例について説明する。
 第1の使用例では図6に示すように、テレプレゼンスシステム100Aを構成するディスプレイ400A、カメラ500A、マイクロフォンアレイ600A、センサ800Aが空間Aに設置されている。なお、端末装置300A、スピーカ700Aも空間Aに設置されているが、図示の都合上省略する。
 また、図示は省略するがテレプレゼンスシステム100Bを構成する端末装置300B、ディスプレイ400B、カメラ500B、マイクロフォンアレイ600B、スピーカ700B、センサ800Bが空間Bに設置されているとする。空間Aと空間Bは物理的に離れた空間である。
 空間Aにおいて、カメラ500Aはディスプレイ400Aの前方に広がる空間を撮影することができる位置に設置されている。なお、この配置はあくまで一例でありカメラ500Aの位置は図6に示す位置に限定されるものではない。
 センサ800Aは空間Aにおけるディスプレイ400Aの設置位置の反対側である後方端中央に設置されている。
 また、マイクロフォンアレイ600Aはディスプレイ400Aの近傍に設置されている。図6においてマイクロフォンアレイ600Aはディスプレイ400Aの横に設置されているが、これは図示の都合上の位置であり、マイクロフォンアレイ600Aの位置は図6の位置に限定されるものではない。マイクロフォンアレイ600Aの位置はディスプレイ400の近傍であればどこでもよい。例えば、マイクロフォンアレイ600Aはディスプレイ400Aや空間を構成する部屋の天井からぶら下げるなどの方法で設置される。
 第1の使用例では図6に示すように、空間Aに複数の人物(人物1、人物2)がいるとする。人物1と人物2はカメラ500Aの撮影範囲外にいるため、空間Bのディスプレイ400Bにはその姿が表示されないが、マイクロフォンアレイ600Aの近くで話しているため、その声はマイクロフォンアレイ600Aによって収音されて空間Bにおいてスピーカ700Bから出力される。
 そうすると、空間Bにいる人物にとってはディスプレイ400Bに誰も表示されていないにも関わらず、空間Aにおける人物の声がスピーカ700Bから出力されて聞こえることになる。これにより、空間Bにいる人物にとっては、誰が話しているのかわからない、声は聞こえるが誰に向けて話しているのかわからない、うるさく感じて注意したくとも相手の姿が見えないので誰に対して注意したらよいのかわからない、などの問題が生じる。
 また、空間Aにいる人物1と人物2にとっては、空間Bに向けて話していないにも関わらず声が空間Bにおけるスピーカ700Bから出力されてしまうという問題がある。また、空間Aにいる人物1、人物2はカメラ500Aの撮影範囲外にいるため、自分たちの声が空間Bにおけるマイクロフォンアレイ600Bから出力されているとは思わないという問題もある。第1の使用例ではこのような問題を解決する。
 図7を参照して第1の使用例における処理について説明する。
 まずステップS111で、テレプレゼンスシステムAの情報処理装置200Aは、空間Aに設置されているセンサ800Aからのセンサ情報の取得を開始する。センサ800Aからはリアルタイムで情報処理装置200Aにセンサ情報が出力され続ける。
 次にステップS112で、人体検出部201Aがセンサ情報に基づいて空間Aに存在する人物の人数と位置を検出する。
 次にステップS113で、距離算出部202Aが人体検出部201Aにより検出された人物とディスプレイ400Aとの距離を算出する。
 次にステップS114で、位置判定部203Aが人体検出部201により検出された人物がカメラ500Aの撮影範囲内に存在しているか否かを判定する。
 図6に示すように人物1と人物2がカメラ500Aの撮影範囲内に存在していない場合、ステップS115で音量調整部204Aがマイクロフォンアレイ600Aから出力された音声信号のゲインを下げる。この際、マイクロフォンアレイ600Aを構成する複数のマイクロフォンのうち、人物1と人物2に最も近いマイクロフォンからの音声信号に所定の倍率をかけて音声信号のゲインを下げる。音量調整部204は例えばディスプレイ400Aから人物までの距離に反比例してゲインの低減量が大きくなるようにしてもよい。
 人物とマイクロフォンの距離は上述したように距離算出部202Aで算出することができる。マイクロフォンアレイ600Aを構成するマイクロフォンのうち、検出された人物に最も近いマイクロフォンは、検出された人物の位置と、マイクロフォンアレイ600Aを構成するマイクロフォンの位置に基づいて特定することができる。その際、複数の人物の位置の略中心を人物の位置の基準としてもよいし、複数の人物のうち最もマイクロフォンアレイ600に近い人物の位置を基準としてもよい。
 なお、検出された全ての人物がカメラ500Aの撮影範囲外にいる場合には、マイクロフォンアレイ600Aを構成する全てのマイクロフォンからの音声信号のゲインを下げるようにしてもよい。
 一方、検出された人物がカメラ500Aの撮影範囲内に存在する場合には音量調整部204Aは処理を行わない。
 次にステップS116で、ネットワークを介して端末装置300Aから端末装置300Bに対して、カメラ500Aの撮影で生成された映像信号と、マイクロフォンアレイ600Aの収音で生成され、音量調整部204Aによる処理が施された音声信号が送信される。
 次にステップS117でテレプレゼンスシステムBにおいて、端末装置300Aから送信された映像信号が映像としてディスプレイ400Bに表示され、音声信号がスピーカ700Bから音声として出力される。
 以上の処理がテレプレゼンスシステム100Aとテレプレゼンスシステム100Bで遠隔コミュニケーションを実行する間継続される。
 第1の実施の形態の第1の使用例では、空間Aにおいてカメラ500Aの撮影範囲外にいる人物に近いマイクロフォンから出力された音声信号のゲインを下げたため、空間Bのスピーカ700Bから出力される空間Aの音声の音量は小さくなる。これにより、空間Bにいる人にとってディスプレイ400Bに誰も表示されていないにも関わらず、空間Aにいる人の声が聞こえるという問題を解決することができる。また、空間Aにいる人にとっては、空間Bに向けて話していないにも関わらず、声が空間Bにいる人物に聞かれてしまう、という問題を解決することができる。
 なお、上述の説明では空間Aにおけるテレプレゼンスシステム100Aの情報処理装置200Aの処理を説明したが、テレプレゼンスシステム100Bの情報処理装置200Bも同様の処理を行ってもよい。
[1-6.第1の実施の形態の第2の使用例]
 次に第1の実施の形態における遠隔コミュニケーションシステム10の第2の使用例について説明する。空間Aにおけるテレプレゼンスシステム100Aの設置と空間Bにおけるテレプレゼンスシステム100Bの設置は第1の使用例と同様である。
 第2の使用例は、図8に示すように空間Aにおいてカメラ500Aの撮影範囲外であり、かつ、マイクロフォンアレイ600Aに近い位置に複数の人物(人物1、人物2)がいるとする。さらに、カメラ500Aの撮影範囲内であり、かつ、人物1と人物2よりもマイクロフォンアレイ600Aから遠い位置にも複数の人物(人物3、人物4)がいるとする。カメラ500Aの撮影範囲外にいる人物1と人物2に最も近いマイクロフォンからの音声信号のゲインを下げるのは第1の使用例と同様である。
 一方、人物3と人物4はカメラ500Aの撮影範囲内にいるため、空間Bのディスプレイ400Bに姿が表示されるにも関わらず、マイクロフォンアレイ600Aから遠い位置にいるため、その声は空間Bのスピーカ700Bから小さい音量で出力されてしまい、空間Bにいる人にとっては声が聞き取りにくいという問題が生じる。第2の使用例ではこのような問題を解決する。
 図9を参照して第2の使用例における処理について説明する。ステップS111からステップS114までは第1の使用例と同様である。
 次にステップS121で音量調整部204Aは、マイクロフォンアレイ600Aを構成するマイクロフォンのうち、撮影範囲外にいる人物1および人物2に最も近いマイクロフォンから出力された音声信号のゲインを小さくする。
 またステップS122で音量調整部204Aは、マイクロフォンアレイ600Aを構成するマイクロフォンのうち、撮影範囲内にいる人物3および人物4に最も近いマイクロフォンから出力される音声信号のゲインを大きくする。例えば、ディスプレイ400Aから人物までの距離に比例してゲインの増幅量が大きくなるようにしてもよい。人物に最も近いマイクロフォンを特定する際に、複数の人物の位置の略中心を人物の位置の基準としてもよいし、複数の人物のうち最もマイクロフォンアレイ600に近い人物の位置を基準としてもよいのは第1の使用例と同様である。
 なお、ステップS121とステップS122は逆の順序でもよいし、同時またはほぼ同時に行ってもよい。
 次にステップS123で、ネットワークを介して端末装置300Aから端末装置300Bに対して、カメラ500Aの撮影で生成された映像信号と、マイクロフォンアレイ600Aの収音で生成され、音量調整部204Aによる処理が施された音声信号が送信される。
 次にステップS124でテレプレゼンスシステムBにおいて、端末装置300Aから送信された映像信号が映像としてディスプレイ400Bに表示され、音声信号がスピーカ700Bから音声として出力される。
 以上の処理がテレプレゼンスシステム100Aとテレプレゼンスシステム100Bで遠隔コミュニケーションを実行する間継続される。
 第1の実施の形態の第2の使用例では、空間Aにおいてカメラ500Aの撮影範囲外にいる人物に近いマイクロフォンからの音声信号のゲインを小さくしたため、空間Bのスピーカ700Bから出力されるカメラ500Aの撮影範囲外の人物の声の音量は小さくなる。また、空間Aにおいてカメラ500Aの撮影範囲内にいる人物に近いマイクロフォンからの音声信号のゲインを大きくしたため、空間Bのスピーカ700Bから出力されるカメラ500Aの撮影範囲内の人物の声の音量は大きくなる。これにより、空間Aにおいてカメラ500Aの撮影範囲内にいる人物は空間Bにおけるディスプレイ400Bに姿が表示されているにも関わらず空間Bにいる人にとっては声が聞き取りにくいという問題を解決することができる。
 なお、上述の説明では空間Aにおけるテレプレゼンスシステム100Aの情報処理装置200Aの処理を説明したが、テレプレゼンスシステム100Bの情報処理装置200Bも同様の処理を行ってもよい。
<2.第2の実施の形態>
[2-1.情報処理装置200の構成]
 次に本技術の第2の実施の形態について説明する。図10に示すように第2の実施の形態においては情報処理装置200Aが顔検出部205A、視線検出部206A、注目度算出部207Aを備える。この点で第2の実施の形態は第1の実施の形態と異なる。それ以外の情報処理装置200Aの構成、遠隔コミュニケーションシステム10、テレプレゼンスシステム100A、テレプレゼンスシステム100B、サーバ装置1000の構成は第1の実施の形態と同様である。
 顔検出部205Aは、公知の顔検出技術を用いて、カメラ500Aが撮影した映像やセンサ800Aで取得したセンサ情報から空間Aに存在する人物の顔を検出する。また、顔検出部205Aは検出した顔を追跡するトラッキング処理も行う。顔検出技術としては、機械学習やディープラーニングによる方法、テンプレートマッチングによる方法、輝度分布情報や色分布情報や人間の顔の特徴量等に基づく方法、AI(Artificial Intelligence)を用いる方法などがある。また、これらの手法を組み合わせて検出精度を高めるようにしてもよい。顔を検出することができればどのような方法を採用してもよい。顔検出部205Aは表情の検出や、口の動きに基づいて話しているか否かの検出なども行うことができる。
 視線検出部206Aは、公知の視線検出技術を用いて、カメラ500Aが撮影した映像やセンサ800Aで取得したセンサ情報から空間Aに存在する人物の視線を検出する。また、視線検出部206Aは検出した視線を追跡するトラッキング処理も行う。視線検出技術としては、目の基準点とその基準点に対する動点の位置に基づく方法、眼の瞳孔や虹彩に基づく手法、赤外線LEDを照射して赤外線対応撮像素子で撮影者の眼球を撮影した画像に基づいて視線を検出する方法などがある。視線を検出することができればどのような方法を採用してもよい。顔検出部205Aと視線検出部206Aは特許請求の範囲における情報検出部に相当するものである。
 注目度算出部207Aは、顔検出結果と視線検出結果のいずれか一方または両方に基づいて、空間Aにいる人物のディスプレイ400Aに対する注目度、すなわち他の空間(空間B)への注目度を算出する。
 さらに注目度算出部207Aは、複数の人物により構成されるグループについて、そのグループに含まれる全ての人物の注目度の平均をそのグループの注目度として算出することもできる。例えば、人体検出部201Aにより検出された複数の人物の間の距離が所定の閾値以下であるそれらの複数の人物は共通のグループに含まれるとすることができる。第2の実施の形態では音量調整部204Aはこの注目度に基づいてマイクロフォンアレイ600Aから出力された音声信号のゲインの調整を行う。
[2-2.第2の実施の形態の使用例]
 次に第2の実施の形態における遠隔コミュニケーションシステム10の使用例について説明する。
 第2の実施の形態の使用例においては、図11に示すようにセンサ800Aがディスプレイ400Aの近傍に設置されているとする。その点以外の空間Aにおけるテレプレゼンスシステム100Aの設置と空間Bにおけるテレプレゼンスシステム100Bの設置は第1の実施の形態と同様である。
 空間Aにおいて複数の人物(人物1、人物2)がテレプレゼンスシステム100の存在を意識することなく、さらにディスプレイ400Aに注目することもなく会話をしているとする。この人物1と人物2の声をマイクロフォンアレイ600Aが収音してその声が空間Bのスピーカ700Bから出力されると、空間Aの人物1と人物2の声が意図せず空間Bにいる人物に聞かれてしまうことになる。もし、人物1と人物2の会話の内容に秘匿情報が含まれている場合、情報漏洩といったセキュリティ事故になるおそれもある。第2の実施の形態の使用例ではこのような問題を解決する。
 図12を参照して第2の実施の形態の使用例における処理について説明する。ステップS111からステップS113までは第1の実施の形態の第1の使用例と同様である。
 次にステップS211で、人体検出部201Aが検出した人物に対して顔検出部205Aが顔の向きを検出する。また、人体検出部201Aが検出した人物に対して視線検出部206Aが視線の向きを検出する。
 次にステップS212で、注目度算出部207Aが顔検出結果と視線検出結果のいずれか一方または両方に基づいて、空間Aにいる人物のディスプレイ400Aに対する注目度を算出する。
 例えば、注目度を所定の幅を持つ値として定義し、図13Aや図13Bに示すように顔の向きと視線の向きの両方またはいずれか一方がディスプレイ400Aに向いている状態を注目度が最大値である状態とする。顔の向きと視線の向きがディスプレイ400Aに向いているということは、人物はディスプレイ400A、すなわち空間Bに注目しているといえるからである。
 そして、図13Cおよび図13Dに示すように、顔の向きと視線の向きの両方またはいずれか一方がディスプレイ400Aに向いていない状態においては、ディスプレイ400Aに対する顔または視線の向きが逸れていく(角度θが大きくなる)に従い注目度の値も小さくしていく。よって、図13Cの状態よりも図13Dの状態のほうが注目度は小さい値となる。これは図13Aや図13Bの状態に比べて人物の顔がディスプレイ400Aに向いておらず、ディスプレイ400Aに対する注目度は低いと考えられるからである。
 なお、図13では人物が右方向を向いている例で説明を行ったが、左方向を向いている場合も同様にして顔の向きの角度で注目度を算出する。
 なお、注目度算出部207は顔の向きと視線の向きのいずれか一方のみに基づいて注目度を算出してもよいし、顔の向きと視線の向きの両方に基づいて総合的に注目度を算出してもよい。
 図12の説明に戻る。次にステップS213で音量調整部204Aは、マイクロフォンアレイ600Aを構成するマイクロフォンのうち、注目度が所定の閾値以下である人物に最も近いマイクロフォンから出力される音声信号のゲインを小さくする。
 次にステップS214で、ネットワークを介して端末装置300Aから端末装置300Bに対して、カメラ500Aの撮影で生成された映像信号と、マイクロフォンアレイ600の収音で生成され、音量調整部204による処理が施された音声信号が送信される。
 次にステップS215でテレプレゼンスシステムBにおいて、端末装置300Aから送信された映像信号が映像としてディスプレイ400Bに表示され、音声信号がスピーカ700Bから音声として出力される。
 以上の処理がテレプレゼンスシステム100Aとテレプレゼンスシステム100Bで遠隔コミュニケーションを実行する間継続される。
 第2の実施の形態ではテレプレゼンスシステム100Aにおいて、注目度が閾値以下である人物に近いマイクロフォンからの音声信号のゲインを小さくしたため、テレプレゼンスシステム100Bのスピーカ700Bから出力される空間Aにおける注目度が閾値以下の人物の声の音量は小さくなる。これにより、空間Aにおいてディスプレイ400Aに対する注目度が低い人物の音声が空間Bのスピーカ700Bから大きな音量で出力されて意図せずに空間Bにいる人物に聞かれてしまうという問題を解決することができる。なお、音量調整部204Aはマイクロフォンアレイ600Aを構成するマイクロフォンのうち、注目度が所定の閾値以上である人物に最も近いマイクロフォンから出力される音声信号のゲインを大きくすることも可能である。
 上述の説明では空間Aにおけるテレプレゼンスシステム100Aの情報処理装置200Aの処理を説明したが、テレプレゼンスシステム100Bの情報処理装置200Bも同様の処理を行ってもよい。
 注目度算出部207はディスプレイ400Aに対する顔の向きに限られず、各人物がどの人物に向かって話しているかに基づいて注目度を算出してもよい。各人物がどの人物に向かって話しているかは、人体検出部201A、顔検出部205A、視線検出部206Aの検出結果に基づいて推定することができる。例えば、特定の人物について、顔検出部205Aで検出したその人物の顔が向いている方向や、視線検出部206Aで検出したその人物の視線が向いている方向に人体検出部201Aで検出した他の人物が存在している場合、その特定の人物は他の人物に注目しており、ディスプレイ400A、すなわち空間Bには注目していないとして注目度を低く算出する。
 空間Aに存在する複数の人物をグループとしてそのグループの注目度を算出し、そのグループの注目度に基づいてグループに最も近いマイクロフォンの音声信号を調整するようにしてもよい。上述したように、グループは、例えば人体検出部201により検出された複数の人物の位置間の距離が所定の閾値以下であるそれら複数の人物は共通のグループに含まれるとすることができる。また注目度算出部207は、複数の人物により構成されるグループについて、そのグループに含まれる全ての人物それぞれの注目度の平均をそのグループの注目度として算出することもできる。
<3.第3の実施の形態>
[3-1.情報処理装置200の構成]
 次に本技術の第3の実施の形態について説明する。図14に示すように第3の実施の形態において情報処理装置200Aは顔検出部205A、視線検出部206A、注目領域特定部208A、収音指示部209Aを備える。この点で第3の実施の形態は第1の実施の形態と異なる。それ以外の情報処理装置200Aの構成、遠隔コミュニケーションシステム10、テレプレゼンスシステム100A、テレプレゼンスシステム100B、サーバ装置1000の構成は第1の実施の形態と同様である。空間Bに設置されているテレプレゼンスシステム100Bを構成する情報処理装置200Bは少なくとも音量調整部204Bを備えていればよく、それ以外の構成は情報処理装置200Aと同様でもよいし、第1または第2の実施の形態における情報処理装置200Aと同様でもよい。
 注目領域特定部208Aは、顔検出結果と視線検出結果のいずれか一方または両方に基づいて、空間Aに存在する人物がディスプレイ400Aのどこに注目しているか、すなわち、ディスプレイ400Aに表示されている空間Bのどこに注目しているかを特定する。
 図15に示すように、空間Aのディスプレイ400Aの表示領域を複数の領域に分割し、各領域が空間Bにおけるカメラ500Bの撮影範囲のどこに対応しているかを予め対応付けておく。図15の例ではディスプレイ400Aの表示領域を縦方向にサイズが等しい3つの領域(領域A1、領域A2、領域A3)に分割し、各領域が表示するカメラ500Bの撮影範囲(領域B1、B2、B3)と予め対応付けておく。
 図15では領域A1と領域B1、領域A2と領域B2、領域A3と領域B3がそれぞれ対応している。よって、空間Bの領域B1の様子はディスプレイ400Aの領域A1に表示され、空間Bの領域B2の様子はディスプレイ400Aの領域A2に表示され、空間Bの領域B3の様子はディスプレイ400Aの領域A3に表示される。なお、図15に示す分割数はあくまで一例であり、本技術は特定の分割数に限定されるものではない。
 例えば、図15の空間Aに示すように空間Aの人物1の顔および視線がディスプレイ400Aの左側の領域A1に向いている場合、注目領域特定部208Aは、人物1はディスプレイ400Aの領域A1、すなわち空間Bの領域B1に注目していると特定する。
 なお、注目領域特定部208Aはディスプレイ400Aのいずれかの領域に対する顔と視線が向いている時間(視線の滞留時間)の長さが所定値以上である場合、その注目領域を特定することもできる。
 収音指示部209Aは、注目領域特定部208Aが特定した注目領域に基づいて空間Aのテレプレゼンスシステム100Aから空間Bのテレプレゼンスシステム100Bに対して空間Bのどの領域に向けて収音するかを指示する収音指示情報を生成する。この収音指示情報はネットワークを介してテレプレゼンスシステム100Aからテレプレゼンスシステム100Bに送信される。そして、テレプレゼンスシステム100Bではその収音指示に基づいてマイクロフォンアレイ600Bで収音を行う。
 顔検出部205A、視線検出部206Aは第2の実施の形態と同様のものである。
[3-2.第3の実施の形態の使用例]
 次に第3の実施の形態における遠隔コミュニケーションシステム10の使用例について説明する。
 第3の使用例においては、第2の使用例と同様に図16に示すようにセンサ800Aがディスプレイ400Aの近傍に設置されているとする。その点以外の空間Aにおけるテレプレゼンスシステム100Aの設置と空間Bにおけるテレプレゼンスシステム100Bの設置は第2の実施の形態と同様である。
 空間Aに人物1が存在しているとする。また、空間Bにおいて複数の人物(人物2、人物3、人物4)が存在しているとする。空間Aの人物1と空間Bの人物2が遠隔コミュニケーションシステム10を利用して会話をしている場合、空間Bの他の人物(人物3、人物4)の話し声をマイクロフォンアレイ600Bが集音して空間Aのスピーカ700Aから出力されることにより空間Aの人物1にとって空間Bの人物2の声が聞き取りにくい場合がある。すなわち、会話とは関係のない空間Bの人物(人物3と人物4)の声により会話が邪魔されて会話が聞き取りにくいという場合である。第3の実施の形態ではこのような問題を解決する。
 図17を参照して第1の使用例における処理について説明する。ステップS111からステップS113までは第1の実施の形態の第1の使用例と同様である。
 次にステップS311で、注目領域特定部208Aが顔検出結果と視線検出結果のいずれか一方または両方に基づいて、空間Aにおいて人体検出部201が検出した人物1がディスプレイ400Aの表示領域のどの領域に注目しているかを特定する。
 次にステップS312で、収音指示部209Aは、注目度算出部207Aが特定した注目領域に基づいて収音指示を生成する。
 空間Aの人物1のディスプレイ400Aの領域A2に注目している場合、それは人物1が空間Bにおける領域B2に注目していることを示している。そこで収音指示部209Aは、空間Bにおけるマイクロフォンアレイ600Bを構成する複数のマイクロフォンのうち、空間Bの領域B2に最も近いマイクロフォンのゲインを上げるように収音指示を生成する。なお、このためには予め領域B1乃至B3とマイクロフォンアレイ600Bを構成する各マイクロフォンを位置に基づいて対応付けておく必要がある。
 次にステップS313で、ネットワークを介してテレプレゼンスシステム100Aからテレプレゼンスシステム100Bに対して、収音指示が送信される。
 次にステップS314で、テレプレゼンスシステム100Aから送信された収音指示情報を受信したテレプレゼンスシステム100Bにおいて、音量調整部204Bは収音指示情報に基づいて、マイクロフォンアレイ600Bを構成するマイクロフォンのゲインを調整する。
 図16の例では、空間Aの人物1はディスプレイ400Aの中央の領域A2、すなわち空間Bの中央の領域B2に注目しているため、音量調整部204はマイクロフォンアレイ600Bを構成する複数のマイクロフォンのうち、空間Bの領域B2に最も近いマイクロフォンから出力された音声信号のゲインを上げる。
 次にステップS315で、ネットワークを介してテレプレゼンスシステム100Bからテレプレゼンスシステム100Aに対して、カメラ500Bの撮影で生成された映像信号と、マイクロフォンアレイ600Bの収音で生成されて、音量調整部204で処理が施された音声信号が送信される。
 次にステップS316で、テレプレゼンスシステム100Bから送信された映像信号と音声信号を受信したテレプレゼンスシステム100Aにおいて、映像信号が映像としてディスプレイ400Aに表示され、音声信号がスピーカ700Aから音声として出力される。
 以上の処理がテレプレゼンスシステム100Aとテレプレゼンスシステム100Bで遠隔コミュニケーションを実行する間継続される。
 第3の実施の形態では、空間Aの人物が注目している空間Bの領域に対応するマイクロフォンからの音声信号のゲインを大きくするため、スピーカ700Aから出力される、空間Aの人物が注目している空間Bの人物の声の音量が大きくなる。これにより会話している人物の声が大きく出力されて、会話とは関係のない他の人物の声により会話が邪魔されて会話が聞き取りにくいという問題を解決することができる。
 なお、上述の説明では空間Aにおけるテレプレゼンスシステム100Aの情報処理装置200Aの処理を説明したが、テレプレゼンスシステム100Bの情報処理装置200Bも同様の処理を行ってもよい。
 上述の処理では空間Aの人物が注目している空間Bの領域に位置するマイクロフォンからの音声信号のゲインを大きくしたが、それに加えて、または代えて、空間Aの人物の注目度が低い空間Bの領域に位置するマイクロフォンからの音声信号のゲインを小さくしてもよい。これによっても、会話とは関係のない他の人物の声により会話が邪魔されて会話が聞き取りにくいという問題を解決することができる。
 また、収音指示部209Aは空間Aの人物1のディスプレイ400Aに対する注目度がどの領域に対しても高くない場合には空間Bのマイクロフォンアレイ600Bを構成する全てのマイクロフォンのゲインを下げるように収音指示を生成してもよい。
 この第3の実施の形態と第1および第2の実施の形態の説明において空間にいる人物の数はあくまで例示であり、本技術は人物が特定の人数である場合に限定されるものではない。
 この第3の実施の形態と第1および第2の実施の形態は例えば、学校における図書室や視聴覚室に設置して生成と生徒がやり取りをしたり、企業の会議室に設置して社員同士でやり取りを行う場合に有用である。また、公共施設の多目的ホールに設置してイベントや話し合いをする場合にも有用である。さらに、離れた土地に住む複数の家族のコミュニケーションにも有用である。
<4.第4の実施の形態>
[4-1.遠隔コミュニケーションシステム10の構成]
 次に本技術の第4の実施の形態について説明する。図18に示すように第4の実施の形態では、テレプレゼンスシステム100がN対1(多数対単数)という関係で接続されている。ここでは多数側として空間A内における空間A-1、空間A-2、空間A-3、空間A-4にそれぞれテレプレゼンスシステム100A-1、テレプレゼンスシステム100A-2、テレプレゼンスシステム100A-3、テレプレゼンスシステム100A-4が設置されている。また、単数側として空間Bにテレプレゼンスシステム100Bが設置されている。テレプレゼンスシステム100A-1、テレプレゼンスシステム100A-2、テレプレゼンスシステム100A-3、テレプレゼンスシステム100A-4は相互には接続されている必要はなく、それぞれがサーバ装置1000を介してテレプレゼンスシステム100Bに接続されている。テレプレゼンスシステム100A-1乃至A-4の構成は同一である。
[4-2.情報処理装置200の構成]
 図19Aは多数側である情報処理装置200Aの構成である。また、図19Bは単数側の情報処理装置200Bの構成である。
 図19Aに示すように情報処理装置200Aは人体検出部201A、距離算出部202A、音量調整部204A、顔検出部205A、視線検出部206A、注目度算出部207A、表示制御部210Aを備える。人体検出部201A、距離算出部202A、音量調整部204Aは第1の実施の形態と同様のものである。また、顔検出部205、視線検出部206は第2の実施の形態におけるものと同様である。
 注目度算出部207Aは、顔検出結果と視線検出結果のいずれか一方または両方に基づいて、空間Aにおける人物がディスプレイ400Aに注目しているか、すなわち、空間Bにいる人物に注目しているかを示す注目度を算出する。その際、口の動きに基づいて空間Aにいる人物が空間Bにいる人物に話している、または話しかけようとしていることも考慮して注目度を算出してもよい。
 表示制御部210Aは、空間Bに設置されているテレプレゼンスシステム100Bから送信されたフィードバック情報と映像信号を受けてディスプレイ400Aにおいて小窓映像表示を行う。小窓映像表示の詳細は後述する。
 図19Bに示すように、テレプレゼンスシステム100Bの情報処理装置200Bは音量調整部204B、表示制御部210B、注目度比較部211Bを備える。
 注目度比較部211Bは、複数のテレプレゼンスシステム100A-1乃至A-4から送信された複数の注目度を比較して、最も高い注目度を送信したテレプレゼンスシステム100Aを特定する。
 表示制御部210Bは、テレプレゼンスシステム100Bに接続されているテレプレゼンスシステム100Aの数に応じてディスプレイ400Bの表示領域を分割し、各テレプレゼンスシステム100Aから送信された映像信号を各表示領域にそれぞれ表示するよう表示制御を行う。また表示制御部210Bは、注目度比較部211Bの比較結果に基づき、最も高い注目度を送信したテレプレゼンスシステム100Aから送信された映像信号をディスプレイ400Bに表示するよう表示制御を行う。
 音量調整部204Bは、注目度比較部211Bの比較結果に基づき、最も高い注目度を送信したテレプレゼンスシステム100Aから送信された音声信号のゲインを上げて音量を大きくする。また、それ以外のテレプレゼンスシステム100Aから送信された音声信号は注目度の大きさの順にゲインを下げて音量を小さくする。
 情報処理装置200B以外のテレプレゼンスシステム100Bの構成はテレプレゼンスシステムA-1乃至A-4と同一である。また、遠隔コミュニケーションシステム10、テレプレゼンスシステム100A、テレプレゼンスシステム100B、端末装置300、サーバ装置1000の構成は第1の実施の形態と同様である。
[4-3.第4の実施の形態の使用例]
 次に第4の実施の形態における遠隔コミュニケーションシステム10の使用例について説明する。
 第4の実施の形態の使用例では図20に示すように、空間A内の空間A-1、空間A-2、空間A-3、空間A-4にそれぞれテレプレゼンスシステム100A-1、テレプレゼンスシステム100A-2、テレプレゼンスシステム100A-3、テレプレゼンスシステム100A-4が設置されている。また、図21に示すように空間Bにおいてはテレプレゼンスシステム100Bが設置されている。
 テレプレゼンスシステム100A-1乃至A-4とテレプレゼンスシステム100Bのそれぞれの設置方法は第2の実施の形態と同様である。空間Aにおいては、複数の人物が4つのグループに分かれ、それぞれのグループがテレプレゼンスシステム100A-1乃至A-4を使用する。各空間A-1乃至空間A-4においては全ての人物はカメラ500Aの撮影範囲内かつセンサ800Aのセンシング範囲内にいるものとする。また、空間Bのテレプレゼンスシステム100Bは一人の人物1が使用する。
 よって図22Aに示すように、テレプレゼンスシステム100A-1乃至A-4のディスプレイ400Aにはテレプレゼンスシステム100Bのカメラ500Bで撮影した共通の空間Bの映像が表示される。
 また図22Bに示すように、テレプレゼンスシステム100Bのディスプレイ400Bにおける表示はテレプレゼンスシステム100Bに接続されているテレプレゼンスシステム100の数(この使用例では4つ)に分割され、各分割表示領域にはテレプレゼンスシステムA-1乃至A-4の各カメラ500が撮影した空間A-1乃至A-4の映像が表示されている。この表示は表示制御部210Bにより行われる。
 この第4の情報処理の使用例では、このような表示により空間Bにおけるテレプレゼンスシステム100Bを使用する人物1が、テレプレゼンスシステム100A-1を使用する人物、テレプレゼンスシステム100A-2を使用する人物、テレプレゼンスシステム100A-3を使用する人物、テレプレゼンスシステム100A-4を使用する人物の様子を見ながら全ての人物に対して同時に話をすることもできるし、いずれかの空間の人物と個別に話すこともできる。
 しかしこの状態では、空間Bの人物1は、空間A―1乃至A-4にいる人物のうちの誰が自分に話しかけてきているのかわからない場合がある。第4の実施の形態ではこのような問題を解決する。
 図23を参照して第4の実施の形態の使用例における処理について説明する。詳しくは後述するが、ここではテレプレゼンスシステム100A-1乃至A-4から出力される注目度のうち、テレプレゼンスシステムA-1が出力する注目度が最も高いと仮定して説明を行う。それによりテレプレゼンスシステム100A-2乃至A-4における処理は同一になるため、図23においてはまとめて図示する。
 情報処理装置200AにおけるステップS111からステップS113までは第1の実施の形態の第1の使用例と同様である。
 次にステップS411で、テレプレゼンスシステム100A-1乃至A-4において注目度算出部207Aが、顔検出結果と視線検出結果のいずれか一方または両方に基づいて、検出された全ての人物のディスプレイ400Aに対する注目度を算出する。
 例えば、注目度を所定の幅を持つ値として定義し、図24Aに示すようにディスプレイ400Aに対する顔と視線の向きが約90度である状態において注目度が最大値になるとする。顔の向きがディスプレイ400Aに対して90度の状態とは人物の顔がディスプレイ400Aに真正面に向いており、人物はディスプレイ400A、すなわち空間Bにいる人物に対する注目しているといえるからである。
 そして、図24Bおよび図24Cに示すように、ディスプレイ400Aに対する顔の向きが下がっていく(角度θが大きくなる)に従い注目度の値も小さくしていく。これは図23Aの状態に比べて人物の顔がディスプレイ400Aに向いておらず、ディスプレイ400A、すなわち空間Bにいる人物に対する注目度は低いと考えられるからである。なお、図13を参照して説明した、上面視におけるディスプレイ400Aに対する顔と視線の向きに基づく注目度の算出方法を利用してもよい。
 次にステップS412で、ネットワークを介してテレプレゼンスシステム100A-1乃至A-4からテレプレゼンスシステム100Bに対して、カメラ500Aの撮影で生成された映像信号と、マイクロフォンアレイ600Aの収音で生成された音声信号と、注目度が送信される。
 次にステップS413で、情報処理装置200Bの注目度比較部211Bがテレプレゼンスシステム100A-1乃至A-4から送信された注目度を比較して最も注目度が高いテレプレゼンスシステム100Aを特定する。ここではテレプレゼンスシステム100A-1が出力した注目度が最も高いとする。
 次にステップS414で、情報処理装置200Bの表示制御部210Bは、最も注目度が高いテレプレゼンスシステム100A-1から送信された映像信号のみをディスプレイ400Bに表示するよう表示制御を行う。最も注目度が高いテレプレゼンスシステム100A-1以外のテレプレゼンスシステム100A-2乃至A-4から送信された映像信号はディスプレイ400Bに表示しない。これによりテレプレゼンスシステム100Bのディスプレイ400Bにおける表示は、図25Aに示す分割表示から図25Bに示すように最も注目度が高いテレプレゼンスシステム100A-1からの映像のみの表示に切り替わる。
 またステップS415で、テレプレゼンスシステム100Bの音量調整部204Bは、テレプレゼンスシステム100A-1乃至A-4から送信された音声信号をスピーカ700Bから出力する。その際、最も注目度が高いテレプレゼンスシステム100A-1から送信された音声信号のゲインを上げて音量を大きくし、それ以外の音声信号は注目度の大きさの順にゲインを下げて音量を小さくする。これにより、テレプレゼンスシステム100Bにおいては最も注目度が高い空間A-1の音声が最も大きく出力され、それ以外の空間からの音声は小さく出力されるので、空間Bにいる人物は最も注目度が高い空間A-1の音声を聞きやすくなる。
 次にステップS416で、テレプレゼンスシステム100Bからテレプレゼンスシステム100A-1乃至A-4に対して映像表示と音声出力の結果を示すフィードバックを送信する。
 次にステップS417で、最も注目度が高いテレプレゼンスシステム100A-1以外のテレプレゼンスシステム100A-2乃至A-4において表示制御部210Aはディスプレイ400Aにおいて小窓映像表示を行う。小窓映像表示では、図26に示すように最も注目度が高いテレプレゼンスシステム100A-1以外のテレプレゼンスシステム100A-2乃至A-4のディスプレイ400Aにおいてテレプレゼンスシステム100A-1のカメラ500Aで撮影した映像が表示される。これにより、空間A-2乃至A-4にいる人物は今現在人物1が空間A-1にいる人物と話していることを把握できる。なお、空間A-1乃至A-4にいる人物をそれぞれグループとして定義し、図25に示すようにグループ名を小窓映像表示の近傍に表示してもよい。これにより、小窓映像表示されていないグループは今現在どのグループが空間Bの人物1と話しているかを把握することができる。
 このようにして空間Bの人物1に注目していたり、話しかけようとしている人物がいる空間の映像を空間Bのディスプレイ400に表示することにより、複数の空間のうちのどの空間にいる人物が話しかけてきているのかわからないという問題を解決することができる。
 逆に空間Bにいる人物1がディスプレイ400Bに分割表示されている各空間A-1乃至A-4の映像を見ていて、特定のグループに話かけたいということもある。この場合、カメラ500Bで撮影したカメラ映像から顔検出部205で人物1の顔の向きを検出するととともに視線検出部206で人物1の視線のディスプレイ400A上の位置と滞留時間を検出する。そしてその検出結果から人物1が所定時間以上特定のグループを見ていると判定した場合、図24Bに示すようにディスプレイ400Bにおける表示を分割表示から特定のグループのみの表示に切り替える。そして、空間Bの人物1が一定時間目を閉じる又はディスプレイ400全体から目をそらした場合、ディスプレイ400の表示を分割表示に戻すという切り替え表示も可能である。これにより、煩雑な操作をすることなくディスプレイ400の表示を切り替えることができるので人物1は会話に集中することができる。
 なお、空間A-1乃至A-4は部屋などの1つの空間内でもよいし、壁などで物理的に隔たれた空間でもよいし、別の建物内の空間など異なる空間でもよい。
 空間A-1乃至A-4にはそれぞれ複数の人物がいる場合を例にして説明を行ったが、空間A-1乃至A-4にいる人物はそれぞれ一人でもよいし、何人でもよい。また、空間Bにいる人物は複数人でもよい。
 この第4の実施の形態の使用例は、例えば、空間Bのテレプレゼンスシステム100Bを多数の人物に説明や話をする必要がある人物(先生など)が使用し、空間Aに集まっている複数の人物(学生など)に対して遠隔授業を行うような場合に有用である。また、顧客向けのプレゼンテーション、社内向けのプレゼンテーション、会議などにも有用である。
<5.変形例>
 以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。
 各実施の形態で情報処理装置200が備える各処理ブロックはサーバ装置1000が備えていてもよい。すなわち、情報処理装置200はサーバ装置1000において動作するものでもよい。その場合、テレプレゼンスシステム100を構成する端末装置300はサーバ装置1000における情報処理装置200が処理を行うために映像信号、音声信号、カメラ500画像、センサ情報などをサーバ装置1000に送信する。
 人体検出、顔検出、瞳検出などの検出処理は、AIとインターネットを利用した外部サービスとして提供されているものを利用してもよい。
 実施の形態では音声信号のゲインを調整することにより音量を上げ下げの調整を行ったが、音声出力の際のボリュームを調整する制御信号をテレプレゼンスシステムに送信し、その制御信号に基づいてボリュームを調整することにより音量の上げ下げを行ってもよい。
 第1乃至第4の実施の形態では情報処理装置200の構成および実行する処理の内容も異なるが、複数または全ての実施の形態の処理ブロックを備え、複数または全ての実施の形態の処理が可能なように情報処理装置200を構成してもよい。
 本技術は以下のような構成も取ることができる。
(1)
 ディスプレイとマイクロフォンが設置された第1の空間に存在する人物に関する情報を検出する情報検出部と、
 前記人物に関する情報に基づいて、前記マイクロフォンから出力されて第2の空間に設置された外部装置に送信される音声信号の音量を調整する音量調整部と、
を備える情報処理装置。
(2)
 前記情報検出部は、前記第1の空間における前記人物の位置を検出する人体検出部である(1)に記載の情報処理装置。
(3)
 前記人物の位置に基づいて、前記第1の空間に設置されたカメラの撮影範囲内に前記人物がいるか否かを判定する位置判定部を備える(2)に記載の情報処理装置。
(4)
 前記位置判定部が、前記人物が前記カメラの撮影範囲内にいないと判定した場合、前記音量調整部は前記音声信号の音量を下げる(3)に記載の情報処理装置。
(5)
 前記位置判定部が、前記人物が前記カメラの撮影範囲内にいると判定した場合、前記音量調整部は前記音声信号の音量を上げる(3)または(4)に記載の情報処理装置。
(6)
 前記情報検出部は、前記人物の顔を検出する顔検出部と、前記人物の視線を検出する視線検出部のいずれか一方または両方である(1)から(5)のいずれかに記載の情報処理装置。
(7)
 前記人物の顔と視線のいずれか一方または両方に基づいて、前記人物の前記ディスプレイに対する注目度を算出する注目度算出部を備える(6)に記載の情報処理装置。
(8)
 前記人物の前記ディスプレイに対する前記注目度が低い場合、前記音量調整部は前記音声信号の音量を下げる(7)に記載の情報処理装置。
(9)
 前記人物の前記ディスプレイに対する前記注目度が高い場合、前記音量調整部は前記音声信号の音量を上げる(7)または(8)に記載の情報処理装置。
(10)
 前記人物の前記ディスプレイの表示領域における注目領域を特定する注目領域特定部と、
 前記注目領域に対応する第2の空間内の領域への収音を指示する収音指示部を備える(6)に記載の情報処理装置。
(11)
 前記注目領域特定部は、前記顔検出部の検出結果と前記視線検出部の検出結果のいずれか一方または両方に基づいて前記注目領域を特定する(10)に記載の情報処理装置。
(12)
 複数の前記外部装置から送信された複数の注目度を比較する注目度比較部を備える(1)から(11)のいずれかに記載の情報処理装置。
(13)
 前記ディスプレイにおける表示を制御する表示制御部を備え、
 前記表示制御部は、最も高い注目度を送信した前記外部装置から送信された映像信号を前記ディスプレイに表示する(12)に記載の情報処理装置。
(14)
 前記音量調整部は、最も高い注目度を送信した前記外部装置から送信された音声信号の音量を上げる(12)または(13)に記載の情報処理装置。
(15)
 前記音量調整部は、最も高い注目度を送信した前記外部装置以外の前記外部装置から送信された音声信号の音量を下げる(12)から(14)のいずれかに記載の情報処理装置。
(16)
 前記ディスプレイは、複数の地点に存在する人物のコミュニケーションのために双方向通信を行うテレプレゼンスシステムを構成するディスプレイである(1)から(15)のいずれかに記載の情報処理装置。
(17)
 前記マイクロフォンは、複数のマイクロフォンで構成され、複数の方向に対する収音が可能なマイクロフォンアレイである(1)から(16)のいずれかに記載の情報処理装置。
(18)
 前記音量調整部は、前記マイクロフォンアレイを構成する複数のマイクロフォンのうち、前記人物に最も近いマイクロフォンから出力される音声信号の音量を調整する(17)に記載の情報処理装置。
(19)
 ディスプレイとマイクロフォンが設置された第1の空間に存在する人物に関する情報を検出し、
 前記人物に関する情報に基づいて、前記マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する
情報処理方法。
(20)
 ディスプレイとマイクロフォンが設置された第1の空間に存在する人物に関する情報を検出し、
 前記人物に関する情報に基づいて、前記マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する
情報処理方法をコンピュータに実行させるプログラム。
100A、100B・・・テレプレゼンスシステム
200A、200B・・・情報処理装置
201A・・・人体検出部
203A・・・位置判定部
204A、204B・・・音量調整部
205A・・・顔検出部
206A・・・視線検出部
207A・・・注目度算出部
210A・・・表示制御部
400A、400B・・・ディスプレイ
600A、600B・・・マイクロフォンアレイ

Claims (20)

  1.  ディスプレイとマイクロフォンが設置された第1の空間に存在する人物に関する情報を検出する情報検出部と、
     前記人物に関する情報に基づいて、前記マイクロフォンから出力されて第2の空間に設置された外部装置に送信される音声信号の音量を調整する音量調整部と、
    を備える情報処理装置。
  2.  前記情報検出部は、前記第1の空間における前記人物の位置を検出する人体検出部である
    請求項1に記載の情報処理装置。
  3.  前記人物の位置に基づいて、前記第1の空間に設置されたカメラの撮影範囲内に前記人物がいるか否かを判定する位置判定部を備える
    請求項2に記載の情報処理装置。
  4.  前記位置判定部が、前記人物が前記カメラの撮影範囲内にいないと判定した場合、前記音量調整部は前記音声信号の音量を下げる
    請求項3に記載の情報処理装置。
  5.  前記位置判定部が、前記人物が前記カメラの撮影範囲内にいると判定した場合、前記音量調整部は前記音声信号の音量を上げる
    請求項3に記載の情報処理装置。
  6.  前記情報検出部は、前記人物の顔を検出する顔検出部と、前記人物の視線を検出する視線検出部のいずれか一方または両方である
    請求項1に記載の情報処理装置。
  7.  前記人物の顔と視線のいずれか一方または両方に基づいて、前記人物の前記ディスプレイに対する注目度を算出する注目度算出部を備える
    請求項6に記載の情報処理装置。
  8.  前記人物の前記ディスプレイに対する前記注目度が低い場合、前記音量調整部は前記音声信号の音量を下げる
    請求項7に記載の情報処理装置。
  9.  前記人物の前記ディスプレイに対する前記注目度が高い場合、前記音量調整部は前記音声信号の音量を上げる
    請求項7に記載の情報処理装置。
  10.  前記人物の前記ディスプレイの表示領域における注目領域を特定する注目領域特定部と、
     前記注目領域に対応する第2の空間内の領域への収音を指示する収音指示部と
    を備える請求項6に記載の情報処理装置。
  11.  前記注目領域特定部は、前記顔検出部の検出結果と前記視線検出部の検出結果のいずれか一方または両方に基づいて前記注目領域を特定する
    請求項10に記載の情報処理装置。
  12.  複数の前記外部装置から送信された複数の注目度を比較する注目度比較部を備える
    請求項1に記載の情報処理装置。
  13.  前記ディスプレイにおける表示を制御する表示制御部を備え、
     前記表示制御部は、最も高い注目度を送信した前記外部装置から送信された映像信号を前記ディスプレイに表示する
    請求項12に記載の情報処理装置。
  14.  前記音量調整部は、最も高い注目度を送信した前記外部装置から送信された音声信号の音量を上げる
    請求項12に記載の情報処理装置。
  15.  前記音量調整部は、最も高い注目度を送信した前記外部装置以外の前記外部装置から送信された音声信号の音量を下げる
    請求項12に記載の情報処理装置。
  16.  前記ディスプレイは、複数の地点に存在する人物のコミュニケーションのために双方向通信を行うテレプレゼンスシステムを構成するディスプレイである
    請求項1に記載の情報処理装置。
  17.  前記マイクロフォンは、複数のマイクロフォンで構成され、複数の方向に対する収音が可能なマイクロフォンアレイである
    請求項1に記載の情報処理装置。
  18.  前記音量調整部は、前記マイクロフォンアレイを構成する複数のマイクロフォンのうち、前記人物に最も近いマイクロフォンから出力される音声信号の音量を調整する
    請求項17に記載の情報処理装置。
  19.  ディスプレイとマイクロフォンが設置された第1の空間に存在する人物に関する情報を検出し、
     前記人物に関する情報に基づいて、前記マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する
    情報処理方法。
  20.  ディスプレイとマイクロフォンが設置された第1の空間に存在する人物に関する情報を検出し、
     前記人物に関する情報に基づいて、前記マイクロフォンから出力されて外部装置に送信される音声信号の音量を調整する
    情報処理方法をコンピュータに実行させるプログラム。
PCT/JP2022/041340 2021-12-03 2022-11-07 情報処理装置、情報処理方法およびプログラム WO2023100594A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-197237 2021-12-03
JP2021197237 2021-12-03

Publications (1)

Publication Number Publication Date
WO2023100594A1 true WO2023100594A1 (ja) 2023-06-08

Family

ID=86611968

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/041340 WO2023100594A1 (ja) 2021-12-03 2022-11-07 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2023100594A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006339869A (ja) * 2005-05-31 2006-12-14 Sanyo Electric Co Ltd 映像信号と音響信号の統合装置
JP2009060220A (ja) * 2007-08-30 2009-03-19 Konica Minolta Holdings Inc コミュニケーションシステム及びコミュニケーションプログラム
US8897454B2 (en) * 2008-11-13 2014-11-25 Samsung Electronics Co., Ltd. Sound zooming apparatus and method synchronized with moving picture zooming function
JP2016096395A (ja) * 2014-11-12 2016-05-26 株式会社リコー テレビ会議装置、テレビ会議システム及びプログラム
JP2018036871A (ja) * 2016-08-31 2018-03-08 沖電気工業株式会社 情報処理サーバ、情報処理システム、端末装置、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006339869A (ja) * 2005-05-31 2006-12-14 Sanyo Electric Co Ltd 映像信号と音響信号の統合装置
JP2009060220A (ja) * 2007-08-30 2009-03-19 Konica Minolta Holdings Inc コミュニケーションシステム及びコミュニケーションプログラム
US8897454B2 (en) * 2008-11-13 2014-11-25 Samsung Electronics Co., Ltd. Sound zooming apparatus and method synchronized with moving picture zooming function
JP2016096395A (ja) * 2014-11-12 2016-05-26 株式会社リコー テレビ会議装置、テレビ会議システム及びプログラム
JP2018036871A (ja) * 2016-08-31 2018-03-08 沖電気工業株式会社 情報処理サーバ、情報処理システム、端末装置、及びプログラム

Similar Documents

Publication Publication Date Title
EP2720464B1 (en) Generating image information
US11258982B2 (en) Video conference system
TW202105930A (zh) 多個頭戴式裝置之間的音頻空間化和增強
US9277178B2 (en) Information processing system and storage medium
CN109587533A (zh) 具有增强音频的设备
US10405096B2 (en) Directed audio system for audio privacy and audio stream customization
JP6481210B2 (ja) 情報処理装置、制御方法、およびプログラム
US11750925B1 (en) Computer program product and method for auto-focusing a camera on an in-person attendee who is speaking into a microphone at a meeting
KR20160091316A (ko) 물리적 위치들 간 비디오 대화
WO2020063675A1 (zh) 一种智能音箱及智能音箱使用的方法
JP2018036690A (ja) 一対多コミュニケーションシステムおよびプログラム
US11095467B2 (en) Video conference system
US20190306461A1 (en) Video communication device and method for video communication
US10979236B1 (en) Systems and methods for smoothly transitioning conversations between communication channels
JP2021121878A (ja) 情報処理装置、情報処理方法、および記録媒体
US10674259B2 (en) Virtual microphone
KR101784095B1 (ko) 복수의 영상 데이터를 이용하는 헤드 마운트 디스플레이 장치 및 복수의 영상 데이터를 송수신하기 위한 시스템
JP4501037B2 (ja) 通信制御システムと通信装置および通信方法
US11601706B2 (en) Wearable eye tracking headset apparatus and system
CN114780047A (zh) 信息处理装置、信息处理方法以及计算机可读介质
WO2023100594A1 (ja) 情報処理装置、情報処理方法およびプログラム
EP4075794A1 (en) Region of interest based adjustment of camera parameters in a teleconferencing environment
US9706169B2 (en) Remote conference system and method of performing remote conference
US20230199380A1 (en) Virtual space connection device
JP2009060220A (ja) コミュニケーションシステム及びコミュニケーションプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22901027

Country of ref document: EP

Kind code of ref document: A1