WO2023106350A1 - 記録媒体、遠隔会議実行方法、及び遠隔会議実行装置 - Google Patents

記録媒体、遠隔会議実行方法、及び遠隔会議実行装置 Download PDF

Info

Publication number
WO2023106350A1
WO2023106350A1 PCT/JP2022/045187 JP2022045187W WO2023106350A1 WO 2023106350 A1 WO2023106350 A1 WO 2023106350A1 JP 2022045187 W JP2022045187 W JP 2022045187W WO 2023106350 A1 WO2023106350 A1 WO 2023106350A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
participant
unit
teleconference
emotion
Prior art date
Application number
PCT/JP2022/045187
Other languages
English (en)
French (fr)
Inventor
秀治 古明地
晃 後藤
裕子 中西
大智 西井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2023106350A1 publication Critical patent/WO2023106350A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • the present invention relates to a recording medium, a remote conference execution method, and a remote conference execution device.
  • Participants participating in remote meetings from public places are expected to participate in the meeting while wearing a mask.
  • Patent Document 1 describes that in a communication conference system in which terminals converse, a receiving terminal displays a face image corresponding to a communication partner obtained in advance as a still image on a monitor. In the method described in Patent Document 1, the receiving terminal transforms the mouth of the face image according to the vowels of the conversational sound transmitted from the communication partner.
  • Patent Document 2 when a speaker detection system cannot detect a speaker from the movement of the lips and can detect a person with the appearance of covering the lips, the person with the appearance of covering the lips is uttered. It is described to detect a person.
  • the receiving terminal transforms the mouth of the face image according to the vowels of the conversational sound of the communication partner. Therefore, the receiving terminal causes the display to display the same face image of the mouth as long as the vowels are the same, even if the communication partner has a different facial expression such as smiling or angry. Even if the receiving terminal acquires in advance the unmasked face images of the participants who participate in the conference while wearing masks, the method described in Patent Document 1 does not allow participants to participate in the remote conference while wearing masks. There is a problem that it is not possible to make the other party of the conference grasp the facial expressions of the participants.
  • An example of an object of the present invention is a recording medium, a remote conference execution method, and a remote An object of the present invention is to provide a conference execution device.
  • the teleconference execution program recorded in a computer-readable non-transitory recording medium includes, in a computer, an acquisition function for acquiring an image of a participant's face and the participant's voice; A detection function that detects from the image the part of the participant whose face is partially occluded, an estimation function that estimates the content and emotion of the participant's utterance from the image or voice, and an image of the part of the participant's face.
  • An image transformation function that transforms a certain partial image according to the content and emotion of the participant's utterance, and a superimposition that generates a superimposed image by superimposing the transformed partial image on the range corresponding to the occluded part in the participant's image. Realize the function and
  • a teleconference execution method obtains an image of a participant's face and a voice of the participant, detects from the image a part of the participant whose face is partially shielded, and Estimate the content and emotion of the participant's utterance from the image or voice, deform the partial image, which is an image of a part of the participant's face, according to the content and emotion of the participant's utterance, and participate in the deformed partial image
  • a superimposed image is generated by superimposing a range corresponding to the shielded portion in the image of the person.
  • the teleconference execution device includes acquisition means for acquiring an image of a participant's face and a voice of the participant, and a part of the participant whose face is partially shielded that is extracted from the image.
  • detection means for detecting; estimation means for estimating the content and emotion of the participant's speech from the image or voice;
  • An image transforming means for transforming the image, and a superimposing means for generating a superimposed image by superimposing the deformed partial image on a range corresponding to the shielded portion in the image of the participant.
  • the recording medium, remote conference execution method, and remote conference execution apparatus of the present invention make it possible for other participants to grasp the expression of a participant participating in a remote conference with a part of the face covered. .
  • FIG. 1 is a block diagram showing a configuration example of a teleconference execution device according to a first embodiment of the present invention
  • FIG. 4 is a flow chart showing an operation example of the teleconference execution device according to the first embodiment of the present invention
  • FIG. 4 is a block diagram showing a configuration example of a teleconference executing system according to a second embodiment of the present invention
  • FIG. 10 is a diagram for explaining the operation of the teleconference executing system according to the second embodiment of the present invention
  • FIG. 10 is a schematic diagram for explaining a shielded portion detected by the teleconference execution device of the second embodiment of the present invention
  • FIG. 10 is a diagram showing an example of partial image information stored in a partial image storage unit of the teleconference execution device according to the second embodiment of the present invention
  • FIG. 10 is a schematic diagram for explaining deformation processing of a partial image by the teleconference execution device according to the second embodiment of the present invention
  • FIG. 11 is a schematic diagram for explaining a process of superimposing a partial image on an image captured in a remote conference by the remote conference executing device according to the second embodiment of the present invention
  • FIG. 10 is a sequence diagram showing an operation example of the teleconference executing system according to the second embodiment of the present invention
  • 9 is a flow chart showing an operation example of the teleconference execution device according to the second embodiment of the present invention
  • FIG. 11 is a block diagram showing a configuration example of a teleconference executing system according to a third embodiment of the present invention
  • FIG. 11 is a diagram schematically showing how a teleconference is held according to the third embodiment of the present invention
  • FIG. 10 is a diagram schematically showing an image captured by an imaging device according to a third embodiment of the invention
  • FIG. 11 is a diagram showing an example of face image feature quantity and voice feature quantity stored in the feature quantity storage unit of the teleconference executing apparatus according to the third embodiment of the present invention
  • FIG. 11 is a schematic diagram for explaining a process of superimposing a partial image on an image captured in a remote conference by the remote conference execution device according to the third embodiment of the present invention
  • FIG. 11 is a flow chart showing an operation example of the teleconference execution device of the third embodiment of the present invention
  • FIG. It is a figure which shows the hardware configuration example of each embodiment in this invention.
  • FIG. 1 is a block diagram showing a configuration example of the teleconference execution device 1 of this embodiment.
  • the teleconference execution device 1 of this embodiment includes an acquisition unit 11, a detection unit 12, an estimation unit 13, an image transformation unit 14, and a superimposition unit 15.
  • the teleconference execution device 1 is implemented using a computer.
  • the acquisition unit 11, the detection unit 12, the estimation unit 13, the image transformation unit 14, and the superimposition unit 15 of the teleconference execution device 1 are used for remote conferences that realize an acquisition function, a detection function, an estimation function, an image transformation function, and a superimposition function. It is realized by causing a computer to execute processing according to an execution program. That is, the teleconference execution program causes the computer to implement an acquisition function, a detection function, an estimation function, an image transformation function, and a superimposition function.
  • the acquisition unit 11 is an example of acquisition means.
  • the acquisition unit 11 acquires the face image of the participant and the voice of the participant.
  • the remote conference execution device 1 receives audio data and image data from a transmission terminal used by a participant, associates the received audio data and image data, and transmits the received audio data and image data to a reception terminal used by another participant.
  • the transmission terminal includes a voice input device that receives a voice input from a participant and generates voice data corresponding to the voice, and a photographing device that captures a picture of the participant and generates image data corresponding to the face of the participant.
  • the acquiring unit 11 receives the image data and the voice data transmitted from the transmission terminal, and acquires the face image of the participant and the voice of the participant.
  • the teleconference execution device 1 may be a receiving terminal. When the teleconference execution device 1 is a receiving terminal, the acquiring unit 11 receives the voice data and image data transmitted from the transmitting terminal via a server that controls the teleconference, thereby obtaining the image of the participant's face. and voice.
  • the teleconference executing device 1 includes a voice input device that receives voice input from a participant and generates voice data corresponding to the voice, and a voice input device that captures the participant and generates image data of the face image of the participant. It may be a transmitting terminal comprising the device.
  • the acquisition unit 11 of the remote conference execution device 1 receives voice data corresponding to the voice from the voice input device and images corresponding to the face of the participant from the imaging device. Data is entered.
  • the acquisition unit 11 acquires the face image of the participant and the voice of the participant.
  • the detection unit 12 is an example of detection means.
  • the detection unit 12 detects from the image acquired by the acquisition unit 11 the masked part of the participant whose face is partly masked. For example, it is assumed that a participant who participates in a remote conference from a public place participates in the conference while wearing a mask.
  • the estimation unit 13 is an example of estimation means.
  • the estimating unit 13 estimates the contents of speech and emotion of the participant from the image acquired by the acquiring unit 11 or the voice acquired by the acquiring unit 11 .
  • the estimating unit 13 may use both the image of the participant and the voice of the participant to estimate the content and emotion of the participant's utterance.
  • the image transformation unit 14 is an example of image transformation means.
  • the image transforming unit 14 transforms a partial image, which is an image of a part of the face of the participant that is shielded, according to the contents of the speech and emotion of the participant estimated by the estimating unit 13 .
  • the estimation unit 13 inputs the content of the utterance and the estimation result of the emotion of the participant to the image transformation unit 14 .
  • the estimation result is data representing the result of estimating the content of the participant's utterance and emotion based on the participant's voice or the participant's image.
  • the superimposing unit 15 is an example of superimposing means.
  • the superimposing unit 15 generates a superimposed image by superimposing the deformed partial image on a range corresponding to the shielded part in the image of the participant.
  • the teleconference execution device 1 acquires the image of the face of the participant and the voice of the participant, and detects from the image the part of the participant whose face is partly shielded.
  • the teleconference execution device 1 estimates the contents of the speech and the emotions of the participants from the images or voices.
  • the teleconference execution device 1 transforms a partial image, which is an image of a part of the face of the participant that is hidden, according to the content of the speech and emotion of the participant, and transforms the deformed partial image into the image of the participant.
  • a superimposed image superimposed on a range corresponding to the part is generated.
  • FIG. 2 is a flow chart showing an operation example of the teleconference execution device 1. As shown in FIG.
  • the acquisition unit 11 acquires the face image of the participant and the voice of the participant (step S101).
  • the detection unit 12 detects from the image acquired in step S101 the masked part of the participant whose face is partly masked (step S102).
  • the estimation unit 13 estimates the content and emotion of the participant's speech from the image or voice acquired in step S101 (step S103).
  • the image transforming unit 14 transforms the partial image, which is the image of the part of the face covered by the participant's face, according to the content and emotion of the participant's utterance (step S104). In step S104, the image transformation unit 14 uses the estimation result in step S103.
  • the superimposing unit 15 generates a superimposed image by superimposing the partial image deformed in step S104 in a range corresponding to the shielded part in the image of the participant (step S105).
  • the teleconference execution device 1 makes it possible to show other participants a superimposed image in which a partial image that has been deformed according to the content of the speech and emotion of the participant is superimposed. This makes it possible for other participants to grasp the expression of the participant participating in the teleconference with a part of the face covered.
  • FIG. 3 is a block diagram showing a configuration example of a remote conference execution system according to the second embodiment of the present invention.
  • the teleconference execution system includes a transmission terminal 2, a teleconference execution device 3, and a reception terminal 4.
  • the teleconference execution device 3 basically includes the configuration and functions of the teleconference execution device 1 of the first embodiment.
  • the teleconference execution device 3 receives voice data and image data from the transmission terminal 2 used by the participant, associates the received voice data and image data, and communicates with other participants.
  • a remote conference executing program that implements the functions of the remote conference execution device 3 is installed in a server that controls the remote conference.
  • FIG. 4 is a diagram for explaining the operation of the teleconference execution system of the second embodiment.
  • the transmitting terminal 2 transmits the voice data and the image data of the participant TP1 whose face is partially shielded, and the receiving terminal 4 superimposes the voice data and the superimposed image by the teleconference execution device 3.
  • the receiving terminal 4 superimposes the voice data and the superimposed image by the teleconference execution device 3. A case in which image data is received and an image is displayed on the display unit 44 will be described.
  • the transmission terminal 2 includes an imaging unit 21 , an audio input unit 22 and a transmission unit 23 .
  • the transmission terminal 2 is, for example, a smart phone, a notebook computer, or a desktop computer.
  • the sending terminal 2 is a notebook computer.
  • the photographing unit 21 is provided at a position where the participant's face can be photographed.
  • the imaging unit 21 performs imaging and outputs image data corresponding to the face of the participant to the transmission unit 23 .
  • the imaging unit 21 is, for example, a camera built into the transmission terminal 2 .
  • the imaging unit 21 may be built in the transmitting terminal 2, or may be a device other than the transmitting terminal 2 connected to the transmitting terminal 2 by wire or wirelessly.
  • the voice input unit 22 accepts voice input from the participants.
  • the voice input unit 22 outputs voice data corresponding to voice to the transmission unit 23 .
  • the voice input unit 22 is, for example, a microphone built into the transmitting terminal 2 .
  • the voice input unit 22 may be built in the transmitting terminal 2, or may be a device other than the transmitting terminal 2 connected to the transmitting terminal 2 by wire or wirelessly.
  • Image data is input from the imaging unit 21 to the transmission unit 23 .
  • Voice data is input to the transmission unit 23 from the voice input unit 22 .
  • the transmission unit 23 associates the participant identification information of the participant using the transmission terminal 2 with the image data and the audio data, and transmits them to the teleconference execution device 3 .
  • Participant identification information is information that can identify each participant. Also, the image data indicates a still image or a moving image.
  • the participant identification information is, for example, an ID (identifier) assigned to the sending terminal 2 or the participant by a server that controls the teleconference.
  • the configuration of the teleconference execution device 3 of this embodiment will be described in detail with reference to FIG.
  • the teleconference execution device 3 includes an acquisition unit 31 , a detection unit 32 , an estimation unit 33 , an image transformation unit 34 and a superimposition unit 35 .
  • the partial image storage section 36 and the meeting information storage section 39 will be described later.
  • the control information generating section 37 receives input from at least the superimposing section 35 .
  • the transmission unit 38 receives input from at least the control information generation unit 37 .
  • the acquisition unit 31 acquires image data corresponding to the face of the participant and audio data corresponding to the voice of the participant. Specifically, the acquisition unit 31 receives the participant identification information, the image data, and the audio data of the participant using the transmission terminal 2 from the transmission terminal 2, and obtains the face image of the participant and the voice of the participant. to get
  • the acquisition unit 31 associates the acquired participant identification information with the image data and outputs them to the detection unit 32 and the superimposition unit 35 .
  • the acquisition unit 31 inputs data to the estimation unit 33 that the estimation unit 33 uses to estimate the content of the speech and the emotion.
  • the acquiring unit 31 associates at least one of the audio data and the image data with the acquired participant identification information, and outputs the associated information to the estimating unit 33 .
  • the acquiring unit 31 associates the acquired participant identification information of the participant, the image data, and the audio data, and outputs them to the control information generating unit 37 .
  • the image data and the participant identification information of the participants in the image data are input from the acquisition unit 31 to the detection unit 32 .
  • the detection unit 32 detects the blocked part of the participant whose face is partially blocked from the image.
  • the detection unit 32 associates the partial information indicating the shielded portion, the information indicating the range of the shielded portion, and the input participant identification information, and outputs them to the image transformation unit 34 .
  • the detector 32 notifies the control information generator 37 that the shielded portion cannot be detected.
  • the detection unit 32 calculates a feature amount from the acquired image.
  • the detection unit 32 determines the range of the shielded portion based on the calculated feature amount.
  • the detection unit 32 defines an area having a feature quantity whose difference compared with a feature quantity extracted from a mask image registered in advance in a storage unit (not shown) is within a predetermined threshold value as the range of the shielded portion. decide.
  • the feature amount extracted from the mask image may be stored in the partial image storage unit 36 in advance.
  • the detection unit 32 may perform edge detection of the image to determine the range of the shielded portion.
  • the detection unit 32 identifies the portion of the face that is blocked and generates partial information. For example, when the mouth of the participant cannot be identified from the image, the detection unit 32 generates partial information indicating the mouth.
  • FIG. 5 is a schematic diagram for explaining the shielded portion detected by the teleconference execution device 3 of the second embodiment.
  • FIG. 5 an example of a shielded portion detected by the detection unit 32 of the teleconference execution device 3 from the image IM1 of the participant TP1 using the transmission terminal 2 shown in FIG. 4 is illustrated with a thick line.
  • the participant TP1 wears a mask, so the participant's mouth, which is part of the face, is covered.
  • the teleconference execution device 3 processes images of participants whose mouths are covered with face coverings and images of participants whose eyes are covered with sunglasses in the same manner as images of participants wearing masks. do.
  • the detection unit 32 of the teleconference execution device 3 detects the covered part of the participant whose mouth or eyes are covered.
  • the teleconference execution device 3 processes images of participants wearing face shields in the same way as images of participants wearing masks.
  • the face shield reflects light, it is conceivable that part of the participant's face cannot be seen by the caller due to the reflection of the light.
  • the estimating unit 33 estimates the contents of the utterance and emotion of the participant from the image acquired by the acquiring unit 31 or the voice acquired by the acquiring unit 31 .
  • the estimating unit 33 associates the participant identification information, the timing information, the estimated emotion information indicating the result of estimating the emotion, and the estimated utterance information indicating the result of estimating the content of the utterance of the participant to be estimated, and transforms the image transforming unit 34. output to The timing information indicates the timing of the image data or audio data for which the content of the utterance and emotion are estimated.
  • the estimation unit 33 includes an emotion estimation unit 331 , an utterance estimation unit 332 and an output unit 333 .
  • the emotion estimation unit 331 estimates the emotion based on the analysis result of the voice or the analysis result of the change in the unshielded part of the face image of the participant.
  • the emotion estimation unit 331 outputs the input participant identification information, the timing information, and the estimated emotion information indicating the emotion estimated based on the emotion analysis result to the output unit 333 in association with each other.
  • the estimated emotion information includes at least information indicating emotion.
  • a trained model created by machine learning may be used for analysis of speech or analysis of changes in unoccluded portions.
  • the trained models include one or more models that can classify various emotions of emotions.
  • a learning engine using a neural network may be used for machine learning.
  • the emotion estimation unit 331 estimates the emotion of the participant by acoustic analysis of voice data. Alternatively, the emotion estimation unit 331 estimates the emotion of the participant by language analysis of voice data.
  • the emotion estimation unit 331 uses the emotion estimation unit 331 to estimate the emotion based on the analysis result of the change in the unshielded portion of the face image. For example, when analyzing an image of a participant wearing a mask, the emotion estimating unit 331 identifies eyeball movements from changes in time-series image data of the participant using the transmission terminal 2 . The emotion estimator 331 analyzes the identified eyeball movement to estimate the participant's emotion. In addition to these methods, it is possible to use any method for estimating emotion.
  • the emotion estimation unit 331 may further estimate the degree of emotion.
  • the degree of emotion is, for example, a value indicating the level of emotion.
  • the estimated emotion information further includes information indicating the estimated degree of emotion.
  • the image deformation section 34 described later deforms the partial image according to the degree of emotion based on the information indicating the degree of emotion. For example, when the degree of joy is estimated to be high, the image transformation unit 34 transforms the partial image so that the corners of the mouth are raised more than when the degree of joy is low. This makes it possible for the other participants to grasp the facial expressions of the participants participating in the teleconference with a part of the face covered, in more detail than when the facial expressions are transformed for each emotion.
  • the speech estimation unit 332 estimates the content of the speech of the participant based on the speech analysis results.
  • the utterance estimation unit 332 associates the input participant identification information, the timing information, and the estimated utterance information indicating the content of the utterance estimated based on the speech analysis result, and outputs the information to the output unit 333 .
  • the estimated utterance information includes at least information indicating vowels estimated to be uttered.
  • the estimated utterance information may include information indicating consonants estimated to be uttered. In addition to this method, it is possible to use any method for estimating the content of the speech.
  • a trained model created by machine learning may be used for speech analysis.
  • a trained model includes one or more models capable of recognizing utterances in response to speech.
  • a learning engine using a neural network may be used for machine learning.
  • the output unit 333 receives the participant identification information, the timing information, and the estimated emotion information of the participant to be estimated from the emotion estimation unit 331 .
  • the output unit 333 receives the participant identification information, the timing information, and the estimated utterance information of the participant to be estimated from the utterance estimation unit 332 .
  • the output unit 333 associates the participant identification information, the timing information, the estimated emotion information, and the estimated utterance information of the participant to be estimated, and outputs them to the image transformation unit 34 .
  • Partial information indicating the shielded portion, information indicating the range of the shielded portion, and participant identification information of the participant whose face is partly shielded are input from the detector 32 to the image transforming unit 34 . Also, the participant identification information, the timing information, the estimated emotion information, and the estimated utterance information of the participant to be estimated are input from the estimation unit 33 to the image transformation unit 34 .
  • the image transforming unit 34 transforms a partial image, which is an image of the part of the face of the participant whose face is partially shielded, based on the participant identification information of the participant whose face is partly shielded and the partial information indicating the part of the face that is shielded. Read out from the image storage unit 36 .
  • the partial image information is stored in advance in the partial image storage unit 36 .
  • the partial image information includes participant identification information of a participant who participates in the conference, partial information indicating a part of the face, and partial image data which is data of the partial image.
  • FIG. 6 is a diagram showing an example of partial image information stored in the partial image storage unit 36 of the teleconference execution device 3.
  • “partial image data PIMD1” and “partial image data PIMD2” of the participant whose participant identification information is “ID1” are stored in the partial image storage unit 36 .
  • "Partial image data PIMD1” is image data of a partial image of the "mouth” of the participant as indicated by the partial information.
  • Partial image data PIMD2 is image data of a partial image of the "eyes" of the participant as indicated by the partial information. Further, in the example of FIG.
  • the partial image storage unit 36 stores “partial image data PIMD3” of the participant whose participant identification information is “ID2”.
  • "Partial image data PIMD3" is image data of a partial image of the participant's "mouth” as shown in the partial information.
  • the image transformation unit 34 converts the partial image stored in the partial image storage unit 36 in association with the input partial information indicating the blocked portion and the input participant identification information to the partial image.
  • the image transformation unit 34 transforms the partial images read out from the partial image storage unit 36 as follows.
  • the image transformation unit 34 transforms the partial image based on the estimated emotion information indicating the emotion estimation result by the estimation unit 33 and the estimated speech information indicating the estimation result of the utterance content.
  • the image transforming unit 34 associates the timing information, the partial image data of the transformed partial image, the information indicating the range of the shielded portion, and the participant identification information of the participant whose face is partially shielded, and outputs the data to the superimposing unit 35. Output.
  • FIG. 7 is a schematic diagram for explaining deformation processing of partial images by the teleconference execution device 3 of the second embodiment.
  • ID1 is indicated by the participant identification information input to the image transformation unit 34
  • mouth is indicated by the partial information indicating the blocked portion.
  • the image transformation unit 34 performs the following processing.
  • the image transformation unit 34 reads out the “partial image data PIMD1” associated with the participant identification information indicating “ID1” and the partial information indicating “mouth” (the first row and third column shown in FIG. 6). partial image data).
  • PIMD1 partial image data
  • the partial image PIM1 shown in the partial image data PIMD1 is an image of the mouth of the participant whose participant identification information is "ID1".
  • the image transformation unit 34 performs transformation processing as follows.
  • the image transforming unit 34 transforms the partial image PIM1 of the partial image data PIMD1 according to the participant's emotion ("joy” in this example) and the content of the utterance ("Yes” in this example) to create a partial image PIM1.
  • ' (the diagram on the right in the example of FIG. 7) is created.
  • the partial image storage unit 36 may store in advance partial images of the participants for each emotion.
  • the partial image storage unit 36 may store in advance a partial image of the participant for each utterance.
  • the image transformation unit 34 may read the partial image associated with the estimated emotion or speech and stored in the partial image storage unit 36, and transform the read partial image according to the content and emotion of the speech. good.
  • the image transforming unit 34 transforms the image based on the estimated emotion information indicating the result of emotion estimation by the estimation unit 33 and the estimated speech information indicating the result of estimation of the content of the speech. to transform the partial image. That is, when the participant TP1 does not speak, the image transforming unit 34 reads from the partial image storage unit 36 so as to obtain a partial image corresponding to the estimated emotion when the participant TP1 does not speak. Transform a partial image.
  • the participant identification information and image data acquired by the acquisition unit 31 are input to the superimposition unit 35 .
  • the timing information, the partial image data indicating the deformed partial image, the information indicating the range of the shielded portion, and the participant identification information of the participant whose face is partially shielded are sent from the image transforming unit 34 to the superimposing unit 35 . is entered.
  • the superimposing unit 35 generates a superimposed image by superimposing the partial image deformed by the image transforming unit 34 in a range corresponding to the shielded portion in the image of the participant.
  • the superimposing unit 35 uses the image data at the timing indicated by the timing information among the image data acquired by the acquiring unit 31 for superimposition.
  • the superimposing unit 35 superimposes the partial image deformed by the image transforming unit 34 in a range corresponding to the shielded portion in the image indicated by the image data at that timing. For example, the superimposing unit 35 generates superimposed image data in which the image in the range corresponding to the shielded portion in the image is replaced with a deformed partial image.
  • the superimposing unit 35 associates the timing information, the participant identification information of the participant whose face is partially masked, and the superimposed image data of the superimposed image, and outputs them to the control information generating unit 37 .
  • the image data at the timing indicated by the timing information is displayed at the timing of the speech at which the speech content and emotion are estimated. It shows the image of the frame to be displayed on the part.
  • FIG. 8 is a schematic diagram for explaining the process of superimposing the partial image PIM1' on the image IM1 indicated by the image data captured in the remote conference by the remote conference execution device 3 of the second embodiment.
  • FIG. 8 shows an example in which the timing information, the partial image data representing the deformed partial image PIM1′, and the participant identification information indicated by “ID1” are input from the image transforming unit 34 to the superimposing unit 35.
  • the image IM1 shown in FIG. 5 is an image of the participant TP1 whose participant identification information is "ID1" captured at the timing indicated by the timing information in the teleconference.
  • the superimposing unit 35 superimposes the partial image PIM1′ on the image IM1 to generate a superimposed image IM1′ based on the information indicating the range of the shielded portion of the image IM1.
  • the participant identification information, voice data, and image data of the participants acquired by the acquisition unit 31 are input to the control information generation unit 37 .
  • Timing information, participant identification information of a participant whose face is partially masked, and superimposed image data of a superimposed image are input from the superimposing unit 35 to the control information generating unit 37 .
  • the control information generating unit 37 generates output control information for displaying a superimposed image on the display unit (in this example, the display unit 44 of the receiving terminal 4) at the timing of the speech for which the contents of the utterance and the emotion are estimated. .
  • control information generation unit 37 When notified that the shielded portion cannot be detected, the control information generation unit 37 performs the following operations.
  • the control information generation unit 37 performs output control to display the image acquired by the acquisition unit 31 on the display unit (in this example, the display unit 44 of the receiving terminal 4) at the timing corresponding to the voice acquired by the acquisition unit 31. Generate information.
  • the control information generation unit 37 outputs the generated output control information to the transmission unit 38.
  • the output control information is input from the control information generation unit 37 to the transmission unit 38 .
  • the transmission unit 38 reads communication destination information indicating communication destinations of participants in the teleconference from the conference information storage unit 39 .
  • the communication destination of the output control information is, for example, a terminal used by another participant participating in the teleconference.
  • the receiving terminal 4 is included in the communication destination indicated in the communication destination information.
  • the transmission unit 38 transmits the output control information to the communication destination indicated by the communication destination information.
  • the output control information includes superimposed image data of the superimposed image and audio data corresponding to the audio.
  • the output control information includes the acquired image data and audio data corresponding to the audio.
  • the conference information storage unit 39 stores the participant identification information of the participants participating in the remote conference and the communication destination information in association with each other.
  • the communication destination information is, for example, an IP (Internet Protocol) address.
  • the receiving terminal 4 includes a receiving section 41 , an output control section 42 , an audio output section 43 and a display section 44 .
  • the receiving terminal 4 is, for example, a smart phone, a notebook computer, or a desktop computer. In the example of FIG. 4, the receiving terminal 4 is a desktop personal computer.
  • FIG. 4 shows an example in which an image of the participant TP1 using the transmitting terminal 2 captured and superimposed with a partial image is displayed on the display unit 44 of the receiving terminal 4. As shown in FIG.
  • the receiving unit 41 receives the output control information from the teleconference executing device 3 .
  • the receiver 41 outputs the output control information to the output controller 42 .
  • the output control unit 42 controls the audio output unit 43 and the display unit 44 based on the output control information.
  • the output control unit 42 causes the audio output unit 43 to output audio corresponding to the audio data based on the output control information.
  • the output control unit 42 causes the display unit 44 to display the image based on the output control information so that the image is displayed at the timing according to the sound output from the sound output unit 43 .
  • the audio output unit 43 outputs audio under the control of the output control unit 42 .
  • the audio output unit 43 is, for example, a speaker built into the receiving terminal 4 .
  • the display unit 44 displays images under the control of the output control unit 42 .
  • the display unit 44 is, for example, a display built into the receiving terminal 4 or connected to the receiving terminal 4 . As shown in FIG. 4, the display unit 44 displays a superimposed image in which a partial image deformed according to the contents of speech and emotion of the participant TP1 using the transmission terminal 2 is superimposed.
  • the teleconference execution device 3 acquires the image of the face of the participant and the voice of the participant, and detects from the image the masked part of the participant whose face is partly masked.
  • the teleconference execution device 3 estimates the contents of the speech and the emotions of the participants from the images or voices.
  • the teleconference execution device 3 transforms a partial image, which is an image of a part of the face of the participant that is hidden, according to the content of the speech and emotion of the participant, and transforms the deformed partial image into the image of the participant.
  • a superimposed image superimposed on a range corresponding to the part is generated.
  • FIG. 9 is a sequence diagram showing an operation example of the teleconference execution system.
  • FIG. 10 is a flow chart showing an operation example of the teleconference execution device 3 .
  • FIG. 9 shows the operation of the teleconference execution system when the shielding range can be detected.
  • the imaging unit 21 of the transmission terminal 2 performs imaging.
  • the voice input unit 22 receives voice input from the participant (step S201).
  • the photographing unit 21 outputs image data corresponding to the participant's face to the transmitting unit 23 .
  • the voice input unit 22 outputs voice data corresponding to voice to the transmission unit 23 .
  • the transmission unit 23 associates the participant identification information of the participant using the transmission terminal 2 with the image data and the audio data, and transmits them to the teleconference execution device 3 (step S202).
  • the acquisition unit 31 of the teleconference execution device 3 receives the participant identification information, image data, and audio data of the participants using the transmission terminal 2 from the transmission terminal 2 . Thus, the acquisition unit 31 acquires the face image of the participant and the voice of the participant.
  • the acquisition unit 31 associates the acquired participant identification information with the image data and outputs them to the detection unit 32 and the superimposition unit 35 .
  • the acquisition unit 31 associates at least one of the audio data and the image data with the acquired participant identification information and outputs the information to the estimation unit 33 .
  • the acquiring unit 31 associates the acquired participant identification information of the participant, the image data, and the audio data, and outputs them to the control information generating unit 37 .
  • the detection unit 32 detects the blocked part of the participant whose face is partially blocked from the image (step S203).
  • the detection unit 32 associates the partial information indicating the shielded portion, the information indicating the range of the shielded portion, and the input participant identification information, and outputs them to the image transformation unit 34 .
  • the estimating unit 33 estimates the contents of the speech and emotion of the participant from the image acquired by the acquiring unit 31 or the voice acquired by the acquiring unit 31 (step S204).
  • the estimating unit 33 associates the participant identification information, the timing information, the estimated emotion information indicating the result of estimating the emotion, and the estimated utterance information indicating the result of estimating the content of the utterance of the participant to be estimated, and transforms the image transforming unit 34. output to
  • the image transformation unit 34 reads a partial image from the partial image storage unit 36 based on the participant identification information and the partial information of the participant whose face is partially masked (step S205).
  • the image transforming unit 34 transforms the partial image read out from the partial image storage unit 36 according to the content of the speech and emotion of the participant (step S206).
  • the image transforming unit 34 associates and superimposes the timing information, the partial image data that is the data of the transformed partial image, the information indicating the range of the shielded portion, and the participant identification information of the participant whose face is partially shielded. Output to unit 35 .
  • the superimposing unit 35 generates a superimposed image by superimposing the partial image deformed by the image transforming unit 34 in a range corresponding to the shielded part in the image of the participant (step S207).
  • the superimposing unit 35 associates the timing information, the participant identification information of the participant whose face is partially masked, and the superimposed image data, which is the data of the superimposed image, and outputs them to the control information generating unit 37 .
  • the control information generating unit 37 generates output control information for displaying a superimposed image on the display unit (in this example, the display unit 44 of the receiving terminal 4) at the timing of the speech for which the contents of the utterance and the emotion are estimated. (Step S208).
  • the control information generator 37 outputs the generated output control information to the transmitter 38 .
  • the transmission unit 38 transmits the output control information to the communication destination indicated in the communication destination information (step S209).
  • the communication destination includes the receiving terminal 4 .
  • the receiving unit 41 of the receiving terminal 4 receives the output control information from the teleconference executing device 3 .
  • the receiver 41 outputs the output control information to the output controller 42 .
  • the output control unit 42 controls the audio output unit 43 and the display unit 44 based on the output control information (step S210).
  • step S210 the output control unit 42 causes the audio output unit 43 to output audio corresponding to the audio data based on the output control information.
  • step S ⁇ b>210 the output control unit 42 causes the display unit 44 to display the superimposed image based on the output control information so that the image is displayed at the timing corresponding to the sound output from the sound output unit 43 .
  • the audio output unit 43 outputs audio under the control of the output control unit 42 .
  • the display unit 44 displays an image under the control of the output control unit 42 (step S211).
  • the image displayed in step S211 is a superimposed image.
  • FIG. 10 details the operation from step S203 to step S209 in FIG.
  • the acquisition unit 31 receives from the transmission terminal 2 the participant identification information of the participant using the transmission terminal 2, the image data corresponding to the face of the participant, and the audio data corresponding to the voice of the participant. Thus, the acquisition unit 31 acquires the face image of the participant and the voice of the participant (step S301).
  • the acquisition unit 31 associates the acquired participant identification information with the image data and outputs them to the detection unit 32 and the superimposition unit 35 .
  • the acquisition unit 31 associates at least one of the audio data and the image data with the acquired participant identification information and outputs the information to the estimation unit 33 .
  • the obtaining unit 31 associates the voice data with the participant identification information and outputs them to the estimating unit 33 .
  • the acquiring unit 31 associates the acquired participant identification information of the participant, the image data, and the audio data, and outputs them to the control information generating unit 37 .
  • the detection unit 32 detects the blocked part of the participant whose face is partially blocked from the image (step S302). If the shielded portion can be detected (step S302, YES), the detection unit 32 associates the partial information indicating the shielded portion, the information indicating the range of the shielded portion, and the input participant identification information, and outputs the image transforming unit. 34.
  • step S302 NO the detector 32 notifies the control information generator 37 that the shielded portion cannot be detected. Also, the estimation unit 33 does not perform the operation of step S303. The image transformation unit 34 does not perform the operations from step S304 to step S305. The superimposing unit 35 does not perform the operation of step S306.
  • the estimation unit 33 estimates the content and emotion of the participant's utterance from the image or voice acquired in step S301 (step S303).
  • the estimation unit 33 associates the participant identification information, the timing information, the estimated emotion information, and the estimated speech information of the participant to be estimated, and outputs them to the image transformation unit 34 .
  • step S304 the emotion estimating unit 331 of the estimating unit 33 estimates the emotion based on the analysis result of the voice or the analysis result of the change in the unshielded part of the face image of the participant. Also, in step S304, the utterance estimation unit 332 estimates the content of the utterance of the participant based on the speech analysis result.
  • the estimation unit 33 estimates the content of the speech and the emotion in an arbitrary order. For example, the estimation of emotion by the emotion estimation unit 331 and the estimation of the content of the speech by the speech estimation unit 332 may be performed in parallel. Alternatively, the emotion estimation unit 331 may estimate the emotion after the speech estimation unit 332 estimates the content of the speech.
  • the image transformation unit 34 reads the partial image of the participant from the partial image storage unit 36 based on the participant identification information and the partial information of the participant whose face is partially masked (step S304).
  • the image transformation unit 34 transforms the partial image read out from the partial image storage unit 36 according to the content of the speech and emotion of the participant (step S305).
  • the image transforming unit 34 transforms the partial image based on the estimated emotion information indicating the emotion estimation result by the estimating unit 33 and the estimated speech information indicating the result of utterance content estimation.
  • the image transforming unit 34 associates the timing information, the partial image data of the transformed partial image, the information indicating the range of the shielded portion, and the participant identification information of the participant whose face is partially shielded, and outputs the data to the superimposing unit 35. Output.
  • the superimposing unit 35 generates a superimposed image by superimposing the partial image deformed by the image transforming unit 34 in step S305 in a range corresponding to the shielded portion in the image of the participant (step S306).
  • the superimposing unit 35 associates the timing information, the participant identification information of the participant whose face is partially masked, and the superimposed image data of the superimposed image, and outputs them to the control information generating unit 37 .
  • the control information generation unit 37 generates output control information (step S307).
  • the control information generating unit 37 displays the superimposed image on the display unit (in this example, the display unit 44 of the receiving terminal 4) at the timing of the voice for which the speech content and emotion are estimated.
  • control information generation unit 37 When notified in step S302 that the shielded portion cannot be detected, the control information generation unit 37 performs the following operation in step S308.
  • the control information generation unit 37 performs output control to display the image acquired by the acquisition unit 31 on the display unit (in this example, the display unit 44 of the receiving terminal 4) at the timing corresponding to the voice acquired by the acquisition unit 31. Generate information.
  • the control information generator 37 outputs the output control information to the transmitter 38 .
  • the transmission unit 38 transmits the output control information to the communication destination indicated in the communication destination information (step S308).
  • the teleconference execution device 3 can perform the operations from step S302 to step S307 in any order.
  • the remote conference execution device 3 may operate in the following order.
  • the detection unit 32 performs the operation of step S302.
  • the image transformation unit 34 performs the operation of step S304.
  • the superimposing unit 35 superimposes the partial image before being deformed by the image transforming unit 34 in a range corresponding to the shielded portion in the image of the participant.
  • the image transformation unit 34 transforms the superimposed image according to the contents of the speech and emotion of the participant instead of the operation of step S305.
  • the control information generator 37 performs the operation of step S307. Note that the estimation unit 33 performs the operation of step S303 before the image deformation processing by the image deformation unit 34 is started.
  • the teleconference execution device 3 of the present embodiment acquires an image of the face of the participant and the voice of the participant, and detects from the image the part of the participant whose face is partly shielded. do.
  • the teleconference execution device 3 estimates the contents of the speech and the emotions of the participants from the images or voices.
  • the teleconference execution device 3 transforms the partial image, which is the image of the part of the face of the participant that is shielded, according to the contents of the speech and the emotion of the participant.
  • the teleconference execution device 3 generates a superimposed image by superimposing the deformed partial image in a range corresponding to the blocked portion in the image of the participant.
  • the teleconference execution device 3 of the present embodiment When the teleconference execution device 3 of the present embodiment cannot detect the blocked portion, it generates output control information for displaying the acquired image on the display unit at a timing according to the acquired voice. Since the masked portion can be detected while the participant is wearing the mask, the teleconference executing device 3 transmits to the receiving terminal 4 output control information for displaying the superimposed image on the display unit. After the participant removes the mask, the teleconference execution device 3 cannot detect the blocked portion, so it transmits the output control information for displaying the obtained image in which the image is not deformed on the display unit.
  • the participant using the transmitting terminal 2 removes the mask during the teleconference, the superimposed image in which the deformed partial image is superimposed on the range corresponding to the blocked portion is displayed on the display unit 44 of the receiving terminal 4. Display can be stopped.
  • the teleconference execution device of Modification 1 of the second embodiment uses machine learning for deformation processing of partial images.
  • the image transformation unit of this modified example has a model generation function.
  • the learning data includes, for example, face images of a plurality of persons with different utterances and/or emotions, information indicating the emotions expressed by each of the face images, and the utterances of the persons photographed in the plurality of face images. Contains descriptive information.
  • the image transformation unit of this modification generates a transformation model that transforms a partial image according to the contents of speech and emotion based on learning data.
  • the image deformation unit uses the generated deformation model to deform the partial image according to the content and emotion of the estimated utterance.
  • Inputs to the deformation model are partial image data, estimated emotion information, and estimated speech information.
  • the output from the deformation model is partial image data representing the deformed partial image.
  • the image transforming unit of the teleconference executing apparatus in addition to transforming the partial image, also transforms the unshielded portion of the face image of the participant acquired by the acquiring unit into a speech. Transform according to content and emotion. For example, as shown in FIG. 4, when the mouth of the participant TP1 is blocked by a mask, the image transforming unit of this modified example is configured so that the face image of the participant TP1 in the image data acquired by the acquiring unit is masked. The missing part (eyes in the example of FIG. 4) is transformed according to the content of the speech and emotion.
  • the superimposing unit of this modified example generates a superimposed image by superimposing the partial image deformed by the image transforming unit on a range corresponding to the shielded portion in the image deformed by the image transforming unit.
  • the image transformation unit of the teleconference execution device of this modification also transforms the unshielded part of the face image of the participant according to the content and emotion of the speech.
  • the superimposing unit of the teleconference executing apparatus of this modified example generates a superimposed image in which the unshielded portion of the face image of the participant is also deformed.
  • the teleconference executing apparatus of this modified example can match the facial expression represented by the deformed partial image with the facial expression represented by the unshielded portion of the face image of the participant.
  • the teleconference executing apparatus of this modified example can match the facial expression of the deformed partial image with the facial expression of the part of the face image that is not shielded. Therefore, the teleconference executing apparatus of this modified example can reduce the possibility that an unnatural facial expression is displayed on the display unit of the receiving terminal.
  • a teleconference execution device is a transmission terminal.
  • the transmission terminal is provided with the functions of the teleconference execution device 3 .
  • differences from the teleconference execution device 3 of the second embodiment will be described.
  • the configuration of the detection unit, the estimation unit, the image transformation unit, the superimposition unit, and the control information generation unit is the same as the configuration of the teleconference execution device 3 in the second embodiment shown in FIG. 3, so description thereof will be omitted. .
  • Audio data is input from the audio input unit and image data is input from the imaging unit to the acquisition unit of this modified example.
  • the acquisition unit of this modification acquires the face image of the participant and the voice of the participant.
  • the partial image information stored in the partial image storage unit of this modified example stores at least the partial image information of the participants who participate in the teleconference using the transmission terminal.
  • the meeting information storage unit of this modified example stores communication destination information indicating the server that controls the remote meeting.
  • the transmission unit of this modification transmits the output control information to the server, which is the communication destination indicated in the communication destination information. Note that the output control information is transmitted to the receiving terminal via the server.
  • the remote conference execution device may be a receiving terminal. If the receiving terminal has the function of a teleconference executing device, it acquires the participant identification information, image data, and audio data of the participant using the transmitting terminal, which are transmitted from the transmitting terminal via the server that controls the teleconference. . Also, the output control section controls the audio output section and the display section using the output control information generated by the control information generation section.
  • the configuration of the detection unit, the estimation unit, the image deformation unit, the superimposition unit, and the control information generation unit is the same as that of the teleconference execution device 3 in the second embodiment shown in FIG. Same as configuration.
  • FIG. 11 is a block diagram showing a configuration example of a remote conference execution system according to the third embodiment of the present invention.
  • the teleconference execution system includes a transmission terminal 6, a teleconference execution device 5, and a reception terminal 4.
  • the transmission terminal 6 is connected to the photographing device 7 and the voice input device 8 .
  • the remote conference execution device 5 basically includes the configuration and functions of the remote conference execution device 3 of the second embodiment.
  • the teleconference execution device 5 of the third embodiment differs from the teleconference execution device 3 of the second embodiment in the following points.
  • the teleconference execution device 5 of the third embodiment is different in that a speaker among a plurality of participants is specified based on the image and voice of each participant acquired by the acquisition unit 51 .
  • the detection unit 52, the estimation unit 33, the image transformation unit 34, and the superimposition unit 35 are different in that processing is performed on the speaker.
  • FIG. 11 Each configuration of the teleconference execution system of the present embodiment will be described in detail with reference to FIGS. 11 to 13.
  • FIG. 11 Each configuration of the teleconference execution system of the present embodiment will be described in detail with reference to FIGS. 11 to 13.
  • FIG. 11 Each configuration of the teleconference execution system of the present embodiment will be described in detail with reference to FIGS. 11 to 13.
  • FIG. 11 Each configuration of the teleconference execution system of the present embodiment will be described in detail with reference to FIGS. 11 to 13.
  • FIG. 12 is a diagram schematically showing how a remote conference is held according to the third embodiment.
  • FIG. 12 shows the participants (participant TP1, participant TP2, participant TP3, and participant TP4 in the example of FIG. 12) photographed by the photographing device 7 connected to the transmission terminal 6. .
  • the participants participating in the teleconference wear masks in order to avoid being infected with COVID-19 or the like.
  • the photographing device 7 is installed at a position where it is possible to photograph a plurality of participants (participants TP1 to TP4 in the example of FIG. 12) participating in the remote conference.
  • the imaging device 7 is installed above the external display that displays the conference material.
  • the imaging device 7 communicates with the transmitting terminal 6 by wire, but the imaging device 7 may communicate with the transmitting terminal 6 wirelessly.
  • the imaging device 7 takes an image and transmits image data to the transmission terminal 6 .
  • the imaging device 7 corresponds to the imaging unit 21 of the transmission terminal 2 of the second embodiment.
  • FIG. 13 is a diagram schematically showing an image IM2 captured by the imaging device 7 of the third embodiment.
  • FIG. 13 is an example of an image captured by the participants TP1 to TP4 shown in FIG. A participant whose face is photographed by the photographing device 7 does not have to face the photographing device 7 .
  • the voice input device 8 is installed at a position capable of receiving voice input from multiple participants (participants TP1 to TP4 in the example of FIG. 12) participating in the teleconference.
  • the voice input device 8 receives voice input.
  • the voice input device 8 transmits voice data corresponding to voice to the transmission terminal 6 .
  • the voice input device 8 corresponds to the voice input section 22 of the transmission terminal 2 of the second embodiment.
  • the transmitting terminal 6 includes a transmitting/receiving section 61.
  • the sending terminal 6 is a notebook computer.
  • the transmission/reception unit 61 receives image data from the imaging device 7 .
  • the transmitter/receiver 61 receives voice data from the voice input device 8 .
  • the transmitting/receiving unit 61 associates the image data and the audio data and transmits them to the teleconference execution device 5 .
  • the remote conference execution device 5 includes an acquisition unit 51, a detection unit 52, an estimation unit 33, an image transformation unit 34, and a superimposition unit 35.
  • Speaker identification unit 53 receives input from at least acquisition unit 51 .
  • the meeting information storage unit 39 and feature amount storage unit 54 will be described later.
  • the configurations of the partial image storage unit 36, the transmission unit 38, and the conference information storage unit 39 of the teleconference execution device 5 in this embodiment are the same as those in the second embodiment shown in FIG. , corresponding elements are denoted by the same reference numerals as in FIG. 3, and common descriptions thereof are omitted.
  • the acquisition unit 51 acquires the face image of the participant and the voice of the participant. Acquisition unit 51 associates the audio data and the image data and outputs them to speaker identification unit 53 and control information generation unit 37 .
  • the speaker identification unit 53 is an example of speaker identification means.
  • the speaker identification unit 53 identifies a speaker who is speaking among the plurality of participants based on the image and voice of each participant acquired by the acquisition unit 51 .
  • the speaker specifying unit 53 specifies the range of the image in which the speaker is captured and generates speaker range information.
  • the speaker range information indicates the range of the image in which the speaker is captured.
  • the speaker identification unit 53 associates the speaker range information, the participant identification information of the speaker, the image data, and the audio data, and outputs them to the detection unit 52 , the estimation unit 33 , and the superimposition unit 35 .
  • the speaker identification unit 53 When the speaker cannot be identified, the speaker identification unit 53 notifies the control information generation unit 37 that the speaker cannot be identified.
  • Voice data and image data are input from the acquisition unit 51 to the speaker identification unit 53 .
  • Speaker identification unit 53 extracts the feature amount of the face image from the image data. When a plurality of participants are included in the image of the image data, speaker identification unit 53 extracts the feature amount of each face image of the participant included in the image. Speaker identification unit 53 extracts a feature amount from the face image using an arbitrary method set in advance. The speaker identification unit 53 checks whether or not a face image feature quantity having a predetermined value or more of similarity with the face image feature quantity indicating the extraction result is stored in the feature quantity storage unit 54 .
  • the feature amount storage unit 54 stores participant identification information of participants participating in the remote conference, facial image feature amounts that are feature amounts of facial images of participants participating in the remote conference, and participant identification information of participants participating in the remote conference.
  • An audio feature amount which is an audio feature amount, is associated and stored in advance.
  • FIG. 14 is a diagram showing an example of face image feature amounts and voice feature amounts stored in the feature amount storage unit 54 of the teleconference execution device 5.
  • FIG. 14 for each of the participants whose participant identification information is "ID1" and "ID2", the face image feature amount, which is the feature amount of the face image of the participant, and the voice feature amount The voice feature quantity is associated and stored in the feature quantity storage unit 54 .
  • the speaker identification unit 53 collates whether or not a facial image feature quantity having a predetermined value or more of similarity with the facial image feature quantity indicating the extraction result is stored in the feature quantity storage unit 54, and performs the following operation. I do.
  • the speaker identification unit 53 identifies the participant identification information stored in the feature amount storage unit 54 in association with the facial image feature amount whose similarity to the facial image feature amount indicating the extraction result is equal to or greater than a predetermined value. .
  • the speaker identification unit 53 identifies participant identification information for each face image feature quantity extracted from one image.
  • the speaker identification unit 53 identifies the participant identification information using the facial image feature quantity, thereby identifying the participant identification information of each of the multiple participants photographed by the photographing device 7 . Further, hereinafter, the process of specifying the participant identification information by the speaker specifying unit 53 using the facial image feature quantity will be referred to as image recognition process.
  • the speaker identification unit 53 extracts a feature amount from the speech corresponding to the speech data using any preset method.
  • the speaker identification unit 53 collates whether or not the feature amount storage unit 54 stores a speech feature amount whose similarity to the speech feature amount indicating the extraction result is equal to or greater than a predetermined value.
  • the speaker identification unit 53 identifies the participant identification information stored in the feature amount storage unit 54 in association with the audio feature amount whose similarity to the audio feature amount indicating the extraction result is equal to or greater than a predetermined value.
  • the speaker identification unit 53 identifies the participant identification information by using the voice feature amount, thereby identifying the participant identification information of the speaker who uttered the voice input to the voice input device 8. Further, hereinafter, the process of specifying the participant identification information by using the voice feature amount by the speaker specifying unit 53 will be referred to as voice recognition process.
  • the speaker identification unit 53 determines whether the participant identification information identified in the image recognition process includes the participant identification information identified in the voice recognition process. If the participant identification information identified in the image recognition process includes the participant identification information identified in the voice recognition process, the speaker identification unit 53 determines that the speaker has been identified. When it is determined that the speaker has been identified, the speaker identification unit 53 identifies the participant of the participant identification information identified in the speech recognition process as the speaker.
  • the speaker identification unit 53 identifies the speaker. cannot be identified. For example, when the speaker cannot be specified, it is assumed that a participant who is outside the shooting area of the shooting device 7 speaks. Alternatively, it is assumed that the participant identification information of the speaker cannot be specified in the image recognition processing because the speaker photographed by the photographing device 7 is looking down or facing the other side.
  • the speaker identification unit 53 may identify the speaker from the image. For example, when the shielded portion is the eye, the mouth portion of the image corresponding to the speaker among the images of each participant acquired by the acquisition unit 51 moves. The speaker identification unit 53 may identify the participant from the image, and identify the participant whose mouth portion image has been detected to be moving among the participants as the speaker.
  • Speaker range information, speaker participant identification information, image data, and audio data are input to the detection unit 52 from the speaker identification unit 53 .
  • the detection unit 52 detects the shielded part of the speaker whose face is partly shielded from the acquired image of the range indicated by the speaker range information.
  • the detection unit 52 associates the partial information indicating the shielded portion, the information indicating the range of the shielded portion, and the participant identification information of the speaker, and outputs them to the image transformation unit 34 .
  • the detector 52 notifies the control information generator 37 that the shielded portion cannot be detected.
  • Speaker range information, speaker participant identification information, image data, and audio data are input to the estimation unit 33 from the speaker identification unit 53 .
  • the estimating unit 33 estimates the utterance content and emotion of the speaker from the image of the portion corresponding to the range indicated by the speaker range information or the voice acquired by the acquiring unit 51 .
  • Each of the emotion estimation unit 331, the speech estimation unit 332, and the output unit 333 of the estimation unit 33 is the same as the second embodiment, except that the image of the portion corresponding to the range indicated by the speaker range information is used instead of the image data. Similar to morphology. Therefore, corresponding elements are denoted by the same reference numerals as those in FIG. 3, and description of the configuration of the estimation unit 33 is omitted.
  • the configuration of the image transformation unit 34 is the same as the configuration in the second embodiment shown in FIG. 3, so corresponding elements are assigned the same reference numerals as in FIG. 3 and descriptions thereof are omitted.
  • the configuration of the superimposing unit 35 of the teleconference execution device 5 in this embodiment is the same as each of the configurations in the second embodiment shown in FIG. omit the explanation.
  • Speaker range information, speaker participant identification information, image data, and audio data are input to the superimposing unit 35 .
  • the timing information, the partial image data indicating the deformed partial image, the information indicating the range of the shielded portion, and the participant identification information of the speaker whose face is partially shielded are sent from the image transforming unit 34 to the superimposing unit 35 . is entered.
  • the superimposing unit 35 generates a superimposed image by superimposing the partial image deformed by the image transforming unit 34 in a range corresponding to the shielded part in the image of the speaker.
  • the superimposing unit 35 associates the timing information, the speaker's participant identification information, and the superimposed image data of the superimposed image, and outputs them to the control information generating unit 37 .
  • FIG. 15 is a schematic diagram for explaining the process of superimposing the partial image PIM1' on the image IM2 captured in the remote conference by the remote conference execution device 5 of the third embodiment.
  • FIG. 15 shows an example in which the timing information, the partial image data of the deformed partial image PIM1′, and the participant identification information indicating the speaker TP1 are input from the image transforming unit 34 to the superimposing unit 35.
  • the superimposing unit 35 generates a superimposed image IM2' by superimposing the partial image PIM1' on the image IM2 based on the information indicating the range of the shielded portion of the speaker TP1 in the image IM2.
  • the control information generation unit 37 When notified that the speaker cannot be specified or that the shielded portion cannot be detected, the control information generation unit 37 performs the following processing.
  • the control information generation unit 37 performs output control to display the image acquired by the acquisition unit 51 on the display unit (in this example, the display unit 44 of the reception terminal 4) at the timing corresponding to the voice acquired by the acquisition unit 51.
  • Generate information The processing of the control information generator 37 of the present embodiment when the speaker can be specified and the shielded portion can be detected is the processing performed by the control information generator 37 of the second embodiment when the shielded portion can be detected. , so the description is omitted.
  • the detection unit 52, the estimation unit 33, the image transformation unit 34, and the superimposition unit 35 perform processing on the speaker.
  • Each configuration of the receiving terminal 4 in this embodiment is the same as each configuration in the second embodiment shown in FIG. 3, so corresponding elements are assigned the same reference numerals as in FIG. 3, and description thereof is omitted.
  • the remote conference execution device 5 of the present embodiment acquires an image of the participant's face and the participant's voice, and detects the part of the participant whose face is partially shielded from the image.
  • the teleconference execution device 5 estimates the contents of speech and emotions of the participants from the images or voices.
  • the teleconference execution device 5 transforms the partial image, which is the image of the part of the face of the participant that is shielded, according to the content of the speech and the emotion of the participant.
  • the teleconference execution device 5 generates a superimposed image by superimposing the deformed partial image on a range corresponding to the blocked portion in the image of the participant.
  • FIG. 16 is a flow chart showing an operation example of the teleconference execution device 5 .
  • the acquisition unit 51 acquires the image of the face of the participant and the voice of the participant by receiving them from the transmission terminal 6 (step S401).
  • the speaker identification unit 53 identifies the speaker who is speaking among the plurality of participants based on the image and voice of each participant acquired by the acquisition unit 51 (step S402).
  • step S402 NO the speaker identification unit 53 notifies the control information generation unit 37 that the speaker cannot be identified. Also, the detection unit 52 does not perform the operation of step S403. The estimation unit 33 does not perform the operation of step S404. The image transformation unit 34 does not perform the operations of steps S405 and S406. The superimposing unit 35 does not perform the operation of step S407.
  • the speaker identification unit 53 associates the speaker range information, the participant identification information of the speaker, the image data, and the audio data to determine the detection unit 52 and the estimation unit 33. , and the superimposition unit 35 .
  • the detection unit 52 detects the shielded part of the speaker whose face is partly shielded from the image of the range indicated by the speaker range information (step S403).
  • the detection unit 52 associates the partial information indicating the shielded portion, the information indicating the range of the shielded portion, and the participant identification information of the speaker, and outputs the information to the image transforming unit. 34.
  • step S403 NO the detector 52 notifies the control information generator 37 that the shielded portion cannot be detected. Also, the estimation unit 33 does not perform the operation of step S404. The image transformation unit 34 does not perform the operations of steps S405 and S406. The superimposing unit 35 does not perform the operation of step S407.
  • the estimation unit 33 estimates the content and emotion of the speaker's speech from the image of the portion corresponding to the range indicated by the speaker range information or the voice acquired by the acquisition unit 51 (step S404).
  • the estimating unit 33 associates the participant identification information of the utterer, the timing information, the estimated emotion information indicating the emotion estimation result, and the estimated utterance information indicating the utterance estimation result, and outputs them to the image transforming unit 34 .
  • the image transformation unit 34 reads the partial image of the speaker from the partial image storage unit 36 based on the partial information and the participant identification information of the speaker (step S405).
  • the image transformation unit 34 transforms the partial image read out from the partial image storage unit 36 according to the content of the utterance and emotion of the speaker (step S406).
  • the image transforming unit 34 associates the timing information, the partial image data representing the transformed partial image, the information representing the range of the shielded portion, and the speaker's participant identification information, and outputs them to the superimposing unit 35 .
  • the superimposing unit 35 generates a superimposed image in which the partial image deformed by the image transforming unit 34 is superimposed in a range corresponding to the shielded part in the image of the speaker (step S407).
  • the superimposing unit 35 outputs the timing information, the participant identification information of the speaker whose face is partially masked, and the superimposed image data of the superimposed image to the control information generating unit 37 .
  • the control information generation unit 37 generates output control information (step S408).
  • the control information generating unit 37 performs the following operations in step S408.
  • the control information generating unit 37 displays the superimposed image on the display unit (in this example, the display unit 44 of the receiving terminal 4) at the timing of the voice for which the speech content and emotion are estimated. Generate output control information to be displayed in
  • control information generation unit 37 When notified that the speaker cannot be identified or the shielded portion cannot be detected, the control information generation unit 37 performs the following processing in step S408.
  • the control information generation unit 37 generates output control information based on the sound and image acquired by the acquisition unit 51 .
  • the control information generator 37 outputs the output control information to the transmitter 38 .
  • the transmission unit 38 transmits the output control information to the communication destination indicated in the communication destination information (step S409).
  • the teleconference execution device 5 of the present embodiment acquires an image of the participant's face and the participant's voice, and detects the part of the participant whose face is partly shielded from the image. do.
  • the teleconference execution device 5 estimates the contents of speech and emotions of the participants from the images or voices.
  • the teleconference execution device 5 transforms the partial image, which is the image of the part of the face of the participant that is shielded, according to the content of the speech and the emotion of the participant.
  • the teleconference execution device 5 generates a partial image by superimposing the deformed partial image in a range corresponding to the blocked portion in the image of the participant.
  • Participating in a teleconference with a part of the face covered makes it possible to show to other participants a superimposed image in which a partial image is superimposed according to the content of the participant's speech and emotion. It is possible to make other participants grasp the emotion of the participant.
  • the teleconference execution device 5 of the present embodiment identifies the speaker who is speaking among the plurality of participants based on the image and voice of each participant acquired by the acquisition unit 51 .
  • the teleconference execution device 5 acquires a partial image of the face of the identified speaker corresponding to the detected blocked portion from the partial image storage unit 36 in which the partial images of the participants are stored.
  • the teleconference execution device 5 transforms the partial image of the speaker according to the content and emotion of the speech of the speaker, and superimposes the partial image on the range corresponding to the specified blocked portion of the speaker.
  • the teleconference execution device 5 of this embodiment can identify the speaker even when the mouths of multiple participants are covered.
  • a participant using the receiving terminal 4 of the teleconference can easily recognize the speaker when images of a plurality of participants whose faces are partially masked are displayed. Also, a participant using the remote conference receiving terminal 4 can easily grasp the expression of the speaker.
  • a configuration example of hardware resources for realizing each of the teleconference execution devices (1, 3, 5) in each embodiment of the present invention described above using one information processing device (computer) will be described.
  • the teleconference executing device may be physically or functionally realized using at least two information processing devices.
  • the teleconference execution device may be implemented as a dedicated device. Also, only a part of the functions of the teleconference execution device may be realized using the information processing device.
  • FIG. 17 is a diagram schematically showing a hardware configuration example of an information processing device capable of realizing the teleconference executing device of each embodiment of the present invention.
  • the information processing device 9 includes a communication interface 91 , an input/output interface 92 , an arithmetic device 93 , a storage device 94 , a nonvolatile storage device 95 and a drive device 96 .
  • the acquisition unit 11 of the teleconference execution device 1 in FIG. The detecting unit 12, the estimating unit 13, the image transforming unit 14, and the superimposing unit 15 of the remote conference executing apparatus 1 in FIG.
  • the communication interface 91 is communication means for the teleconference execution device of each embodiment to communicate with an external device by wire and/or wirelessly.
  • these devices may be connected via the communication interface 91 so as to be able to communicate with each other.
  • the input/output interface 92 is a man-machine interface such as a keyboard as an example of an input device and a display as an output device.
  • the arithmetic unit 93 is realized by a general-purpose CPU (Central Processing Unit), an arithmetic processing unit such as a microprocessor, and a plurality of electric circuits.
  • the computing device 93 can, for example, read various programs stored in the nonvolatile storage device 95 to the storage device 94 and execute processing according to the read programs.
  • the storage device 94 is a memory device such as a RAM (Random Access Memory) that can be referenced from the computing device 93, and stores programs, various data, and the like. Storage device 94 may be a volatile memory device.
  • RAM Random Access Memory
  • the non-volatile storage device 95 is a non-volatile storage device such as ROM (Read Only Memory), flash memory, etc., and is capable of storing various programs and data.
  • ROM Read Only Memory
  • flash memory etc.
  • the drive device 96 is, for example, a device that processes data reading and writing to a recording medium 97, which will be described later.
  • the recording medium 97 is any recording medium capable of recording data, such as an optical disk, a magneto-optical disk, a semiconductor flash memory, or the like.
  • the information processing device 9 illustrated in FIG. 17 may constitute a teleconference execution device.
  • Each embodiment of the present invention may be implemented by supplying a program capable of implementing the functions described in each of the above embodiments to the teleconference execution apparatus.
  • the embodiment it is possible to realize the embodiment by having the arithmetic device 93 execute the program supplied to the teleconference executing device. It is also possible to configure the information processing device 9 to perform not all the functions of the teleconference execution device, but some of the functions.
  • the remote conference execution device is configured so that the program is recorded in the recording medium 97 and stored in the non-volatile storage device 95 as appropriate at the stage of shipping the remote conference execution device or at the stage of operation.
  • a method of supplying the program a general procedure such as a method of downloading from the outside via a communication line such as the Internet may be adopted.
  • the estimation function estimates the emotion based on an analysis result of the voice or an analysis result of a change in an unshielded portion of the face image of the participant, The estimation function estimates the content of the utterance based on the analysis result of the speech, The teleconference executing program according to appendix 1, wherein the image transformation function transforms the partial image based on a result of estimation by the estimation function.
  • Appendix 3 The teleconference execution program according to appendix 1 or appendix 2, wherein the image deformation function also deforms an unshielded portion of the face image of the participant according to the content of the speech and the emotion.
  • Appendix 4 The teleconference executing program according to any one of appendices 1 to 3, wherein the detection function detects the shielded part of the participant whose mouth or eyes are shielded.
  • Appendix 5 further comprising a speaker identification function that identifies a speaker who is a participant who is speaking among the plurality of participants based on the image and sound of each participant acquired by the acquisition function; 5.
  • the teleconference execution program according to any one of appendices 1 to 4, wherein the detection function, the estimation function, the image transformation function, and the superimposition function execute processing on the speaker.
  • (Appendix 6) obtaining an image of a participant's face and a voice of said participant; Detecting from the image a masked portion of the participant whose face is partially masked; estimating the content and emotion of the participant's utterance from the image or the voice; deforming a partial image that is an image of the part of the face of the participant according to the content of the utterance and the emotion of the participant; generating a superimposed image in which the deformed partial image is superimposed on a range corresponding to the shielded part in the image of the participant; Teleconferencing method.
  • appendix 7 estimating the emotion based on the analysis result of the voice or the analysis result of the change in the unshielded part of the face image of the participant;
  • Appendix 8 The teleconference execution method according to appendix 6 or appendix 7, wherein a portion of the facial image of the participant that is not shielded is also transformed according to the content of the speech and the emotion.
  • a remote conference execution device comprising:
  • the estimating means estimates the emotion based on an analysis result of the voice or an analysis result of a change in an unshielded portion of the face image of the participant, The estimating means estimates the content of the utterance based on the analysis result of the speech, 12.
  • Appendix 13 The teleconference executing apparatus according to appendix 11 or 12, wherein the image deformation means also deforms an unshielded portion of the face image of the participant according to the content of the speech and the emotion.
  • Appendix 14 14. The teleconference executing apparatus according to any one of appendices 11 to 13, wherein the detecting means detects the shielded portion of the participant whose mouth or eyes are shielded.
  • Appendix 15 Further comprising speaker identification means for identifying a speaker who is a participant who is speaking among the plurality of participants based on the image and voice of each participant acquired by the acquisition means, 15.
  • the teleconference executing apparatus according to any one of appendices 11 to 14, wherein the detection means, the estimation means, the image transformation means, and the superimposition means execute processing on the speaker.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出し、画像又は音声から、参加者の発話の内容及び感情を推定し、参加者の顔の一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させ、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。

Description

記録媒体、遠隔会議実行方法、及び遠隔会議実行装置
 本発明は、記録媒体、遠隔会議実行方法、及び遠隔会議実行装置に関する。
 遠隔会議に公共の場から参加する参加者が、マスクをしたまま会議に参加することが想定される。
 特許文献1には、端末間で会話を行う通信会議システムにおいて、受信端末が、予め取得した通信相手に対応する顔画像をモニター上に静止画として表示することが記載されている。特許文献1に記載の方法では、受信端末が、顔画像の口元を、通信相手から送信される会話音の母音に応じて変形させる。
 特許文献2には、発話者検出システムが、口唇の動作から発話者を検出できない、かつ口唇が遮蔽されている外観の人物を検出できた場合に、口唇が遮蔽されている外観の人物を発話者と検出することが記載されている。
特開2000-020683号公報 特開2020-155944号公報
 特許文献1に記載の方法では、受信端末が通信相手の会話音の母音に応じて顔画像の口元を変形させる。したがって、受信端末は、通信相手が笑っている、または怒っているという異なる表情でも、母音が同じであれば同じ口元の顔画像をディスプレイに表示させる。仮にマスクをしたまま会議に参加する参加者のマスクをしていない顔画像を予め受信端末に取得させたとしても、特許文献1に記載の方法には、遠隔会議もマスクをしたまま会議に参加する参加者の表情を会議相手に把握させることができないという問題点がある。
 特許文献2に記載の方法では、口唇が遮蔽されている外観の人物が発話をした場合に、その人物が発話者であることを検出することができる。しかしながら、特許文献2に記載の方法では口唇が遮蔽されている人物の表情を他者に把握させることができない。
 このように、特許文献1から特許文献2に記載の方法では、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の会議参加者に把握させることができないという問題点がある。
 本発明の目的の一例は、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることを可能にする記録媒体、遠隔会議実行方法、及び遠隔会議実行装置を提供することにある。
 本発明の一態様において、コンピュータ読み取り可能な非一過性の記録媒体に記録された遠隔会議実行プログラムは、コンピュータに、参加者の顔の画像と参加者の音声とを取得する取得機能と、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する検出機能と、画像又は音声から、参加者の発話の内容及び感情を推定する推定機能と、参加者の顔の一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる画像変形機能と、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳機能と、を実現させる。
 また、本発明の他の態様において、遠隔会議実行方法は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出し、画像又は音声から参加者の発話の内容及び感情を推定し、参加者の顔の一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させ、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。
 また、本発明の他の態様において、遠隔会議実行装置は、参加者の顔の画像と参加者の音声とを取得する取得手段と、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する検出手段と、画像又は音声から、参加者の発話の内容及び感情を推定する推定手段と、参加者の顔の一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる画像変形手段と、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳手段と、を備える。
 本発明の記録媒体、遠隔会議実行方法、及び遠隔会議実行装置により、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。
本発明における第一の実施形態の遠隔会議実行装置の構成例を示すブロック図である。 本発明における第一の実施形態の遠隔会議実行装置の動作例を示すフローチャートである。 本発明における第二の実施形態の遠隔会議実行システムの構成例を示すブロック図である。 本発明における第二の実施形態の遠隔会議実行システムにおける動作を説明するための図である。 本発明における第二の実施形態の遠隔会議実行装置により検出される遮蔽部分を説明するための模式図である。 本発明における第二の実施形態の遠隔会議実行装置の部分画像記憶部に記憶される部分画像情報の一例を示す図である。 本発明における第二の実施形態の遠隔会議実行装置による部分画像の変形処理を説明するための模式図である。 本発明における第二の実施形態の遠隔会議実行装置による部分画像を遠隔会議において撮影された画像に重畳する処理を説明するための模式図である。 本発明における第二の実施形態の遠隔会議実行システムの動作例を示すシーケンス図である。 本発明における第二の実施形態の遠隔会議実行装置の動作例を示すフローチャートである。 本発明における第三の実施形態の遠隔会議実行システムの構成例を示すブロック図である。 本発明における第三の実施形態の遠隔会議の様子を模式的に示した図である。 本発明における第三の実施形態の撮影装置によって撮影された画像を模式的に示した図である。 本発明における第三の実施形態の遠隔会議実行装置の特徴量記憶部に記憶される顔画像特徴量及び音声特徴量の一例を示す図である。 本発明における第三の実施形態の遠隔会議実行装置による部分画像を遠隔会議において撮影された画像に重畳する処理を説明するための模式図である。 本発明における第三の実施形態の遠隔会議実行装置の動作例を示すフローチャートである。 本発明における各実施形態のハードウェア構成例を示す図である。
 [第一の実施形態]
 本発明の第一の実施形態について説明する。
 図1は、本実施形態の遠隔会議実行装置1の構成例を示すブロック図である。
 本実施形態の遠隔会議実行装置1は、取得部11、検出部12、推定部13、画像変形部14、及び重畳部15を含む。
 例えば、遠隔会議実行装置1は、コンピュータを用いて実現される。遠隔会議実行装置1の取得部11、検出部12、推定部13、画像変形部14、及び重畳部15は、取得機能、検出機能、推定機能、画像変形機能、及び重畳機能を実現させる遠隔会議実行プログラムに従ってコンピュータに処理を実行させることにより実現される。すなわち、遠隔会議実行プログラムは、取得機能、検出機能、推定機能、画像変形機能、及び重畳機能をコンピュータに実現させる。
 取得部11は、取得手段の一例である。取得部11は、参加者の顔の画像と参加者の音声とを取得する。
 例えば、遠隔会議実行装置1は、参加者が用いる送信端末から音声データと画像データとを受信して、受信した音声データと画像データとを関連付けて他の参加者が用いる受信端末に送信する遠隔会議を制御するサーバーである。送信端末は、参加者の音声の入力を受けて音声に応じた音声データを生成する音声入力装置及び参加者を撮影して参加者の顔に応じた画像データを生成する撮影装置を備える。取得部11は、送信端末から送信された画像データと音声データとを受信して、参加者の顔の画像と参加者の音声とを取得する。遠隔会議実行装置1は、受信端末であってもよい。遠隔会議実行装置1が受信端末である場合、取得部11は、送信端末から送信された音声データと画像データとを遠隔会議を制御するサーバーを介して受信することにより、参加者の顔の画像と音声とを取得してもよい。
 あるいは、遠隔会議実行装置1は、参加者の音声の入力を受けて音声に応じた音声データを生成する音声入力装置及び参加者を撮影して参加者の顔の画像の画像データを生成する撮影装置を備える送信端末であってもよい。遠隔会議実行装置1が送信端末である場合、遠隔会議実行装置1の取得部11には、音声入力装置から音声に応じた音声データが入力され、かつ撮影装置から参加者の顔に応じた画像データが入力される。このように取得部11は、参加者の顔の画像と参加者の音声とを取得する。
 検出部12は、検出手段の一例である。検出部12は、顔の一部分が遮蔽された参加者の遮蔽部分を取得部11によって取得された画像から検出する。例えば、遠隔会議に公共の場から参加する参加者が、マスクをしたまま会議に参加することが想定される。
 推定部13は、推定手段の一例である。推定部13は、取得部11によって取得された画像又は取得部11によって取得された音声から参加者の発話の内容及び感情を推定する。推定部13は、参加者の画像及び参加者の音声を両方用いて参加者の発話の内容及び感情を推定してもよい。
 画像変形部14は、画像変形手段の一例である。画像変形部14は、参加者の顔の遮蔽された一部分の画像である部分画像を推定部13によって推定された参加者の発話の内容及び感情に応じて変形させる。画像変形部14には、参加者の発話の内容及び感情が推定された推定の結果が推定部13から入力される。推定結果は、参加者の音声又は参加者の画像に基づき、参加者の発話の内容及び感情を推定した結果を表すデータである。
 重畳部15は、重畳手段の一例である。重畳部15は、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。
 このように、遠隔会議実行装置1は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。遠隔会議実行装置1は、画像又は音声から、参加者の発話の内容及び感情を推定する。遠隔会議実行装置1は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させ、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。参加者の発話の内容及び感情に応じて変形させた部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にするので、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。
 次に、図2を参照して、本実施形態の遠隔会議実行装置1の動作例を説明する。図2は、遠隔会議実行装置1の動作例を示すフローチャートである。
 取得部11は、参加者の顔の画像と参加者の音声とを取得する(ステップS101)。
 検出部12は、顔の一部分が遮蔽された参加者の遮蔽部分をステップS101において取得された画像から検出する(ステップS102)。
 推定部13は、ステップS101において取得された画像又は音声から、参加者の発話の内容及び感情を推定する(ステップS103)。
 画像変形部14は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる(ステップS104)。画像変形部14は、ステップS104において、ステップS103における推定の結果を用いる。
 重畳部15は、ステップS104において変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する(ステップS105)。
 以上説明したように、遠隔会議実行装置1は、参加者の発話の内容及び感情に応じて変形させた部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にする。これにより、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。
 [第二の実施形態]
 次に、本発明の第二の実施の形態における遠隔会議実行装置3について具体的に説明する。
 図3は、本発明における第二の実施形態の遠隔会議実行システムの構成例を示すブロック図である。図3に示すように、遠隔会議実行システムは、送信端末2と遠隔会議実行装置3と受信端末4とを含む。第二の実施形態において、遠隔会議実行装置3は、基本的に第一の実施形態の遠隔会議実行装置1の構成と機能とを含む。また、第二の実施形態において、遠隔会議実行装置3は、参加者が用いる送信端末2から音声データと画像データとを受信して、受信した音声データと画像データとを関連付けて他の参加者が用いる受信端末4に送信する遠隔会議を制御するサーバーである。例えば、遠隔会議を制御するサーバーに遠隔会議実行装置3の機能を実現する遠隔会議実行プログラムがインストールされる。
 図4は、第二の実施形態の遠隔会議実行システムにおける動作を説明するための図である。図4に示すように、顔の一部分が遮蔽された参加者TP1の音声データと画像データとを送信端末2が送信し、受信端末4が、音声データと遠隔会議実行装置3による重畳画像の重畳画像データとを受信して画像を表示部44に表示させる場合を説明する。
 図3を参照して、本実施形態の送信端末2の構成について詳細に説明する。送信端末2は、撮影部21と音声入力部22と送信部23とを含む。送信端末2は、例えば、スマートフォン、ノートパソコン、及びデスクトップパソコンのいずれかである。図4の例では、送信端末2はノートパソコンである。
 撮影部21は、参加者の顔を撮影可能な位置に設けられる。撮影部21は、撮影を行い、参加者の顔に応じた画像データを送信部23に出力する。撮影部21は、例えば、送信端末2に内蔵されたカメラである。撮影部21は、送信端末2に内蔵されてもよいし、有線又は無線で送信端末2に接続された送信端末2以外の他の装置であってもよい。
 音声入力部22は、参加者の音声の入力を受け付ける。音声入力部22は、音声に応じたデータである音声データを送信部23に出力する。音声入力部22は、例えば、送信端末2に内蔵されたマイクロフォンである。音声入力部22は、送信端末2に内蔵されてもよいし、有線又は無線で送信端末2に接続された送信端末2以外の他の装置であってもよい。
 送信部23には、撮影部21から画像データが入力される。送信部23には、音声入力部22から音声データが入力される。送信部23は、送信端末2を用いる参加者の参加者識別情報と画像データと音声データとを関連付けて遠隔会議実行装置3に送信する。参加者識別情報は、参加者の各々を識別可能な情報である。また、画像データは静止画像又は動画像を示す。参加者識別情報は、例えば、遠隔会議を制御するサーバーが送信端末2、又は参加者に割り当てたID(identifier)である。
 図3を参照して、本実施形態の遠隔会議実行装置3の構成について詳細に説明する。遠隔会議実行装置3は、取得部31、検出部32、推定部33、画像変形部34、及び重畳部35を含む。部分画像記憶部36と会議情報記憶部39とについては後述する。制御情報生成部37は少なくとも重畳部35から入力を受ける。送信部38は少なくとも制御情報生成部37から入力を受ける。
 取得部31は、参加者の顔に応じた画像データと参加者の音声に応じた音声データとを取得する。具体的には、取得部31は、送信端末2を用いる参加者の参加者識別情報と画像データと音声データとを送信端末2から受信して、参加者の顔の画像と参加者の音声とを取得する。
 取得部31は、取得した参加者識別情報と画像データとを関連付けて検出部32と重畳部35とに出力する。取得部31は、推定部33が発話の内容及び感情の推定に用いるデータを推定部33に入力する。具体的に、取得部31は、音声データ及び画像データの少なくとも一方と、取得した参加者識別情報とを関連付けて推定部33に出力する。取得部31は、取得した参加者の参加者識別情報と画像データと音声データとを関連付けて制御情報生成部37に出力する。
 検出部32には、画像データと画像データの参加者の参加者識別情報とが取得部31から入力される。検出部32は、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。検出部32は、遮蔽された一部分を示す部分情報、遮蔽部分の範囲を示す情報、及び入力された参加者識別情報を関連付けて画像変形部34に出力する。遮蔽部分を検出できない場合、検出部32は、遮蔽部分を検出できないことを制御情報生成部37に通知する。
 例えば、検出部32は、取得された画像から特徴量を算出する。検出部32は、算出した特徴量に基づいて遮蔽部分の範囲を決定する。例えば、検出部32は、予め記憶部(図示せず)に登録されているマスクの画像から抽出された特徴量と比べた差分が所定の閾値以内の特徴量を有するエリアを遮蔽部分の範囲として決定する。例えば、マスクの画像から抽出された特徴量は、予め部分画像記憶部36に記憶されてもよい。あるいは、検出部32は、画像のエッジ検出を行って遮蔽部分の範囲を決定してもよい。
 また、検出部32は、顔の遮蔽されている部分を特定して部分情報を生成する。例えば、検出部32は、画像から参加者の口を特定できない場合に、口を示す部分情報を生成する。
 図5は、第二の実施形態の遠隔会議実行装置3により検出される遮蔽部分を説明するための模式図である。図5には、図4に示される送信端末2を用いる参加者TP1が撮影された画像IM1から、遠隔会議実行装置3の検出部32により検出された遮蔽部分の例が太線で図示される。図4及び図5の例では、参加者TP1はマスクを着用しているので、参加者は顔の一部分である口が遮蔽される。
 第二の実施形態では、図4及び図5の例に示されるように、口が遮蔽されている参加者の画像への処理を説明する。遠隔会議実行装置3は、フェイスカバーによって口が覆われている参加者の画像や、サングラスの着用によって目が覆われている参加者の画像を、マスクを着用した参加者の画像と同様に処理する。例えば、遠隔会議実行装置3の検出部32は、口又は目が遮蔽された参加者の遮蔽部分を検出する。遠隔会議実行装置3は、フェイスシールドを着用した参加者の画像を、マスクを着用した参加者の画像と同様に処理する。フェイスシールドを着用している場合、フェイスシールドが透明なフィルムで構成されていても通話相手に表情を把握させることができない場合がある。例えば、フェイスシールドが光を反射するために、光の反射によって参加者の顔の一部を通話相手が視認できない場合が想定される。
 推定部33は、取得部31によって取得された画像又は取得部31によって取得された音声から参加者の発話の内容及び感情を推定する。推定部33は、推定対象の参加者の参加者識別情報、タイミング情報、感情の推定の結果を示す推定感情情報、及び発話の内容の推定の結果を示す推定発話情報を関連付けて画像変形部34に出力する。タイミング情報は、発話の内容及び感情の推定を行った画像データ又は音声データのタイミングを示す。
 推定部33は、感情推定部331と発話推定部332と出力部333とを含む。
 感情推定部331は、音声の解析結果、又は参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて感情を推定する。感情推定部331は、入力された参加者識別情報、タイミング情報、及び感情の解析結果に基づき推定された感情を示す推定感情情報を関連付けて出力部333に出力する。推定感情情報には、感情を示す情報が少なくとも含まれる。具体的に、音声の解析、又は遮蔽されていない部分の変化の解析には、機械学習によって作成される学習済みモデルが用いられてもよい。学習済みモデルは、喜怒哀楽の様々な感情を分類できる1つ以上のモデルを含む。機械学習には、ニューラルネットワークを用いた学習エンジンが使用されてもよい。
 音声の解析によって感情を感情推定部331が推定する方法を説明する。感情推定部331は、音声データの音響解析により参加者の感情を推定する。あるいは、感情推定部331は、音声データの言語解析により参加者の感情を推定する。
 次に、顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて感情を感情推定部331が推定する方法を説明する。例えば、マスクを着用している参加者の画像を解析する場合、感情推定部331は、送信端末2を用いる参加者の時系列の画像データの画像の変化から眼球の動きを特定する。感情推定部331は、特定した眼球の動きを解析して参加者の感情を推定する。なお、これらの方法以外にも、感情を推定する方法には、任意の方法を使用することが可能である。
 なお、感情推定部331は、感情の度合いをさらに推定してもよい。感情の度合いは、例えば、感情のレベルを示す値である。感情の度合いを推定する場合、推定感情情報には、さらに推定した感情の度合いを示す情報が含まれる。感情の度合いを示す情報が推定感情情報に含まれる場合、後述する画像変形部34は、感情の度合いを示す情報に基づき感情の度合いに応じて部分画像を変形させる。例えば、画像変形部34は、喜びの度合いが大きいと推定された場合、喜びの度合いが小さい場合よりも口角を上げた画像になるように部分画像を変形させる。これにより、感情毎に表情を変形させた場合よりも、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者により詳細に把握させることが可能になる。
 発話推定部332は、音声の解析結果に基づいて参加者の発話の内容を推定する。発話推定部332は、入力された参加者識別情報、タイミング情報、及び音声の解析結果に基づき推定された発話の内容を示す推定発話情報を関連付けて出力部333に出力する。推定発話情報には、少なくとも発話されたと推定された母音を示す情報が含まれる。推定発話情報には、発話されたと推定された子音を示す情報が含まれてもよい。なお、この方法以外にも、発話の内容を推定する方法には、任意の方法を使用することが可能である。
 例えば、音声の解析には、機械学習によって作成される学習済みモデルが用いられてもよい。学習済みモデルは、音声に応じた発話を認識できる1つ以上のモデルを含む。機械学習には、ニューラルネットワークを用いた学習エンジンが使用されてもよい。
 出力部333には、推定対象の参加者の参加者識別情報、タイミング情報、及び推定感情情報が感情推定部331から入力される。出力部333には、推定対象の参加者の参加者識別情報、タイミング情報、及び推定発話情報が発話推定部332から入力される。出力部333は、推定対象の参加者の参加者識別情報、タイミング情報、推定感情情報、及び推定発話情報を関連付けて画像変形部34に出力する。
 画像変形部34には、遮蔽された一部分を示す部分情報、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された参加者の参加者識別情報が検出部32から入力される。また、画像変形部34には、推定対象の参加者の参加者識別情報、タイミング情報、推定感情情報、及び推定発話情報が推定部33から入力される。
 画像変形部34は、顔の一部が遮蔽された参加者の参加者識別情報と遮蔽された一部分を示す部分情報とに基づき参加者の顔の遮蔽された一部分の画像である部分画像を部分画像記憶部36から読み出す。
 部分画像記憶部36には、部分画像情報が予め記憶される。部分画像情報には、会議に参加する参加者の参加者識別情報と、顔の一部分を示す部分情報と、部分画像のデータである部分画像データとが含まれる。
 図6は、遠隔会議実行装置3の部分画像記憶部36に記憶される部分画像情報の一例を示す図である。図6の例では、参加者識別情報が「ID1」である参加者の「部分画像データPIMD1」と「部分画像データPIMD2」とが部分画像記憶部36に記憶される。「部分画像データPIMD1」は、部分情報に示されるように参加者の「口」の部分画像の画像データである。「部分画像データPIMD2」は、部分情報に示されるように参加者の「目」の部分画像の画像データである。また、図6の例では、参加者識別情報が「ID2」である参加者の「部分画像データPIMD3」が部分画像記憶部36に記憶される。「部分画像データPIMD3」は、部分情報に示されるように参加者の「口」の部分画像の画像データである。
 具体的には、画像変形部34は、入力された遮蔽された一部分を示す部分情報と入力された参加者識別情報とに関連付けられて部分画像記憶部36に記憶されている部分画像を部分画像記憶部36から読み出す。画像変形部34は、部分画像記憶部36から読み出した部分画像を次のように変形させる。画像変形部34は、推定部33による感情の推定の結果を示す推定感情情報、及び発話の内容の推定の結果を示す推定発話情報に基づいて部分画像を変形させる。画像変形部34は、タイミング情報、変形させた部分画像の部分画像データ、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された参加者の参加者識別情報を関連付けて重畳部35に出力する。
 図7を参照して画像変形部34の部分画像の変形処理を具体的に説明する。
 図7は、第二の実施形態の遠隔会議実行装置3による部分画像の変形処理を説明するための模式図である。画像変形部34に入力された参加者識別情報により「ID1」が示され、かつ遮蔽された一部分を示す部分情報により「口」が示されたとする。図6に示される部分画像情報が部分画像記憶部36に記憶された場合、画像変形部34は、次の処理を行う。画像変形部34は、「ID1」を示す参加者識別情報と「口」を示す部分情報とに関連付けられた「部分画像データPIMD1」を読み出す(図6に示される1行目かつ3列目の部分画像データ)。図7の左側に示されるように、部分画像データPIMD1に示される部分画像PIM1は、参加者識別情報が「ID1」である参加者の口の画像である。推定部33から入力された推定感情情報が「喜び」を示し、かつ推定発話情報が「い」を示した場合、画像変形部34は、次のように変形処理を行う。画像変形部34は、部分画像データPIMD1の部分画像PIM1を参加者の感情(本例では、「喜び」)及び発話の内容(本例では、「い」)に応じて変形させた部分画像PIM1´(図7の例では右側の図)を作成する。
 なお、部分画像記憶部36には、参加者の部分画像が感情毎に予め記憶されていてもよい。あるいは、部分画像記憶部36には、参加者の部分画像が発話毎に予め記憶されていてもよい。画像変形部34は、推定された感情又は発話に関連づけられて部分画像記憶部36に記憶されている部分画像を読み出して、読みだした部分画像を発話の内容及び感情に応じて変形させてもよい。
 なお、推定発話情報が発話が無いことを示す場合、画像変形部34は、推定部33による感情の推定の結果を示す推定感情情報、及び発話の内容の推定の結果を示す推定発話情報に基づいて部分画像を変形させる。すなわち、参加者TP1が発言していない場合、画像変形部34は、参加者TP1の発言していない場合の推定された感情に応じた部分画像になるように部分画像記憶部36から読みだした部分画像を変形させる。
 重畳部35には、取得部31によって取得された参加者識別情報と画像データとが入力される。重畳部35には、タイミング情報、変形させた部分画像を示す部分画像データ、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された参加者の参加者識別情報が画像変形部34から入力される。重畳部35は、画像変形部34が変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。具体的に、重畳部35は、取得部31によって取得された画像データのうち、タイミング情報に示されるタイミングの画像データを重畳に用いる。重畳部35は、そのタイミングの画像データに示される画像中の遮蔽部分に応じた範囲に画像変形部34が変形させた部分画像を重畳させる。例えば、重畳部35は、画像中の遮蔽部分に応じた範囲の画像を変形させた部分画像に置き換えた重畳画像データを生成する。重畳部35は、タイミング情報、顔の一部が遮蔽された参加者の参加者識別情報、及び重畳画像の重畳画像データを関連付けて制御情報生成部37に出力する。
 例えば、所定の数のフレームで構成された動画像を示す画像データが取得された場合、タイミング情報に示されるタイミングの画像データは、発話の内容及び感情の推定が行われた音声のタイミングにおいて表示部に表示させるべきフレームの画像を示す。
 図8は、第二の実施形態の遠隔会議実行装置3による部分画像PIM1´を遠隔会議において撮影された画像データが示す画像IM1に重畳する処理を説明するための模式図である。図8は、タイミング情報、変形させた部分画像PIM1´を示す部分画像データ、及び「ID1」に示される参加者識別情報が画像変形部34から重畳部35に入力された場合の例である。また、図5に示される画像IM1が、参加者識別情報が「ID1」である参加者TP1が遠隔会議においてタイミング情報に示されるタイミングで撮影された画像であるとする。重畳部35は、画像IM1の遮蔽部分の範囲を示す情報に基づき、部分画像PIM1´を画像IM1に重畳させた重畳画像IM1´を生成する。
 制御情報生成部37には、取得部31によって取得された参加者の参加者識別情報と音声データと画像データが入力される。制御情報生成部37には、タイミング情報、顔の一部が遮蔽された参加者の参加者識別情報、及び重畳画像の重畳画像データが重畳部35から入力される。制御情報生成部37は、発話の内容及び感情の推定が行われた音声のタイミングで、重畳画像を表示部(本例では、受信端末4の表示部44)に表示させる出力制御情報を生成する。
 遮蔽部分を検出できないことを通知された場合、制御情報生成部37は、次の動作を行う。制御情報生成部37は、取得部31によって取得された音声に応じたタイミングで、取得部31によって取得された画像を表示部(本例では、受信端末4の表示部44)に表示させる出力制御情報を生成する。
 制御情報生成部37は、生成した出力制御情報を送信部38に出力する。
 送信部38には、出力制御情報が制御情報生成部37から入力される。送信部38は、遠隔会議の参加者の通信先を示す通信先情報を会議情報記憶部39から読み出す。出力制御情報の通信先は、例えば、遠隔会議に参加する他の参加者が用いる端末である。通信先情報に示される通信先には、受信端末4が含まれる。送信部38は、通信先情報に示される通信先へ出力制御情報を送信する。遮蔽部分が検出された場合、出力制御情報には、重畳画像の重畳画像データと音声に応じた音声データとが含まれる。遮蔽部分を検出できない場合、出力制御情報には、取得された画像データと音声に応じた音声データとが含まれる。
 会議情報記憶部39には、遠隔会議に参加している参加者の参加者識別情報と、通信先情報とが関連付けて記憶される。通信先情報は、例えばIP(Internet Protocol)アドレスである。
 図3を参照して、本実施形態の受信端末4の構成について詳細に説明する。受信端末4は、受信部41、出力制御部42、音声出力部43、表示部44を含む。受信端末4は、例えば、スマートフォン、ノートパソコン、及びデスクトップパソコンのいずれかである。図4の例では、受信端末4はデスクトップパソコンである。図4には、送信端末2を用いる参加者TP1が撮影されて部分画像が重畳された画像が、受信端末4の表示部44に表示される例が示されている。
 受信部41は、出力制御情報を遠隔会議実行装置3から受信する。受信部41は、出力制御情報を出力制御部42に出力する。
 出力制御部42は、出力制御情報に基づき音声出力部43と表示部44とを制御する。出力制御部42は、出力制御情報に基づき音声データに応じた音声を音声出力部43に出力させる。出力制御部42は、音声出力部43から出力される音声に応じたタイミングで画像が表示されるように、出力制御情報に基づき画像を表示部44に表示させる。
 音声出力部43は、出力制御部42の制御を受けて音声を出力する。音声出力部43は、例えば、受信端末4に内蔵されたスピーカーである。
 表示部44は、出力制御部42の制御を受けて画像を表示する。表示部44は、例えば、受信端末4に内蔵された、あるいは受信端末4に接続されたディスプレイである。図4に示されるように、表示部44には、送信端末2を用いる参加者TP1の発話の内容及び感情に応じて変形させた部分画像が重畳された重畳画像が表示される。
 このように、遠隔会議実行装置3は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。遠隔会議実行装置3は、画像又は音声から、参加者の発話の内容及び感情を推定する。遠隔会議実行装置3は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させ、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。参加者の発話の内容及び感情に応じて変形させた部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にするので、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。
 次に、図9から図10を参照して、本実施形態の遠隔会議実行システムの動作例を説明する。図9は、遠隔会議実行システムの動作例を示すシーケンス図である。図10は、遠隔会議実行装置3の動作例を示すフローチャートである。
 まず、図9を参照して、遠隔会議実行システムの動作を説明する。遮蔽範囲が検出できない場合の遠隔会議実行装置3の動作は、図10を参照して後述する。図9においては、遮蔽範囲が検出できた場合の遠隔会議実行システムの動作が示される。
 送信端末2の撮影部21は、撮影を行う。音声入力部22は、参加者の音声の入力を受け付ける(ステップS201)。撮影部21は、参加者の顔に応じた画像データを送信部23に出力する。音声入力部22は、音声に応じたデータである音声データを送信部23に出力する。
 送信部23は、送信端末2を用いる参加者の参加者識別情報と画像データと音声データとを関連付けて遠隔会議実行装置3に送信する(ステップS202)。
 遠隔会議実行装置3の取得部31は、送信端末2を用いる参加者の参加者識別情報と画像データと音声データとを送信端末2から受信する。このように、取得部31は、参加者の顔の画像と参加者の音声とを取得する。
 取得部31は、取得した参加者識別情報と画像データとを関連付けて検出部32と重畳部35とに出力する。取得部31は、音声データ及び画像データの少なくとも一方と、取得した参加者識別情報とを関連付けて推定部33に出力する。取得部31は、取得した参加者の参加者識別情報と画像データと音声データとを関連付けて制御情報生成部37に出力する。
 検出部32は、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する(ステップS203)。検出部32は、遮蔽された一部分を示す部分情報、遮蔽部分の範囲を示す情報、及び入力された参加者識別情報を関連付けて画像変形部34に出力する。
 推定部33は、取得部31によって取得された画像又は取得部31によって取得された音声から参加者の発話の内容及び感情を推定する(ステップS204)。推定部33は、推定対象の参加者の参加者識別情報、タイミング情報、感情の推定の結果を示す推定感情情報、及び発話の内容の推定の結果を示す推定発話情報を関連付けて画像変形部34に出力する。
 画像変形部34は、顔の一部が遮蔽された参加者の参加者識別情報と部分情報とに基づき部分画像を部分画像記憶部36から読み出す(ステップS205)。画像変形部34は、部分画像記憶部36から読み出した部分画像を参加者の発話の内容及び感情に応じて変形させる(ステップS206)。画像変形部34は、タイミング情報、変形させた部分画像のデータである部分画像データ、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された参加者の参加者識別情報を関連付けて重畳部35に出力する。
 重畳部35は、画像変形部34が変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する(ステップS207)。重畳部35は、タイミング情報、顔の一部が遮蔽された参加者の参加者識別情報、及び重畳画像のデータである重畳画像データを関連付けて制御情報生成部37に出力する。
 制御情報生成部37は、発話の内容及び感情の推定が行われた音声のタイミングで、重畳画像を表示部(本例では、受信端末4の表示部44)に表示させる出力制御情報を生成する(ステップS208)。制御情報生成部37は、生成した出力制御情報を送信部38に出力する。
 送信部38は、通信先情報に示される通信先へ出力制御情報を送信する(ステップS209)。通信先には受信端末4が含まれる。
 受信端末4の受信部41は、出力制御情報を遠隔会議実行装置3から受信する。受信部41は、出力制御情報を出力制御部42に出力する。
 出力制御部42は、出力制御情報に基づき音声出力部43と表示部44とを制御する(ステップS210)。ステップS210において、出力制御部42は、出力制御情報に基づき音声データに応じた音声を音声出力部43に出力させる。ステップS210において、出力制御部42は、音声出力部43から出力される音声に応じたタイミングで画像が表示されるように、出力制御情報に基づき重畳画像を表示部44に表示させる。
 音声出力部43は、出力制御部42の制御を受けて音声を出力する。表示部44は、出力制御部42の制御を受けて画像を表示する(ステップS211)。ステップS211において表示される画像は、重畳画像である。
 次に、図10を参照して、遠隔会議実行装置3の動作を説明する。図10の動作は、図9のステップS203からステップS209の動作を詳述するものである。
 取得部31は、送信端末2を用いる参加者の参加者識別情報と参加者の顔に応じた画像データと参加者の音声に応じた音声データとを送信端末2から受信する。このように、取得部31は、参加者の顔の画像と参加者の音声とを取得する(ステップS301)。
 取得部31は、取得した参加者識別情報と画像データとを関連付けて検出部32と重畳部35とに出力する。取得部31は、音声データ及び画像データの少なくとも一方と、取得した参加者識別情報とを関連付けて推定部33に出力する。例えば、後述するステップS303において、推定部33が音声データを発話の内容及び感情の推定に用いる場合、取得部31は、音声データと参加者識別情報とを関連付けて推定部33に出力する。取得部31は、取得した参加者の参加者識別情報と画像データと音声データとを関連付けて制御情報生成部37に出力する。
 検出部32は、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する(ステップS302)。遮蔽部分が検出できた場合(ステップS302、YES)、検出部32は、遮蔽された一部分を示す部分情報、遮蔽部分の範囲を示す情報、及び入力された参加者識別情報を関連付けて画像変形部34に出力する。
 遮蔽部分を検出できない場合(ステップS302、NO)、検出部32は、遮蔽部分を検出できないことを制御情報生成部37に通知する。また、推定部33は、ステップS303の動作を行わない。画像変形部34は、ステップS304からステップS305の動作を行わない。重畳部35は、ステップS306の動作を行わない。
 推定部33は、ステップS301において取得された画像又は取得された音声から参加者の発話の内容及び感情を推定する(ステップS303)。推定部33は、推定対象の参加者の参加者識別情報、タイミング情報、推定感情情報、及び推定発話情報を関連付けて画像変形部34に出力する。
 ステップS304において、推定部33の感情推定部331は、音声の解析結果、又は参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて感情を推定する。また、ステップS304において、発話推定部332は、音声の解析結果に基づいて参加者の発話の内容を推定する。推定部33は、任意の順序で発話の内容の推定と感情の推定とを行う。例えば、感情推定部331による感情の推定と発話推定部332による発話の内容の推定とは並行して行われてもよい。また、発話推定部332による発話の内容の推定が行われた後に感情推定部331による感情の推定が行われてもよい。
 画像変形部34は、顔の一部が遮蔽された参加者の参加者識別情報と部分情報とに基づき参加者の部分画像を部分画像記憶部36から読み出す(ステップS304)。
 画像変形部34は、部分画像記憶部36から読み出した部分画像を参加者の発話の内容及び感情に応じて変形させる(ステップS305)。ステップS305において、画像変形部34は、推定部33による感情の推定の結果を示す推定感情情報、及び発話の内容の推定の結果を示す推定発話情報に基づいて部分画像を変形させる。画像変形部34は、タイミング情報、変形させた部分画像の部分画像データ、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された参加者の参加者識別情報を関連付けて重畳部35に出力する。
 重畳部35は、ステップS305において画像変形部34が変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する(ステップS306)。重畳部35は、タイミング情報、顔の一部が遮蔽された参加者の参加者識別情報、及び重畳画像の重畳画像データを関連付けて制御情報生成部37に出力する。
 制御情報生成部37は、出力制御情報を生成する(ステップS307)。重畳画像データが入力された場合、制御情報生成部37は、発話の内容及び感情の推定が行われた音声のタイミングで、重畳画像を表示部(本例では、受信端末4の表示部44)に表示させる出力制御情報を生成する。
 ステップS302において遮蔽部分を検出できないことを通知された場合、制御情報生成部37は、ステップS308において次の動作を行う。制御情報生成部37は、取得部31によって取得された音声に応じたタイミングで、取得部31によって取得された画像を表示部(本例では、受信端末4の表示部44)に表示させる出力制御情報を生成する。制御情報生成部37は、出力制御情報を送信部38に出力する。
 送信部38は、通信先情報に示される通信先へ出力制御情報を送信する(ステップS308)。
 なお、遠隔会議実行装置3は、ステップS302からステップS307の動作を任意の順序で行うことができる。例えば、遠隔会議実行装置3は、次の順序で動作してもよい。
 検出部32がステップS302の動作を行う。次に、画像変形部34は、ステップS304の動作を行う。そして、ステップS306の動作の代わりに、重畳部35が、画像変形部34が変形させる前の部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させる。画像変形部34が、ステップS305の動作の代わりに、重畳画像を参加者の発話の内容及び感情に応じて変形させる。制御情報生成部37がステップS307の動作を行う。なお、推定部33は、画像変形部34による画像の変形処理が開始される前にステップS303の動作を行う。
 以上で説明したように、本実施形態の遠隔会議実行装置3は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。遠隔会議実行装置3は、画像又は音声から、参加者の発話の内容及び感情を推定する。遠隔会議実行装置3は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる。遠隔会議実行装置3は、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。参加者の発話の内容及び感情に応じて変形させた部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にするので、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。
 本実施形態の遠隔会議実行装置3は、遮蔽部分を検出できない場合、取得された音声に応じたタイミングで、取得された画像を表示部に表示させる出力制御情報を生成する。参加者がマスクを着用している間は遮蔽部分が検出できるので、遠隔会議実行装置3は、重畳画像を表示部に表示させる出力制御情報を受信端末4へ送信する。参加者がマスクを外した後、遠隔会議実行装置3は遮蔽部分を検出できないので、画像が変形されていない取得された画像を表示部に表示させる出力制御情報を送信する。これにより、送信端末2を用いる参加者が遠隔会議の途中でマスクを外した場合、変形させた部分画像を遮蔽部分に応じた範囲に重畳させた重畳画像の受信端末4の表示部44への表示を停止することができる。
 [第二の実施形態の変形例1]
 第二の実施形態の変形例1の遠隔会議実行装置は、部分画像の変形処理に機械学習を利用する。本変形例の画像変形部は、モデル生成機能を備える。学習データには、例えば、発話の内容及び感情の少なくとも一方が異なる複数の人物の顔画像、顔画像の各々が表す感情を示す情報、及び複数の顔画像に撮影された人物の各々の発話の内容を示す情報が含まれる。本変形例の画像変形部は、学習データに基づいて、発話の内容及び感情に応じて部分画像を変形する変形モデルを生成する。画像変形部は、生成した変形モデルを使用して、部分画像を推定された発話の内容及び感情に応じて変形させる。変形モデルへの入力は、部分画像データ、推定感情情報、及び推定発話情報である。変形モデルからの出力は、変形させた部分画像を示す部分画像データである。
 [第二の実施形態の変形例2]
 第二の実施形態の変形例2の遠隔会議実行装置の画像変形部は、部分画像の変形処理に加えて、取得部により取得された参加者の顔画像のうち遮蔽されていない部分も発話の内容及び感情に応じて変形させる。例えば、図4のように、参加者TP1の口がマスクによって遮蔽されている場合、本変形例の画像変形部は、取得部により取得された画像データの参加者TP1の顔画像の遮蔽されていない部分(図4の例では、目)を発話の内容及び感情に応じて変形させる。
 本変形例の重畳部は、画像変形部によって変形させた画像中の遮蔽部分に応じた範囲に、画像変形部が変形させた部分画像を重畳させた重畳画像を生成する。
 本変形例の遠隔会議実行装置の画像変形部は、参加者の顔画像の遮蔽されていない部分も発話の内容及び感情に応じて変形させる。本変形例の遠隔会議実行装置の重畳部は、参加者の顔画像の遮蔽されていない部分も変形させた重畳画像を生成する。これにより、本変形例の遠隔会議実行装置は、変形させた部分画像が表す表情と、参加者の顔画像のうち遮蔽されていない部分が表す表情とを一致させることができる。これにより、本変形例の遠隔会議実行装置は、変形させた部分画像の表情と、顔画像のうち遮蔽されていない部分の表情とを一致させることができる。このため、本変形例の遠隔会議実行装置は、不自然な表情が受信端末の表示部に表示される可能性を低減することができる。
 [第二の実施形態の変形例3]
 第二の実施形態の変形例3の遠隔会議実行装置は、送信端末である。例えば、遠隔会議実行装置3の機能を実現させる遠隔会議実行プログラムが送信端末2にインストールされることにより、送信端末が遠隔会議実行装置3の機能を備える。本変形例について、第二の実施形態の遠隔会議実行装置3と異なる点を説明する。
なお、検出部、推定部、画像変形部、重畳部、制御情報生成部の構成は、図3に示す第二の実施形態における遠隔会議実行装置3の構成と同様であるので、説明を省略する。
 本変形例の取得部には、音声入力部から音声データが入力され、かつ撮影部から画像データが入力される。このように、本変形例の取得部は、参加者の顔の画像と参加者の音声とを取得する。
 本変形例の部分画像記憶部に記憶される部分画像情報には、少なくとも送信端末を用いて遠隔会議に参加する参加者の部分画像情報が記憶される。
 本変形例の会議情報記憶部には、遠隔会議を制御するサーバーを示す通信先情報が記憶される。
 本変形例の送信部は、通信先情報に示される通信先であるサーバーへ出力制御情報を送信する。なお、出力制御情報は、サーバーを介して受信端末へ送信される。
 なお、遠隔会議実行装置は、受信端末であってもよい。受信端末が遠隔会議実行装置の機能を備える場合、遠隔会議を制御するサーバーを介して送信端末から送信された、送信端末を用いる参加者の参加者識別情報と画像データと音声データとを取得する。また、出力制御部が、制御情報生成部によって生成された出力制御情報を用いて音声出力部と表示部とを制御する。受信端末が遠隔会議実行装置の機能を備える場合、検出部、推定部、画像変形部、重畳部、制御情報生成部の構成は、図3に示す第二の実施形態における遠隔会議実行装置3の構成と同様である。
 [第三の実施形態]
 次に、本発明の第三の実施の形態における遠隔会議実行装置5について具体的に説明する。
 図11は、本発明における第三の実施形態の遠隔会議実行システムの構成例を示すブロック図である。図11に示すように、遠隔会議実行システムは、送信端末6と遠隔会議実行装置5と受信端末4とを含む。また、送信端末6は、撮影装置7と音声入力装置8とに接続される。
 第三の実施形態において、遠隔会議実行装置5は、基本的に第二の実施形態の遠隔会議実行装置3の構成と機能とを含む。第三の実施形態の遠隔会議実行装置5は、第二の実施形態の遠隔会議実行装置3と次の点で異なる。第三の実施形態の遠隔会議実行装置5は、取得部51が取得した各参加者の画像及び音声に基づいて、複数の参加者のうち発話者を特定する点で異なる。また、検出部52、推定部33、画像変形部34、及び重畳部35は、発話者を対象に処理を実行する点で異なる。
 図11から図13を参照して、本実施形態の遠隔会議実行システムの構成の各々について詳細に説明する。
 図12は、第三の実施形態の遠隔会議の様子を模式的に示した図である。図12には、送信端末6に接続された撮影装置7によって撮影される参加者(図12の例では、参加者TP1、参加者TP2、参加者TP3、及び参加者TP4)の様子が示される。図12のように、COVID-19等の感染を避けるために遠隔会議に参加する参加者がマスクを装着して遠隔会議に参加することが想定される。
 撮影装置7は、遠隔会議に参加している複数の参加者(図12の例では、参加者TP1~参加者TP4)を撮影可能な位置に設置される。図12に示される例では、撮影装置7は、会議資料を表示する外部ディスプレイの上部に設置される。図12に示される例では、撮影装置7は、送信端末6と有線で通信するが、撮影装置7は、送信端末6と無線で通信してもよい。撮影装置7は、撮影を行い、画像データを送信端末6に送信する。撮影装置7は、第二の実施形態の送信端末2の撮影部21に対応する。
 図13は、第三の実施形態の撮影装置7によって撮影された画像IM2を模式的に示した図である。図13は、図12に示される参加者TP1~参加者TP4が撮影装置7に向かって顔を向けて撮影された場合の画像の例である。撮影装置7によって撮影される参加者は、顔を撮影装置7に向けていなくてもよい。
 音声入力装置8は、遠隔会議に参加している複数の参加者(図12の例では、参加者TP1~TP4)の音声の入力を受け付けることが可能な位置に設置される。音声入力装置8は、音声の入力を受ける。音声入力装置8は、音声に応じたデータである音声データを送信端末6に送信する。音声入力装置8は、第二の実施形態の送信端末2の音声入力部22に対応する。
 図11を参照して、本実施形態の送信端末6の構成について説明する。
 送信端末6は、送受信部61を含む。図12の例では、送信端末6はノートパソコンである。
 送受信部61は、撮影装置7から画像データを受信する。送受信部61は、音声入力装置8から音声データを受信する。送受信部61は、画像データと音声データとを関連付けて遠隔会議実行装置5に送信する。
 図11を参照して、本実施形態の遠隔会議実行装置5の構成について説明する。
 遠隔会議実行装置5は、取得部51、検出部52、推定部33、画像変形部34、及び重畳部35を含む。発話者特定部53は、少なくとも取得部51から入力を受ける。会議情報記憶部39、及び特徴量記憶部54については、後述する。
 また、本実施形態における遠隔会議実行装置5の部分画像記憶部36、送信部38、及び会議情報記憶部39の構成は、図3に示す第二の実施形態における構成の各々と同様であるので、対応する要素に図3と同じ符号を付して共通する説明を省略する。
 取得部51は、参加者の顔の画像と参加者の音声とを取得する。取得部51は、音声データ及び画像データを関連付けて発話者特定部53と制御情報生成部37とに出力する。
 発話者特定部53は、発話者特定手段の一例である。発話者特定部53は、取得部51が取得した各参加者の画像及び音声に基づいて、複数の参加者のうち発話している参加者である発話者を特定する。発話者特定部53は、発話者が撮影された画像の範囲を特定して発話者範囲情報を生成する。発話者範囲情報は、発話者が撮影された画像の範囲を示す。発話者特定部53は、発話者範囲情報、発話者の参加者識別情報、画像データ、及び音声データを関連付けて検出部52、推定部33、及び重畳部35に出力する。
 発話者を特定できない場合、発話者特定部53は、発話者を特定できないことを制御情報生成部37に通知する。
 発話者特定部53が行う画像認識について詳細に説明する。
 発話者特定部53には、音声データ及び画像データが取得部51から入力される。発話者特定部53は、画像データから顔画像の特徴量を抽出する。画像データの画像に複数の参加者が含まれる場合、発話者特定部53は、画像に含まれる参加者の各々の顔画像の特徴量を抽出する。発話者特定部53は、予め設定された任意の方法を用いて顔画像から特徴量を抽出する。発話者特定部53は、抽出結果を示す顔画像特徴量との類似度が所定の値以上の顔画像特徴量が、特徴量記憶部54に記憶されているか否かを照合する。
 特徴量記憶部54には、遠隔会議に参加する参加者の参加者識別情報、遠隔会議に参加する参加者の顔画像の特徴量である顔画像特徴量、及び遠隔会議に参加する参加者の音声の特徴量である音声特徴量が、関連付けられて予め記憶される。
 図14は、遠隔会議実行装置5の特徴量記憶部54に記憶される顔画像特徴量及び音声特徴量の一例を示す図である。図14の例では、参加者識別情報が「ID1」、及び「ID2」である参加者の各々に、その参加者の顔画像の特徴量である顔画像特徴量、及び音声の特徴量である音声特徴量が関連づけられて特徴量記憶部54に記憶される。
 発話者特定部53は、抽出結果を示す顔画像特徴量との類似度が所定の値以上の顔画像特徴量が、特徴量記憶部54に記憶されているか否かを照合して次の動作を行う。発話者特定部53は、抽出結果を示す顔画像特徴量との類似度が所定の値以上の顔画像特徴量に関連付けられて特徴量記憶部54に記憶されている参加者識別情報を特定する。発話者特定部53は、一つの画像から抽出された顔画像特徴量の各々について、参加者識別情報の特定を行う。発話者特定部53が、顔画像特徴量を用いて参加者識別情報の特定を行うことにより、撮影装置7により撮影された複数の参加者の各々の参加者識別情報を特定することができる。また、以後、発話者特定部53が、顔画像特徴量を用いて参加者識別情報の特定を行う処理を画像認識処理と呼ぶ。
 発話者特定部53が行う音声認識について詳細に説明する。
 発話者特定部53は、予め設定された任意の方法を用いて音声データに応じた音声から特徴量を抽出する。発話者特定部53は、抽出結果を示す音声特徴量との類似度が所定の値以上の音声特徴量が、特徴量記憶部54に記憶されているか否かを照合する。発話者特定部53は、抽出結果を示す音声特徴量との類似度が所定の値以上の音声特徴量に関連付けられて特徴量記憶部54に記憶されている参加者識別情報を特定する。発話者特定部53が、音声特徴量を用いて参加者識別情報の特定を行うことにより、音声入力装置8に入力された音声を発した発話者の参加者識別情報を特定することができる。また、以後、発話者特定部53が、音声特徴量を用いて参加者識別情報の特定を行う処理を音声認識処理と呼ぶ。
 発話者特定部53は、画像認識処理において特定した参加者識別情報に音声認識処理において特定した参加者識別情報が含まれるか否かを判定する。画像認識処理において特定した参加者識別情報に音声認識処理において特定した参加者識別情報が含まれる場合、発話者特定部53は発話者を特定できたと判定する。発話者を特定できたと判定した場合、発話者特定部53は、音声認識処理において特定した参加者識別情報の参加者を発話者であると特定する。
 画像認識処理において特定した参加者識別情報に音声認識処理において特定した参加者識別情報が含まれない場合、又は、音声認識処理において参加者識別情報を特定できない場合、発話者特定部53は発話者を特定できないと判定する。例えば、発話者を特定できない場合とは、撮影装置7の撮影可能なエリアの外にいる参加者が発話した場合が想定される。あるいは、撮影装置7に撮影された発話者が俯いていたり他方を向いていたりするために画像認識処理において発話者の参加者識別情報が特定できない場合が想定される。
 なお、発話者特定部53は、画像から発話者を特定してもよい。例えば、遮蔽部分が目の場合、取得部51が取得した各参加者の画像のうち、発話者に応じた画像の口の部分が動く。発話者特定部53は、画像から参加者を特定し、参加者のうち口の部分の画像に動きが検知された参加者を発話者として特定してもよい。
 検出部52には、発話者範囲情報、発話者の参加者識別情報、画像データ、及び音声データが発話者特定部53から入力される。検出部52は、発話者範囲情報に示される範囲の取得された画像から、顔の一部分が遮蔽された発話者の遮蔽部分を検出する。検出部52は、遮蔽された一部分を示す部分情報と遮蔽部分の範囲を示す情報と発話者の参加者識別情報とを関連付けて画像変形部34に出力する。遮蔽部分を検出できない場合、検出部52は、遮蔽部分を検出できないことを制御情報生成部37に通知する。
 推定部33には、発話者範囲情報、発話者の参加者識別情報、画像データ、及び音声データが発話者特定部53から入力される。推定部33は、発話者範囲情報に示される範囲に応じた部分の画像、又は取得部51によって取得された音声から発話者の発話の内容及び感情を推定する。
 推定部33の感情推定部331と発話推定部332と出力部333の各々は、画像データではなく、発話者範囲情報に示される範囲に応じた部分の画像を用いる点を除いて第二の実施形態と同様である。したがって、対応する要素に図3と同じ符号を付して推定部33の構成の説明を省略する。
 画像変形部34の構成は、図3に示す第二の実施形態における構成と同様であるので、対応する要素に図3と同じ符号を付して説明を省略する。
 本実施形態における遠隔会議実行装置5の重畳部35の構成は、図3に示す第二の実施形態における構成の各々と同様であるので、対応する要素に図3と同じ符号を付して共通する説明を省略する。
 重畳部35には、発話者範囲情報、発話者の参加者識別情報、画像データ、及び音声データが入力される。重畳部35には、タイミング情報、変形させた部分画像を示す部分画像データ、遮蔽部分の範囲を示す情報、及び顔の一部が遮蔽された発話者の参加者識別情報が画像変形部34から入力される。
 重畳部35は、画像変形部34が変形させた部分画像を発話者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。重畳部35は、タイミング情報、発話者の参加者識別情報、及び重畳画像の重畳画像データを関連付けて制御情報生成部37に出力する。
 図15は、第三の実施形態の遠隔会議実行装置5による部分画像PIM1´を遠隔会議において撮影された画像IM2に重畳する処理を説明するための模式図である。図15は、タイミング情報、変形させた部分画像PIM1´の部分画像データ、及び発話者TP1を示す参加者識別情報が画像変形部34から重畳部35に入力された場合の例である。重畳部35は、画像IM2の発話者TP1の遮蔽部分の範囲を示す情報に基づき、部分画像PIM1´を画像IM2に重畳させた重畳画像IM2´を生成する。
 制御情報生成部37は、発話者を特定できないこと、又は遮蔽部分を検出できないことを通知された場合、次の処理を行う。制御情報生成部37は、取得部51によって取得された音声に応じたタイミングで、取得部51によって取得された画像を表示部(本例では、受信端末4の表示部44)に表示させる出力制御情報を生成する。発話者が特定でき、かつ遮蔽部分が検出できた場合の本実施形態の制御情報生成部37の処理は、遮蔽部分が検出できた場合の第二の実施形態の制御情報生成部37が行う処理と同様であるため、説明を省略する。
 このように、検出部52、推定部33、画像変形部34、及び重畳部35は、発話者を対象に処理を実行する。
 本実施形態における受信端末4の各構成は、図3に示す第二の実施形態における構成の各々と同様であるので、対応する要素に図3と同じ符号を付して説明を省略する。
 このように、本実施形態の遠隔会議実行装置5は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。遠隔会議実行装置5は、画像又は音声から、参加者の発話の内容及び感情を推定する。遠隔会議実行装置5は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる。遠隔会議実行装置5は、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する。参加者の発話の内容及び感情に応じて変形させた部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にするので、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の表情を他の参加者に把握させることが可能になる。
 次に、図16を参照して、本実施形態の遠隔会議実行装置5の動作例を説明する。図16は、遠隔会議実行装置5の動作例を示すフローチャートである。
 取得部51は、参加者の顔の画像と参加者の音声とを送信端末6から受信することにより取得する(ステップS401)。
 発話者特定部53は、取得部51が取得した各参加者の画像及び音声に基づいて、複数の参加者のうち発話している参加者である発話者を特定する(ステップS402)。
 発話者を特定できない場合(ステップS402、NO)、発話者特定部53は、発話者を特定できないことを制御情報生成部37に通知する。また、検出部52はステップS403の動作を行わない。推定部33は、ステップS404の動作を行わない。画像変形部34は、ステップS405及びステップS406の動作を行わない。重畳部35は、ステップS407の動作を行わない。
 発話者を特定できた場合(ステップS402、YES)、発話者特定部53は、発話者範囲情報、発話者の参加者識別情報、画像データ、及び音声データを関連付けて検出部52、推定部33、及び重畳部35に出力する。
 検出部52は、発話者範囲情報に示される範囲の画像から、顔の一部分が遮蔽された発話者の遮蔽部分を検出する(ステップS403)。
 遮蔽部分を検出できた場合(ステップS403、YES)、検出部52は、遮蔽された一部分を示す部分情報と遮蔽部分の範囲を示す情報と発話者の参加者識別情報とを関連付けて画像変形部34に出力する。
 遮蔽部分を検出できない場合(ステップS403、NO)、検出部52は、遮蔽部分を検出できないことを制御情報生成部37に通知する。また、推定部33は、ステップS404の動作を行わない。画像変形部34は、ステップS405及びステップS406の動作を行わない。重畳部35は、ステップS407の動作を行わない。
 推定部33は、発話者範囲情報に示される範囲に応じた部分の画像、又は取得部51によって取得された音声から発話者の発話の内容及び感情を推定する(ステップS404)。推定部33は、発話者の参加者識別情報、タイミング情報、感情の推定の結果を示す推定感情情報、及び発話の推定の結果を示す推定発話情報を関連付けて画像変形部34に出力する。
 画像変形部34は、部分情報と発話者の参加者識別情報とに基づき発話者の部分画像を部分画像記憶部36から読み出す(ステップS405)。
 画像変形部34は、部分画像記憶部36から読み出した部分画像を発話者の発話の内容及び感情に応じて変形させる(ステップS406)。画像変形部34は、タイミング情報、変形させた部分画像を示す部分画像データ、遮蔽部分の範囲を示す情報、及び発話者の参加者識別情報を関連付けて重畳部35に出力する。
 重畳部35は、画像変形部34が変形させた部分画像を発話者の画像中の遮蔽部分に応じた範囲に重畳させた重畳画像を生成する(ステップS407)。重畳部35は、タイミング情報、顔の一部が遮蔽された発話者の参加者識別情報、及び重畳画像の重畳画像データを制御情報生成部37に出力する。
 制御情報生成部37は、出力制御情報を生成する(ステップS408)。重畳画像データが重畳部35から入力された場合、制御情報生成部37は、ステップS408において次の動作を行う。重畳画像データが入力された場合、制御情報生成部37は、発話の内容及び感情の推定が行われた音声のタイミングで、重畳画像を表示部(本例では、受信端末4の表示部44)に表示させる出力制御情報を生成する。
 発話者を特定できない、又は遮蔽部分を検出できないことを通知された場合、制御情報生成部37はステップS408において次の処理を行う。制御情報生成部37は、取得部51によって取得された音声と画像とに基づき出力制御情報を生成する。制御情報生成部37は、出力制御情報を送信部38に出力する。
 送信部38は、通信先情報に示される通信先へ出力制御情報を送信する(ステップS409)。
 以上で説明したように、本実施形態の遠隔会議実行装置5は、参加者の顔の画像と参加者の音声とを取得し、顔の一部分が遮蔽された参加者の遮蔽部分を画像から検出する。遠隔会議実行装置5は、画像又は音声から、参加者の発話の内容及び感情を推定する。遠隔会議実行装置5は、参加者の顔の遮蔽された一部分の画像である部分画像を参加者の発話の内容及び感情に応じて変形させる。遠隔会議実行装置5は、変形させた部分画像を参加者の画像中の遮蔽部分に応じた範囲に重畳させた部分画像を生成する。参加者の発話の内容及び感情に応じて変形した部分画像を重畳させた重畳画像を他の参加者へ示すことを可能にするので、顔の一部分が遮蔽されたまま遠隔会議に参加している参加者の感情を、他の参加者に把握させることが可能になる。
 本実施形態の遠隔会議実行装置5は、取得部51が取得した各参加者の画像及び音声に基づいて、複数の参加者のうち発話している参加者である発話者を特定する。遠隔会議実行装置5は、参加者の部分画像が記憶された部分画像記憶部36から特定された発話者の検出された遮蔽部分に応じた顔の部分画像を取得する。遠隔会議実行装置5は、発話者の部分画像を発話者の発話の内容及び感情に応じて変形させ、特定された発話者の遮蔽部分に応じた範囲に部分画像を重畳させる。本実施形態の遠隔会議実行装置5は、複数の参加者の口が遮蔽されている場合でも発話者を特定することができる。これにより、遠隔会議の受信端末4を用いる参加者は、顔の一部分が遮蔽されたの複数の参加者の画像が表示された場合、発話者を容易に把握することができる。また、遠隔会議の受信端末4を用いる参加者は、発話者の表情を容易に把握することができる。
 [ハードウェア構成例]
 上記した各実施形態に示した手順は、遠隔会議実行装置として機能する情報処理装置(コンピュータ)に、これらの装置としての機能を実現させる遠隔会議実行プログラムにより実現可能である。
 上述した本発明の各実施形態における遠隔会議実行装置(1,3,5)の各々を、一つの情報処理装置(コンピュータ)を用いて実現するハードウェア資源の構成例について説明する。なお、遠隔会議実行装置は、物理的または機能的に少なくとも二つの情報処理装置を用いて実現してもよい。また、遠隔会議実行装置は、専用の装置として実現してもよい。また、遠隔会議実行装置の一部の機能のみを情報処理装置を用いて実現してもよい。
 図17は、本発明における各実施形態の遠隔会議実行装置を実現可能な情報処理装置のハードウェア構成例を概略的に示す図である。情報処理装置9は、通信インタフェース91、入出力インタフェース92、演算装置93、記憶装置94、不揮発性記憶装置95及びドライブ装置96を含む。
 例えば、図1の遠隔会議実行装置1の取得部11は、通信インタフェース91及び演算装置93で実現することが可能である。図1の遠隔会議実行装置1の検出部12、推定部13、画像変形部14、及び重畳部15は、演算装置93で実現することが可能である。
 通信インタフェース91は、各実施形態の遠隔会議実行装置が、有線あるいは/及び無線で外部装置と通信するための通信手段である。なお、遠隔会議実行装置を、少なくとも二つの情報処理装置を用いて実現する場合、それらの装置の間を通信インタフェース91経由で相互に通信可能なように接続してもよい。
 入出力インタフェース92は、入力デバイスの一例であるキーボードや、出力デバイスとしてのディスプレイ等のマンマシンインタフェースである。
 演算装置93は、汎用のCPU(Central Processing Unit)やマイクロプロセッサ等の演算処理装置や複数の電気回路によって実現される。演算装置93は、例えば、不揮発性記憶装置95に記憶された各種プログラムを記憶装置94に読み出し、読み出したプログラムに従って処理を実行することが可能である。
 記憶装置94は、演算装置93から参照可能な、RAM(Random Access Memory)等のメモリ装置であり、プログラムや各種データ等を記憶する。記憶装置94は、揮発性のメモリ装置であってもよい。
 不揮発性記憶装置95は、例えば、ROM(Read Only Memory)、フラッシュメモリ、等の、不揮発性の記憶装置であり、各種プログラムやデータ等を記憶することが可能である。
 ドライブ装置96は、例えば、後述する記録媒体97に対するデータの読み込みや書き込みを処理する装置である。
 記録媒体97は、例えば、光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な任意の記録媒体である。
 本発明の各実施形態は、例えば、図17に例示した情報処理装置9により遠隔会議実行装置を構成してもよい。そして、本発明の各実施形態は、この遠隔会議実行装置に対して、上記各実施形態において説明した機能を実現可能なプログラムを供給することにより実現してもよい。
 この場合、遠隔会議実行装置に対して供給したプログラムを、演算装置93が実行することによって、実施形態を実現することが可能である。また、遠隔会議実行装置のすべてではなく、一部の機能を情報処理装置9で構成することも可能である。
 さらに、上記プログラムを記録媒体97に記録しておき、遠隔会議実行装置の出荷段階、あるいは運用段階等において、適宜上記プログラムが不揮発性記憶装置95に格納されるように、遠隔会議実行装置を構成してもよい。なお、この場合、上記プログラムの供給方法は、出荷前の製造段階、あるいは運用段階等において、適当な治具を利用して遠隔会議実行装置の内にインストールする方法を採用してもよい。また、上記プログラムの供給方法は、インターネット等の通信回線を介して外部からダウンロードする方法等の一般的な手順を採用してもよい。
 なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 コンピュータに、
 参加者の顔の画像と前記参加者の音声とを取得する取得機能と、
 顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出する検出機能と、
 前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定する推定機能と、
 前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させる画像変形機能と、
 変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳機能と、
 を実現させる遠隔会議実行プログラム。
 (付記2)
 前記推定機能は、前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
 前記推定機能は、前記音声の解析結果に基づいて前記発話の内容を推定し、
 前記画像変形機能は、前記推定機能による推定の結果に基づいて前記部分画像を変形させる
 付記1に記載の遠隔会議実行プログラム。
 (付記3)
 前記画像変形機能は、前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
 付記1又は付記2に記載の遠隔会議実行プログラム。
 (付記4)
 前記検出機能は、口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
 付記1から付記3のいずれか1項に記載の遠隔会議実行プログラム。
 (付記5)
 前記取得機能が取得した各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定する発話者特定機能をさらに備え、
 前記検出機能、前記推定機能、前記画像変形機能、及び前記重畳機能は、前記発話者を対象に処理を実行する
 付記1から付記4のいずれか1項に記載の遠隔会議実行プログラム。
 (付記6)
 参加者の顔の画像と前記参加者の音声とを取得し、
 顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出し、
 前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定し、
 前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させ、
 変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する、
 遠隔会議実行方法。
 (付記7)
 前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
 前記音声の解析結果に基づいて前記発話の内容を推定し
 推定の結果に基づいて前記部分画像を変形させる
 付記6に記載の遠隔会議実行方法。
 (付記8)
 前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
 付記6又は付記7に記載の遠隔会議実行方法。
 (付記9)
 口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
 付記6から付記8のいずれか1項に記載の遠隔会議実行方法。
 (付記10)
 取得された各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定し、
 前記検出の処理、前記推定の処理、前記画像の変形の処理、及び前記重畳の処理は、前記発話者を対象に実行される
 付記6から付記9のいずれか1項に記載の遠隔会議実行方法。
 (付記11)
 参加者の顔の画像と前記参加者の音声とを取得する取得手段と、
 顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出する検出手段と、
 前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定する推定手段と、
 前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させる画像変形手段と、
 変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳手段と、
 を備える遠隔会議実行装置。
 (付記12)
 前記推定手段は、前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
 前記推定手段は、前記音声の解析結果に基づいて前記発話の内容を推定し、
 前記画像変形手段は、前記推定手段による推定の結果に基づいて前記部分画像を変形させる
 付記11に記載の遠隔会議実行装置。
 (付記13)
 前記画像変形手段は、前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
 付記11又は付記12に記載の遠隔会議実行装置。
 (付記14)
 前記検出手段は、口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
 付記11から付記13のいずれか1項に記載の遠隔会議実行装置。
 (付記15)
 前記取得手段が取得した各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定する発話者特定手段をさらに備え、
 前記検出手段、前記推定手段、前記画像変形手段、及び前記重畳手段は、前記発話者を対象に処理を実行する
 付記11から付記14のいずれか1項に記載の遠隔会議実行装置。
 この出願は、2021年12月10日に出願された日本出願特願2021-200592を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1、3、5  遠隔会議実行装置
 11、31、51  取得部
 12、32、52  検出部
 13、33  推定部
 331  感情推定部
 332  発話推定部
 333  出力部
 14、34  画像変形部
 15、35  重畳部
 36  部分画像記憶部
 37  制御情報生成部
 38  送信部
 39  会議情報記憶部
 53  発話者特定部
 54  特徴量記憶部
 4  受信端末
 41  受信部
 42  出力制御部
 43  音声出力部
 44  表示部
 2、6  送信端末
 21  撮影部
 22  音声入力部
 23  送信部
 61  送受信部
 7  撮影装置
 8  音声入力装置
 9  情報処理装置
 91  通信インタフェース
 92  入出力インタフェース
 93  演算装置
 94  記憶装置
 95  不揮発性記憶装置
 96  ドライブ装置
 97  記録媒体

Claims (15)

  1.  コンピュータに、
     参加者の顔の画像と前記参加者の音声とを取得する取得機能と、
     顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出する検出機能と、
     前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定する推定機能と、
     前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させる画像変形機能と、
     変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳機能と、
     を実現させる遠隔会議実行プログラムが記録されたコンピュータ読み取り可能な非一過性の記録媒体。
  2.  前記推定機能は、前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
     前記推定機能は、前記音声の解析結果に基づいて前記発話の内容を推定し、
     前記画像変形機能は、前記推定機能による推定の結果に基づいて前記部分画像を変形させる
     請求項1に記載の遠隔会議実行プログラムが記録されたコンピュータ読み取り可能な非一過性の記録媒体。
  3.  前記画像変形機能は、前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
     請求項1又は請求項2に記載の遠隔会議実行プログラムが記録されたコンピュータ読み取り可能な非一過性の記録媒体。
  4.  前記検出機能は、口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
     請求項1から請求項3のいずれか1項に記載の遠隔会議実行プログラムが記録されたコンピュータ読み取り可能な非一過性の記録媒体。
  5.  前記取得機能が取得した各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定する発話者特定機能をさらに備え、
     前記検出機能、前記推定機能、前記画像変形機能、及び前記重畳機能は、前記発話者を対象に処理を実行する
     請求項1から請求項4のいずれか1項に記載の遠隔会議実行プログラムが記録されたコンピュータ読み取り可能な非一過性の記録媒体。
  6.  参加者の顔の画像と前記参加者の音声とを取得し、
     顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出し、
     前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定し、
     前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させ、
     変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する、
     遠隔会議実行方法。
  7.  前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
     前記音声の解析結果に基づいて前記発話の内容を推定し、
     推定の結果に基づいて前記部分画像を変形させる
     請求項6に記載の遠隔会議実行方法。
  8.  前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
     請求項6又は請求項7に記載の遠隔会議実行方法。
  9.  口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
     請求項6から請求項8のいずれか1項に記載の遠隔会議実行方法。
  10.  取得された各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定し、
     前記検出の処理、前記推定の処理、前記画像の変形の処理、及び前記重畳の処理は、前記発話者を対象に実行される
     請求項6から請求項9のいずれか1項に記載の遠隔会議実行方法。
  11.  参加者の顔の画像と前記参加者の音声とを取得する取得手段と、
     顔の一部分が遮蔽された前記参加者の遮蔽部分を前記画像から検出する検出手段と、
     前記画像又は前記音声から、前記参加者の発話の内容及び感情を推定する推定手段と、
     前記参加者の顔の前記一部分の画像である部分画像を前記参加者の前記発話の内容及び前記感情に応じて変形させる画像変形手段と、
     変形させた前記部分画像を前記参加者の画像中の前記遮蔽部分に応じた範囲に重畳させた重畳画像を生成する重畳手段と、
     を備える遠隔会議実行装置。
  12.  前記推定手段は、前記音声の解析結果、又は前記参加者の顔画像のうち遮蔽されていない部分の変化の解析結果に基づいて前記感情を推定し、
     前記推定手段は、前記音声の解析結果に基づいて前記発話の内容を推定し、
     前記画像変形手段は、前記推定手段による推定の結果に基づいて前記部分画像を変形させる
     請求項11に記載の遠隔会議実行装置。
  13.  前記画像変形手段は、前記参加者の顔画像のうち遮蔽されていない部分も前記発話の内容及び前記感情に応じて変形させる
     請求項11又は請求項12に記載の遠隔会議実行装置。
  14.  前記検出手段は、口又は目が遮蔽された前記参加者の前記遮蔽部分を検出する
     請求項11から請求項13のいずれか1項に記載の遠隔会議実行装置。
  15.  前記取得手段が取得した各参加者の画像及び音声に基づいて、複数の前記参加者のうち発話している参加者である発話者を特定する発話者特定手段をさらに備え、
     前記検出手段、前記推定手段、前記画像変形手段、及び前記重畳手段は、前記発話者を対象に処理を実行する
     請求項11から請求項14のいずれか1項に記載の遠隔会議実行装置。
PCT/JP2022/045187 2021-12-10 2022-12-07 記録媒体、遠隔会議実行方法、及び遠隔会議実行装置 WO2023106350A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-200592 2021-12-10
JP2021200592 2021-12-10

Publications (1)

Publication Number Publication Date
WO2023106350A1 true WO2023106350A1 (ja) 2023-06-15

Family

ID=86730606

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/045187 WO2023106350A1 (ja) 2021-12-10 2022-12-07 記録媒体、遠隔会議実行方法、及び遠隔会議実行装置

Country Status (1)

Country Link
WO (1) WO2023106350A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003037826A (ja) * 2001-07-23 2003-02-07 Alpine Electronics Inc 代理画像表示装置およびテレビ電話装置
JP2014225801A (ja) * 2013-05-16 2014-12-04 株式会社ニコン 会議システム、会議方法およびプログラム
JP2018109924A (ja) * 2017-01-06 2018-07-12 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003037826A (ja) * 2001-07-23 2003-02-07 Alpine Electronics Inc 代理画像表示装置およびテレビ電話装置
JP2014225801A (ja) * 2013-05-16 2014-12-04 株式会社ニコン 会議システム、会議方法およびプログラム
JP2018109924A (ja) * 2017-01-06 2018-07-12 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
US7907165B2 (en) Speaker predicting apparatus, speaker predicting method, and program product for predicting speaker
US11676369B2 (en) Context based target framing in a teleconferencing environment
US11343445B2 (en) Systems and methods for implementing personal camera that adapts to its surroundings, both co-located and remote
US20200110572A1 (en) System and method for managing a mute button setting for a conference call
WO2020119032A1 (zh) 基于生物特征的声源追踪方法、装置、设备及存储介质
KR101840594B1 (ko) 영상 회의 참여도 평가 방법
US11405584B1 (en) Smart audio muting in a videoconferencing system
US20210105437A1 (en) Information processing device, information processing method, and storage medium
CN114385810A (zh) 内容分级数据流过滤
US11842745B2 (en) Method, system, and computer-readable medium for purifying voice using depth information
WO2023106350A1 (ja) 記録媒体、遠隔会議実行方法、及び遠隔会議実行装置
JP2007142957A (ja) 遠隔対話方法及び装置
JP7032284B2 (ja) ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法
KR20140093459A (ko) 자동 통역 방법
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
JP2009060220A (ja) コミュニケーションシステム及びコミュニケーションプログラム
CN114420144A (zh) 声音信号处理方法及声音信号处理装置
JP7388188B2 (ja) 発話者認識システム、発話者認識方法、及び発話者認識プログラム
JP7110669B2 (ja) ビデオ会議システム、ビデオ会議方法、およびプログラム
JP2018063352A (ja) フレーム選択装置、フレーム選択方法及びプログラム
JP2022139436A (ja) 会議支援装置、会議支援システム、会議支援方法、およびプログラム
JP2023112556A (ja) 視覚化装置、視覚化方法、及びプログラム
JP2022112784A (ja) 映像通話装置、及びそれに用いる制御装置、制御方法
JP2002259990A (ja) 文字入力方法及び装置並びに文字入力プログラムとこのプログラムを記憶した記憶媒体
JP3073176U (ja) 音声ドライブ動画面用イメージデータ生成装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22904278

Country of ref document: EP

Kind code of ref document: A1