WO2020026850A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2020026850A1
WO2020026850A1 PCT/JP2019/028448 JP2019028448W WO2020026850A1 WO 2020026850 A1 WO2020026850 A1 WO 2020026850A1 JP 2019028448 W JP2019028448 W JP 2019028448W WO 2020026850 A1 WO2020026850 A1 WO 2020026850A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
video
presentation
utterance
Prior art date
Application number
PCT/JP2019/028448
Other languages
English (en)
French (fr)
Inventor
亜由美 中川
高橋 慧
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2020026850A1 publication Critical patent/WO2020026850A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working

Definitions

  • the present technology relates to an information processing apparatus, an information processing method, and a program capable of controlling communication between users by voice via a network.
  • Patent Literature 1 listed below discloses a system using a head-mounted device as an example.
  • an object of the present technology is to control a user's voice or image and communicate it to the other party as needed without impairing real-time performance in communication between users via voice or video. It is an object of the present invention to provide an information processing apparatus, an information processing method, and a program that are capable of performing the following.
  • an information processing device has a control unit.
  • the control unit based on a result of processing the first information regarding the first attribute, of the utterance information including audio or video indicating an utterance from the first user to the second user, generates the first presentation information. And generating second presentation information based on a result of processing of the second information related to a second attribute different from the first attribute in the utterance information.
  • the control unit may provide a first timing for presenting the first presentation information and a first timing for presenting the second presentation information to the first user or the second user. Controls a different second timing.
  • the information processing apparatus can control the voice or video of the user as necessary without impairing the real-time property and transmit it to the other party.
  • attributes refer to components, parameters, and various other characteristics, properties, and aspects of audio or video, some of which can be directly detected by sensors, etc., and those obtained by further analyzing the detected data. Some are possible.
  • the processing of the first information may have a first load, and the processing of the second information may have a second load greater than the first load.
  • the control unit may present the first presentation information before the second presentation information.
  • the information processing apparatus presents the first presentation information based on the processing with a small load earlier than the second presentation information based on the processing with a large load, and thereby provides the presentation information in real time as much as possible in accordance with the utterance information. Can be presented.
  • the control unit may execute a process of estimating the emotion of the first user as the process of the first information.
  • the control unit may estimate the emotion of the first user based on the sound pressure or frequency of the sound detected as the first attribute.
  • the information processing apparatus can estimate that the emotion of the speaking user has undulations, for example, when the sound pressure is higher than the average sound pressure or when the frequency is lower than the average frequency.
  • the control unit may estimate the emotion of the first user based on the expression, posture, or gesture of a person detected from the video as the first attribute.
  • the information processing apparatus can estimate that the utterance user's emotions are undulating when the facial expression, posture, and gesture of the user change significantly.
  • the control unit may generate audio information indicating a predetermined exclamation sentence or filler as the first presentation information.
  • the information processing apparatus can make the first user appear to be reacting.
  • the control unit may generate, as the first presentation information, video information indicating a companion of the second user.
  • the information processing apparatus performs the first processing as if the first user is listening or understanding. Can be shown to the user.
  • the control unit may execute a process of analyzing a language included in the utterance as the process of the second information.
  • the control unit may generate, as the second presentation information, utterance information obtained by modifying the audio or the video based on the content of the analyzed language.
  • the control unit may generate the first presentation information or the second presentation information as AR (Augmented Reality) information that can be superimposed on the video of the first user or the second user.
  • AR Augmented Reality
  • the information processing apparatus can emphasize or supplement the emotion of the user, for example, by superimposing the AR information on the video of the user.
  • the control unit may generate notification information notifying that the first presentation information or the second presentation information is presented instead of or in addition to the speech information.
  • the control unit may generate third presentation information that connects the first presentation information and the second presentation information.
  • the information processing apparatus can prevent the user from feeling uncomfortable due to the misalignment.
  • the third presentation information may be a video or audio in which both the first presentation information and the second presentation information are fade-processed when the difference between them is large.
  • the video may be a morphed video, or may be a video showing some connection action if the deviation is moderate.
  • An information processing method includes: Generating first presentation information based on a result of processing of the first information relating to the first attribute among utterance information including audio or video indicating an utterance from the first user to the second user; Generating second presentation information based on a result of processing of the second information relating to a second attribute different from the first attribute in the utterance information; A first timing for presenting the first presentation information and a second timing different from the first timing for presenting the second presentation information to the first user or the second user. And controlling timing.
  • a program includes: Generating first presentation information based on a result of processing of the first information relating to the first attribute, among utterance information including voice or video indicating utterance from the first user to the second user; , Generating second presentation information based on a result of processing of the second information related to a second attribute different from the first attribute in the utterance information; A first timing for presenting the first presentation information and a second timing different from the first timing for presenting the second presentation information to the first user or the second user. And controlling the timing.
  • the voice or video of the user in communication between users via voice or video, the voice or video of the user can be controlled and transmitted to the other party as needed without impairing the real-time property.
  • the effect does not limit the present technology.
  • FIG. 1 is a diagram illustrating a configuration of a video call system according to a first embodiment of the present technology.
  • FIG. 2 is a diagram illustrating a hardware configuration of a video call server included in the video call system.
  • FIG. 2 is a diagram showing a functional block configuration of the video communication system. It is the flowchart which showed the flow of the presentation processing of the video / audio by the video communication system.
  • FIG. 4 is a diagram showing a specific example of a video / audio rewriting process in the video call system.
  • FIG. 9 is a diagram showing another specific example of the video / audio rewriting process in the video communication system.
  • FIG. 9 is a diagram showing another specific example of the video / audio rewriting process in the video communication system.
  • FIG. 3 is a diagram illustrating an example of an utterance having a short time between segments in the video communication system.
  • FIG. 4 is a diagram illustrating an example of an AR expression indicating a facial expression of a user in the video communication system.
  • FIG. 1 is a diagram illustrating a configuration of a video communication system according to an embodiment of the present technology.
  • the present system has a video call server 100 and a user terminal 200.
  • the video call server 100, the user terminal 200, and the user terminals 200 can communicate with each other via a network 50 such as the Internet.
  • the user terminal 200 is a terminal of a user who is a party in communication by video call, and is, for example, a smartphone, a tablet computer, a PC (Personal Computer), or the like.
  • An application for making a video call is installed in each user terminal 200.
  • the video call server 100 detects the video or audio indicating the utterance of the user in the communication between the two user terminals 200, and determines that it is not desirable to present the video or audio as it is to the other user according to the detection result. In such a case, the video or audio is rewritten as necessary and presented to each user.
  • FIG. 2 is a diagram showing a hardware configuration of the video call server 100.
  • the video call server 100 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, and a RAM (Random Access Memory) 13.
  • the video call server 100 may include a host bus 14, a bridge 15, an external bus 16, an interface 17, an input device 18, an output device 19, a storage device 20, a drive 21, a connection port 22, and a communication device 23. Further, the video call server 100 may include an imaging device 26 and a sensor 27 as necessary.
  • the video call server 100 may have a processing circuit such as a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable Gate Array) instead of or in addition to the CPU 11.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • the CPU 11 functions as an arithmetic processing unit and a control unit, and controls the entire operation in the video call server 100 or a part thereof according to various programs recorded in the ROM 12, the RAM 13, the storage device 20, or the removable recording medium 24.
  • the ROM 12 stores programs used by the CPU 11, operation parameters, and the like.
  • the RAM 13 temporarily stores programs used in the execution of the CPU 11, parameters that change as appropriate in the execution, and the like.
  • the CPU 11, the ROM 12, and the RAM 13 are mutually connected by a host bus 14 configured by an internal bus such as a CPU bus. Further, the host bus 14 is connected to an external bus 16 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 15.
  • PCI Peripheral Component Interconnect / Interface
  • the input device 18 is a device operated by a user, such as a touch panel, physical buttons, switches, and levers.
  • the input device 18 may be, for example, a remote control device using infrared rays or other radio waves, or may be an externally connected device 25 such as a smart phone or a smart watch that operates the video call server 100.
  • the input device 18 includes an input control circuit that generates an input signal based on information input by the user and outputs the signal to the CPU 11. By operating the input device 18, the user inputs various data to the video call server 100 and instructs a processing operation.
  • the output device 19 is a device capable of notifying the user of the acquired information using a sense such as sight, hearing, or touch.
  • the output device 19 may be, for example, a display device such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) display, or an audio output device such as a speaker.
  • the output device 19 outputs the result obtained by the processing of the video call server 100 as video such as text or image, voice such as voice or sound, or vibration.
  • the storage device 20 is a data storage device configured as an example of a storage unit of the video call server 100.
  • the storage device 20 includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 20 stores, for example, programs executed by the CPU 11 and various data, various data acquired from the outside, and the like.
  • the drive 21 is a reader / writer for a removable recording medium 24 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and is built in or external to the video call server 100.
  • the drive 21 reads out information recorded on the attached removable recording medium 24 and outputs it to the RAM 13. Further, the drive 21 writes a record on the attached removable recording medium 24.
  • the connection port 22 is a port for connecting a device to the video call server 100.
  • the connection port 22 may be, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or the like.
  • the connection port 22 may be an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, or the like.
  • the communication device 23 is a communication interface including, for example, a communication device for connecting to the communication network 50.
  • the communication device 23 may be, for example, a communication card for LAN (Local Area Network), Bluetooth (registered trademark), Wi-Fi, or WUSB (Wireless USB).
  • the communication device 23 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communication, or the like.
  • the communication device 23 transmits and receives signals to and from the Internet and other communication devices using a predetermined protocol such as TCP / IP.
  • the communication network 50 connected to the communication device 23 is a network connected by wire or wirelessly, and may include, for example, the Internet, a home LAN, infrared communication, radio wave communication, satellite communication, or the like.
  • the imaging device 26 uses various members such as an imaging device such as a CMOS (Complementary Metal Oxide Semiconductor) or a CCD (Charge Coupled Device) and a lens for controlling the imaging of a subject image on the imaging device.
  • an imaging device such as a CMOS (Complementary Metal Oxide Semiconductor) or a CCD (Charge Coupled Device)
  • This is a camera that captures a real space and generates a captured image.
  • the imaging device 26 may capture a still image, or may capture a moving image.
  • the sensor 27 is, for example, various sensors such as an acceleration sensor, an angular velocity sensor, a geomagnetic sensor, an illuminance sensor, a temperature sensor, an atmospheric pressure sensor, and a sound sensor (microphone).
  • the sensor 27 acquires information on the state of the video call server 100 itself, such as the attitude of the housing of the video call server 100, and information on the surrounding environment of the video call server 100, such as brightness and noise around the video call server 100. I do.
  • the sensor 27 may include a GPS receiver that receives a GPS (Global Positioning System) signal and measures the latitude, longitude, and altitude of the device.
  • GPS Global Positioning System
  • Each of the above components may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Such a configuration can be appropriately changed according to the technical level at the time of implementation.
  • the hardware configuration of the user terminal 200 is basically the same as the hardware configuration of the video call server 100, and the basic configuration of a computer such as a CPU, a RAM, an input device, an output device, a storage device, and a communication device. In addition to common elements, it has an imaging device (camera) and various sensors (microphones and the like).
  • the camera and microphone of the user terminal 200 acquire video and audio indicating the utterance of the user who is the party in communication.
  • the image of the speaking user may be displayed on the display of the user terminal 200 of the call partner, or may be displayed on a projector or an AR (Augmented Reality) device connected to the user terminal 200.
  • the voice of the speaking user may be output from the speaker of the user terminal 200 of the other party, or may be output from earphones, headphones, speakers, or other hearable devices connected to the user terminal 200.
  • the storage device of each user terminal 200 may store voice data spoken by each user during a call as a log.
  • FIG. 3 is a diagram showing a functional block (module) configuration of a video call system including the video call server 100 and the user terminal 200.
  • the present system includes an audio / video detection unit 110, a non-language processing unit 120, a language processing unit 130, a detection result output unit 140, a video / audio rewriting unit 150, a video presentation unit 160, and audio presentation. It has a part 170.
  • the audio / video detection unit 110 detects audio and video from the utterance information acquired from the camera and microphone of the user terminal 200 and received by the video call server 100, and according to the attribute, the non-language processing unit 120 and the language processing unit The processing is instructed to 130.
  • the non-language processing unit 120 recognizes not only the content of the utterance (word) but also information of a predetermined attribute with a relatively small processing load (can be detected in a short time) out of the voice and video included in the utterance information. To estimate the emotion of the speaking user.
  • the non-language processing unit 120 is an execution unit for performing “early detection processing”.
  • the non-language processing unit 120 uses the attributes (first attribute) such as the sound pressure, frequency, utterance timing, sharpness (inflection), and presence or absence of a predetermined fixed phrase (exclamation and the like) for the voice.
  • first attribute such as the sound pressure, frequency, utterance timing, sharpness (inflection), and presence or absence of a predetermined fixed phrase (exclamation and the like) for the voice.
  • the attributes referred to here are components, parameters, and other various characteristics, properties, aspects, and the like of the voice.
  • the non-language processing unit 120 estimates that if the sound pressure of the voice is higher than the average sound pressure d, the emotion of the user is undulating, and the frequency of the voice is the average frequency h. If it becomes lower than that, it is estimated that the user has an ups and downs of anger.
  • the non-language processing unit 120 may input voice to the learned model to determine anger and the other.
  • the non-language processing unit 120 may also presume that there is an ups and downs of emotion when the user interrupts and speaks while the user of the other party is still speaking.
  • the non-language processing unit 120 detects from the user's voice a sign word (for example, an exclamation word such as “Eh ?””) that can be detected without language analysis and that leads to an annular undulation. Presumably there is an ups and downs of emotion.
  • a sign word for example, an exclamation word such as “Eh ?”
  • the non-language processing unit 120 estimates the emotion of the video based on, for example, the user's expression, gaze, posture, gesture, or an attribute (first attribute) such as whether or not the user (human) can detect it. . More specifically, if the non-language processing unit 120 recognizes a change in the facial expression such that the user's eyes are enlarged and the eyebrows are drawn to the center, it is estimated that the user has an ups and downs of anger.
  • the attributes referred to here are components, parameters, and other various features, properties, and aspects of the video, and some of them can be directly detected, such as the line of sight and the presence or absence of a user. Some, such as facial expressions and postures, can be obtained by further analyzing the detected data.
  • the language processing unit 130 analyzes the content of the utterance (word) as the attribute (second attribute) of the voice and video included in the utterance information, and estimates the emotion of the uttering user. It can be said that the language is attribute information that has a large processing load (cannot be detected in a short time) as compared with attribute information processed by the processing unit 120 other than the language. In other words, the language processing unit 130 is an execution unit of the “slow detection process”.
  • the detection result output unit 140 instructs the video / audio rewriting unit 150 to rewrite the video or audio indicating the user's utterance according to the processing results of the non-language processing unit 120 and the language processing unit 130.
  • the video / audio rewriting unit 150 rewrites the video or audio indicating the utterance of the user according to the estimated emotion of the user, outputs the rewritten video to the video presentation unit 160, and presents the rewritten audio as audio. Output to the unit 170.
  • the video / audio rewriting unit 150 adds a standard audio or video to the original audio or video according to the processing result of the non-language processing unit 120.
  • the video / audio rewriting unit 150 determines whether the user A is angry from the utterance of the user A, Insert a voice to connect words, such as an exclamation word such as “A,” or a filler word such as “Etto”, or insert a fixed phrase such as “Sorry” before user B speaks into the voice of B. Or
  • the video call system can make the other user who does not respond to the other user's speech appear as if speaking.
  • the video / audio rewriting unit 150 determines whether or not the user B is a user, for example, a video in which the user B is bowing down or a video in which the user B is hitting. Insert a video that understands the contents of A's speech or indicates an apology.
  • the video / audio rewriting unit 150 pretends that, for example, the call partner of the speaking user has not been heard. Such an image may be inserted.
  • the video / audio rewriting unit 150 modifies the original audio or video according to the processing result of the language processing unit 130.
  • the video / audio rewriting unit 150 converts the utterance content of the user A into a softer expression when it is estimated that the user A is angry with respect to the user B as a result of the language analysis process on the utterance content of the user A.
  • the sound is modified so as to be converted, or the image is modified so as to convert the expression of the user A into a more gentle expression.
  • the video communication system can change the user's remark or expression in a direction in which the undulation of the emotion becomes smaller, and can avoid the trouble of the user feeling.
  • the CPU 11 processes the first information related to the first attribute in the utterance information including the voice or the video indicating the utterance from the first user to the second user by using the above functional blocks.
  • the first presentation information is generated based on the result of the (early detection process), and the second presentation process (slow detection process) of the second information regarding the second attribute different from the first attribute in the utterance information is performed.
  • the second presentation information is generated based on the result.
  • the CPU 11 sets the first timing for presenting the first presentation information and the first timing for presenting the second presentation information to the first user or the second user. A different second timing is controlled.
  • FIG. 4 is a flowchart showing the flow of the operation of the video / audio presentation processing by the video communication system.
  • the user of the user terminal 200A is a customer and the user of the user terminal 200B is a call center operator, and both parties make a video call based on a call from the customer to the call center.
  • the camera and microphone of the user terminal 200A acquire the video and audio of the customer (step 41).
  • the CPU of the user terminal 200A records the customer's voice acquired by the microphone in the storage device (step 42).
  • the CPU of the user terminal 200 transmits the video and audio of the customer to the video call server 100 (step 43).
  • the CPU 11 of the video call server 100 that has received the video and audio of the customer executes the “early detection processing (estimation of emotion from the tone of the customer's voice)” for the video and audio by the non-language processing unit 120 (step). 44).
  • the CPU 11 determines whether the customer's anger emotion is equal to or greater than the threshold (for example, whether the sound pressure of the sound is greater than the average sound pressure d, or whether the frequency of the sound is Is determined (step 45).
  • the CPU 11 rewrites the customer's video and audio to the video and audio with the reduced anger level by the video / audio rewriting unit 150 (step 46). ).
  • the CPU 11 transmits the rewritten customer video and audio to the user terminal 200B of the operator.
  • the CPU of the user terminal 200B outputs the video and audio from the display and the speaker (or headphones) (step 47).
  • the CPU 11 rewrites the video and audio of the operator acquired by the camera and microphone of the user terminal 200B and received by the video call server 100 in accordance with the rewritten context (step 48). For example, the CPU 11 rewrites the image of the operator into an image that the operator responds (bows down).
  • the CPU 11 transmits the rewritten operator's video and audio to the customer's user terminal 200A.
  • the CPU of the user terminal 200A outputs the video and audio from a display and a speaker (or headphones) (step 49).
  • the CPU 11 executes “slow detection processing (language analysis of voice and analysis of sentence)” for the voice of the customer by the language processing unit 130 (step 50).
  • the video / audio rewriting unit 150 rewrites the voice to a voice with a reduced anger level (step 51). ).
  • the CPU 11 transmits the customer image and the rewritten audio to the user terminal 200B of the operator.
  • the CPU of the user terminal 200B outputs the video and audio from the display and the speaker (or headphones) (step 52).
  • step 45 if it is determined in step 45 that the customer's anger is less than the threshold (No), the CPU 11 transmits the original operator's video and audio to the customer's user terminal 200A.
  • the CPU of the user terminal 200A outputs the original video and audio from the display and the speaker (or headphones) (step 53).
  • the CPU 11 transmits the original customer's video and audio to the operator's user terminal 200B.
  • the CPU of the user terminal 200B outputs the original video and audio from the display and the speaker (or headphones) (step 54).
  • FIG. 5 is a time chart showing an example of the flow described above. As shown in the figure, when the user A of the user terminal 200A utters “What are you saying?”, The CPU 11 causes the non-language processing unit 120 to anger the user A based on the voice level. Is detected.
  • the CPU 11 causes the video / audio rewriting unit 150 to rewrite the actual video of the operator into a video that the operator apologizes immediately after the detection of anger, and presents it to the customer.
  • the video of the operator is switched to the real video.
  • the language processing unit 130 performs language analysis on the utterance of “What are you saying?” And detects that it represents anger, the video / audio rewriting unit 130 The expression is rewritten into a softer expression (for example, "I did not understand a little") and presented to the operator.
  • the system can reduce the stress of the operator working in the call center and prevent the user and the operator from rushing.
  • the present technology can be applied to a case in which the utterance of the user A of the user terminal 200A is translated and transmitted to the user B of the user terminal 200B.
  • the CPU 11 detects a break in conversation from a change in the sound pressure level of the voice of the user A by “early detection processing” using the non-language processing unit 120. Then, the CPU 11 rewrites the real video of the user B acquired by the camera of the user terminal 200B into a video that the user B nods at a timing corresponding to the break of the conversation and presents the real video to the user A by the video / audio rewriting unit 150. . When the reproduction of the nod image is completed, the image of the user B is switched to the actual image.
  • the CPU 11 performs language analysis on the voice of the user A to obtain a sentence by “slow detection processing” using the language processing unit 130, and obtains the sentence by the video / audio rewriting unit 150. It is translated into a predetermined language and presented to the operator.
  • the system can express the user's reaction first without using strict semantic analysis when there is a language difference between users, thereby reassuring or relaxing the other user. And excite the conversation.
  • the present technology can be applied to a case of filtering it.
  • the CPU 11 uses the non-language processing unit 120.
  • the "early detection process” detects the anger of the viewer A and inappropriate phrases.
  • the CPU 11 rewrites the real video including the idle I and the plurality of viewers to the video obtained by deleting the audio obtained from the user terminal 200 of the viewer A by using the video / audio rewriting unit 150, thereby rewriting the other viewers and Present to Idol I.
  • the CPU 11 performs language analysis on the sound of the viewer A to determine an inappropriate part by “slow detection processing” using the language processing unit 130, and the video / audio rewriting unit 150 The appropriate part of the sound is rewritten into a sound of an appropriate expression and presented to other viewers and the idle I.
  • the present technology can be applied to a case where a user cannot immediately return a response, and a response is returned on behalf of the user.
  • the CPU 11 detects that the user is not captured by the camera of the user terminal 200 or is not looking at the user.
  • the video of the camera may be rewritten to a video in which the character imitating the user expressed in VR (Virtual Reality) does not return a response or the like, and presented to the other user.
  • VR Virtual Reality
  • the present technology can be applied to match the level difference.
  • the CPU 11 executes the above-mentioned language.
  • the non-processing unit 120 rewrites the image of the lower-aged user into a video including a companion and presents it to the higher-aged user. , May be rewritten into a simple expression for a younger user and presented.
  • the video and audio data before the rewriting may be stored as a log in the video call server 100 or the user terminal 200.
  • the log may be viewable later by the person who spoke or by a third party. For example, assuming a call center, a supervisor of an operator or the like may be able to view a log of an actual conversation between the customer and the operator.
  • the user may be able to switch between the video and audio channels after rewriting and the video and audio channels before rewriting.
  • the video call server 100 transmits the video and audio after rewriting to the user terminal 200 and simultaneously records the video and audio before rewriting, and when there is a switching request from the user terminal 200, Alternatively, the video and audio transmitted to the user terminal 200 may be switched to those before rewriting.
  • the CPU 11 may feed back the rewritten video or audio to the user as needed.
  • the CPU 11 displays, for example, an icon I for notifying the rewritten listener B of the rewriting. Or a window W in which a log indicating what point of the user B has been rewritten may be added to the video.
  • the CPU 11 rewrites the video / audio of the partner A to the listener B side. May be added to the video, or a link button L that allows access to the video / audio before rewriting may be added to the video.
  • the non-language processing unit 120 detects an utterance break based on a change in the sound pressure level of the user's voice as a fast detection process and rewrites the utterance content as a late detection process, when each detection process fails Is also conceivable.
  • the CPU 11 may execute a language analysis process on the voice of the speaker A with relatively little load.
  • the CPU 11 executes only grammatical analysis in the language recognition processing for the voice, detects a break in the sentence, and displays an image of the listener B to be presented to the speaker A. It may be rewritten as a hit video.
  • the CPU 11 performs the following processing as an alternative processing.
  • the voice of the user may be changed to a softer voice quality by the voice changer without changing the sentence itself.
  • the CPU 11 may control the user terminal 200 to utter the character using TTS (Text @ To ⁇ Speech).
  • the system may set a plurality of video and audio rewriting levels.
  • the level may be set 1) manually by the user, 2) automatically to some extent, or 3) irrespective of the above 1) 2) for system reasons.
  • the CPU 11 can be set to change the expression of the user's call partner or the user's own expression in accordance with the user's input via the setting menu of the video communication application of the user terminal 200. is there.
  • the CPU 11 may automatically set the content of the utterance text to be rewritten to some extent automatically using the levels of the person and the environment that have the profile information in advance.
  • the CPU 11 may change the level of rewriting according to whether the user of the video call is a student or a worker, and whether the conversation is related to private or business (the level of rewriting of the student's private conversation). May be set larger than that of the worker's business conversation).
  • the CPU 11 may learn about the relationship between the level of the person and the environment by feedback of the contents of the call in addition to or instead of having the profile information in advance.
  • the CPU 11 performs a forced operation when the processing does not go well, for example, when the non-language processing unit 120 cannot detect a break in conversation, or when the language processing unit 130 takes time for language analysis.
  • the above process may be executed in an appropriate manner.
  • the CPU 11 may present an AR image expression indicating anger or joy to the other user in addition to the vicinity of the video of the user.
  • FIG. 10 shows an example in which an AR image expression 90 indicating the anger of the user is displayed so as to be superimposed on the video of the user.
  • the CPU 11 may add a sound effect corresponding to the emotion of the user and present the same to the partner user in addition to or instead of the image expression 90.
  • the CPU 11 may change the image expression, sound effects, and the like according to the age of the user whose emotions are expressed.
  • the CPU 11 is presented based on the information (first presentation information) presented based on the information detected by the non-language processing unit 120 and the information detected by the language processing unit 130.
  • Information (third presentation information) connecting the deviation from the information (second presentation information) may be generated and inserted between them.
  • the CPU 11 may generate information that connects a shift between the first presentation information or the second presentation information and the actual video and insert the information between the two.
  • the video when the video is rewritten, the video is switched in the order of the real video ⁇ the rewritten video (early processing) ⁇ the rewritten video (slow processing) ⁇ the real video. Then, a video connecting the video and the video after switching is generated and inserted. This prevents the user from feeling uncomfortable when switching images.
  • the CPU 11 may detect the magnitude (difference) of the shift between the images of the user before and after the switching, and change the way of connecting the two images accordingly.
  • the CPU 11 may connect the images before and after the switching by morphing.
  • the CPU 11 may insert a video showing some action of the user between the video before and after the switching.
  • the images before and after the switching may be connected by a fade.
  • the CPU 11 instead of the fade, the CPU 11 superimposes an image expression that attracts the attention of the other user with a VR or the like at a position (for example, at the four corners of the frame) distant from the user's position on the video frame to divert the attention point.
  • the deviation may not be noticed.
  • ⁇ ⁇ there can be a shift such as a position or a posture of the user in the video, which can be detected by a difference between frames, and also a shift such as an emotion or a tone of a voice.
  • the CPU 11 can detect such a shift by the non-language processing unit 120 or the like.
  • the CPU 11 may continue to present the rewritten video without returning the rewritten video (due to slow processing) to the real video.
  • the process of returning to the real video may be different (asymmetric process).
  • the CPU 11 may maintain the image of the operator presented to the customer as a rewritten image, but the image of the customer presented to the operator may be a rewritten image. After the end, it may return to the actual video.
  • the CPU 11 executes a rewriting process on a video presented to one operator, and executes the other operator (for example, It is not necessary to execute the rewriting process on the video presented to the supervisor.
  • the CPU 11 may make the rewriting level of the video presented to one operator different from the rewriting level of the video presented to the other operator.
  • the CPU 11 can understand the speech language of the user A but cannot understand the speech language of the user A.
  • the actual video may be presented without translating the video, and the video of the user A presented to the user C may be translated and presented.
  • the CPU 11 may rewrite the utterance so as to be convenient for the receiver.
  • the language processing unit 130 determines that the content of the call between the user A and the user B is such that the user A requests the user B for some matter, and specific conditions for the request are determined. If it is determined that there is no condition, the wording of the part related to the condition may be rewritten to a wording indicating a specific condition.
  • the CPU 11 reserves “tomorrow's drinking party, Yokohama Chinese restaurant” May be rewritten to a specific request of "do.”
  • the CPU 11 may rewrite the utterance of the user A to a content suitable for the request by referring to the personal model (taste, schedule, behavior) of the user A as the requester.
  • the CPU 11 may present the utterance of the user A before the rewriting to the user B.
  • the CPU 11 of the video call server 100 converts the video and the audio using the functional blocks of the non-language processing unit 120, the language processing unit 130, the video / audio rewriting unit 150, and the like included in the video call server 100.
  • these functional blocks may be provided in any of devices on the cloud other than the video call server 100 and the user terminal 200, and may be executed by those CPUs.
  • the present technology can have the following configurations. (1) Generating first presentation information based on a result of processing of first information relating to a first attribute, among utterance information including voice or video indicating an utterance from a first user to a second user, In the utterance information, second presentation information is generated based on a result of processing of the second information relating to a second attribute different from the first attribute, and the first user or the second user is generated.
  • an information processing apparatus comprising: a control unit that controls a first timing for presenting the first presentation information and a second timing different from the first timing for presenting the second presentation information. apparatus.
  • the information processing apparatus according to (4), The information processing device, wherein the control unit estimates the emotion of the first user based on a facial expression, posture, or gesture of a person detected from the video as the first attribute. (7) An information processing apparatus according to any one of the above (4) to (6), The information processing device, wherein the control unit generates, as first presentation information, audio information indicating a predetermined exclamation sentence or a filler. (8) An information processing apparatus according to any one of the above (4) to (6), The information processing device, wherein the control unit generates, as first presentation information, video information indicating a companion of the second user.
  • the information processing apparatus according to any one of the above (4) to (8), The information processing device, wherein the control unit executes a process of analyzing a language included in the utterance as the process of the second information.
  • the information processing apparatus according to (9), The information processing device, wherein the control unit generates, as the second presentation information, utterance information obtained by modifying the audio or the video based on the content of the analyzed language.
  • the information processing apparatus according to any one of (1) to (10), The information processing device, wherein the control unit generates the first presentation information or the second presentation information as AR (Augmented Reality) information that can be superimposed on a video of the first user or the second user.
  • AR Augmented Reality

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝える。 【解決手段】情報処理装置は、制御部を有する。制御部は、第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、上記発話情報のうち、上記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成する。また制御部は、上記第1のユーザまたは上記第2のユーザに対して、上記第1の提示情報を提示する第1のタイミングと、上記第2の提示情報を提示する上記第1のタイミングとは異なる第2のタイミングとを制御する。

Description

情報処理装置、情報処理方法及びプログラム
 本技術は、ネットワークを介した音声によるユーザ間のコミュニケーションを制御可能な情報処理装置、情報処理方法及びプログラムに関する。
 従来から、例えばビデオチャット等、ネットワークを介したユーザ間のコミュニケーションを実現するための技術が知られている。下記特許文献1には、その一例として、頭部装着型の装置を利用したシステムが開示されている。
特開2013-258555号公報
 ところで、上記特許文献1に記載のような従来のリアルタイムのコミュニケーションにおいては、相手の音声や映像をそのままユーザに提示しない方がよい場合もある。しかし、上記特許文献1に記載のような従来技術では、当該観点は考慮されていない。
 以上のような事情に鑑み、本技術の目的は、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることが可能な情報処理装置、情報処理方法及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、制御部を有する。制御部は、第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、上記発話情報のうち、上記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成する。また制御部は、上記第1のユーザまたは上記第2のユーザに対して、上記第1の提示情報を提示する第1のタイミングと、上記第2の提示情報を提示する上記第1のタイミングとは異なる第2のタイミングとを制御する。
 これにより情報処理装置は、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることができる。ここで属性とは、音声または映像が有する成分やパラメータその他のさまざまな特徴・性質・側面等であって、センサ等でそのまま検出可能なものもあれば、検出したデータをさらに分析することで取得可能なものもある。
 上記第1の情報の処理は第1の負荷を有し、上記第2の情報の処理は上記第1の負荷よりも大きい第2の負荷を有してもよい。
 上記制御部は、上記第1の提示情報を上記第2の提示情報よりも先に提示してもよい。
 これにより情報処理装置は、負荷の小さい処理に基づく第1の提示情報を、負荷の大きい処理に基づく第2の提示情報よりも先に提示することで、発話情報に応じて極力リアルタイムに提示情報を提示できる。
 上記制御部は、上記第1の情報の処理として、上記第1のユーザの感情を推定する処理を実行してもよい。
 上記制御部は、上記第1のユーザの感情を、上記第1の属性として検出された上記音声の音圧または周波数に基づいて推定してもよい。
 これにより情報処理装置は、例えば音圧が平均的な音圧よりも大きい場合や周波数が平均的な周波数よりも低い場合等に発話ユーザの感情の起伏があると推定することができる。
 上記制御部は、上記第1のユーザの感情を、上記第1の属性として上記映像から検出された人物の表情、姿勢、またはジェスチャに基づいて推定してもよい。
 これにより情報処理装置は、ユーザの表情、姿勢、ジェスチャに大きな変化があった場合等に発話ユーザの感情の起伏があると推定することができる。
 上記制御部は、第1の提示情報として、所定の感嘆文またはフィラーを示す音声情報を生成してもよい。
 これにより情報処理装置は、第1のユーザから第2のユーザへの発話に対して第2のユーザが反応しない場合でも、あたかも反応しているように第1のユーザに見せることができる。
 上記制御部は、第1の提示情報として、上記第2のユーザの相槌を示す映像情報を生成してもよい。
 これにより情報処理装置は、第1のユーザから第2のユーザへの発話を第2のユーザが聞いていないまたは理解していない場合でも、あたかも聞いているまたは理解しているように第1のユーザに見せることができる。
 上記制御部は、上記第2の情報の処理として、上記発話に含まれる言語の解析処理を実行してもよい。
 上記制御部は、上記第2の提示情報として、上記解析された言語の内容を基に上記音声または映像を改変した発話情報を生成してもよい。
 これにより情報処理装置は、第1の提示情報によってリアルタイムな情報を提示しながらも、より時間をかけて発話を言語解析し、解析結果に応じて改変した第2の提示情報を生成することで、第1のユーザの発話が第2のユーザに伝えるには適切でない場合により適切な表現に改変して第2のユーザに伝えることができる。
 上記制御部は、上記第1の提示情報または上記第2の提示情報を、上記第1のユーザまたは上記第2のユーザの映像に重畳可能なAR(Augmented Reality)情報として生成してもよい。
 これにより情報処理装置は、AR情報をユーザの映像に重畳することで、例えばユーザの感情を強調したり補足して示したりすることができる。
 上記制御部は、上記発話情報に代えてまたは上記発話情報に加えて上記第1の提示情報または上記第2の提示情報が提示されていることを通知する通知情報を生成してもよい。
 これにより情報処理装置は、ユーザに、発話相手の生の音声または映像が改変されていることを把握させることができる。
 上記制御部は、上記第1の提示情報と上記第2の提示情報とを繋ぐ第3の提示情報を生成してもよい。
 これにより情報処理装置は、第1の提示情報と第2の提示情報との間にずれがあった場合でも、それによる違和感をユーザに与えるのを防ぐことができる。この場合第3の提示情報は、第1の提示情報と第2の提示情報のずれが大きい場合には両者をフェード加工した映像または音声であってもよいし、ずれが小さい場合には両者をモーフィング加工した映像であってもよいし、ずれが中程度であれば何らかの繋ぎのアクションを示す映像であってもよい。
 本技術の他の形態に係る情報処理方法は、
 第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、
 上記発話情報のうち、上記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成し、
 上記第1のユーザまたは上記第2のユーザに対して、上記第1の提示情報を提示する第1のタイミングと、上記第2の提示情報を提示する上記第1のタイミングとは異なる第2のタイミングとを制御する、ことを含む。
 本技術の他の形態に係るプログラムは、情報処理装置に、
 第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成するステップと、
 上記発話情報のうち、上記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成するステップと、
 上記第1のユーザまたは上記第2のユーザに対して、上記第1の提示情報を提示する第1のタイミングと、上記第2の提示情報を提示する上記第1のタイミングとは異なる第2のタイミングとを制御するステップと、を実行させる。
 以上のように、本技術によれば、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることができる。しかし、当該効果は本技術を限定するものではない。
本技術の第1実施形態に係るビデオ通話システムの構成を示した図である。 上記ビデオ通話システムが有するビデオ通話サーバのハードウェア構成を示した図である。 上記ビデオ通話システムが有する機能ブロック構成を示した図である。 上記ビデオ通話システムによる映像/音声の提示処理の流れを示したフローチャートである。 上記ビデオ通話システムにおける映像/音声の書き換え処理の具体例を示した図である。 上記ビデオ通話システムにおける映像/音声の書き換え処理の他の具体例を示した図である。 上記ビデオ通話システムにおける映像/音声の書き換え処理の他の具体例を示した図である。 上記ビデオ通話システムにおける映像/音声の書き換え時のフィードバック処理について説明した図である。 上記ビデオ通話システムにおける、文節間の時間が短い発話の例を示した図である。 上記ビデオ通話システムにおける、ユーザの表情を示すAR表現の例を示した図である。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
[システムの概要]
 図1は、本技術の一実施形態に係るビデオ通話システムの構成を示した図である。
 同図に示すように、本システムは、ビデオ通話サーバ100とユーザ端末200とを有する。ビデオ通話サーバ100とユーザ端末200、及び、ユーザ端末200同士は、インターネット等のネットワーク50を介して通信可能である。
 ユーザ端末200(200A,200B)は、ビデオ通話によるコミュニケーションの当事者であるユーザの端末であり、例えばスマートフォン、タブレットコンピュータ、PC(Personal Computer)等である。各ユーザ端末200には、ビデオ通話を行うためのアプリケーションがインストールされている。本実施形態では、例えば双方のユーザのうち一方がカスタマー、他方がカスタマーセンターのオペレータである場合が想定されている。
 ビデオ通話サーバ100は、双方のユーザ端末200間のコミュニケーションにおけるユーザの発話を示す映像または音声を検知し、当該検知結果に応じて映像または音声をそのまま相手方のユーザに提示することが望ましくないと判断されるような場合等、必要に応じて映像または音声を書き換えて各ユーザに提示する。
 双方のユーザの映像または音声に書き換えの必要のない場合には、各ユーザの映像及び映像はビデオ通話サーバ100を介さずにPeer to Peerにより相手方のユーザ端末200へ伝送される。
[ビデオ通話サーバのハードウェア構成]
 図2は、上記ビデオ通話サーバ100のハードウェア構成を示した図である。
 同図に示すように、ビデオ通話サーバ100は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、およびRAM(Random Access Memory)13を含む。また、ビデオ通話サーバ100は、ホストバス14、ブリッジ15、外部バス16、インタフェース17、入力装置18、出力装置19、ストレージ装置20、ドライブ21、接続ポート22、通信装置23を含んでもよい。さらに、ビデオ通話サーバ100は、必要に応じて、撮像装置26、およびセンサ27を含んでもよい。ビデオ通話サーバ100は、CPU11に代えて、またはこれとともに、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などの処理回路を有してもよい。
 CPU11は、演算処理装置および制御装置として機能し、ROM12、RAM13、ストレージ装置20、またはリムーバブル記録媒体24に記録された各種プログラムに従って、ビデオ通話サーバ100内の動作全般またはその一部を制御する。ROM12は、CPU11が使用するプログラムや演算パラメータなどを記憶する。RAM13は、CPU11の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。CPU11、ROM12、およびRAM13は、CPUバスなどの内部バスにより構成されるホストバス14により相互に接続されている。さらに、ホストバス14は、ブリッジ15を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス16に接続されている。
 入力装置18は、例えば、タッチパネル、物理ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置18は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、ビデオ通話サーバ100の操作に対応したスマートフォンやスマートウォッチなどの外部接続機器25であってもよい。入力装置18は、ユーザが入力した情報に基づいて入力信号を生成してCPU11に出力する入力制御回路を含む。ユーザは、この入力装置18を操作することによって、ビデオ通話サーバ100に対して各種のデータを入力したり処理動作を指示したりする。
 出力装置19は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置19は、例えば、LCD(Liquid Crystal Display)または有機EL(Electro-Luminescence)ディスプレイなどの表示装置、スピーカなどの音声出力装置などでありうる。出力装置19は、ビデオ通話サーバ100の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力する。
 ストレージ装置20は、ビデオ通話サーバ100の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置20は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置20は、例えばCPU11が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ21は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体24のためのリーダライタであり、ビデオ通話サーバ100に内蔵、あるいは外付けされる。ドライブ21は、装着されているリムーバブル記録媒体24に記録されている情報を読み出して、RAM13に出力する。また、ドライブ21は、装着されているリムーバブル記録媒体24に記録を書き込む。
 接続ポート22は、機器をビデオ通話サーバ100に接続するためのポートである。接続ポート22は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどでありうる。また、接続ポート22は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート22に外部接続機器25を接続することで、ビデオ通話サーバ100と外部接続機器25との間で各種のデータが交換されうる。
 通信装置23は、例えば、通信ネットワーク50に接続するための通信デバイスなどで構成された通信インタフェースである。通信装置23は、例えば、LAN(Local Area Network)、Bluetooth(登録商標)、Wi-Fi、またはWUSB(Wireless USB)用の通信カードなどでありうる。また、通信装置23は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置23は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置23に接続される通信ネットワーク50は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などを含みうる。
 撮像装置26は、例えば、CMOS(Complementary Metal Oxide Semiconductor)またはCCD(Charge Coupled Device)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成するカメラである。撮像装置26は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ27は、例えば、加速度センサ、角速度センサ、地磁気センサ、照度センサ、温度センサ、気圧センサ、または音センサ(マイクロフォン)などの各種のセンサである。センサ27は、例えばビデオ通話サーバ100の筐体の姿勢など、ビデオ通話サーバ100自体の状態に関する情報や、ビデオ通話サーバ100の周辺の明るさや騒音など、ビデオ通話サーバ100の周辺環境に関する情報を取得する。また、センサ27は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPS受信機を含んでもよい。
 上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。
 図示しないが、ユーザ端末200のハードウェア構成も上記ビデオ通話サーバ100のハードウェア構成と基本的に同一であり、CPU、RAM、入力装置、出力装置、ストレージ装置、通信装置等のコンピュータとしての基本的な要素に加えて、撮像装置(カメラ)や各種センサ(マイク等)を有する。
 ユーザ端末200のカメラ及びマイクは、コミュニケーションの当事者であるユーザの発話を示す映像及び音声を取得する。発話ユーザの映像は、通話相手のユーザ端末200のディスプレイに表示されてもよいし、当該ユーザ端末200に接続されたプロジェクタやAR(Augmented Reality)機器に表示されてもよい。また発話ユーザの音声は、通話相手のユーザ端末200のスピーカから出力されてもよいし、当該ユーザ端末200に接続されたイヤホンやヘッドホン、スピーカ、その他のヒアラブル機器から出力されてもよい。
 また各ユーザ端末200のストレージ装置は、通話中の各ユーザが発話した音声データをログとして記憶していてもよい。
[ビデオ通話システムの機能ブロック構成]
 図3は、上記ビデオ通話サーバ100及びユーザ端末200からなるビデオ通話システムが有する機能ブロック(モジュール)構成を示した図である。
 同図に示すように、本システムは、音声/映像検知部110、言語以外処理部120、言語処理部130、検知結果出力部140、映像/音声書き換え部150、映像提示部160、及び音声提示部170を有する。
 音声/映像検知部110は、ユーザ端末200のカメラ及びマイクロフォンから取得されビデオ通話サーバ100に受信された発話情報から音声及び映像を検知し、その属性に応じて言語以外処理部120と言語処理部130に処理を指示する。
 言語以外処理部120は、上記発話情報に含まれる音声及び映像のうち、発話(言葉)の内容そのものではなく、比較的処理負荷の小さい(短時間で検出可能な)所定の属性の情報を認識して発話ユーザの感情を推定する。言い換えれば、言語以外処理部120は、「早い検出処理」の実行部である。
 すなわち、言語以外処理部120は、上記音声については、例えば音圧、周波数、発話タイミング、キレ(抑揚)、所定の定型句(感嘆詞等)の有無等の属性(第1の属性)を基に感情を推定する。すなわち、ここでいう属性とは、音声が有する成分やパラメータその他のさまざまな特徴・性質・側面等であって、例えば上記音圧や周波数のようにセンサ等でそのまま検出可能なものもあれば、上記発話タイミング等、検出したデータ(音圧)をさらに分析することで取得可能なものもある。
 具体的には、言語以外処理部120は、音声の音圧が平均的な音圧dよりも大きくなった場合にユーザの感情の起伏があると推定し、音声の周波数が平均的な周波数hよりも低くなった場合にはユーザに怒りの起伏があると推定する。
 また、ディープラーニングにより怒りの感情とそれ以外の感情が学習されている場合、言語以外処理部120は、その学習済みモデルに音声を入力して怒りとそれ以外を判別してもよい。
 また言語以外処理部120は、ユーザが、通話相手のユーザがまだ発言途中であるのにも関わらず割り込んで発話した場合には感情の起伏があると推定してもよい。
 また言語以外処理部120は、言語解析によらずに検出可能な、環状の起伏に繋がるような兆候ワード(例えば、「え?!」等の感嘆詞)をユーザの音声から検出した場合には、その後に感情の起伏があると推定する。
 また言語以外処理部120は、映像については、例えばユーザの表情、視線、姿勢、ジェスチャ、またはユーザ(人間)が検出できるか否か等の属性(第1の属性)を基に感情を推定する。具体的には、言語以外処理部120は、ユーザの眼が大きくなり眉毛が中央に引き寄せされるような表情の変化を認識した場合にはユーザに怒りの起伏が有ると推定する。すなわち、ここでいう属性とは、映像が有する成分やパラメータその他のさまざまな特徴・性質・側面等であって、上記視線やユーザの有無等のように直接的に検出可能なものもあれば、表情や姿勢等のように、検出したデータをさらに分析することで取得可能なものもある。
 言語処理部130は、上記発話情報に含まれる音声及び映像のうち、その属性(第2の属性)としての発話(言葉)の内容そのものを解析して発話ユーザの感情を推定する。当該言語は、上記言語以外処理部120が処理する属性の情報に比べて、処理負荷の大きい(短時間では検出できない)属性の情報であると言える。言い換えれば、言語処理部130は、「遅い検出処理」の実行部である。
 検知結果出力部140は、上記言語以外処理部120と言語処理部130の処理結果に応じて映像/音声書き換え部150にユーザの発話を示す映像または音声の書き換えを指示する。
 映像/音声書き換え部150は、上記ユーザの発話を示す映像または音声を、上記推定されたユーザの感情に応じて書き換えて、書き換えた映像を映像提示部160に出力させ、書き換えた音声を音声提示部170に出力させる。
 ここで、映像/音声書き換え部150は、上記言語以外処理部120による処理結果に応じて、定型の音声や映像を元の音声や映像に付加する。
 具体的には、映像/音声書き換え部150は、例えば、ユーザAとユーザBとのビデオ通話において、ユーザAの発話からユーザAが怒っていることが推定される場合、ユーザAが視聴するユーザBの音声に、「あ、」といった感嘆詞や、「えっと」といったフィラー語等、言葉を繋ぐための声を挿入したり、「すみません」といった定型文をユーザBが発話する前に挿入したりする。これによりビデオ通話システムは、相手の発言に反応しないユーザがあたかも発言しているかのように相手ユーザに見せることができる。
 また映像/音声書き換え部150は、上記のようにユーザAが怒っていると推定される場合、例えばユーザBが頭を下げている映像や相槌を打っているような映像等、ユーザBがユーザAの発話内容を理解している、または謝罪の意を示しているような映像を挿入する。
 また映像/音声書き換え部150は、上記言語以外処理部120及び言語処理部130によってユーザの感情の推定に失敗した場合には、例えば発話ユーザの通話相手のユーザが聞こえなかったふりをしているような映像を挿入してもよい。
 また、映像/音声書き換え部150は、上記言語処理部130による処理結果に応じて、元の音声や映像を改変する。
 例えば映像音声書き換え部150は、ユーザAの発話内容に関する言語解析処理の結果、ユーザAがユーザBに対して怒っていることが推定された場合には、ユーザAの発話内容をよりやわらかい表現に変換するように音声を改変したり、ユーザAの表情をより柔和な表情に変換するように映像を改変したりする。これによりビデオ通話システムは、ユーザの発言や表情をより感情の起伏が小さくなる方向に改変し、ユーザ感のトラブルを回避することができる。
 このようにCPU11は、以上の各機能ブロックを用いて、第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理(早い検出処理)の結果を基に第1の提示情報を生成し、上記発話情報のうち、上記第1の属性とは異なる第2の属性に関する第2の情報の処理(遅い検出処理)の結果を基に第2の提示情報を生成する。そしてCPU11は、上記第1のユーザまたは上記第2のユーザに対して、上記第1の提示情報を提示する第1のタイミングと、上記第2の提示情報を提示する上記第1のタイミングとは異なる第2のタイミングとを制御する。
[ビデオ通話システムの動作]
 次に、以上のように構成されたビデオ通話システムの動作について説明する。当該動作は、ビデオ通話サーバ100やユーザ端末200のCPU及び通信部等のハードウェアと、記憶部に記憶されたソフトウェアとの協働により実行される。以下の説明では、便宜上、主にCPUを動作主体として説明する。
 図4は、上記ビデオ通話システムによる映像/音声の提示処理の動作の流れを示したフローチャートである。同図では、ユーザ端末200Aのユーザがカスタマーであり、ユーザ端末200Bのユーザがコールセンターのオペレータであり、例えばカスタマーからコールセンターへの発信に基づいて両者がビデオ通話する場合を想定する。
 同図に示すように、ユーザ端末200Aのカメラ及びマイクが、カスタマーの映像及び音声を取得する(ステップ41)。
 続いてユーザ端末200AのCPUは、上記マイクで取得したカスタマーの音声をストレージ装置に録音する(ステップ42)。
 続いてユーザ端末200のCPUは、上記カスタマーの映像及び音声をビデオ通話サーバ100へ送信する(ステップ43)。
 上記カスタマーの映像及び音声を受信したビデオ通話サーバ100のCPU11は、上記言語以外処理部120により、当該映像及び音声について「早い検出処理(カスタマーの声のトーンから感情推定)」を実行する(ステップ44)。
 当該早い検出処理により、CPU11は、カスタマーの怒りの感情が閾値以上であるか否か(例えば、音声の音圧が平均的な音圧dよりも大きいか否か、または、音声の周波数が平均的な周波数hよりも低いか否か)を判断する(ステップ45)。
 上記怒りの感情が閾値以上であると判断した場合(Yes)、CPU11は、上記映像/音声書き換え部150により、カスタマーの映像及び音声を、怒りのレベルを減らした映像及び音声に書き換える(ステップ46)。
 続いてCPU11は、上記書き換えたカスタマーの映像及び音声をオペレータのユーザ端末200Bへ送信する。ユーザ端末200BのCPUは当該映像及び音声をディスプレイ及びスピーカ(またはヘッドフォン)から出力する(ステップ47)。
 続いてCPU11は、上記ユーザ端末200Bのカメラ及びマイクで取得されビデオ通話サーバ100に受信されたオペレータの映像及び音声を、上記書き換えた文脈に合わせて書き換える(ステップ48)。例えばCPU11は、オペレータの映像を、オペレータが謝る(頭を下げる)映像に書き換える。
 続いてCPU11は、上記書き換えたオペレータの映像及び音声をカスタマーのユーザ端末200Aに送信する。ユーザ端末200AのCPUは当該映像及び音声をディスプレイ及びスピーカ(またはヘッドフォン)から出力する(ステップ49)。
 続いてCPU11は、カスタマーの音声について、上記言語処理部130により、「遅い検出処理(音声を言語解析して文意を分析)」を実行する(ステップ50)。
 当該遅い検出処理により、CPU11は、例えばカスタマーの音声が怒りの感情を含むものであると判断した場合、上記映像/音声書き換え部150により、当該音声を、怒りのレベルを減らした音声に書き換える(ステップ51)。
 続いてCPU11は、カスタマーの映像及び書き換えた音声をオペレータのユーザ端末200Bへ送信する。ユーザ端末200BのCPUは当該映像及び音声をディスプレイ及びスピーカ(またはヘッドフォン)から出力する(ステップ52)。
 一方、上記ステップ45において、カスタマーの怒りの感情が閾値未満であると判断した場合(No)、CPU11は、オリジナルのオペレータの映像及び音声をカスタマーのユーザ端末200Aに送信する。ユーザ端末200AのCPUは当該オリジナルの映像及び音声をディスプレイ及びスピーカ(またはヘッドフォン)から出力する(ステップ53)。
 またそれに続き、CPU11は、オリジナルのカスタマーの映像及び音声をオペレータのユーザ端末200Bに送信する。ユーザ端末200BのCPUは当該オリジナルの映像及び音声をディスプレイ及びスピーカ(またはヘッドフォン)から出力する(ステップ54)。
 図5は、以上説明した流れの一例をタイムチャートとして示した図である。同図に示すように、ユーザ端末200AのユーザAが、「何言ってるんだよ」という発話をした場合、CPU11は、上記言語以外処理部120によって、音声のレベルを基にユーザAの怒りを検出する。
 すると、CPU11は、映像/音声書き換え部150により、オペレータの実映像を、怒りの検出直後の時点から、オペレータが謝る映像に書き換えてカスタマーに提示する。当該謝る映像の再生が終了すると、オペレータの映像は実映像に切り替えられる。
 また一方で、CPU11は、上記言語処理部130によって、上記「何言っているんだよ」という発話を言語解析し、怒りを表していることを検出すると、映像/音声書き換え部130により、当該表現をよりソフトな表現(例えば、「少し意味が分かりませんでした」)に書き換えてオペレータに提示する。
 このような処理により、システムは、コールセンターで働くオペレータのストレスを軽減し、ユーザやオペレータが激号するのを防ぐことができる。
 以上説明したように、本実施形態によれば、音声または映像を介したユーザ間のコミュニケーションにおいて、ユーザの音声または映像を、リアルタイム性を損なうことなく必要に応じて制御して相手に伝えることができる。
[変形例]
 本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。
(他のユースケース)
 上述の実施形態においては、映像及び音声の書き換え処理の例として、図5のようにユーザの怒りを和らげるように書き換える例を示したが、当該書き換え処理はこれに限られない。
 例えば、ユーザ端末200AのユーザAの発話を、ユーザ端末200BのユーザBへ翻訳して伝えるケースにも本技術は適用可能である。
 この場合、図6に示すように、CPU11は、上記言語以外処理部120を用いた「早い検出処理」により、ユーザAの音声の音圧レベルの変化から会話の切れ目を検出する。するとCPU11は、映像/音声書き換え部150により、ユーザ端末200Bのカメラによって取得されたユーザBの実映像を、当該会話の切れ目に応じたタイミングでユーザBがうなずく映像に書き換えてユーザAに提示する。当該うなずく映像の再生が終了すると、ユーザBの映像は実映像に切り替えられる。
 また一方で、CPU11は、上記言語処理部130を用いた「遅い検出処理」により、上記ユーザAの音声を言語分析して文意を取得し、映像/音声書き換え部150により、当該文意を所定の言語に翻訳してオペレータに提示する。
 このような処理により、システムは、ユーザ間で言語の相違がある場合に、厳密な意味解析によらずともユーザのリアクションを先に表出することで、相手のユーザを安心させたり、和ませたり、会話を盛り上げたりすることができる。
 また、あるユーザの発話が相手のユーザにとって不快な表現である場合に、それをフィルタリングするケースにも本技術は適用可能である。
 この場合、図7に示すように、例えば視聴者参加型のライブ放送におけるコメントの投稿にビデオ通話システムが用いられる場合、ある視聴者Aが発話すると、CPU11は、上記言語以外処理部120を用いた「早い検出処理」により、視聴者Aの怒りや、不適切な定型句を検出する。するとCPU11は、映像/音声書き換え部150により、アイドルIと複数の視聴者が含まれる実映像を、視聴者Aのユーザ端末200から取得された音声を削除した映像に書き換えて他の視聴者及びアイドルIに提示する。
 また一方で、CPU11は、上記言語処理部130を用いた「遅い検出処理」により、上記視聴者Aの音声を言語分析して不適切な部分を判定し、映像/音声書き換え部150により、不適切な部分の音声を適切な表現の音声に書き換えて他の視聴者及びアイドルIに提示する。
 また、ユーザがすぐに反応を返せない状況である場合に、そのユーザに代わって反応を返すケースにも本技術は適用可能である。
 例えば、ビデオ通話の着信を受けたユーザが運転中や離席中等、反応を返せない場合、CPU11は、ユーザがユーザ端末200のカメラに写っていない、または視線を向けていないことを検出すると、当該カメラの映像を、VR(Virtual Reality)で表現されたユーザを模したキャラクタが、反応を返せない理由等を発話する映像に書き換えて相手のユーザに提示してもよい。
 また、ビデオ通話のユーザ間で知識レベルが異なる場合にそのレベル差を合わせるためにも本技術は適用可能である。
 例えば、ビデオ通話の一方のユーザの年齢と他方のユーザの年齢とが所定歳(例えば30歳等)以上離れていることが例えば各ユーザのプロファイル情報等から検知された場合、CPU11は、上記言語以外処理部120によって、年齢が下のユーザの映像を、相槌等を含む映像に書き換えて年齢が上のユーザに向けて提示すると共に、上記言語処理部130によって、年齢が上のユーザの発話を、年齢が下のユーザ用に安易な表現に書き換えて提示してもよい。
(書き換え前の映像及び音声のログ)
 上述の実施形態において、ユーザの映像及び音声が書き換えられた場合でも、書き換え前の映像及び音声のデータは、ビデオ通話サーバ100またはユーザ端末200においてログとして記憶されていてもよい。
 当該ログは、発話した本人または第三者が後で視聴できてもよい。例えば、コールセンターを想定した場合、オペレータの上司等がカスタマーとオペレータの実際の会話のログを視聴できてもよい。
 また、副音声のように、書き換え後の映像及び音声のチャンネルと、書き換え前の映像及び音声のチャンネルとが、ユーザによって切替可能とされてもよい。この場合、例えばビデオ通話サーバ100は、書き換え後の映像及び音声をユーザ端末200へ送信すると同時に、書き換え前の映像及び音声を録画しておき、ユーザ端末200からの切替要求が有った場合に、ユーザ端末200へ送信する映像及び音声を書き換え前のものに切り替えてもよい。
(書き換えに関するユーザへのフィードバック)
 また、CPU11は、ユーザの映像または音声を書き換えた場合には、それを必要に応じてユーザにリアルタイムにフィードバックしてもよい。
 例えば図8Aに示すように、話し手Aが怒っており、聞き手Bが謝っている映像を見せる場合において、CPU11は、書き換えられた聞き手B側に対して、例えばその書き換えを通知するアイコンIを映像に加えてもよいし、ユーザBのどのような点が書き換えられたのかを示すログが記載されたウィンドウWを映像に加えてもよい。
 また同図Bに示すように、話し手Aが怒っている映像・音声を柔和に書き換えて聞き手Bに見せる場合において、CPU11は、聞き手B側に対して、相手Aの映像・音声が書き換えられていることを通知するアイコンIを映像に加えてもよいし、相手Aが本当は何と言っていたのか、書き換え前の映像・音声にアクセス可能なリンクボタンLを映像に加えてもよい。
 また同図Cに示すように、話し手Bが発した不適切な映像・音声を書き換えて、聞き手Aに見せる場合(図7のようなアイドルとファンの関係)においては、CPU11は、聞き手A側で表示される映像に対しては、上記アイコンIと共に、書き換え前の映像・音声へのリンクボタンLを追加し、話し手B側で表示される映像に対しては、上記アイコンIと共に、話し手B側への注意を促す文言が記載されたウィンドウWを追加することで、聞き手Aと話し手Bの双方に書き換えをフィードバックしてもよい。
(処理がうまくいかない場合)
 上述の実施形態において、言語以外処理部120による早い検出処理として、ユーザの音声の音圧レベルの変化によって発話の切れ目を検出し、遅い検出処理として発話内容を書き換える場合、各検出処理がうまくいかない場合も考えられる。
 例えば、図9に示すように、話し手Aが長い間話している場合、音圧レベルに大きな切れ目がないので、話し手Aに対する出力(例えば、聞き手Bの相槌の提示)ができない。このような場合、CPU11は、当該話し手Aの音声に対して、負荷の比較的かからない言語解析処理を実行してもよい。
 より具体的には、CPU11は、上記音声について、言語認識処理のうち文法解析のみ実行して文の切れ目を検知し、話し手Aへ提示する聞き手Bの映像を、上記切れ目において聞き手Bが相槌を打つ映像に書き換えてもよい。
 また、言語処理部130による遅い検出処理において、文章が難解で解析が難しく、ユーザが怒っていることは分かるものの書き換えに時間を要してしまうと判断した場合、CPU11は、その代替処理として、ユーザの音声を、それが示す文章自体は変えずに、ボイスチェンジャーによってより柔らかい声質に変更してもよい。または、CPU11は、ユーザ端末200において例えばソフトウェアエージェントとして機能するキャラクタオブジェクトが存在する場合、当該キャラクタにTTS(Text To Speech)を用いて発声させるようにユーザ端末200を制御してもよい。
(書き換えのレベル)
 上述の実施形態において、システムは、映像及び音声の書き換えのレベルを複数設定してもよい。この場合、レベルは、1)ユーザが手動で設定する場合、2)ある程度自動的に設定される場合、3)上記1)2)に関係なくシステム都合で設定される場合が考えられる。
 上記1)の場合、CPU11は、ユーザ端末200のビデオ通話アプリケーションの設定メニューを介したユーザの入力に応じて、ユーザの通話相手の表出またはユーザ自身の表出を変更するように設定可能である。
 具体的には、ユーザの通話相手の発言内容や表情を変更したり、自身の発言として定型文を提示したり自身の表情を変更したりといった設定が可能である。この場合、ユーザは、誰(通話相手・自分)の何(発言・表情等)を変更するのかを選択可能であってもよい。
 上記2)の場合、CPU11は、書き換え対象とする発話文言の内容を、予めプロファイル情報として有する人と環境の各レベルを用いて、ある程度自動的に設定してもよい。
 例えば、CPU11は、ビデオ通話のユーザが学生か労働者か、会話内容がプライベートに関するものかビジネスに関するものか等に応じて書き換えのレベルを変更してもよい(学生のプライベートな会話の書き換えのレベルは、労働者のビジネスの会話のそれよりも大きく設定されてもよい)。
 またCPU11は、人と環境のレベルの関係性について、予めプロファイル情報として有するのに加えて、または代えて、通話内容のフィードバックによって学習してもよい。
 上記3)の場合、CPU11は、上述したように、言語以外処理部120が会話の切れ目を検出できない、言語処理部130が言語解析に時間を要している等、処理がうまくいかない場合に、強制的に上記処理を実行してもよい。
(ARを用いた書き換え)
 上述の実施形態では、ユーザの映像の書き換えとして、ユーザの表情やジェスチャを書き換える例が示された。それだけでなく、CPU11は、AR(Augmented Reality)情報を用いてその他の要素を映像に付加してもよい。
 例えば、CPU11は、ユーザが怒っていることや喜んでいることを検出した場合、怒りや喜びを示すAR画像表現をそのユーザの映像の近傍に加えて相手ユーザに提示してもよい。図10は、ユーザの怒りを示すAR画像表現90がユーザの映像に重畳して表示された例を示している。
 またCPU11は、画像表現90に加えて、または代えて、ユーザの感情に対応する効果音を付加して相手ユーザに提示してもよい。
 これらの処理においてCPU11は、感情が表出しているユーザの年齢に応じて画像表現や効果音等を変更してもよい。
(実映像と書き換え映像とのずれに関する処理)
 上述の実施形態において、CPU11は、言語以外処理部120によって検出された情報に基づいて提示される情報(第1の提示情報)と、言語処理部130によって検出された情報に基づいて提示される情報(第2の提示情報)とのずれを繋ぐ情報(第3の提示情報)を生成して両者間に挿入してもよい。またCPU11は同様に、上記第1の提示情報または第2の提示情報と実映像とのずれを繋ぐ情報を生成して両者間に挿入してもよい。
 すなわち、上記映像が書き換えられる場合、映像は、実映像→書き換え映像(早い処理)→書き換え映像(遅い処理)→実映像という順に切り替えられることになるが、これらの各切替タイミングにおいてCPU11は切替前の映像と切替後の映像とを繋ぐ映像を生成して挿入する。これにより映像切替時にユーザが違和感を感じることが回避される。
 この場合CPU11は、切替前後のユーザの映像におけるずれの大きさ(差分)を検知し、それに応じて両映像の繋ぎ方を変更してもよい。
 具体的には、上記ずれが小さい(第1閾値未満である)場合、CPU11は、切替前後の映像をモーフィングで繋いでもよい。
 また上記ずれが中程度(第1閾値以上第2閾値未満である)場合、CPU11は、切替前後の映像間に、ユーザの何らかのアクションを示す映像を挿入してもよい。
 また上記ずれが大きい(第2閾値以上)場合には、切替前後の映像をフェードで繋いでもよい。またCPU11は、フェードに代えて、映像フレーム上のユーザの位置とは離れた位置(例えばフレームの四隅等)にVR等で相手ユーザの注意を惹くような画像表現を重畳して注目点を逸らし、ずれが気づかれないようにしてもよい。
 上記ずれとしては、映像中のユーザの写っている位置や姿勢等、フレーム間の差分で検出できるずれの他、感情や声のトーン等のずれも有り得る。CPU11は、そのようなずれを上記言語以外処理部120等で検出することができる。
 またCPU11は、上記書き換えた映像と実映像とのずれが大きい場合には、書き換え映像(遅い処理による)を実映像に戻さずに、書き換えた映像をそのまま提示し続けてもよい。
 また、通話する一方のユーザに提示される映像と他方のユーザに提示される映像とにおいて、実映像へ戻すか否かの処理が異なっていてもよい(非対称処理)。例えば、カスタマーとオペレータのビデオ通話において、CPU11は、カスタマー側に提示されるオペレータの映像は、書き換えた映像のまま維持してもよいが、オペレータ側に提示されるカスタマーの映像は、書き換え映像の終了後には実映像に戻してもよい。
 また、1対複数のビデオ通話(カスタマーとビデオ通話するオペレータが同時に複数存在する場合)において、CPU11は、一方のオペレータに提示される映像については書き換え処理を実行し、他方のオペレータ(例えばオペレータの上司)に提示される映像については書き換え処理を実行しなくてもよい。
 または、CPU11は、一方のオペレータに提示される映像の書き換えレベルと他方のオペレータに提示される映像の書き換えレベルを異ならせてもよい。
 さらにCPU11は、1(ユーザA)対複数(ユーザB,C)のビデオ通話において、ユーザAの発話言語をユーザBは理解できるがユーザCが理解できない場合、ユーザBに提示されるユーザAの映像については翻訳せずに実映像を提示し、ユーザCに提示されるユーザAの映像については翻訳して提示してもよい。
(発話の内容自体の書き換え)
 上述の実施形態においては、CPU11が、ユーザの発話の意味する内容は変えずに表現の程度を書き換える(より柔らかい表現にする)例を示した。しかし、CPU11は、発話内容によっては、その内容自体を書き換えてもよい。
 すなわちCPU11は、発話内容を変化させても問題ない意思決定系の発話がされた場合、受け手に都合のいいように書き換えてもよい。
 例えばCPU11は、言語処理部130によって、ユーザAとユーザBとの間の通話内容が、ユーザAがユーザBに何らかの事項を依頼するものであり、かつ、その依頼の具体的な条件が定まっていないと判断した場合には、その条件に関する部分の文言を具体的な条件を示す文言に書き換えてもよい。
 例えば、ユーザAの発話が、「明日の飲み会の店、どこでもいいから予約して」というあいまいな依頼であった場合、CPU11は、「明日の飲み会の店、横浜の中華料理店を予約して」という具体的な依頼に書き換えてもよい。
 またCPU11は、その際、依頼者であるユーザAの個人モデル(嗜好、予定、言動)等を参照して、それに適した内容にユーザAの発話を書き換えてもよい。
 またCPU11は、上記書き換えが原因で依頼を受けたユーザBに不都合が生じた場合(例えばユーザAの怒りを検出した場合)、ユーザAの書き換え前の発話をユーザBに提示してもよい。
(その他の変形例)
 上述の各実施形態においては、ビデオ通話サーバ100のCPU11が、ビデオ通話サーバ100が有する言語以外処理部120、言語処理部130、映像/音声書き換え部150等の機能ブロックを用いて映像及び音声を書き換える例を示したが、これらの機能ブロックはビデオ通話サーバ100以外のクラウド上のデバイスやユーザ端末200のいずれに備えられていてもよく、それらのCPUによって実行されてもよい。
[その他]
 本技術は以下のような構成もとることができる。
(1)
 第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成し、前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御する制御部
 を具備する情報処理装置。
(2)
 上記(1)に記載の情報処理装置であって、
 前記第1の情報の処理は第1の負荷を有し、前記第2の情報の処理は前記第1の負荷よりも大きい第2の負荷を有する
 情報処理装置。
(3)
 上記(2)に記載の情報処理装置であって、
 前記制御部は、前記第1の提示情報を前記第2の提示情報よりも先に提示する
 情報処理装置。
(4)
 上記(1)~(3)のいずれかに記載の情報処理装置であって、
 前記制御部は、前記第1の情報の処理として、前記第1のユーザの感情を推定する処理を実行する
 情報処理装置。
(5)
 上記(4)に記載の情報処理装置であって、
 前記制御部は、前記第1のユーザの感情を、前記第1の属性として検出された前記音声の音圧または周波数に基づいて推定する
 情報処理装置。
(6)
 上記(4)に記載の情報処理装置であって、
 前記制御部は、前記第1のユーザの感情を、前記第1の属性として前記映像から検出された人物の表情、姿勢、またはジェスチャに基づいて推定する
 情報処理装置。
(7)
 上記(4)~(6)のいずれかに記載の情報処理装置であって、
 前記制御部は、第1の提示情報として、所定の感嘆文またはフィラーを示す音声情報を生成する
 情報処理装置。
(8)
 上記(4)~(6)のいずれかに記載の情報処理装置であって、
 前記制御部は、第1の提示情報として、前記第2のユーザの相槌を示す映像情報を生成する
 情報処理装置。
(9)
 上記(4)~(8)のいずれかに記載の情報処理装置であって、
 前記制御部は、前記第2の情報の処理として、前記発話に含まれる言語の解析処理を実行する
 情報処理装置。
(10)
 上記(9)に記載の情報処理装置であって、
 前記制御部は、前記第2の提示情報として、前記解析された言語の内容を基に前記音声または映像を改変した発話情報を生成する
 情報処理装置。
(11)
 上記(1)~(10)のいずれかに記載の情報処理装置であって、
 前記制御部は、前記第1の提示情報または前記第2の提示情報を、前記第1のユーザまたは前記第2のユーザの映像に重畳可能なAR(Augmented Reality)情報として生成する
 情報処理装置。
(12)
 上記(1)~(11)のいずれかに記載の情報処理装置であって、
 前記制御部は、前記発話情報に代えてまたは前記発話情報に加えて前記第1の提示情報または前記第2の提示情報が提示されていることを通知する通知情報を生成する
 情報処理装置。
(13)
 上記(1)~(12)のいずれかに記載の情報処理装置であって、
 前記制御部は、前記第1の提示情報と前記第2の提示情報とを繋ぐ第3の提示情報を生成する
 情報処理装置。
(14)
 第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、
 前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成し、
 前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御する
 情報処理方法。
(15)
 情報処理装置に、
 第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成するステップと、
 前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成するステップと、
 前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御するステップと
 を実行させるプログラム。
 11…CPU
 19…出力装置
 26…撮像装置
 23…通信装置
 100…ビデオ通話サーバ
 120…言語以外処理部
 130…言語処理部
 150…映像/音声書き換え部
 200…ユーザ端末

Claims (15)

  1.  第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成し、前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御する制御部
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記第1の情報の処理は第1の負荷を有し、前記第2の情報の処理は前記第1の負荷よりも大きい第2の負荷を有する
     情報処理装置。
  3.  請求項2に記載の情報処理装置であって、
     前記制御部は、前記第1の提示情報を前記第2の提示情報よりも先に提示する
     情報処理装置。
  4.  請求項1に記載の情報処理装置であって、
     前記制御部は、前記第1の情報の処理として、前記第1のユーザの感情を推定する処理を実行する
     情報処理装置。
  5.  請求項4に記載の情報処理装置であって、
     前記制御部は、前記第1のユーザの感情を、前記第1の属性として検出された前記音声の音圧または周波数に基づいて推定する
     情報処理装置。
  6.  請求項4に記載の情報処理装置であって、
     前記制御部は、前記第1のユーザの感情を、前記第1の属性として前記映像から検出された人物の表情、姿勢、またはジェスチャに基づいて推定する
     情報処理装置。
  7.  請求項4に記載の情報処理装置であって、
     前記制御部は、第1の提示情報として、所定の感嘆文またはフィラーを示す音声情報を生成する
     情報処理装置。
  8.  請求項4に記載の情報処理装置であって、
     前記制御部は、第1の提示情報として、前記第2のユーザの相槌を示す映像情報を生成する
     情報処理装置。
  9.  請求項4に記載の情報処理装置であって、
     前記制御部は、前記第2の情報の処理として、前記発話に含まれる言語の解析処理を実行する
     情報処理装置。
  10.  請求項9に記載の情報処理装置であって、
     前記制御部は、前記第2の提示情報として、前記解析された言語の内容を基に前記音声または映像を改変した発話情報を生成する
     情報処理装置。
  11.  請求項1に記載の情報処理装置であって、
     前記制御部は、前記第1の提示情報または前記第2の提示情報を、前記第1のユーザまたは前記第2のユーザの映像に重畳可能なAR(Augmented Reality)情報として生成する
     情報処理装置。
  12.  請求項1に記載の情報処理装置であって、
     前記制御部は、前記発話情報に代えてまたは前記発話情報に加えて前記第1の提示情報または前記第2の提示情報が提示されていることを通知する通知情報を生成する
     情報処理装置。
  13.  請求項1に記載の情報処理装置であって、
     前記制御部は、前記第1の提示情報と前記第2の提示情報とを繋ぐ第3の提示情報を生成する
     情報処理装置。
  14.  第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成し、
     前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成し、
     前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御する
     情報処理方法。
  15.  情報処理装置に、
     第1のユーザから第2のユーザへの発話を示す音声または映像を含む発話情報のうち、第1の属性に関する第1の情報の処理の結果を基に第1の提示情報を生成するステップと、
     前記発話情報のうち、前記第1の属性とは異なる第2の属性に関する第2の情報の処理の結果を基に第2の提示情報を生成するステップと、
     前記第1のユーザまたは前記第2のユーザに対して、前記第1の提示情報を提示する第1のタイミングと、前記第2の提示情報を提示する前記第1のタイミングとは異なる第2のタイミングとを制御するステップと
     を実行させるプログラム。
PCT/JP2019/028448 2018-08-03 2019-07-19 情報処理装置、情報処理方法及びプログラム WO2020026850A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018146913A JP2020021025A (ja) 2018-08-03 2018-08-03 情報処理装置、情報処理方法及びプログラム
JP2018-146913 2018-08-03

Publications (1)

Publication Number Publication Date
WO2020026850A1 true WO2020026850A1 (ja) 2020-02-06

Family

ID=69231115

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/028448 WO2020026850A1 (ja) 2018-08-03 2019-07-19 情報処理装置、情報処理方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2020021025A (ja)
WO (1) WO2020026850A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021235148A1 (ja) * 2020-05-22 2021-11-25 i Smart Technologies株式会社 オンライン会議システム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11960792B2 (en) 2020-10-14 2024-04-16 Sumitomo Electric Industries, Ltd. Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program
WO2022107283A1 (ja) * 2020-11-19 2022-05-27 日本電信電話株式会社 記号付加方法、記号付加装置及びプログラム
WO2022264235A1 (ja) * 2021-06-14 2022-12-22 日本電信電話株式会社 表情変換装置、表情変換方法およびプログラム
JP7164793B1 (ja) 2021-11-25 2022-11-02 ソフトバンク株式会社 音声処理システム、音声処理装置及び音声処理方法
WO2023152811A1 (ja) * 2022-02-09 2023-08-17 日本電気株式会社 映像検索装置、映像検索方法およびプログラム記憶媒体
WO2024070651A1 (ja) * 2022-09-26 2024-04-04 ソニーグループ株式会社 情報処理装置、情報処理方法、及び、プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016090681A (ja) * 2014-10-31 2016-05-23 マツダ株式会社 車両用音声対話装置
JP2017129853A (ja) * 2016-01-20 2017-07-27 ハーマン インターナショナル インダストリーズ インコーポレイテッド 音声影響修正
JP2018045202A (ja) * 2016-09-16 2018-03-22 トヨタ自動車株式会社 音声対話システムおよび音声対話方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016090681A (ja) * 2014-10-31 2016-05-23 マツダ株式会社 車両用音声対話装置
JP2017129853A (ja) * 2016-01-20 2017-07-27 ハーマン インターナショナル インダストリーズ インコーポレイテッド 音声影響修正
JP2018045202A (ja) * 2016-09-16 2018-03-22 トヨタ自動車株式会社 音声対話システムおよび音声対話方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021235148A1 (ja) * 2020-05-22 2021-11-25 i Smart Technologies株式会社 オンライン会議システム

Also Published As

Publication number Publication date
JP2020021025A (ja) 2020-02-06

Similar Documents

Publication Publication Date Title
WO2020026850A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN110730952B (zh) 处理网络上的音频通信的方法和系统
US11503162B2 (en) Information processing apparatus and information processing method
US9263044B1 (en) Noise reduction based on mouth area movement recognition
WO2017130486A1 (ja) 情報処理装置、情報処理方法およびプログラム
US10636419B2 (en) Automatic dialogue design
JPWO2017200074A1 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP6175969B2 (ja) 情報処理装置、情報処理システム及びプログラム
US11861265B2 (en) Providing audio information with a digital assistant
US20220171466A1 (en) Gesture-based content transfer
US11470415B2 (en) External audio enhancement via situational detection models for wearable audio devices
US11368664B2 (en) Information processing apparatus, information processing method, and program
CN112700783A (zh) 通讯的变声方法、终端设备和存储介质
US20240319959A1 (en) Digital assistant interactions in copresence sessions
WO2019017033A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JPWO2017200077A1 (ja) 対話方法、対話システム、対話装置、及びプログラム
WO2020194828A1 (ja) 情報処理システム、情報処理装置、および情報処理方法
WO2024154626A1 (ja) 電子機器及びプログラム
WO2024070550A1 (ja) システム、電子機器、システムの制御方法、及びプログラム
KR102509106B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
US10916250B2 (en) Duplicate speech to text display for the deaf
JP2023131825A (ja) 情報処理装置、制御プログラムおよび制御方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19845363

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19845363

Country of ref document: EP

Kind code of ref document: A1