WO2019163547A1 - 双方向映像通信システム及びキオスク端末 - Google Patents

双方向映像通信システム及びキオスク端末 Download PDF

Info

Publication number
WO2019163547A1
WO2019163547A1 PCT/JP2019/004508 JP2019004508W WO2019163547A1 WO 2019163547 A1 WO2019163547 A1 WO 2019163547A1 JP 2019004508 W JP2019004508 W JP 2019004508W WO 2019163547 A1 WO2019163547 A1 WO 2019163547A1
Authority
WO
WIPO (PCT)
Prior art keywords
operator
terminal
monitor
avatar
video
Prior art date
Application number
PCT/JP2019/004508
Other languages
English (en)
French (fr)
Inventor
和幸 堀尾
一生 池崎
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to GB2014244.4A priority Critical patent/GB2585779A/en
Priority to US16/975,608 priority patent/US20200413009A1/en
Priority to DE112019000991.5T priority patent/DE112019000991T5/de
Publication of WO2019163547A1 publication Critical patent/WO2019163547A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5133Operator terminal details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/0289Telephone sets for operators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/0295Mechanical mounting details of display modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/0297Telephone sets adapted to be mounted on a desk or on a wall
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/247Telephone sets including user guidance or feature selection means facilitating their use
    • H04M1/2478Telephone terminals specially adapted for non-voice services, e.g. email, internet access
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/50Telephonic communication in combination with video communication

Definitions

  • the present invention relates to a bidirectional video communication system and a kiosk terminal for bidirectionally communicating between a kiosk terminal and an operator terminal, a video of a user operating the kiosk terminal and an operator video operating the operator terminal. is there.
  • JP 2004-147105 A Japanese Patent No. 3593067
  • the conventional technology has a problem that the avatar cannot respond to the user or the operator himself cannot respond to the user depending on the contents of the service desired by the user.
  • the present invention mainly provides a bidirectional video communication system and a kiosk terminal in which an avatar can respond to the user at the kiosk terminal or an operator himself can respond to the user depending on the contents of the service desired by the user.
  • a bidirectional video communication system and a kiosk terminal in which an avatar can respond to the user at the kiosk terminal or an operator himself can respond to the user depending on the contents of the service desired by the user.
  • the bidirectional video communication system of the present invention is a bidirectional video communication in which a video of a user who operates the kiosk terminal and a video of an operator who operates the operator terminal are bidirectionally communicated between a kiosk terminal and an operator terminal.
  • the operator terminal includes a communication unit that communicates with the kiosk terminal, a camera that captures an operator's face, a microphone that collects voice spoken by the operator, and a control unit.
  • the kiosk terminal includes: a communication unit that communicates with the operator terminal; a monitor that displays an operator image captured by the camera; a speaker that outputs an original voice of the operator collected by the microphone; and a control unit.
  • the controller of the kiosk terminal displays the operator's video on the monitor in an operator display mode.
  • the operator's original voice is output from the speaker, and in the avatar display mode, the avatar video generated based on the feature information extracted from the operator's video is displayed on the monitor, and the operator's original voice is displayed. Is converted to a voice quality suitable for an avatar and output from the speaker.
  • the kiosk terminal of the present invention is a kiosk terminal that bidirectionally communicates a video of a user who operates the device and a video of an operator who operates the operator terminal, the operator terminal A communication unit that communicates with the monitor, a monitor that displays an operator's video captured by the camera of the operator terminal, a speaker that outputs the operator's original voice collected by the microphone of the operator terminal, and a control unit
  • the control unit displays the operator's video on the monitor in the operator display mode and outputs the operator's original voice from the speaker.
  • the avatar display mode the feature information extracted from the operator's video The avatar video generated based on the The conversion voice converted original voice regulator to the voice quality that conform to the avatar and configured to output from the speaker.
  • the operator's video is displayed on the kiosk terminal, and the operator himself / herself responds to the user.
  • the avatar display mode the avatar's video is displayed on the kiosk terminal, and instead of the operator.
  • Avatar responds to the user.
  • an avatar can respond to a user or an operator himself can respond to a user.
  • the voice is output with the voice quality of the avatar, it is possible to prevent the user from feeling uncomfortable.
  • the first invention is a bi-directional communication between a video of a user operating the kiosk terminal and a video of an operator operating the operator terminal between the kiosk terminal and the operator terminal.
  • the operator terminal includes a communication unit that communicates with the kiosk terminal, a camera that captures an operator's face, a microphone that collects voice uttered by the operator, and a control unit.
  • the kiosk terminal includes a communication unit that communicates with the operator terminal, a monitor that displays an operator image captured by the camera, a speaker that outputs the original voice of the operator collected by the microphone, A control unit, wherein the control unit of the kiosk terminal displays the video of the operator in the operator display mode.
  • the original voice of the operator is output from the speaker, and in the avatar display mode, a video of the avatar generated based on the feature information extracted from the video of the operator is displayed on the monitor, and the operator
  • the converted voice obtained by converting the original voice into voice quality adapted to the avatar is output from the speaker.
  • the operator's video is displayed on the kiosk terminal, and the operator himself / herself responds to the user.
  • the avatar display mode the avatar's video is displayed on the kiosk terminal, and the avatar is displayed instead of the operator. Respond to users.
  • an avatar can respond to a user or an operator himself can respond to a user.
  • the voice is output with the voice quality of the avatar, it is possible to prevent the user from feeling uncomfortable.
  • control unit of the operator terminal extracts feature information from the video of the operator, transmits the feature information from the communication unit to the kiosk terminal, and performs the control of the kiosk terminal.
  • the unit is configured to generate a moving image of the avatar based on the feature information received from the operator terminal and display the moving image on the monitor.
  • the amount of communication can be reduced compared to the configuration of transmitting the avatar video, and video processing such as encoding and decoding is unnecessary. Therefore, the load on the kiosk terminal can be reduced.
  • the operator terminal includes a front camera for photographing an operator's face and a hand camera for photographing an operator's hand
  • the kiosk terminal is a front of the operator photographed by the front camera.
  • a front monitor that displays video
  • a hand monitor that displays a hand image of the operator photographed by the hand camera
  • the control unit of the kiosk terminal includes the front image of the operator and an avatar on the front monitor. Any one of the front moving images is displayed, and any one of the operator's hand video, the avatar's hand video, and the operation screen is displayed on the hand monitor.
  • the front image and the hand image of the operator on the front monitor and the hand monitor of the kiosk terminal, respectively, it is possible to realize a realistic feeling that the user is facing the operator through the counter. Also, by displaying the operator's hand image on the hand monitor, the operator can explain while pointing the document at the hand. Further, by displaying the operation screen on the hand monitor, the user can perform a necessary operation.
  • the fourth aspect of the invention is configured such that the control unit of the kiosk terminal displays a front moving image of the avatar on the front monitor and displays a hand image of the operator on the hand monitor.
  • the fifth aspect of the invention is configured such that the control unit of the operator terminal switches between the operator display mode and the avatar display mode according to the operation content of the user at the kiosk terminal.
  • the control unit of the kiosk terminal displays at least one of guidance information, character information representing the utterance content of the operator, and shared information shared between the user and the operator on the monitor.
  • the configuration
  • the user can browse guidance information such as a weather forecast, the user can recognize the utterance contents of the operator by characters, and the information can be shared between the user and the operator. Therefore, user convenience can be improved.
  • the seventh invention is a kiosk terminal for bidirectionally communicating a video of a user who operates the device and a video of an operator who operates the operator terminal with the operator terminal.
  • a communication unit that performs communication, a monitor that displays an operator's image captured by the camera of the operator terminal, a speaker that outputs the original voice of the operator that is picked up by the microphone of the operator terminal, and a control unit,
  • the control unit displays the operator's video on the monitor and outputs the operator's original voice from the speaker.
  • the control unit outputs the feature information extracted from the operator's video.
  • a video of the avatar generated based on this is displayed on the monitor, and the operator's And configured to output the converted sound converted to the voice quality adapted speech avatar from the speaker.
  • the avatar can respond to the user at the kiosk terminal or the operator himself can respond to the user according to the contents of the service desired by the user.
  • FIG. 1 is an overall configuration diagram of a bidirectional video communication system according to the present embodiment.
  • This bidirectional video communication system includes a kiosk terminal 1 and an operator terminal 2.
  • the kiosk terminal 1 and the operator terminal 2 are connected via a network such as the Internet, a VPN (Virtual Private Network), or an intranet.
  • a network such as the Internet, a VPN (Virtual Private Network), or an intranet.
  • the kiosk terminal 1 is installed in various facilities and is operated by the user.
  • the kiosk terminal 1 transmits a video of the user to the operator terminal 2 and displays the video of the operator received from the operator terminal 2.
  • the operator terminal 2 is installed in a facility such as a call center where an operator who responds to the user resides, and is operated by the operator. Display video.
  • the kiosk terminal 1 can provide various services. For example, by installing the kiosk terminal 1 in the lobby of a transportation facility such as an airport, it is possible to provide services such as guidance for nearby sightseeing spots, floors within the facility, and guidance for nearby accommodation facilities. it can. Moreover, by installing the kiosk terminal 1 in a store of a financial institution such as a bank, various services performed at a window, for example, services such as opening an account, consulting for a financial transaction or a loan contract can be provided. In addition, by installing the kiosk terminal 1 at the front of an accommodation facility such as a hotel, it is possible to provide various guidance services performed by a staff member (concierge). In addition, by installing it in the entrance lobby of a condominium, such as a condominium, it is possible to provide various services performed by an administrator.
  • the kiosk terminal 1 can always provide various services on behalf of the person in charge, the quality of the service can be improved, and the operator can take charge of a plurality of facilities. Therefore, personnel reduction can be achieved.
  • the kiosk terminal 1 and the operator terminal 2 communicate the user's video and the operator's video bidirectionally.
  • the contents operated by the user and the operator at the kiosk terminal 1 and the operator terminal 2. Operation information related to the user, text information input by the user or operator, and the like are communicated bidirectionally.
  • confidential information such as personal information such as a user's name and address, and information such as an account number of a financial institution may be exchanged.
  • information other than video including confidential information communicates with the existing network. May communicate video on a separate network. Thereby, while ensuring security, it can prevent the load of the existing network increasing by communicating the image
  • FIG. 2 is a perspective view showing the appearance of the kiosk terminal 1.
  • the kiosk terminal 1 includes a housing 11, a front monitor 12, a hand monitor 13, a front camera 14, a hand camera 15, an IC card reader 16, a speaker 17, and a microphone 18.
  • the front monitor 12 is arranged with the screen facing forward, and the local monitor 13 is arranged with the screen facing upward.
  • the hand monitor 13 includes a touch panel, and the user can perform screen operations.
  • the front camera 14 photographs the upper body including the user's face from the front.
  • the hand camera 15 captures the user's hand, that is, the user's hand placed on the hand monitor 13 and the screen of the hand monitor 13 from above. The user performs an operation of pointing the screen of the hand monitor 13 with his hand, and this situation is photographed by the hand camera 15.
  • the IC card reader 16 reads an IC card possessed by the user.
  • Speaker 17 outputs the voice uttered by the operator.
  • the microphone 18 collects the voice uttered by the user.
  • the kiosk terminal 1 configured as described above is placed on a table such as a counter, and the user operates the kiosk terminal 1 while sitting on a chair or standing.
  • FIG. 3 is a perspective view showing the appearance of the operator terminal 2.
  • the operator terminal 2 includes a gantry 21, a first monitor 22, a second monitor 23, a front camera 24, a hand camera 25, a headset 26, and a table 27.
  • the first monitor 22 is supported by the gantry 21 so as to have a predetermined height.
  • the second monitor 23 includes a touch panel, and an operator can perform screen operations.
  • the front camera 24 photographs the upper body including the operator's face from the front.
  • the hand camera 25 photographs the hand of the operator, that is, the hand of the operator placed on the table 27 and the table 27 from above.
  • the operator places a document such as a pamphlet on the table, explains the document while pointing at the hand, and this situation is photographed by the hand camera 25.
  • the headset 26 includes a speaker 28 and a microphone 29.
  • the speaker 28 outputs the voice uttered by the user.
  • the microphone 29 collects the voice uttered by the operator.
  • the operator terminal 2 is provided with a monitor 5.
  • a screen of an application started on the operator terminal 2 or a PC (not shown) is displayed.
  • the screen of this application is shared with the kiosk terminal 1, and the same screen is displayed on the local monitor 13 of the kiosk terminal 1 (screen sharing function).
  • the monitor 5 includes a touch panel, and an operator can draw on the screen by handwriting (whiteboard function).
  • the operator uses the operator terminal 2 to perform a telephone answering service that responds to the user with only voice by phone, in addition to the face-to-face answering service that responds to the user with video and voice.
  • the monitor (not shown) is attached to the operator terminal 2.
  • FIG. 4 is a block diagram showing a schematic configuration of the kiosk terminal 1 and the operator terminal 2.
  • the kiosk terminal 1 includes the front monitor 12, the hand monitor 13, the front camera 14, the hand camera 15, the IC card reader 16, the speaker 17, and the microphone 18 as described above.
  • the kiosk terminal 1 includes a control unit 31, a communication unit 32, and a storage unit 33.
  • the communication unit 32 communicates with the operator terminal 2 via a network.
  • the storage unit 33 stores a program to be executed by the processor that constitutes the control unit 31.
  • the storage unit 33 stores avatar model information necessary for generating an avatar video by the avatar video generation unit 36.
  • the control unit 31 includes a screen control unit 35, an avatar moving image generation unit 36, a voice control unit 37, and a voice conversion unit 38.
  • the control unit 31 includes a processor, and each unit of the control unit 31 is realized by executing a program stored in the storage unit 33 by the processor.
  • the screen control unit 35 controls the display screens of the front monitor 12 and the hand monitor 13. In the present embodiment, when an operator's front image is received from the operator terminal 2, the operator's front image is displayed on the front monitor 12. When the operator's hand image is received from the operator terminal 2, the operator's hand image is displayed on the hand monitor 13.
  • the avatar moving image generating unit 36 is caused to generate a front moving image of the avatar, and the front moving image of the avatar is displayed on the front monitor 12. Further, when the feature information of the operator's hand is received from the operator terminal 2, the avatar moving image is generated by the avatar moving image generation unit 36 and the moving image of the avatar is displayed on the hand monitor 13.
  • subtitle character information is received from the operator terminal 2
  • a subtitle image is generated, and the subtitle image is superimposed and displayed on the avatar's front video.
  • the guide information is received from the operator terminal 2
  • an image of the band information that visualizes the guide information is generated, and the image of the band information is superimposed on the front moving image of the avatar and displayed.
  • the avatar moving image generating unit 36 generates a moving image of an avatar in which an avatar (character) moves in accordance with the movement of the face of the operator based on the feature information (tracking information) received from the operator terminal 2 (fitting and rendering).
  • a front moving image in which the facial expression of the operator is reproduced with an avatar is generated based on the feature information of the operator's face, and the movement of the operator's hand is avatared based on the feature information of the operator's hand.
  • the voice control unit 37 controls the voice output from the speaker 17. In the present embodiment, either the operator's original voice received from the operator terminal 2 or the voice converted by the voice conversion unit 38 is output from the speaker 17 depending on whether or not the voice conversion is valid. .
  • the voice conversion unit 38 converts the operator's original voice received from the operator terminal 2 into voice of voice quality suitable for the avatar character.
  • voice conversion a known voice conversion technique such as voice quality conversion using deep learning may be used.
  • control unit 31 performs connection control to connect to the operator terminal 2, and also transmits and receives in real time the user's image captured by the kiosk terminal 1 and the operator's image captured by the operator terminal 2. Perform video transmission control.
  • the operator terminal 2 includes the first monitor 22, the second monitor 23, the front camera 24, the hand camera 25, and the headset 26 as described above.
  • the operator terminal 2 includes a control unit 41, a communication unit 42, and a storage unit 43.
  • the communication unit 42 communicates with the kiosk terminal 1 via the network.
  • the storage unit 43 stores a program to be executed by the processor that constitutes the control unit 41. Moreover, the memory
  • the control unit 41 includes a screen control unit 45, a feature extraction unit 46, and a voice recognition unit 47.
  • the control unit 41 is configured by a processor, and each unit of the control unit 41 is realized by executing a program stored in the storage unit 43 by the processor.
  • the screen control unit 45 controls the display screens of the front monitor 12 and the hand monitor 13 of the kiosk terminal 1.
  • an operator display mode for displaying an operator's front image and an avatar display mode for displaying an avatar's front video are switched.
  • screen control related to the hand monitor 13 of the kiosk terminal an operator display mode for displaying the operator's hand video, an avatar display mode for displaying the avatar's hand video, and an operation screen for displaying an operation screen (such as a menu screen). Switch between the mode and the screen sharing mode that displays the application screen.
  • the display modes of the front monitor 12 and the hand monitor 13 of the kiosk terminal 1 are switched according to the user's operation content on the kiosk terminal 1, but the operator can select the display mode. Good.
  • the feature extraction unit 46 extracts feature information of the operator's face, that is, position information (coordinates) of a plurality of feature points set on the face, from the front image of the operator photographed by the front camera 24. Further, from the operator's hand image captured by the hand camera 25, the operator's hand feature information, that is, position information (coordinates) of a plurality of feature points set in the hand is extracted.
  • the voice recognition unit 47 performs voice recognition on the voice of the operator picked up by the microphone 29 and outputs character information.
  • control unit 41 performs connection control for connecting to the kiosk terminal 1 and also transmits and receives in real time a user's video captured by the kiosk terminal 1 and an operator video captured by the operator terminal 2. Perform video transmission control.
  • the operator terminal 2 may be provided with a scanner that reads a document on hand.
  • an IC card reader may be provided in the operator terminal 2 in order to authenticate that the person to be operated is an authorized operator.
  • the kiosk terminal 1 may be provided with a printer that prints out documents transmitted from the operator terminal 2 or information displayed on the screen.
  • the second monitor 23 may be configured by a tablet PC, that is, the control unit 41, the communication unit 42, and the storage unit 43 may be housed in the housing of the second monitor 23.
  • FIG. 5 and 6 are explanatory diagrams showing screens displayed on the kiosk terminal 1.
  • the front monitor 12 operates as a digital signage during standby (before connection to the operator terminal 2). As shown in FIG. Content videos related to advertisements and facilities are displayed.
  • the main menu screen (operation screen) is displayed on the local monitor 13.
  • an operation button 51 for selecting a service menu is displayed on the main menu screen.
  • “procedure” and “consultation” can be selected as the service menu.
  • “consultation” the operator display mode is set and the screen is changed to the operator screen (see FIGS. 6A-1 and 6A-2).
  • “procedure” the avatar display mode is set, and a transition is made to the avatar screen (see FIGS. 6B-1 and 6B-2).
  • “procedure” is a procedure for opening an account and the like, and a simple screen operation is required.
  • the avatar display mode is set and the avatar is displayed on the avatar screen. Responds to the user.
  • “consultation” is when consulting on contracts related to loans and trusts, etc. Since detailed guidance is required and it takes time, it is necessary to face the operator himself, so it becomes the operator display mode, The operator himself responds to the user on the operator screen.
  • a selection screen (not shown) for selecting either the avatar display mode or the operator display mode may be displayed.
  • a call button 52 is displayed on the main menu screen of the hand monitor 13.
  • the kiosk terminal 1 is connected to the operator terminal 2, and then the operator display mode is set, and the screen is changed to the operator screen (see FIGS. 6A-1 and 6A-2).
  • a screen asking the user whether or not to interact with the operator is displayed before the transition to the operator screen, and the transition to the operator screen is performed when the user accepts an operation. May be.
  • the service menu when the service menu is selected on the main menu screen, it may be changed to a sub menu screen as shown in FIG. 5 (B-2) if necessary.
  • operation buttons 53 corresponding to various submenu items are displayed.
  • a call button 52 is displayed on the submenu screen in the same manner as the main menu screen (see FIG. 5A-2).
  • the kiosk terminal 1 When the kiosk terminal 1 is connected to the operator terminal 2, in the operator display mode, as shown in FIG. 6 (A-1), the front image 61 of the operator captured by the front camera 24 of the operator terminal 2 is displayed on the front monitor 12. At the same time, as shown in FIG. 6A-2, the operator's hand image 62 photographed by the hand camera 25 of the operator terminal 2 is displayed on the hand monitor 13.
  • a front avatar moving image 65 is displayed on the front monitor 12.
  • This avatar front video 65 is generated based on facial feature information extracted from the operator's front video, and the avatar's face moves according to the movement of the operator's face.
  • the caption 66 (uttered character display portion) is superimposed and displayed on the avatar's front video 65 (overlay).
  • this subtitle a character string of speech uttered by the operator is displayed.
  • an information band 67 (guidance information display unit) is superimposed and displayed on the front moving image 65 of the avatar (superimpose).
  • various guidance information such as weather forecast, traffic jam information, stock price information, and the like are displayed.
  • the hand monitor 13 is in any one of the avatar display mode, the operator display mode, and the operation screen display mode.
  • the avatar's hand animation 68 is displayed on the hand monitor 13 as shown in FIG. 6 (B-2).
  • the avatar's hand animation 68 is generated based on hand feature information extracted from the operator's hand video, and the avatar's hand moves according to the movement of the operator's hand.
  • the operator's hand image 62 is displayed on the hand monitor 13 as in the example shown in FIG.
  • the operation screen is displayed as in the example shown in FIG.
  • the screen of the application started on the operator terminal 2 or the PC (not shown) on the operator side is displayed on the local monitor 13.
  • the screen of this application is shared with the operator terminal 2, and the same screen is displayed on the monitor 5 of the operator terminal 2 (screen sharing function).
  • the user can draw by hand on the screen (whiteboard function).
  • FIG. 7 is an explanatory diagram showing a screen displayed on the operator terminal 2.
  • a standby screen is displayed on the first monitor 22, and when the call button 52 (see FIGS. 5A-2 and 5B-2) is operated on the kiosk terminal 1, FIG. As shown in A-1), the incoming call screen is displayed. On this incoming call screen, information (installation location, terminal name, etc.) regarding the kiosk terminal 1 that is the connection partner is displayed.
  • an operation screen is displayed on the second monitor 23 as shown in FIG. 7 (A-2).
  • various operation buttons 71 for controlling the operator terminal 2 and giving instructions to the kiosk terminal 1 are displayed.
  • a front image 61 of the operator photographed by the front camera 24 of the operator terminal 2 and a hand image 62 of the operator photographed by the hand camera 25 of the operator terminal 2 are displayed.
  • the operator's front image 61 and hand image 62 are the same as those displayed on the kiosk terminal 1. Note that the operator's hand image 62 can be switched between the original state and the vertically inverted state.
  • a front image 72 of the user taken by the front camera 14 of the kiosk terminal 1 is displayed on the first monitor 22. Is done.
  • the 1st monitor 22 is supported by the mount frame 21 so that it may become predetermined
  • the operation button 71 is displayed on the second monitor 23 as in the standby mode.
  • the front image 61 of the operator is displayed on the second monitor 23 as in the standby mode.
  • the operator's front image 61 can be switched to the operator's hand image.
  • the second monitor 23 displays a user's hand image 73 captured by the hand camera 15 of the kiosk terminal 1 in a state where the operator's hand image is displayed. Note that the user's hand image 73 can be switched between an original state and a vertically inverted state.
  • the user's hand image 73 displayed on the second monitor 23 shows a user's hand pointing to a document such as a pamphlet displayed on the screen on the hand monitor 13 of the kiosk terminal 1, while the user and the operator point to each other. Can interact.
  • the user's front image 72 is displayed on the first monitor 22 and the user's hand image 73 is displayed on the second monitor 23.
  • the user's front image 72 and the hand image 63 are displayed. You may make it display on one monitor. In this case, it is possible to realize a sense of reality that faces the user through the counter from the operator side.
  • FIG. 8 is an explanatory diagram showing registered contents of the avatar database.
  • the operator terminal 2 information related to the situation when the avatar video is displayed on the kiosk terminal 1 in the avatar display mode is registered in the avatar database.
  • this database (table), the record ID, the character adopted for the avatar, the display content of the hand monitor 13, the type of output voice, the coordinate log, etc. are registered for each event in which the avatar video was displayed in the past.
  • the coordinate log is the coordinates (position information) of the feature points of the face extracted from the front image of the operator.
  • the part of the face to be moved may vary depending on the avatar character.
  • the “rabbit” may move the eyes, nose and mouth, while the “bear” may move only the eyes and mouth, and the nose may not move.
  • information specifying the part of the face to be moved that is, the part from which the feature information is extracted may be registered in the database.
  • a part other than the face of the avatar for example, the shoulder of the avatar may be moved.
  • feature information on the operator's shoulders may be extracted from the operator's front image.
  • FIG. 9 is a flowchart showing a screen control procedure related to the front monitor 12.
  • the operator terminal 2 first determines the display mode of the front monitor 12 of the kiosk terminal 1 (ST101), and if it is in the operator display mode, transmits the front image of the operator captured by the front camera 24 to the kiosk terminal 1.
  • the front image of the operator is displayed on the front monitor 12 of the kiosk terminal 1 (ST102).
  • the feature information of the operator's face is extracted from the front image of the operator photographed by the front camera 24, and the feature information is transmitted to the kiosk terminal 1.
  • a front moving image of the avatar is generated from the information, and the front moving image of the avatar is displayed on the front monitor 12 (ST103).
  • the operator's voice collected by the microphone 29 is converted into character information by voice recognition, and the character information is transmitted to the kiosk terminal 1, and the kiosk terminal 1, a subtitle image, that is, an image of a voice character string spoken by the operator is generated based on the character information, and the subtitle image is superimposed and displayed on the front video of the avatar (ST105).
  • the band information is valid (Yes in ST106)
  • guidance information such as weather forecast is acquired from a server (not shown)
  • the guidance information is transmitted to the kiosk terminal 1, and the kiosk terminal 1 receives the guidance information.
  • An image of the band information that visualizes the image is generated, and the image of the band information is superimposed on the front moving image of the avatar and displayed (ST107).
  • FIG. 10 is a flowchart showing the screen control procedure for the local monitor 13.
  • the operator terminal 2 first determines the display mode of the hand monitor 13 of the kiosk terminal 1 (ST201), and if it is in the operator display mode, transmits the hand image of the operator captured by the hand camera 25 to the kiosk terminal 1. Then, the operator's hand image is displayed on the hand monitor 13 of the kiosk terminal 1 (ST202).
  • hand feature information is extracted from the operator's hand image captured by the hand camera 25, and the feature information is transmitted to the kiosk terminal 1. Then, a moving image of the avatar is generated, and the moving image of the avatar is displayed on the local monitor 13 (ST203).
  • an operation screen (such as a menu screen) is generated, the operation screen is transmitted to the kiosk terminal 1, and the operation screen is displayed on the local monitor 13 of the kiosk terminal 1 (ST204). ).
  • an application screen is generated, the application screen is transmitted to the kiosk terminal 1, and the application screen is displayed on the local monitor 13 of the kiosk terminal 1 (ST205).
  • the operator terminal 2 when handwritten operation information by the operator is input, the operator terminal 2 superimposes the operator's handwritten image on the application screen based on the operation information. Moreover, when the handwritten operation information by the user is received from the kiosk terminal 1, the user's handwritten image is superimposed on the application screen based on the operation information.
  • FIG. 11 is a flowchart showing the voice control procedure.
  • the kiosk terminal 1 first determines whether or not the voice conversion is valid (ST301). If the voice conversion is valid (Yes in ST301), voice conversion is performed on the operator's original voice received from the operator terminal 2, and the voice-converted voice is output from the speaker 17 (ST302). .
  • the display mode of the front monitor 12 is the avatar display mode
  • the voice conversion is valid
  • the display mode is the operator display mode
  • the voice conversion is invalid
  • subtitles are enabled in the avatar display mode
  • audio may not be output.
  • subtitles can be enabled at all times regardless of the display mode, and various procedures can be performed for users with hearing loss or disabilities. Etc. can be guided.
  • the embodiment has been described as an example of the technique disclosed in the present application.
  • the technology in the present disclosure is not limited to this, and can be applied to embodiments in which changes, replacements, additions, omissions, and the like have been performed.
  • the interactive video communication system and the kiosk terminal according to the present invention have an effect that an avatar can respond to the user or an operator himself can respond to the user at the kiosk terminal depending on the situation of the service desired by the user.
  • the present invention is useful as a bidirectional video communication system and a kiosk terminal for bidirectionally communicating a video of a user who operates the kiosk terminal and a video of an operator who operates the operator terminal between the kiosk terminal and the operator terminal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

【課題】ユーザが望むサービスの内容などの状況に応じて、キオスク端末でアバターがユーザに応対したりオペレータ本人がユーザに応対したりできるようにする。 【解決手段】キオスク端末1の制御部31は、オペレータ表示モードにおいて、オペレータの映像をモニタ12に表示するとともに、オペレータの原音声をスピーカー17から出力し、アバター表示モードにおいて、オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画をモニタに表示するとともに、オペレータの原音声をアバターに適合した声質に変換した変換音声をスピーカーから出力する。

Description

双方向映像通信システム及びキオスク端末
 本発明は、キオスク端末とオペレータ端末との間で、キオスク端末を操作するユーザの映像とオペレータ端末を操作するオペレータの映像とを双方向に通信する双方向映像通信システム、及びキオスク端末に関するものである。
 近年、遠隔地にいる複数の人物をそれぞれ撮影した映像を双方向に通信する双方向映像通信システムが普及している。一方、各種の情報を提供する案内業務や金融機関などの窓口業務などのサービスを、人に代わって提供するキオスク端末が普及しており、このようなキオスク端末と、ユーザに応対するオペレータが操作するオペレータ端末とで、双方向映像通信システムを構築すると、ユーザにオペレータが対面して応対することができるため、キオスク端末によるサービスの品質を向上させることができる。
 このようなキオスク端末で構築される双方向映像通信システムに関する技術として、従来、キオスク端末に複数のモニタを設けて、ユーザに向かい合うモニタに、オペレータの顔を撮影した映像を表示する技術が知られている(特許文献1参照)。
 また、人物を撮像した映像をそのまま相手側の端末に表示させたくない場合に、音声だけではコミュニケーション力が低下するため、人物の顔を撮像した顔画像から抽出した特徴情報に基づいて、人物の表情の変化をアバター(キャラクタ)で再現した動画を生成して、その動画を相手側の端末に表示する技術が知られている(特許文献2参照)。
特開2004-147105号公報 特許第3593067号公報
 さて、キオスク端末とオペレータ端末とで双方向映像通信システムを構築した場合、キオスク端末のモニタにオペレータの顔が表示されるが、オペレータの中には、自分の顔が公開されることを望まない人もおり、人材確保の面で、自分の顔が公開されることを望まないオペレータでも業務に携わることができるようにすることが望まれる。このような要望に対しては、特許文献2に開示された技術のように、アバターの動画を表示することで解決される。しかしながら、ユーザが望むサービスの内容によっては、オペレータ本人が対面で説明する必要がある場合もあり、状況に応じて、オペレータ本人がユーザに応対できるようすることが望まれる。
 しかしながら、前記従来の技術では、ユーザが望むサービスの内容などに応じて、アバターがユーザに応対したり、オペレータ本人がユーザに応対したりできないという問題があった。
 そこで、本発明は、ユーザが望むサービスの内容などに応じて、キオスク端末でアバターがユーザに応対したりオペレータ本人がユーザに応対したりできる双方向映像通信システム及びキオスク端末を提供することを主な目的とする。
 本発明の双方向映像通信システムは、キオスク端末とオペレータ端末との間で、前記キオスク端末を操作するユーザの映像と前記オペレータ端末を操作するオペレータの映像とを双方向に通信する双方向映像通信システムであって、前記オペレータ端末は、前記キオスク端末と通信を行う通信部と、オペレータの顔を撮影するカメラと、オペレータが発話した音声を収音するマイクと、制御部と、を備え、前記キオスク端末は、前記オペレータ端末と通信を行う通信部と、前記カメラで撮影したオペレータの映像を表示するモニタと、前記マイクで収音したオペレータの原音声を出力するスピーカーと、制御部と、を備え、前記キオスク端末の前記制御部は、オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力する構成とする。
 また、本発明のキオスク端末は、自装置を操作するユーザの映像とオペレータ端末を操作するオペレータの映像とを、前記オペレータ端末との間で双方向に通信するキオスク端末であって、前記オペレータ端末と通信を行う通信部と、前記オペレータ端末のカメラで撮影したオペレータの映像を表示するモニタと、前記オペレータ端末のマイクで収音したオペレータの原音声を出力するスピーカーと、制御部と、を備え、前記制御部は、オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力する構成とする。
 本発明によれば、オペレータ表示モードでは、オペレータの映像がキオスク端末に表示されて、オペレータ本人がユーザに応対し、アバター表示モードでは、アバターの動画がキオスク端末に表示されて、オペレータの代わりにアバターがユーザに応対する。これにより、ユーザが望むサービスの内容などに応じて、アバターがユーザに応対したりオペレータ本人がユーザに応対したりできる。また、アバター表示モードでは、アバターの声質で音声が出力されるため、ユーザに違和感を与えないようにすることができる。
本実施形態に係る双方向映像通信システムの全体構成図 キオスク端末1の外観を示す斜視図 オペレータ端末2の外観を示す斜視図 キオスク端末1およびオペレータ端末2の概略構成を示すブロック図 キオスク端末1に表示される画面を示す説明図 キオスク端末1に表示される画面を示す説明図 オペレータ端末2に表示される画面を示す説明図 オペレータ端末2で管理されるアバターデータベースの登録内容を示す説明図 オペレータ端末2で行われるキオスク端末1の正面モニタ12に関する画面制御の手順を示すフロー図 オペレータ端末2で行われるキオスク端末1の手元モニタ13に関する画面制御の手順を示すフロー図 キオスク端末1で行われる音声制御の手順を示すフロー図
 前記課題を解決するためになされた第1の発明は、キオスク端末とオペレータ端末との間で、前記キオスク端末を操作するユーザの映像と前記オペレータ端末を操作するオペレータの映像とを双方向に通信する双方向映像通信システムであって、前記オペレータ端末は、前記キオスク端末と通信を行う通信部と、オペレータの顔を撮影するカメラと、オペレータが発話した音声を収音するマイクと、制御部と、を備え、前記キオスク端末は、前記オペレータ端末と通信を行う通信部と、前記カメラで撮影したオペレータの映像を表示するモニタと、前記マイクで収音したオペレータの原音声を出力するスピーカーと、制御部と、を備え、前記キオスク端末の前記制御部は、オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力する構成とする。
 これによると、オペレータ表示モードでは、オペレータの映像がキオスク端末に表示されて、オペレータ本人がユーザに応対し、アバター表示モードでは、アバターの動画がキオスク端末に表示されて、オペレータの代わりにアバターがユーザに応対する。これにより、ユーザが望むサービスの内容などに応じて、アバターがユーザに応対したりオペレータ本人がユーザに応対したりできる。また、アバター表示モードでは、アバターの声質で音声が出力されるため、ユーザに違和感を与えないようにすることができる。
 また、第2の発明は、前記オペレータ端末の前記制御部は、前記オペレータの映像から特徴情報を抽出して、その特徴情報を前記通信部から前記キオスク端末に送信し、前記キオスク端末の前記制御部は、前記オペレータ端末から受信した前記特徴情報に基づいて前記アバターの動画を生成して前記モニタに表示する構成とする。
 これによると、オペレータ端末からキオスク端末に特徴情報を送信するため、アバターの動画を送信する構成と比較して、通信量を削減することができ、また、エンコードやデコードなどの映像処理が不要となるため、キオスク端末の負荷を軽減することができる。
 また、第3の発明は、前記オペレータ端末は、オペレータの顔を撮影する正面カメラと、オペレータの手元を撮影する手元カメラと、を備え、前記キオスク端末は、前記正面カメラで撮影したオペレータの正面映像を表示する正面モニタと、前記手元カメラで撮影したオペレータの手元映像を表示する手元モニタと、を備え、前記キオスク端末の前記制御部は、前記正面モニタに、前記オペレータの正面映像、およびアバターの正面動画のいずれかを表示し、前記手元モニタに、前記オペレータの手元映像、アバターの手元動画、および操作画面のいずれかを表示する構成とする。
 これによると、キオスク端末の正面モニタおよび手元モニタにそれぞれオペレータの正面映像および手元映像を表示させることで、ユーザがオペレータとカウンタ越しで向き合っているような臨場感を実現することができる。また、手元モニタにオペレータの手元映像を表示させることで、オペレータが書類を手先で指し示しながら説明することができる。また、手元モニタに操作画面を表示させることで、ユーザが必要な操作を行うことができる。
 また、第4の発明は、前記キオスク端末の前記制御部は、前記アバターの正面動画を前記正面モニタに表示するとともに、前記オペレータの手元映像を前記手元モニタに表示する構成とする。
 これによると、書類を手先で指し示しながら説明する場合、アバターでは細かい手の動きを再現しにくいため、オペレータの手元映像をそのまま表示することで、書類をわかりやすく説明することができる。
 また、第5の発明は、前記オペレータ端末の前記制御部は、前記キオスク端末でのユーザの操作内容に応じて、前記オペレータ表示モードと前記アバター表示モードとを切り替える構成とする。
 これによると、オペレータ表示モードとアバター表示モードとを適切に切り替えることができる。例えば、簡単な画面操作で済む場合には、アバターの動画を表示して、アバターがユーザに応対するようにする。これにより、顔の公開を望まないオペレータでも業務を行うことができる。一方、詳細な案内が必要で時間がかかる場合には、オペレータの映像を表示して、オペレータ本人がユーザに応対するようにする。これにより、ユーザの応対を円滑に進めることができる。なお、オペレータやユーザが表示モードを切り替えることができるようにしてもよい。
 また、第6の発明は、前記キオスク端末の前記制御部は、案内情報、オペレータの発話内容を表す文字情報、およびユーザとオペレータとで共有する共有情報の少なくとも1つを、前記モニタに表示する構成とする。
 これによると、ユーザが天気予報などの案内情報を閲覧することができ、また、ユーザがオペレータの発話内容を文字で認識することができ、また、ユーザとオペレータとで情報を共有することができるため、ユーザの利便性を向上させることができる。
 また、第7の発明は、自装置を操作するユーザの映像とオペレータ端末を操作するオペレータの映像とを、前記オペレータ端末との間で双方向に通信するキオスク端末であって、前記オペレータ端末と通信を行う通信部と、前記オペレータ端末のカメラで撮影したオペレータの映像を表示するモニタと、前記オペレータ端末のマイクで収音したオペレータの原音声を出力するスピーカーと、制御部と、を備え、前記制御部は、オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力する構成とする。
 これによると、第1の発明と同様に、ユーザが望むサービスの内容などに応じて、キオスク端末でアバターがユーザに応対したりオペレータ本人がユーザに応対したりできる。
 以下、本発明の実施の形態を、図面を参照しながら説明する。
 図1は、本実施形態に係る双方向映像通信システムの全体構成図である。
 この双方向映像通信システムは、キオスク端末1と、オペレータ端末2と、を備えている。キオスク端末1とオペレータ端末2とは、インターネットやVPN(Virtual Private Network)やイントラネットなどのネットワークを介して接続される。
 キオスク端末1は、各種の施設に設置され、ユーザが操作するものであり、ユーザを撮影した映像をオペレータ端末2に送信し、オペレータ端末2から受信したオペレータの映像を表示する。
 オペレータ端末2は、コールセンターなど、ユーザに応対するオペレータが常駐する施設に設置され、オペレータが操作するものであり、オペレータを撮影した映像をキオスク端末1に送信し、キオスク端末1から受信したユーザの映像を表示する。
 なお、キオスク端末1では、様々なサービスを提供することができる。例えば、キオスク端末1を空港などの交通施設のロビーなどに設置することで、周辺の観光地の案内や、施設内のフロアの案内や、周辺の宿泊施設の案内などのサービスを提供することができる。また、キオスク端末1を銀行などの金融機関の店舗に設置することで、窓口などで行われる各種のサービス、例えば、口座開設や金融取引やローン契約の相談などのサービスを提供することができる。また、キオスク端末1をホテルなどの宿泊施設のフロントなどに設置することで、係員(コンシェルジュ)が行う各種の案内サービスを提供することができる。また、マンションなどの共同住宅の玄関ロビーなどに設置することで、管理人が行う各種のサービスを提供することができる。
 このようにキオスク端末1では、各種のサービスを担当者に代わって常時提供することができるため、サービスの品質を向上させることができ、また、オペレータが複数の施設を掛け持ちで担当することができるため、人員削減を図ることができる。
 また、キオスク端末1とオペレータ端末2との間では、ユーザの映像とオペレータの映像とを双方向に通信するが、この他に、キオスク端末1やオペレータ端末2において、ユーザやオペレータが操作した内容に関する操作情報、ユーザやオペレータが入力したテキスト情報などが双方向に通信される。
 特に、機密情報、例えば、ユーザの氏名や住所などの個人情報や、金融機関の口座番号などの情報がやり取りされる場合がある。このような機密情報の通信については、サービス提供者が、セキュリティを高度に確保した専用のネットワークを既に運用しているため、機密情報を含む映像以外の情報は既存のネットワークで通信し、これとは別のネットワークで映像を通信するようにしてもよい。これにより、セキュリティを確保するとともに、通信量が大きい映像を別のネットワークで通信することで、既存のネットワークの負荷が増大しないようにすることができる。
 次に、キオスク端末1について説明する。図2は、キオスク端末1の外観を示す斜視図である。
 キオスク端末1は、筐体11と、正面モニタ12と、手元モニタ13と、正面カメラ14と、手元カメラ15と、ICカードリーダ16と、スピーカー17と、マイク18と、を備えている。
 正面モニタ12は、画面を前向きにした状態で配置され、手元モニタ13は、画面を上向きにした状態で配置されている。また、手元モニタ13はタッチパネルを備えており、ユーザが画面操作を行うことができる。
 正面カメラ14は、ユーザの顔を含む上半身を正面から撮影する。手元カメラ15は、ユーザの手元、すなわち、手元モニタ13上に置いたユーザの手と手元モニタ13の画面とを上方から撮影する。ユーザは、手元モニタ13の画面を手先で指し示す動作を行い、この状況が手元カメラ15で撮影される。
 ICカードリーダ16は、ユーザが所持するICカードを読み取る。
 スピーカー17は、オペレータが発した音声を出力する。マイク18は、ユーザが発した音声を収音する。
 このように構成されたキオスク端末1は、カウンタなどの台に載置され、ユーザが椅子に座った状態で、あるいは、立ったままの状態でキオスク端末1を操作する。
 次に、オペレータ端末2について説明する。図3は、オペレータ端末2の外観を示す斜視図である。
 オペレータ端末2は、架台21と、第1モニタ22と、第2モニタ23と、正面カメラ24と、手元カメラ25と、ヘッドセット26と、テーブル27と、を備えている。
 第1モニタ22は、所定の高さとなるように架台21に支持されている。第2モニタ23は、タッチパネルを備えており、オペレータが画面操作を行うことができる。
 正面カメラ24は、オペレータの顔を含む上半身を正面から撮影する。手元カメラ25は、オペレータの手元、すなわち、テーブル27上に置いたオペレータの手とテーブル27とを上方から撮影する。オペレータは、テーブルにパンフレットなどの書類を置いて、書類を手先で指し示しながら書類を説明し、この状況が手元カメラ25で撮影される。
 ヘッドセット26は、スピーカー28と、マイク29と、を備えている。スピーカー28は、ユーザが発した音声を出力する。マイク29は、オペレータが発した音声を収音する。
 また、オペレータ端末2には、モニタ5が併設される。このモニタ5には、オペレータ端末2、または、図示しないPCで起動させたアプリケーションの画面が表示される。このアプリケーションの画面はキオスク端末1と共有され、同一の画面がキオスク端末1の手元モニタ13に表示される(画面共有機能)。また、モニタ5はタッチパネルを備えており、オペレータが手書きで画面上に描画することができる(ホワイトボード機能)。
 なお、コールセンターでは、オペレータが、オペレータ端末2を使用して映像と音声でユーザに応対する対面応対業務とは別に、電話による音声のみでユーザに応対する電話応対業務を行うため、電話応対業務用のモニタ(図示せず)がオペレータ端末2に併設される。
 次に、キオスク端末1およびオペレータ端末2の概略構成について説明する。図4は、キオスク端末1およびオペレータ端末2の概略構成を示すブロック図である。
 キオスク端末1は、前記のように、正面モニタ12と、手元モニタ13と、正面カメラ14と、手元カメラ15と、ICカードリーダ16と、スピーカー17と、マイク18と、を備えている。また、キオスク端末1は、制御部31と、通信部32と、記憶部33と、を備えている。
 通信部32は、ネットワークを介してオペレータ端末2と通信を行う。
 記憶部33は、制御部31を構成するプロセッサで実行されるプログラムを記憶する。また、記憶部33は、アバター動画生成部36でアバターの動画を生成するのに必要なアバターモデル情報を記憶する。
 制御部31は、画面制御部35と、アバター動画生成部36と、音声制御部37と、音声変換部38と、を備えている。この制御部31は、プロセッサで構成され、制御部31の各部は、記憶部33に記憶されたプログラムをプロセッサで実行することで実現される。
 画面制御部35は、正面モニタ12および手元モニタ13の表示画面を制御する。本実施形態では、オペレータ端末2からオペレータの正面映像を受信すると、そのオペレータの正面映像を正面モニタ12に表示する。また、オペレータ端末2からオペレータの手元映像を受信すると、そのオペレータの手元映像を手元モニタ13に表示する。
 また、オペレータ端末2からオペレータの顔の特徴情報を受信すると、アバター動画生成部36にアバターの正面動画を生成させて、そのアバターの正面動画を正面モニタ12に表示する。また、オペレータ端末2からオペレータの手の特徴情報を受信すると、アバター動画生成部36にアバターの手元動画を生成させて、そのアバターの手元動画を手元モニタ13に表示する。
 また、オペレータ端末2から字幕の文字情報を受信すると、字幕の画像を生成して、その字幕の画像をアバターの正面動画上に重畳して表示する。また、オペレータ端末2から案内情報を受信すると、案内情報を可視化した帯情報の画像を生成して、その帯情報の画像をアバターの正面動画上に重畳して表示する。
 アバター動画生成部36は、オペレータ端末2から受信した特徴情報(トラッキング情報)に基づいて、オペレータの顔の動きに合わせてアバター(キャラクタ)が動くアバターの動画を生成する(フィッティングおよびレンダリング)。本実施形態では、オペレータの顔の特徴情報に基づいて、オペレータの顔の表情をアバターで再現した正面動画を生成し、また、オペレータの手の特徴情報に基づいて、オペレータの手の動きをアバターで再現した手元動画を生成する。
 音声制御部37は、スピーカー17から出力する音声を制御する。本実施形態では、音声変換が有効であるか否かに応じて、オペレータ端末2から受信したオペレータの原音声と、音声変換部38で音声変換された音声とのいずれかをスピーカー17から出力する。
 音声変換部38は、オペレータ端末2から受信したオペレータの原音声を、アバターのキャラクタに適合した声質の音声に変換する。この音声変換には、ディープラーニングを用いた声質変換など、公知の音声変換技術を用いればよい。
 また、制御部31は、この他に、オペレータ端末2に接続する接続制御を行い、また、キオスク端末1で撮影したユーザの映像と、オペレータ端末2で撮影したオペレータの映像と、をリアルタイムで送受信する映像伝送制御などを行う。
 オペレータ端末2は、前記のように、第1モニタ22と、第2モニタ23と、正面カメラ24と、手元カメラ25と、ヘッドセット26と、を備えている。また、オペレータ端末2は、制御部41と、通信部42と、記憶部43と、を備えている。
 通信部42は、ネットワークを介してキオスク端末1と通信を行う。
 記憶部43は、制御部41を構成するプロセッサで実行されるプログラムを記憶する。また、記憶部43は、アバターの動画をキオスク端末1に表示したときの状況に関するアバターデータベース(図8参照)の登録情報を記憶する。
 制御部41は、画面制御部45と、特徴抽出部46と、音声認識部47と、を備えている。この制御部41は、プロセッサで構成され、制御部41の各部は、記憶部43に記憶されたプログラムをプロセッサで実行することで実現される。
 画面制御部45は、キオスク端末1の正面モニタ12および手元モニタ13の表示画面を制御する。本実施形態では、キオスク端末1の正面モニタ12に関する画面制御として、オペレータの正面映像を表示させるオペレータ表示モードと、アバターの正面動画を表示させるアバター表示モードとを切り替える。また、キオスク端末1の手元モニタ13に関する画面制御として、オペレータの手元映像を表示させるオペレータ表示モードと、アバターの手元動画を表示させるアバター表示モードと、操作画面(メニュー画面など)を表示させる操作画面モードと、アプリケーション画面を表示させる画面共有モードとを切り替える。
 なお、本実施形態では、キオスク端末1の正面モニタ12および手元モニタ13の表示モードが、キオスク端末1でのユーザの操作内容に応じて切り替えられるが、オペレータが表示モードを選択できるようにしてもよい。
 特徴抽出部46は、正面カメラ24で撮影したオペレータの正面映像から、オペレータの顔の特徴情報、すなわち、顔に設定された複数の特徴点の位置情報(座標)を抽出する。また、手元カメラ25で撮影したオペレータの手元映像から、オペレータの手の特徴情報、すなわち、手に設定された複数の特徴点の位置情報(座標)を抽出する。
 音声認識部47は、マイク29で収音したオペレータの音声に対して音声認識を行い、文字情報を出力する。
 また、制御部41は、この他に、キオスク端末1に接続する接続制御を行い、また、キオスク端末1で撮影したユーザの映像と、オペレータ端末2で撮影したオペレータの映像と、をリアルタイムで送受信する映像伝送制御などを行う。
 なお、オペレータ端末2に、手持ちの書類を読み取るスキャナを設けるようにしてもよい。また、オペレータ端末2に、操作する人物が正規のオペレータであることの認証を行うために、ICカードリーダを設けるようにしてもよい。また、キオスク端末1に、オペレータ端末2から送信された書類や画面表示された情報などを印刷出力するプリンタを設けるようにしてもよい。
 また、第2モニタ23をタブレットPCで構成する、すなわち、第2モニタ23の筐体内に、制御部41、通信部42および記憶部43を収容した構成としてもよい。
 次に、キオスク端末1に表示される画面について説明する。図5および図6は、キオスク端末1に表示される画面を示す説明図である。
 キオスク端末1では、スタンバイ時(オペレータ端末2に接続する前)には、正面モニタ12がデジタルサイネージとして動作し、図5(A-1)に示すように、正面モニタ12に、お薦めプランなどの広告や施設などの案内に関するコンテンツの映像が表示される。
 また、スタンバイ時には、図5(A-2)に示すように、手元モニタ13に、メインメニュー画面(操作画面)が表示される。このメインメニュー画面には、サービスメニューを選択する操作ボタン51が表示されている。本実施形態では、サービスメニューとして、「手続き」および「相談」を選択することができる。「相談」を選択すると、オペレータ表示モードとなり、オペレータ画面(図6(A-1),(A-2)参照)に遷移する。一方、「手続き」を選択すると、アバター表示モードとなり、アバター画面(図6(B-1),(B-2)参照)に遷移する。
 ここで、「手続き」は、口座開設などの手続きを行う場合であり、簡単な画面操作で済み、通常、オペレータ本人が対面して案内する必要がないため、アバター表示モードとなり、アバター画面でアバターがユーザに応対する。一方、「相談」は、ローンや信託に関する契約などに関する相談を行う場合であり、詳細な案内が必要で時間がかかるため、オペレータ本人と対面して案内する必要があるため、オペレータ表示モードとなり、オペレータ画面でオペレータ本人がユーザに応対する。なお、サービスメニューを選択した際に、アバター表示モードとオペレータ表示モードのいずれかを選択する選択画面(図示せず)を表示させるようにしてもよい。
 また、手元モニタ13のメインメニュー画面には、通話ボタン52が表示されている。この通話ボタン52を操作すると、キオスク端末1がオペレータ端末2に接続された上で、オペレータ表示モードとなり、オペレータ画面(図6(A-1),(A-2)参照)に遷移する。これにより、簡単な操作で済む「手続き」の場合でも、オペレータに案内してもらうことができる。
 なお、オペレータ表示モードでは、オペレータ画面に遷移する前に、オペレータと対話するか否かをユーザに問い合わせる画面を表示して、ユーザが承諾する操作を行った場合に、オペレータ画面に遷移するようにしてもよい。
 また、メインメニュー画面でサービスメニューを選択した場合に、必要に応じて、図5(B-2)に示すように、サブメニュー画面に遷移するようにしてもよい。このサブメニュー画面には、各種のサブメニュー項目に対応した操作ボタン53が表示されている。また、このサブメニュー画面には、メインメニュー画面(図5(A-2)参照)と同様に、通話ボタン52が表示されている。
 キオスク端末1がオペレータ端末2に接続されると、オペレータ表示モードでは、図6(A-1)に示すように、正面モニタ12に、オペレータ端末2の正面カメラ24で撮影したオペレータの正面映像61が表示され、同時に、図6(A-2)に示すように、手元モニタ13に、オペレータ端末2の手元カメラ25で撮影したオペレータの手元映像62が表示される。
 一方、アバター表示モードでは、図6(B-1)に示すように、正面モニタ12に、アバターの正面動画65が表示される。このアバターの正面動画65は、オペレータの正面映像から抽出した顔の特徴情報に基づいて生成され、オペレータの顔の動きに応じてアバターの顔が動く。
 また、アバター表示モードでは、字幕66(発話文字表示部)がアバターの正面動画65上に重畳表示される(オーバーレイ)。この字幕には、オペレータが発話した音声の文字列が表示される。また、情報帯67(案内情報表示部)がアバターの正面動画65上に重畳表示される(スーパーインポーズ)。この情報帯67には、天気予報、渋滞情報、株価情報などの種々の案内情報が表示される。
 また、正面モニタ12をアバター表示モードとした場合、手元モニタ13は、アバター表示モード、オペレータ表示モード、および操作画面表示モードのいずれかとなる。
 アバター表示モードでは、図6(B-2)に示すように、手元モニタ13に、アバターの手元動画68が表示される。このアバターの手元動画68は、オペレータの手元映像から抽出した手の特徴情報に基づいて生成され、オペレータの手の動きに応じてアバターの手が動く。
 一方、オペレータ表示モードでは、図6(A-2)に示した例と同様に、手元モニタ13に、オペレータの手元映像62が表示される。また、操作画面表示モードでは、図5(B-2)に示した例と同様に、操作画面が表示される。
 また、画面共有モードでは、手元モニタ13に、オペレータ端末2、または、オペレータ側の図示しないPCで起動させたアプリケーションの画面が表示される。このアプリケーションの画面はオペレータ端末2と共有され、同一の画面がオペレータ端末2のモニタ5に表示される(画面共有機能)。また、画面共有モードでは、ユーザが手書きで画面上に描画することができる(ホワイトボード機能)。
 次に、オペレータ端末2に表示される画面について説明する。図7は、オペレータ端末2に表示される画面を示す説明図である。
 オペレータ端末2では、スタンバイ時には、第1モニタ22に、待ち受け画面が表示され、キオスク端末1で通話ボタン52(図5(A-2),(B-2)参照)を操作すると、図7(A-1)に示すように、着信画面が表示される。この着信画面には、接続相手となるキオスク端末1に関する情報(設置場所や端末名称など)が表示される。
 また、スタンバイ時には、図7(A-2)に示すように、第2モニタ23に、操作画面が表示される。この操作画面には、オペレータ端末2の制御やキオスク端末1に対する指示などを行うための各種の操作ボタン71が表示される。
 また、第2モニタ23には、オペレータ端末2の正面カメラ24で撮影したオペレータの正面映像61と、オペレータ端末2の手元カメラ25で撮影したオペレータの手元映像62とが表示される。このオペレータの正面映像61および手元映像62は、キオスク端末1に表示されるものと同じものである。なお、オペレータの手元映像62は、元の状態と上下反転した状態とを切り替えることができる。
 一方、オペレータ端末2がキオスク端末1に接続されると、図7(B-1)に示すように、第1モニタ22に、キオスク端末1の正面カメラ14で撮影したユーザの正面映像72が表示される。なお、第1モニタ22は、所定の高さとなるように架台21に支持されており(図3参照)、これにより、オペレータとユーザとで視線を一致させることができる。
 また、図7(B-2)に示すように、第2モニタ23に、スタンバイ時と同様に、操作ボタン71が表示される。また、第2モニタ23には、スタンバイ時と同様に、オペレータの正面映像61が表示される。このオペレータの正面映像61は、オペレータの手元映像と切り替えることができる。また、第2モニタ23には、オペレータの手元映像が表示された状態でキオスク端末1の手元カメラ15で撮影したユーザの手元映像73が表示される。なお、ユーザの手元映像73は、元の状態と上下反転した状態とを切り替えることができる。
 第2モニタ23に表示されるユーザの手元映像73には、キオスク端末1の手元モニタ13上で画面に映るパンフレットなどの書類を指し示すユーザの手先が映り、ユーザとオペレータとで互いに書類を指し示しながら対話することができる。
 なお、本実施形態では、ユーザの正面映像72を第1モニタ22に表示し、ユーザの手元映像73を第2モニタ23に表示するようにしたが、ユーザの正面映像72と手元映像63とを1つのモニタに表示するようにしてもよい。この場合、オペレータ側からもユーザとカウンタ越しで向き合っているような臨場感を実現することができる。
 次に、オペレータ端末2で管理されるアバターデータベースについて説明する。図8は、アバターデータベースの登録内容を示す説明図である。
 オペレータ端末2では、アバター表示モードでアバターの動画をキオスク端末1に表示したときの状況に関する情報を、アバターデータベースに登録する。このデータベース(テーブル)には、過去にアバターの動画を表示したイベントごとに、レコードID、アバターに採用されたキャラクタ、手元モニタ13の表示内容、出力された音声の種類、座標ログなどが登録される。
 ここで、座標ログ(特徴情報の履歴)は、オペレータの正面映像から抽出された顔の特徴点の座標(位置情報)である。この座標ログを蓄積することで、過去にキオスク端末1に表示したアバターの動画を再生することができる。これにより、オペレータの正面映像やアバターの動画を録画するより、データ量を大きく削減できる。
 なお、アバターのキャラクタに応じて、動かす顔の部位が異なる場合がある。例えば、「うさぎ」では目、鼻および口を動かし、「くま」では目および口のみを動かし、鼻は動かさないようにしてもよい。この場合、動かす顔の部位、すなわち、特徴情報を抽出する部位を指定した情報を、データベースに登録するようにしてもよい。
 また、アバターの顔以外の部位、例えば、アバターの肩を動かすようにしてもよい。この場合、オペレータの正面映像からオペレータの肩の特徴情報を抽出すればよい。
 次に、オペレータ端末2で行われるキオスク端末1の正面モニタ12に関する画面制御について説明する。図9は、正面モニタ12に関する画面制御の手順を示すフロー図である。
 オペレータ端末2では、まず、キオスク端末1の正面モニタ12の表示モードを判定し(ST101)、オペレータ表示モードである場合には、正面カメラ24で撮影したオペレータの正面映像をキオスク端末1に送信し、キオスク端末1の正面モニタ12にオペレータの正面映像を表示させる(ST102)。
 一方、アバター表示モードである場合には、正面カメラ24で撮影したオペレータの正面映像からオペレータの顔の特徴情報を抽出して、その特徴情報をキオスク端末1に送信し、キオスク端末1において、特徴情報からアバターの正面動画を生成させて、そのアバターの正面動画を正面モニタ12に表示させる(ST103)。
 次に、字幕が有効である場合には(ST104でYes)、マイク29で収音したオペレータの音声を音声認識により文字情報に変換して、その文字情報をキオスク端末1に送信し、キオスク端末1において、文字情報に基づいて、字幕の画像、すなわち、オペレータが発話した音声の文字列の画像を生成させて、その字幕の画像をアバターの正面動画上に重畳して表示させる(ST105)。
 また、帯情報が有効である場合には(ST106でYes)、図示しないサーバから天気予報などの案内情報を取得して、その案内情報をキオスク端末1に送信し、キオスク端末1において、案内情報を可視化した帯情報の画像を生成させて、その帯情報の画像をアバターの正面動画上に重畳して表示させる(ST107)。
 次に、オペレータ端末2で行われるキオスク端末1の手元モニタ13に関する画面制御について説明する。図10は、手元モニタ13に関する画面制御の手順を示すフロー図である。
 オペレータ端末2では、まず、キオスク端末1の手元モニタ13の表示モードを判定し(ST201)、オペレータ表示モードである場合には、手元カメラ25で撮影したオペレータの手元映像をキオスク端末1に送信して、キオスク端末1の手元モニタ13にオペレータの手元映像を表示させる(ST202)。
 また、アバター表示モードである場合には、手元カメラ25で撮影したオペレータの手元映像から手の特徴情報を抽出して、その特徴情報をキオスク端末1に送信して、キオスク端末1において、特徴情報からアバターの手元動画を生成させて、そのアバターの手元動画を手元モニタ13に表示させる(ST203)。
 また、操作画面モードである場合には、操作画面(メニュー画面など)を生成して、その操作画面をキオスク端末1に送信して、キオスク端末1の手元モニタ13に操作画面を表示させる(ST204)。
 また、画面共有モードである場合には、アプリケーション画面を生成して、そのアプリケーション画面をキオスク端末1に送信して、キオスク端末1の手元モニタ13にアプリケーション画面を表示させる(ST205)。
 このとき、オペレータ端末2では、オペレータによる手書きの操作情報が入力されると、その操作情報に基づいて、アプリケーション画面上に、オペレータの手書き画像を重畳する。また、ユーザによる手書きの操作情報をキオスク端末1から受信すると、その操作情報に基づいて、アプリケーション画面上に、ユーザの手書き画像を重畳する。
 次に、キオスク端末1で行われる音声制御について説明する。図11は、音声制御の手順を示すフロー図である。
 キオスク端末1では、まず、音声変換が有効であるか否かを判定する(ST301)。ここで、音声変換が有効である場合には(ST301でYes)、オペレータ端末2から受信したオペレータの原音声に対して音声変換を行い、音声変換された音声をスピーカー17から出力する(ST302)。
 一方、音声変換が無効である場合には(ST301でNo)、オペレータ端末2から受信したオペレータの原音声をスピーカー17から出力する(ST303)。
 なお、正面モニタ12の表示モードがアバター表示モードである場合には、音声変換が有効となり、オペレータ表示モードである場合には、音声変換が無効となる。また、アバター表示モードで字幕が有効となっている場合には、音声を出力しないようにしてもよい。また、字幕を設定する操作ボタン等を配置することで、表示モードの如何に関わらず、常時、字幕を有効にすることができ、聴覚の衰えや障害のあるユーザに対しても、各種の手続きなどを案内することができる。
 以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施形態にも適用できる。また、上記の実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。
 本発明に係る双方向映像通信システム及びキオスク端末は、ユーザが望むサービスの内容などの状況に応じて、キオスク端末でアバターがユーザに応対したりオペレータ本人がユーザに応対したりできる効果を有し、キオスク端末とオペレータ端末との間で、キオスク端末を操作するユーザの映像とオペレータ端末を操作するオペレータの映像とを双方向に通信する双方向映像通信システム、及びキオスク端末などとして有用である。
1 キオスク端末
2 オペレータ端末
12 正面モニタ
13 手元モニタ
14 正面カメラ
15 手元カメラ
17 スピーカー
18 マイク
22 第1モニタ
23 第2モニタ
24 正面カメラ
25 手元カメラ
26 ヘッドセット
28 スピーカー
29 マイク
31 制御部
32 通信部
33 記憶部
41 制御部
42 通信部
43 記憶部
61 オペレータの正面映像
62 オペレータの手元映像
65 アバターの正面動画
66 字幕
67 情報帯
68 アバターの手元動画

Claims (7)

  1.  キオスク端末とオペレータ端末との間で、前記キオスク端末を操作するユーザの映像と前記オペレータ端末を操作するオペレータの映像とを双方向に通信する双方向映像通信システムであって、
     前記オペレータ端末は、
     前記キオスク端末と通信を行う通信部と、
     オペレータの顔を撮影するカメラと、
     オペレータが発話した音声を収音するマイクと、
     制御部と、
    を備え、
     前記キオスク端末は、
     前記オペレータ端末と通信を行う通信部と、
     前記カメラで撮影したオペレータの映像を表示するモニタと、
     前記マイクで収音したオペレータの原音声を出力するスピーカーと、
     制御部と、
    を備え、
     前記キオスク端末の前記制御部は、
     オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力することを特徴とする双方向映像通信システム。
  2.  前記オペレータ端末の前記制御部は、
     前記オペレータの映像から特徴情報を抽出して、その特徴情報を前記通信部から前記キオスク端末に送信し、
     前記キオスク端末の前記制御部は、
     前記オペレータ端末から受信した前記特徴情報に基づいて前記アバターの動画を生成して前記モニタに表示することを特徴とする請求項1に記載の双方向映像通信システム。
  3.  前記オペレータ端末は、
     オペレータの顔を撮影する正面カメラと、
     オペレータの手元を撮影する手元カメラと、
    を備え、
     前記キオスク端末は、
     前記正面カメラで撮影したオペレータの正面映像を表示する正面モニタと、
     前記手元カメラで撮影したオペレータの手元映像を表示する手元モニタと、
    を備え、
     前記キオスク端末の前記制御部は、
     前記正面モニタに、前記オペレータの正面映像、およびアバターの正面動画のいずれかを表示し、前記手元モニタに、前記オペレータの手元映像、アバターの手元動画、および操作画面のいずれかを表示することを特徴とする請求項1または請求項2に記載の双方向映像通信システム。
  4.  前記キオスク端末の前記制御部は、
     前記アバターの正面動画を前記正面モニタに表示するとともに、前記オペレータの手元映像を前記手元モニタに表示することを特徴とする請求項3に記載の双方向映像通信システム。
  5.  前記オペレータ端末の前記制御部は、
     前記キオスク端末でのユーザの操作内容に応じて、前記オペレータ表示モードと前記アバター表示モードとを切り替えることを特徴とする請求項1から請求項4のいずれかに記載の双方向映像通信システム。
  6.  前記キオスク端末の前記制御部は、
     案内情報、オペレータの発話内容を表す文字情報、およびユーザとオペレータとで共有する共有情報の少なくとも1つを、前記モニタに表示することを特徴とする請求項1から請求項5のいずれかに記載の双方向映像通信システム。
  7.  自装置を操作するユーザの映像とオペレータ端末を操作するオペレータの映像とを、前記オペレータ端末との間で双方向に通信するキオスク端末であって、
     前記オペレータ端末と通信を行う通信部と、
     前記オペレータ端末のカメラで撮影したオペレータの映像を表示するモニタと、
     前記オペレータ端末のマイクで収音したオペレータの原音声を出力するスピーカーと、
     制御部と、
    を備え、
     前記制御部は、
     オペレータ表示モードにおいて、前記オペレータの映像を前記モニタに表示するとともに、前記オペレータの原音声を前記スピーカーから出力し、アバター表示モードにおいて、前記オペレータの映像から抽出された特徴情報に基づいて生成したアバターの動画を前記モニタに表示するとともに、前記オペレータの原音声をアバターに適合した声質に変換した変換音声を前記スピーカーから出力することを特徴とするキオスク端末。
PCT/JP2019/004508 2018-02-26 2019-02-07 双方向映像通信システム及びキオスク端末 WO2019163547A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
GB2014244.4A GB2585779A (en) 2018-02-26 2019-02-07 Bidirectional video communication system and kiosk terminal
US16/975,608 US20200413009A1 (en) 2018-02-26 2019-02-07 Bidirectional video communication system and kiosk terminal
DE112019000991.5T DE112019000991T5 (de) 2018-02-26 2019-02-07 Bidirektionales video-kommunikationssystem und kiosk-endgerät

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018032233A JP2019149630A (ja) 2018-02-26 2018-02-26 双方向映像通信システム及びキオスク端末
JP2018-032233 2018-02-26

Publications (1)

Publication Number Publication Date
WO2019163547A1 true WO2019163547A1 (ja) 2019-08-29

Family

ID=67686960

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/004508 WO2019163547A1 (ja) 2018-02-26 2019-02-07 双方向映像通信システム及びキオスク端末

Country Status (5)

Country Link
US (1) US20200413009A1 (ja)
JP (1) JP2019149630A (ja)
DE (1) DE112019000991T5 (ja)
GB (1) GB2585779A (ja)
WO (1) WO2019163547A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022190919A1 (ja) * 2021-03-09 2022-09-15 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7411369B2 (ja) * 2019-10-01 2024-01-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 コミュニケーションシステム、応対端末装置およびそのプログラム
US11652921B2 (en) * 2020-08-26 2023-05-16 Avaya Management L.P. Contact center of celebrities
US11076128B1 (en) * 2020-10-20 2021-07-27 Katmai Tech Holdings LLC Determining video stream quality based on relative position in a virtual space, and applications thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002165194A (ja) * 2000-11-28 2002-06-07 Omron Corp 情報提供システム及び方法
JP2005051554A (ja) * 2003-07-29 2005-02-24 Mitsubishi Electric Corp 応答コールセンターシステムの顧客端末及びオペレータ端末
JP2010103704A (ja) * 2008-10-22 2010-05-06 Yamaha Corp 音声変換装置
WO2017163897A1 (ja) * 2016-03-25 2017-09-28 パナソニックIpマネジメント株式会社 情報表示システム及び情報提供端末

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002165194A (ja) * 2000-11-28 2002-06-07 Omron Corp 情報提供システム及び方法
JP2005051554A (ja) * 2003-07-29 2005-02-24 Mitsubishi Electric Corp 応答コールセンターシステムの顧客端末及びオペレータ端末
JP2010103704A (ja) * 2008-10-22 2010-05-06 Yamaha Corp 音声変換装置
WO2017163897A1 (ja) * 2016-03-25 2017-09-28 パナソニックIpマネジメント株式会社 情報表示システム及び情報提供端末

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022190919A1 (ja) * 2021-03-09 2022-09-15 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
GB2585779A (en) 2021-01-20
DE112019000991T5 (de) 2020-12-03
JP2019149630A (ja) 2019-09-05
US20200413009A1 (en) 2020-12-31
GB202014244D0 (en) 2020-10-28

Similar Documents

Publication Publication Date Title
WO2019163547A1 (ja) 双方向映像通信システム及びキオスク端末
US20070265949A1 (en) Method and system for video communication
JP7073116B2 (ja) オフィス用バーチャルリアリティシステム、及びオフィス用バーチャルリアリティプログラム
US20060074624A1 (en) Sign language video presentation device , sign language video i/o device , and sign language interpretation system
JPWO2004028163A1 (ja) 手話対談用映像入力装置、手話対談用映像入出力装置、および手話通訳システム
JP2012160793A (ja) テレビ会議システム及びテレビ会議用装置並びにプログラム
CN111343185A (zh) 一种柜员机交互方法及交互系统
US20110267421A1 (en) Method and Apparatus for Two-Way Multimedia Communications
WO2020013060A1 (ja) 双方向映像通信システム及びそのオペレータの管理方法
JP2020136921A (ja) ビデオ通話システム、およびコンピュータプログラム
WO2019163544A1 (ja) 双方向映像通信システム及びオペレータ端末
JP2001211437A (ja) マルチメディアctiシステム
JP2003092628A (ja) 電話リレーサービス方法
WO2019163546A1 (ja) 双方向映像通信システム及び通信制御装置
WO2019163545A1 (ja) オペレータ端末及びキャリブレーション方法
JP2003264636A (ja) コールセンタシステムおよび相談システム
JPH11289523A (ja) 双方向対話型システム
JPH09327006A (ja) 双方向対話型システム
KR20170064730A (ko) Vr 기기를 활용한 가상 고객 서비스 방법 및 시스템
JP2015100061A (ja) 遠隔受付システム、遠隔受付方法及びプログラム
JP7357192B2 (ja) インターホンシステム、インターホンシステムの画像出力方法、及びプログラム
JP6868825B2 (ja) インターホンシステム、ロビーインターホン、親機、制御装置、及びプログラム
JP4595397B2 (ja) 画像表示方法、端末装置、及び双方向対話システム
JP2009055292A (ja) セットトップボックスおよびセットトップボックスを用いた双方向通信システム
Zimmermann et al. Internet Based Personal Services on Demand

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19756562

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 202014244

Country of ref document: GB

Kind code of ref document: A

Free format text: PCT FILING DATE = 20190207

122 Ep: pct application non-entry in european phase

Ref document number: 19756562

Country of ref document: EP

Kind code of ref document: A1