WO2022143426A1 - 会议装置和会议系统 - Google Patents

会议装置和会议系统 Download PDF

Info

Publication number
WO2022143426A1
WO2022143426A1 PCT/CN2021/140968 CN2021140968W WO2022143426A1 WO 2022143426 A1 WO2022143426 A1 WO 2022143426A1 CN 2021140968 W CN2021140968 W CN 2021140968W WO 2022143426 A1 WO2022143426 A1 WO 2022143426A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
line
sight
captured image
image
Prior art date
Application number
PCT/CN2021/140968
Other languages
English (en)
French (fr)
Inventor
陈纾悦
宋碧薇
杨师华
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2022143426A1 publication Critical patent/WO2022143426A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/302Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes

Definitions

  • the present application relates to the field of image display, and in particular, to a conference device and a conference system.
  • the conference system has a large amount of fusion calculation and high pixels.
  • embodiments of the present application provide a conference device, a conference system, and a conference communication method.
  • an embodiment of the present application discloses a first conference device, corresponding to a first user, for communicating with a second conference device corresponding to a second user, including a display screen, a multi-camera camera, a line of sight estimation module, and an image processing module, where,
  • the multi-eye camera is used to acquire a first captured image, where the first captured image corresponds to the first user;
  • the line-of-sight estimation module configured to obtain the first user's eye position information and line-of-sight information according to the first image
  • the image processing module is configured to determine the observation image of the first user according to the first user's eye position information and sight line information and the received second captured image, the second captured image corresponding to the second user ;
  • the display screen is used to display the observation image of the first user.
  • the multi-camera camera is further configured to send the first captured image to the second conference device.
  • the line-of-sight estimation module sends the first user's eye position information and line-of-sight information to the second conference device.
  • the first conference device is further configured to receive the human eye position information and sight line information of the second user sent by the second conference device.
  • the multi-eye camera adjusts the position and/or the shooting angle based on the human eye position information and line of sight information of the second user.
  • the multi-eye camera is mounted on a movable module.
  • the display screen is a naked-eye 3D display screen.
  • the multi-eye camera is a binocular camera.
  • the embodiment of the present application discloses yet another first conference device, which corresponds to the first user and is used for communicating with the second conference device corresponding to the second user, including a display screen, a multi-camera camera, a line of sight estimation module and image processing module, where,
  • the line-of-sight estimation module configured to receive eye position information and line-of-sight information of the second user
  • the multi-eye camera configured to acquire a first captured image according to the human eye position information and line of sight information of the second user, where the first captured image corresponds to the first user;
  • the image processing module is configured to determine the observation image of the second user according to the human eye position information and line-of-sight information of the second user and the first captured image, and send the observation image of the second user to the the second conference device;
  • the display screen is used for receiving and displaying the observation image of the first user.
  • the line of sight estimation module is further configured to acquire the first user's eye position information and line of sight information according to the first captured image, and send the first user's eye position information and line of sight information. to the second conference unit.
  • the multi-eye camera acquires the first captured image according to the human eye position information and line-of-sight information of the second user, including:
  • the multi-eye camera adjusts the position and/or the shooting angle according to the second user's human eye position information and line of sight information;
  • the first photographed image is obtained by photographing by the multi-eye camera.
  • an embodiment of the present application discloses a conference system, the conference system includes a first conference device corresponding to a first user and a second conference device corresponding to a second user, the first conference system includes a first conference device a display screen, a first multi-eye camera, a first line of sight estimation module and a first image processing module, and the second conference system includes a second multi-eye camera;
  • the first multi-camera camera configured to acquire a first captured image, where the first captured image corresponds to the first user
  • the first line-of-sight estimation module is configured to acquire the first user's eye position information and line-of-sight information according to the first captured image, and send the first user's eye position information and line-of-sight information to the first user.
  • the second multi-eye camera is configured to acquire a second captured image according to the first user's eye position information and line of sight information, and send the second captured image to the first image processing module, the first two captured images corresponding to the second user;
  • the first image processing module configured to determine the observed image of the first user according to the first user's eye position information and line of sight information and the received second captured image;
  • the first display screen is used to display the observation image of the first user.
  • the second conference system further includes a second display screen, a second line of sight estimation module and a second image processing module,
  • the second line-of-sight estimation module is configured to acquire the second user's eye position information and line-of-sight information according to the second captured image, and send the second user's human eye position information and line-of-sight information to the first eye camera;
  • the first multi-eye camera is configured to acquire a third captured image according to the second user's eye position information and line of sight information, and send the third captured image to the second image processing module, and the first captured image is sent to the second image processing module.
  • the second image processing module configured to determine the observation image of the second user according to the second user's eye position information and sight line information and the third captured image
  • the second display screen is used to display the observation image of the second user.
  • the second multi-eye camera acquires the second captured image according to the first user's eye position information and line of sight information, including:
  • the second multi-eye camera adjusts the position and/or the shooting angle according to the first user's human eye position information and line-of-sight information; the second multi-eye camera captures the second captured image.
  • an embodiment of the present application discloses another conference system, the conference system includes a first conference device corresponding to a first user and a second conference device corresponding to a second user, and the first conference system includes a first multi-eye camera, a first line-of-sight estimation module and a first image processing module, and the second conference system includes a second multi-eye camera, a second line-of-sight estimation module and a second display screen;
  • the second multi-eye camera for acquiring the second captured image, the second captured image corresponding to the second user
  • the second line-of-sight estimation module configured to acquire the human eye position information and line-of-sight information of the second user according to the second captured image
  • the first multi-eye camera configured to acquire a first captured image according to the human eye position information and line of sight information of the second user, where the first captured image corresponds to the first user;
  • the first image processing module is configured to determine the observation image of the second user according to the human eye position information and line-of-sight information of the second user and the first captured image, and analyze the observation image of the second user. sending an image to the second display screen;
  • the second display screen is used for receiving and displaying the observation image of the second user.
  • the first conference system further includes a first display screen
  • the second conference system further includes a second image processing module
  • the first line-of-sight estimation module configured to obtain the eye position information and line-of-sight information of the first user according to the first captured image
  • the second multi-eye camera configured to acquire a third captured image according to the human eye position information and line of sight information of the first user, where the third captured image corresponds to the second user;
  • the first image processing module is configured to determine the observation image of the first user according to the human eye position information and line-of-sight information of the first user and the third captured image, and analyze the observation image of the first user. sending an image to the first display screen;
  • the first display screen is used for receiving and displaying the observation image of the first user.
  • an embodiment of the present application discloses a conference communication method, including:
  • An observation image of the first user is displayed.
  • the conference system disclosed in the present application calculates and controls the camera at the opposite end to take pictures of the user at the opposite end according to the perspective of the user at the local end. It also does not need to transmit or fuse images from multiple perspectives at the same time, which is convenient in real time and has a small amount of system calculation.
  • FIG. 1 is a schematic structural diagram of a conference system disclosed in an embodiment of the application
  • FIG. 2 is a schematic diagram of a conference communication method disclosed in an embodiment of the present application.
  • FIG. 1 is a schematic structural diagram of a conference system disclosed in this application.
  • the conference system includes a conference device 100 and a conference device 200 .
  • Communication between the conference device 100 and the conference device 200 is through a data transmission link, and the data transmission link may be implemented by means of wireless transmission, wired Ethernet interface, or PCIe interface.
  • the conference apparatus 100 corresponds to the user A
  • the conference apparatus 200 corresponds to the user B.
  • the conference system is used to realize a real-time conference between user A and user B.
  • the conference device 100 includes a multi-eye camera 101 , a line of sight estimation module 102 , an image processing module 103 and a display screen 104 .
  • the conference device 200 includes a multi-eye camera 201 , a line of sight estimation module 202 , an image processing module 203 and a display screen 204 .
  • the multi-camera 101 first acquires the captured image of the user A by capturing.
  • the line-of-sight estimation module 102 acquires user A's eye position information and line-of-sight information according to the captured image of user A, and sends the user A's eye position information and line-of-sight information to the multi-eye camera 201 .
  • the multi-eye camera 201 acquires the captured image of user B according to the human eye position information and the line of sight information of user A, and sends the captured image of user B to the image processing module 103 .
  • the image processing module 103 determines the observation image of user A according to the user A's eye position information and line of sight information and the received captured image of user B.
  • the first display screen 104 displays the observation image of user A.
  • the observation image of user A is the image that user A expects to observe, determined according to the position of user A's human eyes and the direction of the line of sight.
  • the sight estimation module 102 obtains the human eye position information and sight line information of user A by performing human eye positioning and sight tracking on the captured image of user A.
  • the line-of-sight estimation module 102 can calculate the eye position information and line-of-sight direction of the user A in the image coordinate system through the human face and human eye images by means of deep learning, supplemented by the ranging function of the multi-camera 101 Obtain the human eye position information and human eye sight direction of user A in the camera coordinate system. After acquiring the human eye position and human eye sight information of user A, the information is transmitted to the multi-eye camera 201 through the data transmission link.
  • the multi-camera 201 first adjusts its own position and/or shooting angle according to the user A's eye position information and line of sight information, and then acquires the user B's shooting image.
  • Displays 104 and 204 may be naked eye 3D displays.
  • the image processing module 102 calculates the pixel division received by the left and right eyes of user A according to the human eye position information and line of sight information of user A, and performs 3D display.
  • the multi-eye cameras 101 and 201 may be binocular cameras, trinocular cameras, etc., or may be formed by splicing at least two monocular cameras.
  • the flow for user B to view the screen of user A is similar.
  • the line-of-sight estimation module 202 obtains user B's eye position information and line-of-sight information according to the captured image of user B already captured by the multi-eye camera 201 , and sends the user B's eye position information and line-of-sight information to the multi-eye camera 101 .
  • the multi-eye camera 101 acquires a new real-time captured image of user A according to the human eye position information and line-of-sight information of user B, and sends the new real-time captured image of user A to the image processing module 203 .
  • the image processing module 203 determines the observation image of user B according to the human eye position information and line of sight information of user B and the new real-time captured image of user A.
  • the display screen 204 displays user B's observation image.
  • the observation image of the user B is the image that the user B expects to observe, which is determined according to the position of the user B's human eyes and the direction of the line of sight.
  • the multi-eye camera 101 adjusts the position and/or the shooting angle according to the human eye position information and the line of sight information of the user B, and then shoots to obtain a new real-time captured image of the user A.
  • the multi-camera 101 and the multi-cam 201 cooperate with each other and are constantly alternated.
  • This application only takes an alternate flow as an example for description.
  • the multi-eye camera 101 and the multi-eye camera 201 can be installed on the movable module, so that the shooting position can be adjusted continuously.
  • the image captured by the multi-camera is not only used as the image source for 3D display, but also as the input source for human eye gaze tracking and positioning.
  • scheme 1 the processing of the image to be observed by user A is performed in the image processing module 103 on the side of user A, and the processing of the image to be observed by user B is performed in the image processing module 203 on the side of user B.
  • the multi-camera 201 acquires the captured image of user B.
  • the line-of-sight estimation module 202 obtains user B's eye position information and line-of-sight information according to the captured image of user B.
  • the line-of-sight estimation module 202 sends the user B's eye position information and line-of-sight information to the multi-eye camera 101 through the data transmission link.
  • the multi-eye camera 101 acquires the captured image of user A according to the position information of the human eyes and the line of sight information of user B.
  • the image processing module 103 determines the observation image of user B according to the human eye position information and line of sight information of user B and the captured image of user A, and sends the observation image of user B to the display screen 204 .
  • the display screen 204 receives the observation image of the user B and displays it.
  • the multi-eye camera 101 first adjusts its own position and/or shooting angle according to user B's eye position information and line of sight information, and then performs shooting to obtain a shot image of user A.
  • Displays 104 and 204 may be naked eye 3D displays.
  • the image processing module 102 calculates the pixel division received by the left and right eyes of user A according to the human eye position information and line of sight information of user A, and performs 3D display.
  • the multi-eye cameras 101 and 201 may be binocular cameras, trinocular cameras, etc., or may be formed by splicing at least two monocular cameras.
  • the sight line estimation module 102 acquires the eye position information and sight line information of the user A according to the photographed image of the user A that has been photographed.
  • the multi-eye camera 201 acquires a new real-time captured image of user B according to user A's human eye position information and line of sight information.
  • the image processing module 203 determines the observation image of user A according to the human eye position information and line of sight information of user A and the new real-time captured image of user B, and sends the observation image of user A to the display screen 104 .
  • the display screen 104 receives the observation image of the user A and displays it.
  • the processing of the image to be observed by user A is performed in the image processing module 203 on the side of user B, and the processing of the image to be observed by user B is performed in the image processing module 103 on the side of user A.
  • the conference system disclosed in the present application calculates and controls the camera at the opposite end to take pictures of the user at the opposite end according to the perspective of the user at the local end. It also does not need to transmit or fuse images from multiple perspectives at the same time, which is convenient in real time and has a small amount of system calculation.
  • the present application also discloses a conference communication method, as shown in FIG. 2 , the method includes:
  • S301 Determine an observation image of the first user according to the first user's eye position information and line of sight information and a received second captured image, where the second captured image corresponds to the second user;

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及一种会议装置,对应于第一用户,用于与第二用户对应的第二会议装置通信,包括显示屏、多目摄像头、视线估计模块和图像处理模块,其中,所述多目摄像头,用于获取第一拍摄图像;所述视线估计模块,用于根据所述第一拍摄图像获取第一用户人眼位置信息和视线信息;所述图像处理模块,用于根据所述第一用户人眼位置信息和视线信息和接收到的第二拍摄图像确定所述第一用户的观测图像;所述显示屏,用于显示所述第一用户的观测图像。

Description

会议装置和会议系统
本申请要求于2020年12月31日提交中国国家知识产权局、申请号为202011641425.2、申请名称为“会议装置和会议系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及图像显示领域,尤其涉及一种会议装置和会议系统。
背景技术
现有的视频会议系统多是设立服务器和客户端,客户端显示器往往需要空分显示多个视角使得用户可以观看到多个视角图像。该会议系统融合计算量大且像素高。
发明内容
鉴于此,本申请实施例提供了一种会议装置和会议系统以及会议通讯方法。
第一方面,本申请实施例公开了一种第一会议装置,对应于第一用户,用于与第二用户对应的第二会议装置通信,包括显示屏、多目摄像头、视线估计模块和图像处理模块,其中,
所述多目摄像头,用于获取第一拍摄图像,所述第一拍摄图像对应于第一用户;
所述视线估计模块,用于根据所述第一图像获取第一用户人眼位置信息和视线信息;
所述图像处理模块,用于根据所述第一用户人眼位置信息和视线信息和接收到的第二拍摄图像确定所述第一用户的观测图像,所述第二拍摄图像对应于第二用户;
所述显示屏,用于显示所述第一用户的观测图像。
一种可能的实现方式中,所述多目摄像头还用于将所述第一拍摄图像发送给所述第二会议装置。
一种可能的实现方式中,所述视线估计模块将所述第一用户人眼位置信息和视线信息发送到所述第二会议装置。
一种可能的实现方式中,所述第一会议装置还用于接收所述第二会议装置发送的所述第二用户的人眼位置信息和视线信息。
一种可能的实现方式中,所述多目摄像头基于所述第二用户的人眼位置信息和视线信息调整位置和/或拍摄角度。
一种可能的实现方式中,所述多目摄像头安装在可移动模块上。
一种可能的实现方式中,所述显示屏为裸眼3D显示屏。
一种可能的实现方式中,所述多目摄像头为双目摄像头。
第二方面,本申请实施例公开了又一种第一会议装置,对应于第一用户,用于与第二用户对应的第二会议装置通信,包括显示屏、多目摄像头、视线估计模块和图像处理模块,其中,
所述视线估计模块,用于接收所述第二用户的人眼位置信息和视线信息;
所述多目摄像头,用于根据所述第二用户的人眼位置信息和视线信息获取第一拍摄图像,所述第一拍摄图像对应于所述第一用户;
所述图像处理模块,用于根据所述第二用户的人眼位置信息和视线信息和所述第一拍摄图像确定第二用户的观测图像,并将所述第二用户的观测图像发送到所述第二会议装置;
所述显示屏,用于接收所述第一用户的观测图像并显示。
一种可能的实现方式中,所述视线估计模块还用于根据所述第一拍摄图像获取第一用户人眼位置信息和视线信息,并将所述第一用户人眼位置信息和视线信息发送到所述第二会议装置。
一种可能的实现方式中,所述多目摄像头根据所述第二用户的人眼位置信息和视线信息获取所述第一拍摄图像,包括:
所述多目摄像头根据所述第二用户人眼位置信息和视线信息调整位置和/或拍摄角度;
所述多目摄像头拍摄得到所述第一拍摄图像。
第三方面,本申请实施例公开了一种会议系统,所述会议系统包括对应于第一用户的第一会议装置和对应于第二用户的第二会议装置,所述第一会议系统包括第一显示屏、第一多目摄像头、第一视线估计模块和第一图像处理模块,所述第二会议系统包括第二多目摄像头;
所述第一多目摄像头,用于获取第一拍摄图像,所述第一拍摄图像对应于所述第一用户;
所述第一视线估计模块,用于根据所述第一拍摄图像获取所述第一用户人眼位置信息和视线信息,并将所述第一用户人眼位置信息和视线信息发送到所述第二多目摄像头;
所述第二多目摄像头,用于根据所述第一用户人眼位置信息和视线信息获取第二拍摄图像,并将所述第二拍摄图像发送给所述第一图像处理模块,所述第二拍摄图像对应于所述第二用户;
所述第一图像处理模块,用于根据所述第一用户人眼位置信息和视线信息和接收到的所述第二拍摄图像确定所述第一用户的观测图像;
所述第一显示屏,用于显示所述第一用户的观测图像。
一种可能的实现方式中,所述第二会议系统还包括第二显示屏、第二视线估计模块和第二图像处理模块,
所述第二视线估计模块,用于根据所述第二拍摄图像获取第二用户人眼位置信息和视线信息,并将所述第二用户人眼位置信息和视线信息发送到所述第一多目摄像头;
所述第一多目摄像头,用于根据所述第二用户人眼位置信息和视线信息获取第三拍摄图像,并将所述第三拍摄图像发送给所述第二图像处理模块,所述第三拍摄图像对应于所述第一用户;
所述第二图像处理模块,用于根据所述第二用户人眼位置信息和视线信息和所述第三拍摄图像确定所述第二用户的观测图像;
所述第二显示屏,用于显示所述第二用户的观测图像。
一种可能的实现方式中,所述第二多目摄像头根据所述第一用户人眼位置信息和视线信息获取所述第二拍摄图像,包括:
所述第二多目摄像头根据所述第一用户人眼位置信息和视线信息调整位置和/或拍摄角度;所述第二多目摄像头拍摄得到所述第二拍摄图像。
第四方面,本申请实施例公开了另一种会议系统,所述会议系统包括对应于第一用户的第一会议装置和对应于第二用户的第二会议装置,所述第一会议系统包括第一多目摄像头、第一视线估计模块和第一图像处理模块,所述第二会议系统包括第二多目摄像头、第二视线估计模块和第二显示屏;
所述第二多目摄像头,用于获取所述第二拍摄图像,所述第二拍摄图像对应于所述第二 用户;
所述第二视线估计模块,用于根据所述第二拍摄图像获取所述第二用户的人眼位置信息和视线信息;
所述第一多目摄像头,用于根据所述第二用户的人眼位置信息和视线信息获取第一拍摄图像,所述第一拍摄图像对应于所述第一用户;
所述第一图像处理模块,用于根据所述第二用户的人眼位置信息和视线信息和所述第一拍摄图像确定所述第二用户的观测图像,并将所述第二用户的观测图像发送到所述第二显示屏;
所述第二显示屏,用于接收所述第二用户的观测图像并显示。
一种可能的实现方式中,所述第一会议系统还包括第一显示屏,所述第二会议系统还包括第二图像处理模块,
所述第一视线估计模块,用于根据所述第一拍摄图像获取所述第一用户的人眼位置信息和视线信息;
所述第二多目摄像头,用于根据所述第一用户的人眼位置信息和视线信息获取第三拍摄图像,所述第三拍摄图像对应于所述第二用户;
所述第一图像处理模块,用于根据所述第一用户的人眼位置信息和视线信息和所述第三拍摄图像确定所述第一用户的观测图像,并将所述第一用户的观测图像发送到所述第一显示屏;
所述第一显示屏,用于接收所述第一用户的观测图像并显示。
第五方面,本申请实施例公开了一种会议通讯方法,包括:
获取第一拍摄图像,所述第一拍摄图像对应于第一用户;
根据所述第一拍摄图像获取所述第一用户的人眼位置信息和视线信息;
根据所述第一用户的人眼位置信息和视线信息和接收到的所述第二拍摄图像确定所述第一用户的观测图像,所述第二拍摄图像对应于第二用户;
显示所述第一用户的观测图像。
本申请公开的会议系统,实时计算并控制对端摄像头根据本端用户视角拍摄对端用户画面,3D显示屏只需要显示本端用户当前视角下图像而不需要同时显示多个视角的图像,同时也不需要同时传输或者融合多个视角的图像,实时便捷,系统计算量小。
附图说明
图1为本申请实施例公开的一种会议系统的结构示意图;
图2为本申请实施例公开的一种会议通讯方法的示意图。
具体实施方式
图1为本申请公开的一种会议系统的结构示意图。如图1所示,该会议系统包括会议装置100和会议装置200。会议装置100和会议装置200之间通过数据传输链路通信,数据传输链路可通过无线传输、有线以太网Ethernet接口或PCIe接口等方式实现。会议装置100对应于用户A,会议装置200对应于用户B。该会议系统用于实现用户A和用户B之间的实时会议。
会议装置100包括多目摄像头101、视线估计模块102、图像处理模块103和显示屏104。会议装置200包括多目摄像头201、视线估计模块202、图像处理模块203和显示屏204。
在该会议系统架构下,本申请提供了两种可以具体实现的方案。
方案1
多目摄像头101先通过拍摄获取用户A的拍摄图像。视线估计模块102根据用户A的拍摄图像获取用户A的人眼位置信息和视线信息,并将用户A人眼位置信息和视线信息发送到多目摄像头201。多目摄像头201根据用户A人眼位置信息和视线信息获取用户B的拍摄图像,并将用户B的拍摄图像发送给图像处理模块103。图像处理模块103根据用户A人眼位置信息和视线信息和接收到的用户B的拍摄图像确定用户A的观测图像。第一显示屏104显示用户A的观测图像。用户A的观测图像即根据用户A的人眼位置和视线方向确定的用户A期望观测到的图像。
上面即实现了用户A观察到用户B的画面的流程。
视线估计模块102通过对用户A的拍摄图像进行人眼定位和视线追踪,获取用户A的人眼位置信息和视线信息。具体地,视线估计模块102借由深度学习,可以通过人脸和人眼图像计算出图像坐标系下的用户A的人眼位置信息和视线方向,辅以多目摄像头101的测距功能则可以获得摄像头坐标系下的用户A的人眼位置信息和人眼视线方向。在获取用户A的人眼位置和人眼视线信息后通过数据传输链路传送至多目摄像头201。
多目摄像头201先根据用户A人眼位置信息和视线信息调整自身的位置和/或拍摄角度,再进行获取用户B的拍摄图像。
显示屏104和204可以裸眼3D显示屏。图像处理模块102接收到用户B的拍摄图像后,根据用户A的人眼位置信息和视线信息,计算用户A的左右眼接收的像素划分,进行3D显示。
多目摄像头101和201可以双目摄像头、三目摄像头等,也可以是由至少两个单目摄像头拼接而成。
对于用户B想要观察用户A的画面的流程也是类似。
视线估计模块202根据多目摄像头201已经拍摄到的用户B的拍摄图像获取用户B的人眼位置信息和视线信息,并将用户B的人眼位置信息和视线信息发送到多目摄像头101。多目摄像头101根据用户B的人眼位置信息和视线信息获取用户A新的实时拍摄图像,并将用户A的新的实时拍摄图像发送给图像处理模块203。图像处理模块203根据用户B的人眼位置信息和视线信息以及用户A的新的实时拍摄图像确定用户B的观测图像。显示屏204显示用户B的观测图像。用户B的观测图像即根据用户B的人眼位置和视线方向确定的用户B期望观测到的图像。
多目摄像头101根据用户B人眼位置信息和视线信息调整位置和/或拍摄角度,再进行拍摄得到用户A的新的实时拍摄图像。
在进行用户A和用户B的会议通信过程中,多目摄像头101和多目摄像头201之间是相互配合,不断交替进行的过程。本申请仅以一次交替的流程为例进行说明。
多目摄像头101和多目摄像头201可以安装在可移动模块上,进而可以不断调整拍摄位置。多目摄像头拍摄的图像既作为3D显示的像源,也作为人眼视线追踪定位的输入源。
在方案1中,用户A需要观测的图像的处理是在用户A侧的图像处理模块103中进行,用户B需要观测的图像的处理是在用户B侧的图像处理模块203中进行。
下面介绍方案2。
先进行说明用户B想要观察用户A的画面的流程。
多目摄像头201获取用户B的拍摄图像。视线估计模块202根据用户B的拍摄图像获取 用户B的人眼位置信息和视线信息。视线估计模块202通过数据传输链路将用户B的人眼位置信息和视线信息发送到多目摄像头101。多目摄像头101根据用户B的人眼位置信息和视线信息获取用户A的拍摄图像。图像处理模块103根据用户B的人眼位置信息和视线信息以及用户A的拍摄图像确定用户B的观测图像,并将用户B的观测图像发送到显示屏204。显示屏204接收用户B的观测图像并显示。
多目摄像头101先根据用户B人眼位置信息和视线信息调整自身的位置和/或拍摄角度,再进行拍摄获取用户A的拍摄图像。
显示屏104和204可以裸眼3D显示屏。图像处理模块102接收到用户B的拍摄图像后,根据用户A的人眼位置信息和视线信息,计算用户A的左右眼接收的像素划分,进行3D显示。
多目摄像头101和201可以双目摄像头、三目摄像头等,也可以是由至少两个单目摄像头拼接而成。
用户A想要观察到用户B的画面的流程也类似。
视线估计模块102根据已经拍摄得到的用户A的拍摄图像获取用户A的人眼位置信息和视线信息。多目摄像头201根据用户A的人眼位置信息和视线信息获取用户B的新的实时拍摄图像。图像处理模块203根据用户A的人眼位置信息和视线信息和用户B的新的实时拍摄图像确定用户A的观测图像,并将用户A的观测图像发送到显示屏104。显示屏104接收用户A的观测图像并显示。
在方案2中,用户A需要观测的图像的处理是在用户B侧的图像处理模块203中进行,用户B需要观测的图像的处理是在用户A侧的图像处理模块103中进行。
本申请公开的会议系统,实时计算并控制对端摄像头根据本端用户视角拍摄对端用户画面,3D显示屏只需要显示本端用户当前视角下图像而不需要同时显示多个视角的图像,同时也不需要同时传输或者融合多个视角的图像,实时便捷,系统计算量小。
本申请的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以本申请未描述的顺序实施。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。方法实施例中的具体操作方法也可以应用于装置实施例中。
还需要说明的是,除非特殊说明,一个实施例中针对一些技术特征的具体描述也可以应用于解释其他实施例提及对应的技术特征。
本申请还公开了一种会议通讯方法,如图2所示,该方法包括:
S301、用于获取第一拍摄图像,所述第一拍摄图像对应于第一用户;
S301、根据第一拍摄图像获取第一用户人眼位置信息和视线信息;
S301、根据第一用户人眼位置信息和视线信息和接收到的第二拍摄图像确定第一用户的观测图像,所述第二拍摄图像对应于第二用户;
S301、显示第一用户的观测图像。
最后应说明的是:以上所述仅为本申请的具体实施方式,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (17)

  1. 一种第一会议装置,对应于第一用户,用于与第二用户对应的第二会议装置通信,其特征在于,包括显示屏、多目摄像头、视线估计模块和图像处理模块,其中,
    所述多目摄像头,用于获取第一拍摄图像,所述第一拍摄图像对应于所述第一用户;
    所述视线估计模块,用于根据所述第一图像获取第一用户人眼位置信息和视线信息;
    所述图像处理模块,用于根据所述第一用户人眼位置信息和视线信息和接收到的第二拍摄图像确定所述第一用户的观测图像,所述第二拍摄图像对应于第二用户;
    所述显示屏,用于显示所述第一用户的观测图像。
  2. 如权利要求1所述的第一会议装置,其特征在于,所述多目摄像头还用于将所述第一拍摄图像发送给所述第二会议装置。
  3. 如权利要求1或2所述的第一会议装置,其特征在于,所述视线估计模块将所述第一用户人眼位置信息和视线信息发送到所述第二会议装置。
  4. 如权利要求1至3任一所述的第一会议装置,其特征在于,所述第一会议装置还用于接收所述第二会议装置发送的所述第二用户的人眼位置信息和视线信息。
  5. 如权利要求4所述的第一会议装置,其特征在于,所述多目摄像头基于所述第二用户的人眼位置信息和视线信息调整位置和/或拍摄角度。
  6. 如权利要求5所述的第一会议装置,其特征在于,所述多目摄像头安装在可移动模块上。
  7. 如权利要求1至6任一所述的第一会议装置,其特征在于,所述显示屏为裸眼3D显示屏。
  8. 如权利要求1至7任一所述的第一会议装置,其特征在于,所述多目摄像头为双目摄像头。
  9. 一种第一会议装置,对应于第一用户,用于与第二用户对应的第二会议装置通信,其特征在于,包括显示屏、多目摄像头、视线估计模块和图像处理模块,其中,
    所述视线估计模块,用于接收所述第二用户的人眼位置信息和视线信息;
    所述多目摄像头,用于根据所述第二用户的人眼位置信息和视线信息获取第一拍摄图像,所述第一拍摄图像对应于所述第一用户;
    所述图像处理模块,用于根据所述第二用户的人眼位置信息和视线信息和所述第一拍摄图像确定第二用户的观测图像,并将所述第二用户的观测图像发送到所述第二会议装置;
    所述显示屏,用于接收所述第一用户的观测图像并显示。
  10. 如权利要求9所述的第一会议装置,其特征在于,所述视线估计模块还用于根据所述第一拍摄图像获取第一用户人眼位置信息和视线信息,并将所述第一用户人眼位置信息和视线信息发送到所述第二会议装置。
  11. 如权利要求9或10所述的第一会议装置,其特征在于,所述多目摄像头根据所述第二用户的人眼位置信息和视线信息获取所述第一拍摄图像,包括:
    所述多目摄像头根据所述第二用户人眼位置信息和视线信息调整位置和/或拍摄角度;
    所述多目摄像头拍摄得到所述第一拍摄图像。
  12. 一种会议系统,所述会议系统包括对应于第一用户的第一会议装置和对应于第二用户的第二会议装置,其特征在于,
    所述第一会议系统包括第一显示屏、第一多目摄像头、第一视线估计模块和第一图像处理模块,所述第二会议系统包括第二多目摄像头;
    所述第一多目摄像头,用于获取第一拍摄图像,所述第一拍摄图像对应于所述第一用户;
    所述第一视线估计模块,用于根据所述第一拍摄图像获取所述第一用户人眼位置信息和视线信息,并将所述第一用户人眼位置信息和视线信息发送到所述第二多目摄像头;
    所述第二多目摄像头,用于根据所述第一用户人眼位置信息和视线信息获取第二拍摄图像,并将所述第二拍摄图像发送给所述第一图像处理模块,所述第二拍摄图像对应于所述第二用户;
    所述第一图像处理模块,用于根据所述第一用户人眼位置信息和视线信息和接收到的所述第二拍摄图像确定所述第一用户的观测图像;
    所述第一显示屏,用于显示所述第一用户的观测图像。
  13. 如权利要求12所述的会议系统,其特征在于,所述第二会议系统还包括第二显示屏、第二视线估计模块和第二图像处理模块,
    所述第二视线估计模块,用于根据所述第二拍摄图像获取第二用户人眼位置信息和视线信息,并将所述第二用户人眼位置信息和视线信息发送到所述第一多目摄像头;
    所述第一多目摄像头,用于根据所述第二用户人眼位置信息和视线信息获取第三拍摄图像,并将所述第三拍摄图像发送给所述第二图像处理模块,所述第三拍摄图像对应于所述第一用户;
    所述第二图像处理模块,用于根据所述第二用户人眼位置信息和视线信息和所述第三拍摄图像确定所述第二用户的观测图像;
    所述第二显示屏,用于显示所述第二用户的观测图像。
  14. 如权利要求12或13所述的会议系统,其特征在于,所述第二多目摄像头根据所述第一用户人眼位置信息和视线信息获取所述第二拍摄图像,包括:
    所述第二多目摄像头根据所述第一用户人眼位置信息和视线信息调整位置和/或拍摄角度;
    所述第二多目摄像头拍摄得到所述第二拍摄图像。
  15. 一种会议系统,所述会议系统包括对应于第一用户的第一会议装置和对应于第二用户的第二会议装置,其特征在于,
    所述第一会议系统包括第一多目摄像头、第一视线估计模块和第一图像处理模块,所述第二会议系统包括第二多目摄像头、第二视线估计模块和第二显示屏;
    所述第二多目摄像头,用于获取所述第二拍摄图像,所述第二拍摄图像对应于所述第二用户;
    所述第二视线估计模块,用于根据所述第二拍摄图像获取所述第二用户的人眼位置信息和视线信息;
    所述第一多目摄像头,用于根据所述第二用户的人眼位置信息和视线信息获取第一拍摄图像,所述第一拍摄图像对应于所述第一用户;
    所述第一图像处理模块,用于根据所述第二用户的人眼位置信息和视线信息和所述第一拍摄图像确定所述第二用户的观测图像,并将所述第二用户的观测图像发送到所述第二显示屏;
    所述第二显示屏,用于接收所述第二用户的观测图像并显示。
  16. 如权利要求15所述的会议系统,其特征在于,所述第一会议系统还包括第一显示屏, 所述第二会议系统还包括第二图像处理模块,
    所述第一视线估计模块,用于根据所述第一拍摄图像获取所述第一用户的人眼位置信息和视线信息;
    所述第二多目摄像头,用于根据所述第一用户的人眼位置信息和视线信息获取第三拍摄图像,所述第三拍摄图像对应于所述第二用户;
    所述第一图像处理模块,用于根据所述第一用户的人眼位置信息和视线信息和所述第三拍摄图像确定所述第一用户的观测图像,并将所述第一用户的观测图像发送到所述第一显示屏;
    所述第一显示屏,用于接收所述第一用户的观测图像并显示。
  17. 一种会议通讯方法,其特征在于,包括:
    获取第一拍摄图像,所述第一拍摄图像对应于第一用户;
    根据所述第一拍摄图像获取所述第一用户的人眼位置信息和视线信息;
    根据所述第一用户的人眼位置信息和视线信息和接收到的所述第二拍摄图像确定所述第一用户的观测图像,所述第二拍摄图像对应于第二用户;
    显示所述第一用户的观测图像。
PCT/CN2021/140968 2020-12-31 2021-12-23 会议装置和会议系统 WO2022143426A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011641425.2 2020-12-31
CN202011641425.2A CN114697602B (zh) 2020-12-31 2020-12-31 会议装置和会议系统

Publications (1)

Publication Number Publication Date
WO2022143426A1 true WO2022143426A1 (zh) 2022-07-07

Family

ID=82135930

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/140968 WO2022143426A1 (zh) 2020-12-31 2021-12-23 会议装置和会议系统

Country Status (2)

Country Link
CN (1) CN114697602B (zh)
WO (1) WO2022143426A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866215A (zh) * 2010-04-20 2010-10-20 复旦大学 在视频监控中采用视线跟踪的人机交互装置和方法
CN103209313A (zh) * 2012-01-16 2013-07-17 华为技术有限公司 图像处理方法、会议终端、会场电子系统和视频会议系统
CN107895347A (zh) * 2017-07-20 2018-04-10 吉林大学 一种视觉自适应调节显示装置及方法
CN108093201A (zh) * 2018-01-24 2018-05-29 周永业 一种视频会议终端及系统
CN108965767A (zh) * 2018-07-26 2018-12-07 吴铁 一种改善人与人视频交互体验的视频处理方法及系统
WO2019080295A1 (zh) * 2017-10-23 2019-05-02 上海玮舟微电子科技有限公司 基于人眼跟踪的裸眼3d显示方法及控制系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3389102B2 (ja) * 1998-06-04 2003-03-24 日本電気株式会社 ネットワーク会議画像処理装置
JP2001313917A (ja) * 2001-03-08 2001-11-09 Nec Corp ネットワーク会議画像処理装置
JP6276954B2 (ja) * 2013-09-24 2018-02-07 株式会社日立国際電気 映像監視システム
CN103795926A (zh) * 2014-02-11 2014-05-14 惠州Tcl移动通信有限公司 利用眼球跟踪技术控制拍照对焦的方法、系统及拍照设备
JP2020181162A (ja) * 2019-04-26 2020-11-05 キヤノン株式会社 撮像システム及びその制御方法並びにプログラム
CN110263657B (zh) * 2019-05-24 2023-04-18 亿信科技发展有限公司 一种人眼追踪方法、装置、系统、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866215A (zh) * 2010-04-20 2010-10-20 复旦大学 在视频监控中采用视线跟踪的人机交互装置和方法
CN103209313A (zh) * 2012-01-16 2013-07-17 华为技术有限公司 图像处理方法、会议终端、会场电子系统和视频会议系统
CN107895347A (zh) * 2017-07-20 2018-04-10 吉林大学 一种视觉自适应调节显示装置及方法
WO2019080295A1 (zh) * 2017-10-23 2019-05-02 上海玮舟微电子科技有限公司 基于人眼跟踪的裸眼3d显示方法及控制系统
CN108093201A (zh) * 2018-01-24 2018-05-29 周永业 一种视频会议终端及系统
CN108965767A (zh) * 2018-07-26 2018-12-07 吴铁 一种改善人与人视频交互体验的视频处理方法及系统

Also Published As

Publication number Publication date
CN114697602A (zh) 2022-07-01
CN114697602B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
US10523919B2 (en) Apparatus and method for adjusting stereoscopic image parallax and stereo camera
US10171792B2 (en) Device and method for three-dimensional video communication
US10951804B2 (en) Photographing synchronization method and apparatus
US20160295194A1 (en) Stereoscopic vision system generatng stereoscopic images with a monoscopic endoscope and an external adapter lens and method using the same to generate stereoscopic images
US20160269685A1 (en) Video interaction between physical locations
EP0921694A3 (en) Stereoscopic image pick-up apparatus
WO2016045425A1 (zh) 一种两视点立体图像合成方法及系统
JP4432462B2 (ja) 撮像装置及び方法、撮像システム
WO2019158808A3 (en) Imaging system and method for producing stereoscopic images using more than two cameras and gaze direction
JP2021057766A5 (ja) 画像表示システム、画像処理装置、および動画配信方法
WO2021110038A1 (zh) 3d显示设备、3d图像显示方法
US20140168375A1 (en) Image conversion device, camera, video system, image conversion method and recording medium recording a program
JP2006054830A (ja) 画像圧縮通信方法及び装置
WO2013161485A1 (ja) 電子内視鏡、画像処理装置、電子内視鏡システム及び立体視用画像生成方法
WO2022143426A1 (zh) 会议装置和会议系统
JP2011141381A (ja) 立体画像表示装置及び立体画像表示方法
JP5223096B2 (ja) 3d映像撮影制御システム、3d映像撮影制御方法、およびプログラム
CN107895347A (zh) 一种视觉自适应调节显示装置及方法
WO2011011917A1 (zh) 视频通信方法、装置和系统
CN107454326B (zh) 利用鱼眼镜头进行全景摄像的方法、摄像机以及全景摄像系统
CN107646193B (zh) 双目立体视觉图像的提供方法、传送装置和照相机单元
WO2021184533A1 (zh) 一种自动优化3d立体感的方法、系统及介质
WO2017092369A1 (zh) 一种头戴设备、三维视频通话系统和三维视频通话实现方法
JP2014014011A (ja) 静止画自動生成システム、静止画自動生成システムにおける作業者用情報処理端末及び指示者用情報処理端末、及び判定装置
CN218998126U (zh) 一种高清低延时3d立体无线远程图传系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21914163

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21914163

Country of ref document: EP

Kind code of ref document: A1