WO2024022086A1 - 基于三维显示的视频通信方法及系统 - Google Patents

基于三维显示的视频通信方法及系统 Download PDF

Info

Publication number
WO2024022086A1
WO2024022086A1 PCT/CN2023/106355 CN2023106355W WO2024022086A1 WO 2024022086 A1 WO2024022086 A1 WO 2024022086A1 CN 2023106355 W CN2023106355 W CN 2023106355W WO 2024022086 A1 WO2024022086 A1 WO 2024022086A1
Authority
WO
WIPO (PCT)
Prior art keywords
area
definition
image
low
definition area
Prior art date
Application number
PCT/CN2023/106355
Other languages
English (en)
French (fr)
Inventor
李治富
陈丽莉
苗京花
李文宇
Original Assignee
京东方科技集团股份有限公司
北京京东方显示技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京东方科技集团股份有限公司, 北京京东方显示技术有限公司 filed Critical 京东方科技集团股份有限公司
Publication of WO2024022086A1 publication Critical patent/WO2024022086A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/302Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays

Definitions

  • Embodiments of the present application relate to the field of image processing, and in particular, to a video communication method and system based on three-dimensional display.
  • 3D displays have always been recognized as the ultimate dream for the development of display technology. After years of technological development, there are currently two major three-dimensional display technology systems on the market: spectacle-type and naked-eye type. Among them, naked-eye 3D display technology is also called autostereoscopic display technology, which is the future development trend of 3D display technology.
  • the display contents of traditional naked-eye 3D display devices are playback content sources produced in advance. If you want to apply naked-eye 3D display equipment to real-time communication, you need to create a real 3D scene. At this time, multiple cameras take photos simultaneously from multiple angles, and calculations are performed based on these photos to generate a 3D model, and then the image texture is pasted on the model for display. Due to limitations in bandwidth and graphics card capabilities, it is difficult to meet real-time requirements, so naked-eye 3D display devices are difficult to use for real-time communication.
  • the embodiment of the present application provides a video communication method based on three-dimensional display, including:
  • the first device obtains the information of the first gaze point of the first user at the first moment and sends it to the second device; after receiving the information of the first gaze point, the second device captures the second user's second gaze point through m cameras.
  • An image, the first high-definition area and the first low-definition area of each first image are determined according to the information of the first gaze point, and the first high-definition area and the first low-definition area are respectively encoded so that the encoded Place
  • the image resolution of the first high-definition area is higher than the image resolution of the first low-definition area, and the encoded m first image data are sent to the first device; wherein, the area around the first gaze point is The first high-definition area, other areas except the first high-definition area are the first low-definition area; m is greater than or equal to 2;
  • the first device decodes the encoded data of m first images to obtain m second images, acquires information about the second gaze point of the first user at the second moment, and determines the relative position of the second gaze point relative to the
  • the offset of the first gaze point is used to determine the second high-definition area and the second low-definition area of the m second images according to the offset; wherein, the area around the second gaze point is the second high-definition area, except Other areas outside the second high-definition area are the second low-definition area;
  • the first device calculates and renders the second high-definition area of the m second images through the first neural network to obtain the first three-dimensional model, and calculates and renders the second low-definition area of the m second images through the second neural network to obtain the second three-dimensional model,
  • the first three-dimensional model and the second three-dimensional model are spliced to obtain a third three-dimensional model; wherein the complexity of the first neural network is higher than the complexity of the second neural network;
  • the first device determines the target display position of the third three-dimensional model on the display screen based on the information of the second gaze point, and displays the third three-dimensional model at the target display position;
  • the first device and the second device are three-dimensional display devices.
  • the embodiment of the present application provides a video communication system based on three-dimensional display, including:
  • the first device is configured to obtain the information of the first user's first gaze point at the first moment and send it to the second device, receive the encoded data of m first images sent by the second device, and perform the encoding of m Decode the data of the first images to obtain m second images, obtain the information of the second gaze point of the first user at the second moment, and determine the offset of the second gaze point relative to the first gaze point.
  • Amount determine the second high-definition area and the second low-definition area of m second images according to the offset amount; wherein, the area around the second gaze point is the second high-definition area, and other areas except the second high-definition area is the second low-definition area; the second high-definition area of m second images is calculated and rendered through the first neural network to obtain the first three-dimensional model, and the second low-definition area of m second images is calculated and rendered through the second neural network to obtain the second low-definition area.
  • Two or three-dimensional models splicing the first three-dimensional model and the second three-dimensional model to obtain a third three-dimensional model; wherein the complexity of the first neural network is higher than the complexity of the second neural network; according to the information of the second gaze point Determine a target display position of the third three-dimensional model on the display screen, and display the third three-dimensional model at the target display position;
  • the second device is configured to, after receiving the information of the first gaze point, capture the first image of the second user through m cameras, and determine the first high-definition of each first image based on the information of the first gaze point.
  • area and the first low-definition area, and the first high-definition area and the first low-definition area are respectively encoded so that the image resolution of the encoded first high-definition area is higher than the image resolution of the first low-definition area.
  • Rate send the encoded m first image data to the first device; wherein, the area around the first gaze point is the first high-definition area, and other areas except the first high-definition area are the first low-definition area; m is greater than or equal to 2;
  • the first device and the second device are three-dimensional display devices.
  • the first device sends the gaze point information of the first user to the second device, and the second device determines m second frames shot by m cameras based on the gaze point information.
  • the high-definition area (the area around the fixation point) and the low-definition area of the user's first image are encoded using different encoding methods so that the image resolution of the encoded high-definition area is higher than that of the low-definition area. Image Resolution.
  • the transmission bandwidth occupied by the encoded image can be saved through partition encoding, and since the area around the fixation point uses high-definition encoding, the bandwidth is saved without affecting the image clarity of the area that the first user is concerned about.
  • the second device sends the encoded data of m first images to the first device, and the first device decodes the encoded data of m first images to obtain m second images, and determines that the first user is currently looking at
  • the offset of the point (the second gaze point) relative to the previous gaze point (the first gaze point) the high-definition area and the low-definition area of the m second images are determined according to the offset, and calculated through the first neural network Render the high-definition area of m second images to obtain a first three-dimensional model, calculate and render the low-definition area of m second images through a second neural network to obtain a second three-dimensional model, and perform the first three-dimensional model and the second three-dimensional model.
  • the third three-dimensional model is obtained by splicing; among them, the complexity of the first neural network is higher than the complexity of the second neural network.
  • the first device determines the target display position of the third three-dimensional model on the display screen based on the information of the current gaze point, and displays the third three-dimensional model at the target display position.
  • the video communication method and system of this article can realize real-time three-dimensional scene video communication and save communication bandwidth and computing resources.
  • Figure 1 is a flow chart of a video communication method based on three-dimensional display according to an embodiment of the present application
  • Figure 2 is a schematic diagram of the distribution of a camera on a display screen according to an embodiment of the present application
  • Figure 3 is a schematic diagram of the second high-definition area of the second image according to the embodiment of the present application.
  • Figure 4 is a schematic diagram of smoothing (optimizing) the first curve (second curve) according to the embodiment of the present application;
  • Figure 5 is a structural diagram of a video communication system based on three-dimensional display according to an embodiment of the present application.
  • this embodiment of the present application provides a video communication method based on three-dimensional display, including:
  • Step S10 the first device obtains the information of the first gaze point of the first user at the first moment and sends it to the second device; after receiving the information of the first gaze point, the second device captures the second gaze point through m cameras.
  • the first high-definition area and the first low-definition area of each first image are determined based on the information of the first gaze point, and the first high-definition area and the first low-definition area are respectively encoded such that The encoded image resolution of the first high-definition area is higher than the image resolution of the first low-definition area, and the encoded m first image data are sent to the first device; wherein, the first gaze point
  • the surrounding area is the first high-definition area, and other areas except the first high-definition area are the first low-definition area; m is greater than or equal to 2;
  • Step S20 The first device decodes the encoded data of m first images to obtain m second images, obtains information about the second gaze point of the first user at the second moment, and determines the second gaze point. Relative to the offset of the first gaze point, the second high-definition area and the second low-definition area of the m second images are determined according to the offset; wherein, the area around the second gaze point is the second high-definition area. area, other areas except the second high-definition area are the second low-definition area;
  • Step S30 The first device calculates and renders the second high-definition area of the m second images through the first neural network to obtain the first three-dimensional model, and calculates and renders the second low-definition area of the m second images through the second neural network to obtain the second low-definition area of the m second images.
  • Step S40 The first device determines that the third three-dimensional model is on the display screen based on the information of the second gaze point. a target display position on the target display position, displaying the third three-dimensional model on the target display position;
  • the first device and the second device are three-dimensional display devices.
  • the first device sends the gaze point information of the first user to the second device, and the second device determines the mth frame shot by m cameras based on the received gaze point information.
  • the high-definition area (the area around the fixation point) and the low-definition area of the second user's first image are encoded using different encoding methods so that the image resolution of the encoded high-definition area is higher than that of the low-definition area. image resolution.
  • the transmission bandwidth occupied by the encoded image can be saved through partition encoding, and since the area around the fixation point uses high-definition encoding, the bandwidth is saved without affecting the image clarity of the area that the first user is concerned about.
  • the second device sends the encoded data of m first images to the first device, and the first device decodes the encoded data of m first images to obtain m second images, and determines that the first user is currently looking at
  • the offset of the point (the second gaze point) relative to the previous gaze point (the first gaze point) the high-definition area and the low-definition area of the m second images are determined according to the offset, and calculated through the first neural network Render the high-definition area of m second images to obtain a first three-dimensional model, calculate and render the low-definition area of m second images through a second neural network to obtain a second three-dimensional model, and perform the first three-dimensional model and the second three-dimensional model.
  • the third three-dimensional model is obtained by splicing; among them, the complexity of the first neural network is higher than the complexity of the second neural network.
  • the first device determines the target display position of the third three-dimensional model on the display screen based on the information of the current gaze point, and displays the third three-dimensional model at the target display position.
  • the video communication method in this article can realize real-time video communication of three-dimensional scenes and save communication bandwidth and computing resources.
  • the first device obtains information about the first gaze point of the first user at the first moment, including:
  • the first device takes a facial image of the first user through the first camera at the first moment, detects facial feature points on the facial image, and if a human face is detected, performs eye recognition in the facial area, and Mark the left eye area and the right eye area, identify the left pupil in the left eye area, determine the relative position of the left pupil in the left eye area, identify the right pupil in the right eye area, and determine the relative position of the right pupil in the right eye area. , according to the relative position of the left pupil in the left eye area and the right pupil in the right eye area The relative position determines the intersection position of the first user's eyes on the display screen of the first device, and uses the intersection position as the first gaze point of the first user at the first moment.
  • the first camera C1 is disposed at the middle position of the upper frame of the display screen of the first device.
  • video communication occurs between the first device and the second device through a remote network.
  • the remote network includes: wireless communication network, mobile communication network, wired communication network, etc.
  • the first device sends the information of the first user's first gaze point at the first moment to the second device, including: the first device sends the first user's first gaze point at the first time through the remote communication network. Information about the first gaze point at the moment is sent to the second device.
  • the method further includes:
  • Reducing the resolution of the facial image can save computing resources and speed up computing time.
  • the m cameras (camera C2-1, camera C2-2, camera C2-3, camera C2-4, camera C2-5, camera C2-6 ) are respectively set in the left half area and the right half area of the upper border, the left half area and the right half area of the lower border, and the middle area of the left border and the middle area of the right border of the display screen of the second device. That is, the six cameras are symmetrically distributed on the four borders of the display.
  • the first high-definition area and the first low-definition area are respectively encoded such that the image resolution of the encoded first high-definition area is higher than the image resolution of the first low-definition area.
  • Resolution including:
  • horizontally compressing the number of pixels in the first low-definition area to 1/N of the original includes:
  • every N columns of pixels are compressed into a new column of pixels, and the pixel value of the new pixel is the average or weighted average of the pixel values of the N columns of pixels.
  • longitudinally compressing the number of pixels in the first low-definition area to 1/N of the original includes:
  • every N rows of pixels are compressed into a new row of pixels, and the pixel value of the new pixel is the average or weighted average of the pixel values of the N rows of pixels.
  • the gaze point is the intersection point of the user's eyes on the display screen.
  • the first device obtains information about the second gaze point of the first user at the second moment, including:
  • the first device takes a facial image of the first user through the first camera at the second moment, detects facial feature points on the facial image, and if a human face is detected, performs eye recognition in the facial area, and Mark the left eye area and the right eye area, identify the left pupil in the left eye area, determine the relative position of the left pupil in the left eye area, identify the right pupil in the right eye area, and determine the relative position of the right pupil in the right eye area. , determine the intersection position of the first user's binocular vision on the first device display screen based on the relative position of the left pupil in the left eye area and the relative position of the right pupil in the right eye area, and use the intersection position as the first user The second point of gaze at the second moment.
  • the first device decodes the encoded data of m first images to obtain m second images, including:
  • the first device determines the second high-definition area and the second low-definition area of m second images based on the offset, including:
  • any second image mark the same area on the second image as a high-definition reference area according to the position of the first high-definition area of the first image that generated the second image.
  • the position of the first low-definition area of the first image marks the same area on the second image as a low-definition reference area;
  • the high-definition reference area is translated according to the offset to obtain a second high-definition area.
  • the offset translates the low-definition reference area to obtain the second low-definition area;
  • the smoothing process includes: Bessel cubic fitting.
  • FIG. 4 is a schematic diagram of smoothing (optimizing) the first curve (the second curve).
  • the right area on the first curve (second curve) corresponds to the original pixel value of the target pixel row (column), and the pixel values between different pixels are quite different.
  • the right area on the first curve (second curve) corresponds to the new pixel value of the target pixel row (column), and the difference in pixel values between different pixels becomes smaller.
  • the first neural network is a deep neural network
  • the second neural network is a shallow neural network
  • the first device determines a target display position of the third three-dimensional model on the display screen based on the information of the second gaze point, and displays the third three-dimensional model at the target display position.
  • 3D models including:
  • the first device uses two left and right virtual cameras to shoot the third three-dimensional model according to the information of the second gaze point to obtain a left eye image and a right eye image, and combines the left eye image and the right eye image to generate a target image of the third three-dimensional model.
  • the image located on the left side of the second gaze point in the target picture is the left eye image
  • the image located on the right side of the second gaze point is the right eye image;
  • the target picture is displayed on the display screen of the first device.
  • this embodiment of the present application provides a video communication system based on three-dimensional display, including:
  • the first device 10 is configured to obtain the information of the first user's first gaze point at the first moment and send it to the second device, receive the encoded data of the m first images sent by the second device, and perform the encoded data on the m first images sent by the second device.
  • the data of m pieces of first images are decoded to obtain m pieces of second images, and the information of the second gaze point of the first user at the second moment is obtained, and the offset of the second gaze point relative to the first gaze point is determined.
  • Shift amount determine the second high-definition area and the second low-definition area of m second images according to the offset amount; wherein, the area around the second gaze point is the second high-definition area, and other areas except the second high-definition area are The area is the second low-definition area; the first three-dimensional model is obtained by calculating and rendering the second high-definition area of m second images through the first neural network, and is obtained by calculating and rendering the second low-definition area of m second images through the second neural network.
  • the second three-dimensional model is a third three-dimensional model obtained by splicing the first three-dimensional model and the second three-dimensional model; wherein the complexity of the first neural network is higher than the complexity of the second neural network; according to the second gaze point
  • the information determines a target display position of the third three-dimensional model on the display screen, and displays the third three-dimensional model at the target display position;
  • the second device 20 is configured to, after receiving the information of the first gaze point, capture the first image of the second user through m cameras, and determine the first image of each first image based on the information of the first gaze point.
  • the high-definition area and the first low-definition area are encoded respectively so that the image resolution of the encoded first high-definition area is higher than the image of the first low-definition area. resolution, sending the encoded m first image data to the first device; where the area around the first gaze point is the first high-definition area, and other areas except the first high-definition area are the first low-definition area ;m is greater than or equal to 2;
  • the first device and the second device are three-dimensional display devices.
  • the first device sends the gaze point information of the first user to the second device, and the second device determines the mth frame captured by m cameras based on the received gaze point information.
  • the high-definition area (the area around the fixation point) and the low-definition area of the second user's first image are encoded using different encoding methods so that the image resolution of the encoded high-definition area is higher than that of the low-definition area. image resolution.
  • the transmission bandwidth occupied by the encoded image can be saved through partition encoding, and since the area around the fixation point uses high-definition encoding, the bandwidth is saved without affecting the image clarity of the area that the first user is concerned about.
  • the second device sends the encoded data of m first images to the first device, and the first device decodes the encoded data of m first images to obtain m second images, and determines that the first user is currently looking at
  • the offset of the point (the second gaze point) relative to the previous gaze point (the first gaze point) the high-definition area and the low-definition area of the m second images are determined according to the offset, and calculated through the first neural network Render the high-definition area of m second images to obtain a first three-dimensional model, calculate and render the low-definition area of m second images through a second neural network to obtain a second three-dimensional model, and perform the first three-dimensional model and the second three-dimensional model.
  • the third three-dimensional model is obtained by splicing; among them, the complexity of the first neural network is higher than the complexity of the second neural network.
  • the first device determines the target display position of the third three-dimensional model on the display screen based on the information of the current gaze point, and displays the third three-dimensional model at the target display position.
  • the video communication system in this article can realize real-time video communication of three-dimensional scenes and save communication bandwidth and computing resources.
  • the first device is configured to obtain information about the first gaze point of the first user at the first moment in the following manner:
  • the first user's facial image is captured by the first camera, facial feature point detection is performed on the facial image, and if a human face is detected, eyes are identified in the human face area, and the left eye is marked.
  • area and the right eye area identify the left pupil in the left eye area, determine the relative position of the left pupil in the left eye area, identify the right pupil in the right eye area, determine the relative position of the right pupil in the right eye area, and determine the relative position of the left pupil in the left eye area.
  • the relative position of the pupil in the left eye area and the relative position of the right pupil in the right eye area determine the intersection position of the first user's binocular vision on the first device display screen, and the intersection point is Set as the first gaze point of the first user at the first moment.
  • the first camera C1 is disposed in the middle of the upper frame of the display screen of the first device.
  • video communication occurs between the first device and the second device through a remote network.
  • the first device is configured to send the information about the first gaze point of the first user at the first moment to the second device in the following manner: the first device sends the first gaze point through the remote communication network. Information about the user's first gaze point at the first moment is sent to the second device.
  • the first device is further configured to reduce the resolution of the facial image after capturing the facial image of the first user through the first camera.
  • Reducing the resolution of the facial image can save computing resources and speed up computing time.
  • the m cameras (camera C2-1, camera C2-2, camera C2-3, camera C2-4, camera C2-5, camera C2-6 ) are respectively set in the left half area and the right half area of the upper border, the left half area and the right half area of the lower border, and the middle area of the left border and the middle area of the right border of the display screen of the second device. That is, the six cameras are symmetrically distributed on the four borders of the display.
  • the first device is configured to separately encode the first high-definition area and the first low-definition area in the following manner such that the image resolution of the encoded first high-definition area is higher than The image resolution of the first low-definition area:
  • horizontally compressing the number of pixels in the first low-definition area to 1/N of the original includes:
  • every N columns of pixels are compressed into a new column of pixels, and the pixel value of the new pixel is the average or weighted average of the pixel values of the N columns of pixels.
  • longitudinally compressing the number of pixels in the first low-definition area to 1/N of the original includes:
  • every N rows of pixels are compressed into a new row of pixels, and the pixel value of the new pixel is the average or weighted average of the pixel values of the N rows of pixels.
  • the first device is configured to obtain information about the second gaze point of the first user at the second moment in the following manner:
  • the first user's facial image is captured by the first camera, facial feature point detection is performed on the facial image, and if a human face is detected, eyes are identified in the facial area and the left eye is marked.
  • area and the right eye area identify the left pupil in the left eye area, determine the relative position of the left pupil in the left eye area, identify the right pupil in the right eye area, determine the relative position of the right pupil in the right eye area, and determine the relative position of the left pupil in the left eye area.
  • the relative position of the pupil in the left eye area and the relative position of the right pupil in the right eye area determine the intersection position of the first user's binocular vision on the first device display screen, and the intersection position is regarded as the first user's position in the second device display screen.
  • the first device is configured to decode the encoded data of m first images to obtain m second images in the following manner:
  • the first device is configured to determine the second high-definition area and the second low-definition area of the m second images according to the offset in the following manner:
  • any second image mark the same area on the second image as a high-definition reference area according to the position of the first high-definition area of the first image that generated the second image.
  • the position of the first low-definition area of the first image marks the same area on the second image as a low-definition reference area;
  • the pixel row performs the following processing: the pixel values of column a pixels located in the high-definition reference area that are in the same row as the target pixel row and the pixel values of column a pixels included in the target pixel row are plotted on the coordinate axis to generate The first curve is smoothed, and the original pixel value on the target pixel row is replaced with a new pixel value corresponding to the target pixel row on the smoothed first curve; where a is the The number of pixels included in the offset in the horizontal direction; m is the bottom row in the area where the high-definition reference area and the second high-definition area overlap;
  • the smoothing process includes: Bessel cubic fitting.
  • the first neural network is a deep neural network
  • the second neural network is a shallow neural network
  • the first device is configured to determine a target display position of the third three-dimensional model on the display screen according to the information of the second gaze point in the following manner, and display the third three-dimensional model at the target display position.
  • 3D model :
  • two left and right virtual cameras are used to shoot the third three-dimensional model to obtain a left eye image and a right eye image, and the left eye image and the right eye image are combined to generate a target picture of the third three-dimensional model, as described
  • the left eye image in the target picture is located to the left of the second fixation point, and the right eye image is located to the right of the second fixation point;
  • the target picture is displayed on the display screen of the first device.
  • computer storage media includes volatile and nonvolatile media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. removable, removable and non-removable media.
  • Computer storage media includes, but is not limited to, RAM, ROM, EEPROM, flash memory or other memory technology, CD-ROM, Digital Versatile Disk (DVD) or other optical disk storage, magnetic cassettes, tapes, disk storage or other magnetic storage devices, or may Any other medium used to store the desired information and that can be accessed by a computer.
  • communication media typically embodies computer readable instructions, data structures, program modules or other data in a modulated data signal such as a carrier wave or other transport mechanism, and may include any information delivery media .

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本文公开基于三维显示的视频通信方法及系统,所述方法包括:第一设备获取第一用户在第一时刻的第一注视点的信息并发送至第二设备;第二设备通过m个相机拍摄第二用户的第一图像,根据第一注视点确定第一图像的第一高/低清区,对第一高清和低清区分别编码并将编码后的数据发送至第一设备;第一设备解码得到m幅第二图像,根据当前注视点相对于第一注视点的偏移量确第二图像的第二高清区和第二低清区;通过第一神经网络计算渲染第二高清区得到第一三维模型,通过第二神经网络计算渲染第二低清区得到第二三维模型,二者拼接得到第三三维模型,根据第二注视点确定第三三维模型在显示屏上的目标显示位置并显示。

Description

基于三维显示的视频通信方法及系统
交叉引用
本申请要求于2022年7月29日提交中国专利局、申请号为202210911037.4、发明名称为“基于三维显示的视频通信方法及系统”的中国专利申请的优先权,其内容应理解为通过引用的方式并入本申请中。
技术领域
本申请实施例涉及图像处理领域,尤其涉及一种基于三维显示的视频通信方法及系统。
背景技术
3D显示器一直被公认为是显示技术发展的终极梦想。经过多年的技术发展,目前市场上存在眼镜式和裸眼式两大立体显示技术体系。其中裸眼式3D显示技术也称为自动立体显示技术,该技术是3D显示技术未来的发展趋势。
传统的裸眼3D显示设备的显示内容都是提前制作好的播放内容源。如果要将裸眼3D显示设备应用于实时通信,就需要制作真实的3D场景。此时,多个摄像头在多个角度进行同步拍照,并根据这些照片进行计算从而生成3D模型,之后再将图片纹理贴到模型上进行展示。由于带宽以及显卡能力的限制,很难满足实时性的要求,因此裸眼3D显示设备难以用作实时通讯。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种基于三维显示的视频通信方法,包括:
第一设备获取第一用户在第一时刻的第一注视点的信息并发送至第二设备;第二设备接收到所述第一注视点的信息后,通过m个相机拍摄第二用户的第一图像,根据所述第一注视点的信息确定每幅第一图像的第一高清区和第一低清区,对所述第一高清区和第一低清区分别进行编码使得编码后的所 述第一高清区的图像分辨率高于所述第一低清区的图像分辨率,将编码后的m幅第一图像的数据发送至第一设备;其中,第一注视点周围的区域为第一高清区,除第一高清区外的其他区域为第一低清区;m大于或等于2;
第一设备对编码后的m幅第一图像的数据进行解码得到m幅第二图像,并且获取第一用户在第二时刻的第二注视点的信息,确定所述第二注视点相对于所述第一注视点的偏移量,根据所述偏移量确定m幅第二图像的第二高清区和第二低清区;其中,第二注视点周围的区域为第二高清区,除第二高清区外的其他区域为第二低清区;
第一设备通过第一神经网络计算渲染m幅第二图像的第二高清区得到第一三维模型,通过第二神经网络计算渲染m幅第二图像的第二低清区得到第二三维模型,将所述第一三维模型和第二三维模型进行拼接得到第三三维模型;其中,第一神经网络的复杂度高于第二神经网络的复杂度;
第一设备根据第二注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型;
其中,第一设备和第二设备为三维显示设备。
本申请实施例提供了一种基于三维显示的视频通信系统,包括:
第一设备,配置为获取第一用户在第一时刻的第一注视点的信息并发送至第二设备,接收第二设备发送的编码后的m幅第一图像的数据,对编码后的m幅第一图像的数据进行解码得到m幅第二图像,并且获取第一用户在第二时刻的第二注视点的信息,确定所述第二注视点相对于所述第一注视点的偏移量,根据所述偏移量确定m幅第二图像的第二高清区和第二低清区;其中,第二注视点周围的区域为第二高清区,除第二高清区外的其他区域为第二低清区;通过第一神经网络计算渲染m幅第二图像的第二高清区得到第一三维模型,通过第二神经网络计算渲染m幅第二图像的第二低清区得到第二三维模型,将所述第一三维模型和第二三维模型进行拼接得到第三三维模型;其中,第一神经网络的复杂度高于第二神经网络的复杂度;根据第二注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型;
第二设备,配置为接收到所述第一注视点的信息后,通过m个相机拍摄第二用户的第一图像,根据所述第一注视点的信息确定每幅第一图像的第一高清区和第一低清区,对所述第一高清区和第一低清区分别进行编码使得编码后的所述第一高清区的图像分辨率高于所述第一低清区的图像分辨率,将编码后的m幅第一图像的数据发送至第一设备;其中,第一注视点周围的区域为第一高清区,除第一高清区外的其他区域为第一低清区;m大于或等于2;
其中,第一设备和第二设备为三维显示设备。
本申请实施例提供的基于三维显示的视频通信方法和系统,第一设备将第一用户的注视点信息发送给第二设备,第二设备根据注视点信息确定m个相机拍摄的m幅第二用户的第一图像的高清区(注视点周围的区域)和低清区,对高清区和低清区采用不同的编码方式进行编码使得编码后的高清区的图像分辨率高于低清区的图像分辨率。通过分区编码能够节省编码后的图像所占的传输带宽,并且由于注视点周围区域采用的是高清编码,所以节省带宽的同时并没有对第一用户关注的区域的图像清晰度造成影响。第二设备将编码后的m幅第一图像的数据发送至第一设备,第一设备对编码后的m幅第一图像的数据进行解码得到m幅第二图像,并且确定第一用户当前注视点(第二注视点)相对于之前的注视点(第一注视点)的偏移量,根据所述偏移量确定m幅第二图像的高清区和低清区,通过第一神经网络计算渲染m幅第二图像的高清区得到第一三维模型,通过第二神经网络计算渲染m幅第二图像的低清区得到第二三维模型,将所述第一三维模型和第二三维模型进行拼接得到第三三维模型;其中,第一神经网络的复杂度高于第二神经网络的复杂度。通过利用复杂度不同的神经网络分别对高清区和低清区进行三维建模,能够节省计算资源,并且由于注视点周围区域采用的是复杂度较高的神经网络,因此能够保证三维建模的效果。第一设备根据当前注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型。本文的视频通信方法和系统能够实现实时的三维场景视频通信,并且节省通信带宽和计算资源。
在阅读并理解了附图和详细描述后,可以明白其他方面。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例的一种基于三维显示的视频通信方法的流程图;
图2为本申请实施例的一种相机在显示屏上的分布示意图;
图3为本申请实施例的第二图像的第二高清区的示意图;
图4为本申请实施例对第一曲线(第二曲线)进行平滑处理(优化)的示意图;
图5为本申请实施例的一种基于三维显示的视频通信系统的结构图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征的组合。本申请已经公开的实施例、特征也可以与任何常规特征组合,以形成由所附权利要求限定的独特的发明方案。任何实施例的任何特征也可以与来自其它发明方案的特征组合,以形成另一个由所附权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对所附权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
如图1所示,本申请实施例提供了一种基于三维显示的视频通信方法,包括:
步骤S10,第一设备获取第一用户在第一时刻的第一注视点的信息并发送至第二设备;第二设备接收到所述第一注视点的信息后,通过m个相机拍摄第二用户的第一图像,根据所述第一注视点的信息确定每幅第一图像的第一高清区和第一低清区,对所述第一高清区和第一低清区分别进行编码使得编码后的所述第一高清区的图像分辨率高于所述第一低清区的图像分辨率,将编码后的m幅第一图像的数据发送至第一设备;其中,第一注视点周围的区域为第一高清区,除第一高清区外的其他区域为第一低清区;m大于或等于2;
步骤S20,第一设备对编码后的m幅第一图像的数据进行解码得到m幅第二图像,并且获取第一用户在第二时刻的第二注视点的信息,确定所述第二注视点相对于所述第一注视点的偏移量,根据所述偏移量确定m幅第二图像的第二高清区和第二低清区;其中,第二注视点周围的区域为第二高清区,除第二高清区外的其他区域为第二低清区;
步骤S30:第一设备通过第一神经网络计算渲染m幅第二图像的第二高清区得到第一三维模型,通过第二神经网络计算渲染m幅第二图像的第二低清区得到第二三维模型,将所述第一三维模型和第二三维模型进行拼接得到第三三维模型;其中,第一神经网络的复杂度高于第二神经网络的复杂度;
步骤S40:第一设备根据第二注视点的信息确定第三三维模型在显示屏 上的目标显示位置,在所述目标显示位置上显示所述第三三维模型;
其中,第一设备和第二设备为三维显示设备。
本申请实施例提供的基于三维显示的视频通信方法,第一设备将第一用户的注视点信息发送给第二设备,第二设备根据接收到的注视点信息确定m个相机拍摄的m幅第二用户的第一图像的高清区(注视点周围的区域)和低清区,对高清区和低清区采用不同的编码方式进行编码使得编码后的高清区的图像分辨率高于低清区的图像分辨率。通过分区编码能够节省编码后的图像所占的传输带宽,并且由于注视点周围区域采用的是高清编码,所以节省带宽的同时并没有对第一用户关注的区域的图像清晰度造成影响。第二设备将编码后的m幅第一图像的数据发送至第一设备,第一设备对编码后的m幅第一图像的数据进行解码得到m幅第二图像,并且确定第一用户当前注视点(第二注视点)相对于之前的注视点(第一注视点)的偏移量,根据所述偏移量确定m幅第二图像的高清区和低清区,通过第一神经网络计算渲染m幅第二图像的高清区得到第一三维模型,通过第二神经网络计算渲染m幅第二图像的低清区得到第二三维模型,将所述第一三维模型和第二三维模型进行拼接得到第三三维模型;其中,第一神经网络的复杂度高于第二神经网络的复杂度。通过利用复杂度不同的神经网络分别对高清区和低清区进行三维建模,能够节省计算资源,并且由于注视点周围区域采用的是复杂度较高的神经网络,因此能够保证三维建模的效果。第一设备根据当前注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型。本文的视频通信方法能够实现实时的三维场景的视频通信,并且节省通信带宽和计算资源。
在一些示例性的实施方式中,第一设备获取第一用户在第一时刻的第一注视点的信息,包括:
第一设备在第一时刻通过第一相机拍摄第一用户的脸部图像,对所述脸部图像进行人脸特征点检测,如果检测到人脸,则在人脸区域进行眼睛的识别,并标记左眼区域和右眼区域,在左眼区域进行左瞳孔的识别,确定左瞳孔在左眼区域的相对位置,在右眼区域进行右瞳孔的识别,确定右瞳孔在右眼区域的相对位置,根据左瞳孔在左眼区域的相对位置和右瞳孔在右眼区域 的相对位置确定第一用户的双眼视线在第一设备显示屏上的交点位置,将所述交点位置作为所述第一用户在第一时刻的第一注视点。
在一些示例性的实施方式中,如图2所示,所述第一相机C1设置在第一设备显示屏的上边框的中间位置。
在一些示例性的实施方式中,第一设备和第二设备之间通过远程网络进行视频通信。
所述远程网络包括:无线通信网络、移动通信网络、有线通信网络等。
在一些示例性的实施方式中,第一设备将第一用户在第一时刻的第一注视点的信息发送至第二设备,包括:第一设备通过远程通信网络将将第一用户在第一时刻的第一注视点的信息发送至第二设备。
在一些示例性的实施方式中,第一设备通过第一摄像头拍摄第一用户的脸部图像后,所述方法还包括:
降低所述脸部图像的分辨率。
降低所述脸部图像的分辨率可以节省计算资源,加快计算时间。
在一些示例性的实施方式中,如图2所示,所述m个相机(相机C2-1、相机C2-2、相机C2-3、相机C2-4、相机C2-5、相机C2-6)分别设置在第二设备的显示屏上边框的左半区域和右半区域,下边框的左半区域和右半区域,左边框的中间区域和右边框的中间区域。也即,6个相机在显示屏的四条边框上成对称分布。
在一些示例性的实施方式中,对所述第一高清区和第一低清区分别进行编码使得编码后的所述第一高清区的图像分辨率高于所述第一低清区的图像分辨率,包括:
保持所述第一高清区的像素数量不变;
将所述第一低清区的像素数量横向压缩为原来的1/N,或者纵向压缩为原来的1/N;其中,N大于或等于2。
在一些示例性的实施方式中,将所述第一低清区的像素数量横向压缩为原来的1/N,包括:
从所述第一低清区的第一列像素开始,每N列像素压缩为一列新的像素,所述新的像素的像素值是N列像素的像素值的平均值或加权平均值。
在一些示例性的实施方式中,将所述第一低清区的像素数量纵向压缩为原来的1/N,包括:
从所述第一低清区的第一行像素开始,每N行像素压缩为一行新的像素,所述新的像素的像素值是N行像素的像素值的平均值或加权平均值。
在一些示例性的实施方式中,注视点是用户双眼视线在显示屏上的交点。
在一些示例性的实施方式中,第一设备获取第一用户在第二时刻的第二注视点的信息,包括:
第一设备在第二时刻通过第一相机拍摄第一用户的脸部图像,对所述脸部图像进行人脸特征点检测,如果检测到人脸,则在人脸区域进行眼睛的识别,并标记左眼区域和右眼区域,在左眼区域进行左瞳孔的识别,确定左瞳孔在左眼区域的相对位置,在右眼区域进行右瞳孔的识别,确定右瞳孔在右眼区域的相对位置,根据左瞳孔在左眼区域的相对位置和右瞳孔在右眼区域的相对位置确定第一用户的双眼视线在第一设备显示屏上的交点位置,将所述交点位置作为所述第一用户在第二时刻的第二注视点。
在一些示例性的实施方式中,第一设备对编码后的m幅第一图像的数据进行解码得到m幅第二图像,包括:
针对编码后的任意一幅第一图像的数据,对所述第一图像的第一高清区和第一低清区进行解码,并对所述第一图像的低清区进行解压缩,得到第二图像。
在一些示例性的实施方式中,如图3所示,第一设备根据所述偏移量确定m幅第二图像的第二高清区和第二低清区,包括:
针对任意一幅第二图像,根据生成所述第二图像的第一图像的第一高清区的位置在所述第二图像上标记相同的区域作为高清参考区,根据生成所述第二图像的第一图像的第一低清区的位置在所述第二图像上标记相同的区域作为低清参考区;
根据所述偏移量对所述高清参考区进行平移得到第二高清区,根据所述 偏移量对所述低清参考区进行平移得到第二低清区;
保持所述高清参考区和第二高清区交叠的区域内的像素不变;
对所述低清参考区内属于所述第二高清区的待处理像素区内的像素进行处理:
对待处理像素区内从上到下的第1行至第c行的像素中的任意一行目标像素行执行下述处理:将与所述目标像素行同行的位于所述高清参考区内的a列像素的像素值与所述目标像素行包括的a列像素的像素值绘制在坐标轴上生成第一曲线,对所述第一曲线进行平滑处理,用平滑处理后的第一曲线上对应目标像素行的新的像素值替代所述目标像素行上原始的像素值;其中,a是所述偏移量在横向方向上包括的像素个数;c是所述高清参考区和第二高清区交叠的区域内的最下面一行;
对待处理像素区内从左到右的第1列至第d列的像素中的任意一列目标像素列执行下述处理:将与所述目标像素列同列的位于所述高清参考区内的b行像素的像素值与所述目标像素列包括的b行像素的像素值绘制在坐标轴上生成第二曲线,对所述第二曲线进行平滑处理,用平滑处理后的第二曲线上对应目标像素列的新的像素值替代所述目标像素列上原始的像素值;其中,b是所述偏移量在纵向方向上包括的像素个数;d是所述高清参考区和第二高清区交叠的区域内的最右面一列。
在一些示例性的实施方式中,所述平滑处理包括:贝塞尔3次方拟合。
图4是对第一曲线(第二曲线)进行平滑处理(优化)的示意图。优化前,第一曲线(第二曲线)上右侧区域对应的是目标像素行(列)的原始像素值,不同像素之间的像素值差异较大。优化后,第一曲线(第二曲线)上右侧区域对应的是目标像素行(列)的新的像素值,不同像素之间的像素值差异变小。
在一些示例性的实施方式中,所述第一神经网络为深层神经网络,所述第二神经网络为浅层神经网络。
在一些示例性的实施方式中,第一设备根据第二注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三 三维模型,包括:
第一设备根据第二注视点的信息采用左右两个虚拟相机对第三三维模型进行拍摄得到左眼图像和右眼图像,将左眼图像和右眼图像进行组合生成第三三维模型的目标图片,所述目标图片中位于第二注视点左侧的是左眼图像,位于第二注视点右侧的是右眼图像;
在第一设备的显示屏上显示所述目标图片。
如图5所示,本申请实施例提供了一种基于三维显示的视频通信系统,包括:
第一设备10,配置为获取第一用户在第一时刻的第一注视点的信息并发送至第二设备,接收第二设备发送的编码后的m幅第一图像的数据,对编码后的m幅第一图像的数据进行解码得到m幅第二图像,并且获取第一用户在第二时刻的第二注视点的信息,确定所述第二注视点相对于所述第一注视点的偏移量,根据所述偏移量确定m幅第二图像的第二高清区和第二低清区;其中,第二注视点周围的区域为第二高清区,除第二高清区外的其他区域为第二低清区;通过第一神经网络计算渲染m幅第二图像的第二高清区得到第一三维模型,通过第二神经网络计算渲染m幅第二图像的第二低清区得到第二三维模型,将所述第一三维模型和第二三维模型进行拼接得到第三三维模型;其中,第一神经网络的复杂度高于第二神经网络的复杂度;根据第二注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型;
第二设备20,配置为接收到所述第一注视点的信息后,通过m个相机拍摄第二用户的第一图像,根据所述第一注视点的信息确定每幅第一图像的第一高清区和第一低清区,对所述第一高清区和第一低清区分别进行编码使得编码后的所述第一高清区的图像分辨率高于所述第一低清区的图像分辨率,将编码后的m幅第一图像的数据发送至第一设备;其中,第一注视点周围的区域为第一高清区,除第一高清区外的其他区域为第一低清区;m大于或等于2;
其中,第一设备和第二设备为三维显示设备。
本申请实施例提供的基于三维显示的视频通信系统,第一设备将第一用户的注视点信息发送给第二设备,第二设备根据接收到的注视点信息确定m个相机拍摄的m幅第二用户的第一图像的高清区(注视点周围的区域)和低清区,对高清区和低清区采用不同的编码方式进行编码使得编码后的高清区的图像分辨率高于低清区的图像分辨率。通过分区编码能够节省编码后的图像所占的传输带宽,并且由于注视点周围区域采用的是高清编码,所以节省带宽的同时并没有对第一用户关注的区域的图像清晰度造成影响。第二设备将编码后的m幅第一图像的数据发送至第一设备,第一设备对编码后的m幅第一图像的数据进行解码得到m幅第二图像,并且确定第一用户当前注视点(第二注视点)相对于之前的注视点(第一注视点)的偏移量,根据所述偏移量确定m幅第二图像的高清区和低清区,通过第一神经网络计算渲染m幅第二图像的高清区得到第一三维模型,通过第二神经网络计算渲染m幅第二图像的低清区得到第二三维模型,将所述第一三维模型和第二三维模型进行拼接得到第三三维模型;其中,第一神经网络的复杂度高于第二神经网络的复杂度。通过利用复杂度不同的神经网络分别对高清区和低清区进行三维建模,能够节省计算资源,并且由于注视点周围区域采用的是复杂度较高的神经网络,因此能够保证三维建模的效果。第一设备根据当前注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型。本文的视频通信系统能够实现实时的三维场景的视频通信,并且节省通信带宽和计算资源。
在一些示例性的实施方式中,第一设备,配置为采用以下方式获取第一用户在第一时刻的第一注视点的信息:
在第一时刻通过第一相机拍摄第一用户的脸部图像,对所述脸部图像进行人脸特征点检测,如果检测到人脸,则在人脸区域进行眼睛的识别,并标记左眼区域和右眼区域,在左眼区域进行左瞳孔的识别,确定左瞳孔在左眼区域的相对位置,在右眼区域进行右瞳孔的识别,确定右瞳孔在右眼区域的相对位置,根据左瞳孔在左眼区域的相对位置和右瞳孔在右眼区域的相对位置确定第一用户的双眼视线在第一设备显示屏上的交点位置,将所述交点位 置作为所述第一用户在第一时刻的第一注视点。
在一些示例性的实施方式中,所述第一相机C1设置在第一设备显示屏的上边框的中间位置。
在一些示例性的实施方式中,第一设备和第二设备之间通过远程网络进行视频通信。
在一些示例性的实施方式中,第一设备,配置为采用以下方式将第一用户在第一时刻的第一注视点的信息发送至第二设备:第一设备通过远程通信网络将将第一用户在第一时刻的第一注视点的信息发送至第二设备。
在一些示例性的实施方式中,第一设备,还配置为通过第一摄像头拍摄第一用户的脸部图像后,降低所述脸部图像的分辨率。
降低所述脸部图像的分辨率可以节省计算资源,加快计算时间。
在一些示例性的实施方式中,如图2所示,所述m个相机(相机C2-1、相机C2-2、相机C2-3、相机C2-4、相机C2-5、相机C2-6)分别设置在第二设备的显示屏上边框的左半区域和右半区域,下边框的左半区域和右半区域,左边框的中间区域和右边框的中间区域。也即,6个相机在显示屏的四条边框上成对称分布。
在一些示例性的实施方式中,第一设备,配置为采用以下方式对所述第一高清区和第一低清区分别进行编码使得编码后的所述第一高清区的图像分辨率高于所述第一低清区的图像分辨率:
保持所述第一高清区的像素数量不变;
将所述第一低清区的像素数量横向压缩为原来的1/N,或者纵向压缩为原来的1/N;其中,N大于或等于2。
在一些示例性的实施方式中,将所述第一低清区的像素数量横向压缩为原来的1/N,包括:
从所述第一低清区的第一列像素开始,每N列像素压缩为一列新的像素,所述新的像素的像素值是N列像素的像素值的平均值或加权平均值。
在一些示例性的实施方式中,将所述第一低清区的像素数量纵向压缩为原来的1/N,包括:
从所述第一低清区的第一行像素开始,每N行像素压缩为一行新的像素,所述新的像素的像素值是N行像素的像素值的平均值或加权平均值。
在一些示例性的实施方式中,第一设备,配置为采用以下方式获取第一用户在第二时刻的第二注视点的信息:
在第二时刻通过第一相机拍摄第一用户的脸部图像,对所述脸部图像进行人脸特征点检测,如果检测到人脸,则在人脸区域进行眼睛的识别,并标记左眼区域和右眼区域,在左眼区域进行左瞳孔的识别,确定左瞳孔在左眼区域的相对位置,在右眼区域进行右瞳孔的识别,确定右瞳孔在右眼区域的相对位置,根据左瞳孔在左眼区域的相对位置和右瞳孔在右眼区域的相对位置确定第一用户的双眼视线在第一设备显示屏上的交点位置,将所述交点位置作为所述第一用户在第二时刻的第二注视点。
在一些示例性的实施方式中,第一设备,配置为采用以下方式对编码后的m幅第一图像的数据进行解码得到m幅第二图像:
针对编码后的任意一幅第一图像的数据,对所述第一图像的第一高清区和第一低清区进行解码,并对所述第一图像的低清区进行解压缩,得到第二图像。
在一些示例性的实施方式中,第一设备,配置为采用以下方式根据所述偏移量确定m幅第二图像的第二高清区和第二低清区:
针对任意一幅第二图像,根据生成所述第二图像的第一图像的第一高清区的位置在所述第二图像上标记相同的区域作为高清参考区,根据生成所述第二图像的第一图像的第一低清区的位置在所述第二图像上标记相同的区域作为低清参考区;
根据所述偏移量对所述高清参考区进行平移得到第二高清区,根据所述偏移量对所述低清参考区进行平移得到第二低清区;
保持所述高清参考区和第二高清区交叠的区域内的像素不变;
对所述低清参考区内属于所述第二高清区的待处理像素区内的像素进行处理:
对待处理像素区内从上到下的第1行至第m行的像素中的任意一行目标 像素行执行下述处理:将与所述目标像素行同行的位于所述高清参考区内的a列像素的像素值与所述目标像素行包括的a列像素的像素值绘制在坐标轴上生成第一曲线,对所述第一曲线进行平滑处理,用平滑处理后的第一曲线上对应目标像素行的新的像素值替代所述目标像素行上原始的像素值;其中,a是所述偏移量在横向方向上包括的像素个数;m是所述高清参考区和第二高清区交叠的区域内的最下面一行;
对待处理像素区内从左到右的第1列至第n列的像素中的任意一列目标像素列执行下述处理:将与所述目标像素列同列的位于所述高清参考区内的b行像素的像素值与所述目标像素列包括的b行像素的像素值绘制在坐标轴上生成第二曲线,对所述第二曲线进行平滑处理,用平滑处理后的第二曲线上对应目标像素列的新的像素值替代所述目标像素列上原始的像素值;其中,b是所述偏移量在纵向方向上包括的像素个数;n是所述高清参考区和第二高清区交叠的区域内的最右面一列。
在一些示例性的实施方式中,所述平滑处理包括:贝塞尔3次方拟合。
在一些示例性的实施方式中,所述第一神经网络为深层神经网络,所述第二神经网络为浅层神经网络。
在一些示例性的实施方式中,第一设备,配置为采用以下方式根据第二注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型:
根据第二注视点的信息采用左右两个虚拟相机对第三三维模型进行拍摄得到左眼图像和右眼图像,将左眼图像和右眼图像进行组合生成第三三维模型的目标图片,所述目标图片中位于第二注视点左侧的是左眼图像,位于第二注视点右侧的是右眼图像;
在第一设备的显示屏上显示所述目标图片。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一 定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (15)

  1. 一种基于三维显示的视频通信方法,包括:
    第一设备获取第一用户在第一时刻的第一注视点的信息并发送至第二设备;第二设备接收到所述第一注视点的信息后,通过m个相机拍摄第二用户的第一图像,根据所述第一注视点的信息确定每幅第一图像的第一高清区和第一低清区,对所述第一高清区和第一低清区分别进行编码使得编码后的所述第一高清区的图像分辨率高于所述第一低清区的图像分辨率,将编码后的m幅第一图像的数据发送至第一设备;其中,第一注视点周围的区域为第一高清区,除第一高清区外的其他区域为第一低清区;m大于或等于2;
    第一设备对编码后的m幅第一图像的数据进行解码得到m幅第二图像,并且获取第一用户在第二时刻的第二注视点的信息,确定所述第二注视点相对于所述第一注视点的偏移量,根据所述偏移量确定m幅第二图像的第二高清区和第二低清区;其中,第二注视点周围的区域为第二高清区,除第二高清区外的其他区域为第二低清区;
    第一设备通过第一神经网络计算渲染m幅第二图像的第二高清区得到第一三维模型,通过第二神经网络计算渲染m幅第二图像的第二低清区得到第二三维模型,将所述第一三维模型和第二三维模型进行拼接得到第三三维模型;其中,第一神经网络的复杂度高于第二神经网络的复杂度;
    第一设备根据第二注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型;
    其中,第一设备和第二设备为三维显示设备。
  2. 如权利要求1所述的方法,其特征在于:
    第一设备获取第一用户在第一时刻的第一注视点的信息,包括:
    第一设备在第一时刻通过第一相机拍摄第一用户的脸部图像,对所述脸部图像进行人脸特征点检测,如果检测到人脸,则在人脸区域进行眼睛的识别,并标记左眼区域和右眼区域,在左眼区域进行左瞳孔的识别,确定左瞳孔在左眼区域的相对位置,在右眼区域进行右瞳孔的识别,确定右瞳孔在右眼区域的相对位置,根据左瞳孔在左眼区域的相对位置和右瞳孔在右眼区域 的相对位置确定第一用户的双眼视线在第一设备显示屏上的交点位置,将所述交点位置作为所述第一用户在第一时刻的第一注视点;
    第一设备获取第一用户在第二时刻的第二注视点的信息,包括:
    第一设备在第二时刻通过第一相机拍摄第一用户的脸部图像,对所述脸部图像进行人脸特征点检测,如果检测到人脸,则在人脸区域进行眼睛的识别,并标记左眼区域和右眼区域,在左眼区域进行左瞳孔的识别,确定左瞳孔在左眼区域的相对位置,在右眼区域进行右瞳孔的识别,确定右瞳孔在右眼区域的相对位置,根据左瞳孔在左眼区域的相对位置和右瞳孔在右眼区域的相对位置确定第一用户的双眼视线在第一设备显示屏上的交点位置,将所述交点位置作为所述第一用户在第二时刻的第二注视点。
  3. 如权利要求1所述的方法,其特征在于:
    第一设备和第二设备之间通过远程网络进行视频通信。
  4. 如权利要求1所述的方法,其特征在于:
    对所述第一高清区和第一低清区分别进行编码使得编码后的所述第一高清区的图像分辨率高于所述第一低清区的图像分辨率,包括:
    保持所述第一高清区的像素数量不变;
    将所述第一低清区的像素数量横向压缩为原来的1/N,或者纵向压缩为原来的1/N;其中,N大于或等于2。
  5. 如权利要求4所述的方法,其特征在于:
    将所述第一低清区的像素数量横向压缩为原来的1/N,包括:
    从所述第一低清区的第一列像素开始,每N列像素压缩为一列新的像素,所述新的像素的像素值是N列像素的像素值的平均值或加权平均值;
    将所述第一低清区的像素数量纵向压缩为原来的1/N,包括:
    从所述第一低清区的第一行像素开始,每N行像素压缩为一行新的像素,所述新的像素的像素值是N行像素的像素值的平均值或加权平均值。
  6. 如权利要求4或5所述的方法,其特征在于:
    第一设备对编码后的m幅第一图像的数据进行解码得到m幅第二图像, 包括:
    针对编码后的任意一幅第一图像的数据,对所述第一图像的第一高清区和第一低清区进行解码,并对所述第一图像的低清区进行解压缩,得到第二图像。
  7. 如权利要求1所述的方法,其特征在于:
    第一设备根据所述偏移量确定m幅第二图像的第二高清区和第二低清区,包括:
    针对任意一幅第二图像,根据生成所述第二图像的第一图像的第一高清区的位置在所述第二图像上标记相同的区域作为高清参考区,根据生成所述第二图像的第一图像的第一低清区的位置在所述第二图像上标记相同的区域作为低清参考区;
    根据所述偏移量对所述高清参考区进行平移得到第二高清区,根据所述偏移量对所述低清参考区进行平移得到第二低清区;
    保持所述高清参考区和第二高清区交叠的区域内的像素不变;
    对所述低清参考区内属于所述第二高清区的待处理像素区内的像素进行处理:
    对待处理像素区内从上到下的第1行至第c行的像素中的任意一行目标像素行执行下述处理:将与所述目标像素行同行的位于所述高清参考区内的a列像素的像素值与所述目标像素行包括的a列像素的像素值绘制在坐标轴上生成第一曲线,对所述第一曲线进行平滑处理,用平滑处理后的第一曲线上对应目标像素行的新的像素值替代所述目标像素行上原始的像素值;其中,a是所述偏移量在横向方向上包括的像素个数;c是所述高清参考区和第二高清区交叠的区域内的最下面一行;
    对待处理像素区内从左到右的第1列至第d列的像素中的任意一列目标像素列执行下述处理:将与所述目标像素列同列的位于所述高清参考区内的b行像素的像素值与所述目标像素列包括的b行像素的像素值绘制在坐标轴上生成第二曲线,对所述第二曲线进行平滑处理,用平滑处理后的第二曲线上对应目标像素列的新的像素值替代所述目标像素列上原始的像素值;其中, b是所述偏移量在纵向方向上包括的像素个数;d是所述高清参考区和第二高清区交叠的区域内的最右面一列。
  8. 如权利要求1所述的方法,其特征在于:
    第一设备根据第二注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型,包括:
    第一设备根据第二注视点的信息采用左右两个虚拟相机对第三三维模型进行拍摄得到左眼图像和右眼图像,将左眼图像和右眼图像进行组合生成第三三维模型的目标图片,所述目标图片中位于第二注视点左侧的是左眼图像,位于第二注视点右侧的是右眼图像;
    在第一设备的显示屏上显示所述目标图片。
  9. 一种基于三维显示的视频通信系统,包括:
    第一设备,配置为获取第一用户在第一时刻的第一注视点的信息并发送至第二设备,接收第二设备发送的编码后的m幅第一图像的数据,对编码后的m幅第一图像的数据进行解码得到m幅第二图像,并且获取第一用户在第二时刻的第二注视点的信息,确定所述第二注视点相对于所述第一注视点的偏移量,根据所述偏移量确定m幅第二图像的第二高清区和第二低清区;其中,第二注视点周围的区域为第二高清区,除第二高清区外的其他区域为第二低清区;通过第一神经网络计算渲染m幅第二图像的第二高清区得到第一三维模型,通过第二神经网络计算渲染m幅第二图像的第二低清区得到第二三维模型,将所述第一三维模型和第二三维模型进行拼接得到第三三维模型;其中,第一神经网络的复杂度高于第二神经网络的复杂度;根据第二注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型;
    第二设备,配置为接收到所述第一注视点的信息后,通过m个相机拍摄第二用户的第一图像,根据所述第一注视点的信息确定每幅第一图像的第一高清区和第一低清区,对所述第一高清区和第一低清区分别进行编码使得编码后的所述第一高清区的图像分辨率高于所述第一低清区的图像分辨率,将编码后的m幅第一图像的数据发送至第一设备;其中,第一注视点周围的区 域为第一高清区,除第一高清区外的其他区域为第一低清区;m大于或等于2;
    其中,第一设备和第二设备为三维显示设备。
  10. 如权利要求9所述的系统,其特征在于:
    第一设备,配置为采用以下方式获取第一用户在第一时刻的第一注视点的信息:
    在第一时刻通过第一相机拍摄第一用户的脸部图像,对所述脸部图像进行人脸特征点检测,如果检测到人脸,则在人脸区域进行眼睛的识别,并标记左眼区域和右眼区域,在左眼区域进行左瞳孔的识别,确定左瞳孔在左眼区域的相对位置,在右眼区域进行右瞳孔的识别,确定右瞳孔在右眼区域的相对位置,根据左瞳孔在左眼区域的相对位置和右瞳孔在右眼区域的相对位置确定第一用户的双眼视线在第一设备显示屏上的交点位置,将所述交点位置作为所述第一用户在第一时刻的第一注视点;
    第一设备,配置为采用以下方式获取第一用户在第二时刻的第二注视点的信息:
    在第二时刻通过第一相机拍摄第一用户的脸部图像,对所述脸部图像进行人脸特征点检测,如果检测到人脸,则在人脸区域进行眼睛的识别,并标记左眼区域和右眼区域,在左眼区域进行左瞳孔的识别,确定左瞳孔在左眼区域的相对位置,在右眼区域进行右瞳孔的识别,确定右瞳孔在右眼区域的相对位置,根据左瞳孔在左眼区域的相对位置和右瞳孔在右眼区域的相对位置确定第一用户的双眼视线在第一设备显示屏上的交点位置,将所述交点位置作为所述第一用户在第二时刻的第二注视点。
  11. 如权利要求9所述的系统,其特征在于:
    第一设备,配置为采用以下方式对所述第一高清区和第一低清区分别进行编码使得编码后的所述第一高清区的图像分辨率高于所述第一低清区的图像分辨率:
    保持所述第一高清区的像素数量不变;
    将所述第一低清区的像素数量横向压缩为原来的1/N,或者纵向压缩为 原来的1/N;其中,N大于或等于2。
  12. 如权利要求11所述的系统,其特征在于:
    第一设备,配置为采用以下方式对编码后的m幅第一图像的数据进行解码得到m幅第二图像:
    针对编码后的任意一幅第一图像的数据,对所述第一图像的第一高清区和第一低清区进行解码,并对所述第一图像的低清区进行解压缩,得到第二图像。
  13. 如权利要求9所述的系统,其特征在于:
    第一设备,配置为采用以下方式根据所述偏移量确定m幅第二图像的第二高清区和第二低清区:
    针对任意一幅第二图像,根据生成所述第二图像的第一图像的第一高清区的位置在所述第二图像上标记相同的区域作为高清参考区,根据生成所述第二图像的第一图像的第一低清区的位置在所述第二图像上标记相同的区域作为低清参考区;
    根据所述偏移量对所述高清参考区进行平移得到第二高清区,根据所述偏移量对所述低清参考区进行平移得到第二低清区;
    保持所述高清参考区和第二高清区交叠的区域内的像素不变;
    对所述低清参考区内属于所述第二高清区的待处理像素区内的像素进行处理:
    对待处理像素区内从上到下的第1行至第m行的像素中的任意一行目标像素行执行下述处理:将与所述目标像素行同行的位于所述高清参考区内的a列像素的像素值与所述目标像素行包括的a列像素的像素值绘制在坐标轴上生成第一曲线,对所述第一曲线进行平滑处理,用平滑处理后的第一曲线上对应目标像素行的新的像素值替代所述目标像素行上原始的像素值;其中,a是所述偏移量在横向方向上包括的像素个数;m是所述高清参考区和第二高清区交叠的区域内的最下面一行;
    对待处理像素区内从左到右的第1列至第n列的像素中的任意一列目标像素列执行下述处理:将与所述目标像素列同列的位于所述高清参考区内的 b行像素的像素值与所述目标像素列包括的b行像素的像素值绘制在坐标轴上生成第二曲线,对所述第二曲线进行平滑处理,用平滑处理后的第二曲线上对应目标像素列的新的像素值替代所述目标像素列上原始的像素值;其中,b是所述偏移量在纵向方向上包括的像素个数;n是所述高清参考区和第二高清区交叠的区域内的最右面一列。
  14. 如权利要求9所述的系统,其特征在于:
    第一设备,配置为采用以下方式根据第二注视点的信息确定第三三维模型在显示屏上的目标显示位置,在所述目标显示位置上显示所述第三三维模型:
    根据第二注视点的信息采用左右两个虚拟相机对第三三维模型进行拍摄得到左眼图像和右眼图像,将左眼图像和右眼图像进行组合生成第三三维模型的目标图片,所述目标图片中位于第二注视点左侧的是左眼图像,位于第二注视点右侧的是右眼图像;
    在第一设备的显示屏上显示所述目标图片。
  15. 如权利要求9所述的系统,其特征在于:
    所述第一相机设置在第一设备显示屏的上边框的中间位置;
    所述m个相机分别设置在第二设备的显示屏上边框的左半区域和右半区域,下边框的左半区域和右半区域,左边框的中间区域和右边框的中间区域。
PCT/CN2023/106355 2022-07-29 2023-07-07 基于三维显示的视频通信方法及系统 WO2024022086A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210911037.4 2022-07-29
CN202210911037.4A CN115314658A (zh) 2022-07-29 2022-07-29 基于三维显示的视频通信方法及系统

Publications (1)

Publication Number Publication Date
WO2024022086A1 true WO2024022086A1 (zh) 2024-02-01

Family

ID=83858777

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/106355 WO2024022086A1 (zh) 2022-07-29 2023-07-07 基于三维显示的视频通信方法及系统

Country Status (2)

Country Link
CN (1) CN115314658A (zh)
WO (1) WO2024022086A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115314658A (zh) * 2022-07-29 2022-11-08 京东方科技集团股份有限公司 基于三维显示的视频通信方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019080295A1 (zh) * 2017-10-23 2019-05-02 上海玮舟微电子科技有限公司 基于人眼跟踪的裸眼3d显示方法及控制系统
KR20200079162A (ko) * 2018-12-21 2020-07-02 주식회사 딥엑스 실감형 콘텐츠 제공 장치 및 방법
CN111556305A (zh) * 2020-05-20 2020-08-18 京东方科技集团股份有限公司 图像处理方法、vr设备、终端、显示系统和计算机可读存储介质
US20200348755A1 (en) * 2018-01-24 2020-11-05 Apple Inc. Event camera-based gaze tracking using neural networks
WO2021134178A1 (zh) * 2019-12-30 2021-07-08 华为技术有限公司 一种视频流处理方法、装置、设备及介质
CN114581583A (zh) * 2022-04-19 2022-06-03 京东方科技集团股份有限公司 图像处理方法、装置及存储介质
CN115314658A (zh) * 2022-07-29 2022-11-08 京东方科技集团股份有限公司 基于三维显示的视频通信方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019080295A1 (zh) * 2017-10-23 2019-05-02 上海玮舟微电子科技有限公司 基于人眼跟踪的裸眼3d显示方法及控制系统
US20200348755A1 (en) * 2018-01-24 2020-11-05 Apple Inc. Event camera-based gaze tracking using neural networks
KR20200079162A (ko) * 2018-12-21 2020-07-02 주식회사 딥엑스 실감형 콘텐츠 제공 장치 및 방법
WO2021134178A1 (zh) * 2019-12-30 2021-07-08 华为技术有限公司 一种视频流处理方法、装置、设备及介质
CN111556305A (zh) * 2020-05-20 2020-08-18 京东方科技集团股份有限公司 图像处理方法、vr设备、终端、显示系统和计算机可读存储介质
CN114581583A (zh) * 2022-04-19 2022-06-03 京东方科技集团股份有限公司 图像处理方法、装置及存储介质
CN115314658A (zh) * 2022-07-29 2022-11-08 京东方科技集团股份有限公司 基于三维显示的视频通信方法及系统

Also Published As

Publication number Publication date
CN115314658A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
US11076142B2 (en) Real-time aliasing rendering method for 3D VR video and virtual three-dimensional scene
US8218855B2 (en) Method and apparatus for receiving multiview camera parameters for stereoscopic image, and method and apparatus for transmitting multiview camera parameters for stereoscopic image
US9031356B2 (en) Applying perceptually correct 3D film noise
EP1044432A1 (en) Improved image conversion and encoding techniques
WO2007020570A2 (en) Video processing method and device for depth extraction
RU2690757C1 (ru) Система синтеза промежуточных видов светового поля и способ ее функционирования
WO2024022086A1 (zh) 基于三维显示的视频通信方法及系统
US20190266802A1 (en) Display of Visual Data with a Virtual Reality Headset
WO2023169283A1 (zh) 双目立体全景图像的生成方法、装置、设备、存储介质和产品
WO2021031210A1 (zh) 视频处理方法和装置、存储介质和电子设备
Bleyer et al. Temporally consistent disparity maps from uncalibrated stereo videos
CN111612878A (zh) 将静态照片制作成三维效果视频的方法及装置
US20150035828A1 (en) Method for processing a current image of an image sequence, and corresponding computer program and processing device
CN116168076A (zh) 一种图像处理方法、装置、设备及存储介质
KR100540732B1 (ko) 2차원 영상신호를 3차원 영상신호로 변환하는 장치
GB2585197A (en) Method and system for obtaining depth data
CN112017242B (zh) 显示方法及装置、设备、存储介质
TWI603290B (zh) 重調原始景深圖框的尺寸爲尺寸重調景深圖框的方法、裝置及系統
CN111556304B (zh) 一种全景影像处理方法、装置及系统
CN113037947B (zh) 一种连续动态图像中空间信息的编码方法
CN112634139B (zh) 光场超分辨成像方法、装置及设备
CN112581365B (zh) 一种跨尺度自适应信息映射成像方法及装置、介质
CN111629194B (zh) 一种基于神经网络的全景视频转6dof视频的方法及系统
CN114040184A (zh) 图像显示方法、系统、存储介质及计算机程序产品
CN113436304B (zh) 图像渲染方法、装置及头戴式显示设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23845299

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18691899

Country of ref document: US