WO2015062238A1 - 视频图像处理的方法和装置 - Google Patents

视频图像处理的方法和装置 Download PDF

Info

Publication number
WO2015062238A1
WO2015062238A1 PCT/CN2014/077345 CN2014077345W WO2015062238A1 WO 2015062238 A1 WO2015062238 A1 WO 2015062238A1 CN 2014077345 W CN2014077345 W CN 2014077345W WO 2015062238 A1 WO2015062238 A1 WO 2015062238A1
Authority
WO
WIPO (PCT)
Prior art keywords
video image
local
camera
unit
image
Prior art date
Application number
PCT/CN2014/077345
Other languages
English (en)
French (fr)
Inventor
杨晋
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2015062238A1 publication Critical patent/WO2015062238A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Definitions

  • the present invention relates to the field of communications technologies, and in particular, to a video image processing method and apparatus. Background technique
  • Video conferences, video chats, etc. have become indispensable communication methods in people's daily work and life.
  • the quality requirements of video communication are getting higher and higher, and the simplicity and smoothness of the user can no longer meet the requirements of users.
  • the embodiment of the invention provides a video image processing and device, which enables the other user to generate an experience of directly watching the local object or directly communicating with the local user.
  • an embodiment of the present invention provides a video image processing method, where the method includes: Receiving a peer video image sent by the peer device;
  • the first effective imaging range is determined according to the size of the pupil area, the first position and the first distance, and the angle of view of the opposite end object.
  • X is the width of the first effective imaging range
  • h is the first distance
  • a is the angle of view of the opposite end of the subject
  • the width of the pupil region; the first position of the pupil region in the opposite video image satisfies the distance from the edge of the pupil region to the edge of the opposite screen is not less than h X tg (a / 2).
  • the obtaining, by the first effective imaging range, the first valid local video image of the local object is:
  • the obtaining, by the first effective imaging range, the first valid local video image of the local object is: And collecting, by the plurality of image capturing units in the first effective imaging range, the parallel light signals of the local object by the plurality of image capturing units of the local end to obtain a second number of image capturing unit images; wherein, the second quantity is the first The number of camera units within the effective imaging range;
  • the acquiring method of the first distance is specifically:
  • the method further includes:
  • the processing of the peer video image is specifically: processing the peer video image at a first time interval; wherein the first time is a sample interval time.
  • an embodiment of the present invention provides a video image processing apparatus, including: a receiving unit, configured to receive a peer video image sent by a peer device;
  • An image recognition unit configured to process the peer video image to obtain a size of a pupil area of the opposite end object in the opposite video image, and a first position of the pupil area in the opposite video image; a distance acquiring unit, configured to acquire a first distance between the local end object and the local screen; the imaging area determining unit, configured to: according to the size of the pupil area, the first position and the first distance, and the opposite end The angle of view of the subject is obtained, and the first effective imaging range is obtained;
  • An effective image obtaining unit obtains a first effective local video image of the local object according to the first effective imaging range
  • the effective image acquiring unit specifically includes multiple camera units, a synthesizing unit, and a processing unit;
  • Each of the image capturing units is configured to collect the parallel light signals of the object of the local end to obtain an image of the image capturing unit; wherein the image of the one camera unit is a part of the image of the object of the end;
  • the synthesizing unit is configured to: synthesize a first number of image capturing unit images obtained by all the image capturing units to obtain a local video image; wherein, the first quantity is a quantity of all the image capturing units; and the processing unit is configured to: And processing the local video image according to the first effective imaging range to obtain a first effective local video image of the local video image in a first effective imaging range.
  • the effective image acquiring unit specifically includes multiple imaging units, an imaging control unit, and a synthesizing unit:
  • Each of the image capturing units is configured to collect the parallel light signals of the object of the local end to obtain an image of the image capturing unit; wherein the image of the one camera unit is a part of the image of the object of the end;
  • the image capturing control unit is configured to control a plurality of image capturing units in the first effective image capturing range to collect the parallel light signals of the current end object to obtain a second number of image capturing unit images; wherein, the second quantity The number of camera units within the first effective imaging range;
  • the synthesizing unit is configured to synthesize the first valid local video image by the second number of imaging unit images.
  • the device further includes: an optical signal generator;
  • the optical signal generator is configured to emit a first optical signal
  • the image capturing unit receives a second optical signal that is reflected by the first object and is reflected by the object of the local end;
  • the distance acquiring unit is configured to obtain depth information of each camera unit image according to the transmission time of the first optical signal and the receiving time of the second optical signal, and perform, according to the depth information of the image of each camera unit Weighting the processing to obtain the first distance.
  • the device further includes:
  • the image recognition unit includes a processing period setting unit, configured to set a time interval for processing the peer video image information to a first time, where the first The time is the interval between samples.
  • the method and apparatus for video image processing simulates a first imaging range that is the same as the visible area by analyzing the image and determining the visible area of the opposite end user, thereby The image in the first imaging range is displayed to the other party user, so that the other user can generate a feeling of directly watching the local object or directly facing the local user, thereby improving the user experience.
  • FIG. 1 is a flowchart of a video image processing method according to Embodiment 1 of the present invention
  • FIG. 2 is a schematic diagram of a first effective imaging range acquiring method according to Embodiment 1 of the present invention
  • FIG. 3 is a second schematic diagram of a first effective imaging range acquisition method according to Embodiment 1 of the present invention
  • FIG. 4 is a flowchart of a video image processing method according to Embodiment 2 of the present invention
  • FIG. 6 is a schematic diagram of a video image processing apparatus according to Embodiment 4 of the present invention
  • FIG. 7 is a schematic diagram of a video image processing apparatus according to Embodiment 5 of the present invention
  • 8 is a schematic diagram of a physical device for video image processing according to Embodiment 6 of the present invention.
  • the video image processing method and apparatus provided by the embodiments of the present invention can be applied to various video communication scenarios, such as video conference, video chat, video transmission of data, and even online auctions.
  • FIG. 1 is a flowchart of a method for video image processing according to Embodiment 1 of the present invention.
  • the video image processing apparatus of the present invention applies the video image processing method of the present invention, wherein the opposite end is the user end, and the opposite end user views through the video image processing apparatus (ie, the peer device) of the opposite end.
  • the image captured by the local video image processing device may be a person or a subject.
  • the video image processing method of this embodiment includes the following steps:
  • Step 110 Receive a peer video image sent by the peer device.
  • the local video image processing apparatus receives the peer video image sent by the peer device, where the peer video image includes the image of the peer user.
  • Step 120 Processing the peer video image to obtain a size of a pupil area of the opposite end object in the opposite video image, and a first position of the pupil area in the opposite video image;
  • the received image of the peer user is identified, preferably, the received peer
  • the user's image is an encoded compressed image, so the image needs to be decoded after receiving the image. Identifying the size of the pupil area of the opposite video image and the first position of the pupil area in the opposite video image by face recognition and human eye pupil recognition technology;
  • the face recognition can specifically use the face recognition algorithm such as OpenCV to determine the face area in the opposite video image by face recognition, which is recorded as doma in_face.
  • the face recognition algorithm such as OpenCV to determine the face area in the opposite video image by face recognition, which is recorded as doma in_face.
  • doma in_face region if the face recognition algorithm cannot determine the doma in_face region, you can specify a doma in_face region based on user settings or using the default region.
  • the human eye pupil recognition is within the area doma in_face of the face recognition detection, and the area of the human eye is determined according to the position of the eye relative to the face, the shape of the eye, and the contrast of the color of the eye and the surrounding skin color, thereby determining the person The pupil area of the eye.
  • the doma in_eyes region cannot be determined. You can specify a doma in_eyes region based on user settings or using the default region.
  • the first position is the position where doma in_eyes resides in the image.
  • the processing time for processing the peer video image decoding information is set to be processed once every interval, and the first time is the sampling interval of the local video image processing apparatus.
  • Step 130 Obtain a first distance between the local end object and the local screen.
  • the optical signal generator for ranging is provided on the local video image processing device.
  • the acquisition of the first distance can be specifically implemented by the following steps 131 to 134.
  • Step 131 transmitting a first optical signal
  • the first optical signal is directed by the local video image processing device to the subject at the local end.
  • Step 132 Receive, by each of the image capturing units, a second optical signal that is reflected by the first optical signal through the local end;
  • the subject reflects the first optical signal and reflects back to the second of the local video image processing device
  • the optical signal is received by the local video image processing device.
  • the image of the local video image processing device is distributed with an array of imaging units to receive parallel optical signals. Every second time, the camera units in the array collect the video data once, so the image in the local video image information is synthesized by the image of the plurality of camera units collected by the camera unit. The second time is the sampling time of the local video image processing apparatus.
  • Step 1 33 Obtain depth information of each camera unit image according to a transmission time of the first optical signal and a receiving time of the second optical signal by each camera unit;
  • the distance between the partial camera corresponding to each camera unit and the local video image processing device can be known.
  • the distance value is the depth information of the image of the camera unit.
  • Step 1 34 Perform weighting processing on the depth information of each camera unit image to obtain the first distance.
  • the weight information of all the camera unit images is weighted and averaged to obtain the first distance between the local camera and the local screen.
  • Step 140 Obtain a first effective imaging range according to the size of the pupil area, the first position and the first distance, and an angle of view of the opposite end object;
  • a simulated user eye can be obtained.
  • the preset viewing angle can be used in a comfortable viewing area of a single eye. It can also be a value set by the user as needed.
  • the size of the two pupils in the image is approximately two points.
  • the width of all valid imaging ranges is Xl .
  • the pupil area of the opposite end object in the opposite video image is obtained, and its width is X.
  • the first location of the pupil area in the peer video image is the distance between the screen and the subject at the local end. Peer object The angle of view is a. Therefore, the width x 2 of the first effective imaging range as shown in the figure can be obtained.
  • the visible area corresponding to the left eye pupil image is a circular area
  • the visible area corresponding to the right eye pupil image is a circular area
  • the first effective imaging range is the above A collection of two circular areas.
  • the pupil area needs to be removed at the opposite end in the first effective imaging range.
  • the range corresponding to the distance from the edge of the pupil area to the edge of the opposite screen in the video image.
  • the size of the pupil area displayed on the local video image processing device also changes accordingly.
  • the pupil area displayed on the screen is larger than that in FIG. Large, its width is made of X. Become X. ', the pupil in the image can no longer be approximated as a point.
  • the distance from the edge of the opposite screen is not less than hx tg (a/2)
  • the first effective imaging range when the distance between the user of the opposite end object and the opposite end device changes, the first effective imaging range also changes, and the width thereof changes from x 2 to x 3 , the first effective imaging The range becomes larger than in Figure 2.
  • the first effective camera range when the user is close to the peer device, the first effective camera range will become larger. Conversely, when the user is away from the peer device, the first effective camera range will be It becomes smaller.
  • Step 150 Obtain a first valid local video image of the local object according to the first effective imaging range.
  • the obtaining of the first valid local video image can be implemented by the method shown in the following steps 151-153.
  • Step 151 Collecting parallel light signals of the object of the local end by all the image capturing units to obtain a first number of image capturing unit images; wherein each of the image capturing unit images is a part of the image of the current object; The first quantity is the number of all the camera units
  • the local video image processing apparatus performs image collection on the object to be photographed at the local end.
  • the image capturing unit is photographed by the image capturing unit array every other time, so that one image of the image capturing unit is obtained.
  • Step 152 The local video image is obtained by synthesizing the first number of image capturing unit images; and the captured image capturing unit images are combined to obtain a local video image.
  • Step 153 The local video image is processed according to the first effective imaging range, to obtain a first valid local video image of the local video image information in a first effective imaging range.
  • the first effective imaging range processes the local video image, and combines the images in the first effective imaging range among the plurality of imaging unit images collected by the plurality of imaging units into the first effective local video image.
  • the acquisition of the first valid local video image can be implemented as shown in steps 154-155 below.
  • Step 154 Collecting, by the plurality of image capturing units in the first effective imaging range, the parallel light signals of the local object by the entire camera unit at the local end to obtain a second number of camera unit images; wherein, the second quantity The number of camera units within the first effective imaging range;
  • step 140 Using the first effective imaging range obtained in step 140, selecting one of the imaging unit arrays In some cases, the subject of the local end is photographed every first time, so that a second number of imaging unit images captured by the plurality of imaging units within the first effective imaging range are obtained.
  • Step 155 Synthesize the first valid local video image by the second number of imaging unit images.
  • Step 160 The first valid local video image is sent to the peer device.
  • the first valid local video image is compressed before being sent;
  • the peer device displays the compressed first active local video image, and the local video image viewed by the peer device through the peer device is an image in the first effective imaging range instead of the local video.
  • the original image of the image processing device is collected.
  • the first valid local video image that he views will also change as his distance or position moves, as if It has the same effect as the face camera displayed by the peer device.
  • the local camera is a material that is shared with the peer user through video communication. If the peer user wants to see the content of the data more clearly, he only needs to bring his body closer to the screen. The image of the enlarged data content can be displayed correspondingly on the screen without moving the captured data. This is like the user directly facing this information in the same view.
  • the video image processing method provided by the first embodiment of the present invention simulates the first imaging range of the same viewing area by analyzing the image and determining the visible area of the opposite end user, and the local image is collected in the first
  • the image in a camera range is displayed to the other party, so that the other user can directly feel the face of the object or directly face the user, providing a real and convenient video interaction environment for the user to improve the user experience. .
  • FIG. 4 is a flowchart of a method for video image processing according to Embodiment 2 of the present invention.
  • the video image processing method of the present invention is applied to both the local end and the opposite end of the video image processing apparatus.
  • the object of the local end and the opposite end is the user of the local end and the opposite end.
  • Example The application scenario of the second is a scene of a video call.
  • the method for video image processing in this embodiment includes the following steps:
  • Step 401 Receive a peer video image sent by the peer device.
  • Step 402 Perform processing on the opposite end video image to obtain a size of a pupil area of the opposite end object in the opposite end video image, and a first position of the pupil area in the opposite end video image;
  • Step 403 obtain The first distance between the local end object and the local screen;
  • Step 404 Obtain a first effective imaging range according to the size of the pupil area, the first position and the first distance, and the angle of view of the opposite end object;
  • Step 405 Obtain a first valid local video image of the local object according to the first effective imaging range.
  • Step 406 The first valid local video image is sent to the peer device.
  • the foregoing steps are completely the same as steps 110 to 160 in the first embodiment of the present invention, and details are not described herein again.
  • step 402 it also includes
  • Step 407 Convert the peer video image into a display driving signal.
  • Step 410 Display according to the display driving signal
  • the electro-optical conversion is performed according to the display driving signal, and the corresponding optical signal is generated to display the opposite-end video image.
  • the above method provides a method of displaying the opposite video image on the local video image processing apparatus.
  • the peer device also uses the video image processing method of the present invention, when the local user generates a distance and a position change with the local video image processing device, the corresponding video image processing device is also seen. The size and position of the peer video image displayed on it changes accordingly.
  • the method further includes:
  • Step 408 Synthesize the first valid local video image and the opposite video image to obtain a composite Image
  • Step 409 converting the composite image into a display driving signal
  • step 410 is performed, and display is performed according to the display driving signal
  • the object displayed therein is composite image information.
  • the method provided by the above steps can display the video image of the other party and the video image transmitted by the user to the other party at the same time, so that the user can check his posture and position at any time, and can better meet the communication and communication needs of the user. .
  • the third embodiment of the present invention further provides a video image processing apparatus, as shown in FIG. 5, including:
  • the receiving unit 501 is configured to receive a peer video image sent by the peer device.
  • the image recognition unit 502 is configured to process the peer video image information to obtain a size of a pupil area of the opposite end object in the opposite video image, and a first position of the pupil area in the opposite video image ;
  • the distance obtaining unit 503 is configured to acquire a first distance between the local end object and the local end screen
  • the imaging area determining unit 504 is configured to: according to the size of the pupil area, the first position and the first distance, and The angle of view of the end object is obtained, and the first effective imaging range is obtained;
  • the effective image obtaining unit 505 obtains the first valid local video image of the local object according to the first effective imaging range
  • the sending unit 509 is configured to send the first valid local video image to the peer device.
  • the receiving unit 501 receives the peer video image information sent by the peer device, and transmits the information to the image recognition unit 502.
  • the image recognition unit 502 processes the received peer video image to obtain the peer object.
  • the size of the middle pupil area, and the first position of the pupil area in the opposite video image, and sent to the imaging area decision unit 504; the distance obtaining unit 503 will obtain the obtained local object between the local end and the local screen
  • the first distance is also sent to the imaging area decision unit 504.
  • the imaging area decision unit 504 obtains the first effective imaging range and transmits it to the effective image acquiring unit 505 according to the size of the received pupil area, the first position and the first distance, and the angle of view of the opposite subject.
  • the effective image obtaining unit 505 obtains the first effective local video image of the local object according to the first effective imaging range, and sends it to the transmitting unit 509, and transmits it to the opposite device through the transmitting unit 509.
  • the video image processing apparatus determines the size of the pupil area in the opposite video image and the first position of the pupil area in the opposite video image by collecting the image and identifying the image according to the image, thereby determining
  • the visible area of the peer user simulates the same first effective imaging range as the visible area of the opposite user in the imaging area decision unit, thereby displaying the image of the local collection image in the first effective imaging range to the other party.
  • the user enables the other user to generate a feeling of directly watching the local object or directly facing the local user, thereby improving the user experience.
  • the fourth embodiment of the present invention further provides another video image processing apparatus.
  • the method includes: a receiving unit 601, an image recognizing unit 602, a distance acquiring unit 603, and an imaging area, as described in the foregoing embodiments.
  • the effective image acquisition unit 605 specifically includes a plurality of imaging units 606 (only one of which is shown), a synthesis unit 607, and a processing unit 608.
  • Each camera unit 606 is configured to collect the parallel light signals of the subject at the local end to obtain an image of the camera unit; wherein the image of the one camera unit is a part of the image of the subject;
  • the synthesizing unit 607 is configured to synthesize a first number of image capturing unit images acquired by all the image capturing units to obtain a local video image; wherein, the first quantity is the number of all the image capturing units;
  • the processing unit 608 is configured to process the local video image according to the first effective imaging range, to obtain a first effective local video image of the local video image in a first effective imaging range.
  • the video image processing apparatus of this embodiment further includes: an optical signal generator 610, the optical signal generator 610, and a first optical signal; and the imaging unit 606 receives the first optical signal, which is transmitted by the optical signal generator 610, through the local end.
  • the second optical signal after the reflection; the distance obtaining unit 603 obtains the depth information of the image of each camera unit according to the transmission time of the first optical signal transmitted by the optical signal generator 610 and the receiving time of the second optical signal transmitted by the imaging unit 606 And performing weighting processing according to depth information of each camera unit image to obtain a first distance.
  • the video image processing apparatus of this embodiment further includes: a decoding unit 61 1 , an adaptation unit 612 , a display driving unit 61 3 , and a display unit 614 ;
  • the decoding unit 611 is connected to the receiving unit 601, and performs decoding processing on the peer video image received by the receiving unit 601.
  • the adapting unit 612 is connected to the decoding unit 611, and performs adaptation processing on the decoded decoding of the opposite end video image. Converting the opposite end video image into information suitable for display by the local video image processing apparatus; the display driving unit 613 converts the opposite end video image processed by the adapting unit 612 into a display driving signal; the display unit 614 is driven according to the display The display driving signal transmitted by the unit 61 3 displays the opposite video image.
  • the apparatus may further include a compression unit 615 that encodes and compresses the image before transmitting the first valid local video image to the peer device.
  • a compression unit 615 that encodes and compresses the image before transmitting the first valid local video image to the peer device.
  • the image of the opposite end user is analyzed and the visible area of the opposite end user is determined, thereby simulating the same first imaging range as the visible area, and displaying the image of the local collection image in the first imaging range to
  • the other user enables the other user to directly view the local object or directly face the local user, providing a real and convenient video interactive environment for the user to improve the user experience.
  • the peer device also uses the video image processing device of the present invention, when the local user generates a distance and a position change with the local video image processing device, the corresponding view is also seen at the local end. The size and position of the opposite video image displayed on the frequency image processing device change accordingly.
  • the video image processing device provided by the embodiment of the present invention can also display the video image of the other party and the video image transmitted by the local user to the other party at the same time, so that the user can check his posture and position at any time, and can better satisfy the situation.
  • the fifth embodiment of the present invention further provides another video image processing apparatus, as shown in FIG. 7, comprising: the receiving unit 701, the image recognizing unit 702, the distance acquiring unit 703, and the imaging area as described in the above embodiments.
  • the effective image acquisition unit 705 specifically includes a plurality of imaging units 706, an imaging control unit 716, and a synthesizing unit 707.
  • Each camera unit 706 is configured to collect the parallel light signals of the subject at the local end to obtain an image of the camera unit; wherein the image of the one camera unit is a part of the image of the subject;
  • the imaging control unit 716 is configured to control the plurality of imaging units in the first effective imaging range to collect the parallel optical signals of the local object to obtain a second number of imaging unit images; wherein, the second The number is the number of camera units within the first effective imaging range;
  • the synthesizing unit 707 is configured to synthesize the first valid local video image by the second number of imaging unit images.
  • the image of the opposite end user is analyzed and the visible area of the opposite end user is determined, thereby simulating the same first imaging range as the visible area, and displaying the image of the local collection image in the first imaging range to
  • the other user enables the other user to directly view the local object or directly face the local user, providing a real and convenient video interactive environment for the user to improve the user experience.
  • the peer device also uses the video image processing device of the present invention, when the local user generates a distance and a position change with the local video image processing device, the corresponding view is also seen at the local end. The size and position of the opposite video image displayed on the frequency image processing device change accordingly.
  • the video image processing device provided by the embodiment of the present invention can also display the video image of the other party and the video image transmitted by the local user to the other party at the same time, so that the user can check his posture and position at any time, and can better satisfy the situation.
  • FIG. 8 is a schematic diagram of a physical device for video image processing according to an embodiment of the present invention.
  • the embodiment includes a network interface 81, a processor 82, a memory 83, a display 85, and an image collector 86.
  • the system bus 84 is used to connect the network interface 81, the processor 82, and the memory 83.
  • the network interface 81 is used for communication with the Internet of Things terminal, the Internet of Things access gateway, the bearer network, the Internet of Things service gateway, and the application server.
  • the memory 83 can be a persistent storage such as a hard disk drive and flash memory; the device driver can be a network and interface driver.
  • the image collector 86 can be a camera, preferably a light sensitive device embedded in the display 85.
  • the memory 83 is for storing an application, the application including means for causing the processor 82 to access and execute the following instructions:
  • the video image processing apparatus of the embodiment simulates the first effective imaging range that is the same as the visible area of the opposite user by collecting the image analysis and determining the visible area of the opposite user, thereby The image of the collected local image in the first effective imaging range is displayed to the other user, so that the other user can directly feel the original object or directly face the local user, thereby improving the user experience.
  • the application stored by the memory 83 can be used to enable the processor 82 to perform the first according to the size of the pupil area, the first position and the first distance, and the angle of view of the opposite end object.
  • the instructions for the process of effective imaging range are specifically instructions for performing the following process:
  • X is the width of the first effective imaging range
  • h is the first distance
  • a is the angle of view of the opposite end of the subject, X.
  • the width of the pupil region; the first position of the pupil region in the opposite video image satisfies the distance from the edge of the pupil region to the edge of the opposite screen is not less than h X tg (a/2).
  • the application stored by the memory 83 can be used to cause the processor 82 to execute the process of obtaining the first valid local video image of the local object according to the first effective imaging range, specifically performing the following process. Instructions:
  • the application stored by the memory 83 causes the processor 82 to execute the process of obtaining the first valid local video image of the local object according to the first effective imaging range as follows:
  • the application stored by the memory 83 causes the processor 82 to execute the acquisition process of the first distance specifically:
  • Weighting the depth information of each of the image capturing unit images to obtain the first distance can be used to cause the processor 82 to execute instructions of the following process:
  • the application stored by the memory 83 causes the processor 82 to execute an instruction process for processing the peer video image:
  • the peer video image is processed every time interval interval; wherein the first time is a sample interval time.
  • the steps of a method or algorithm described in connection with the embodiments disclosed herein can be implemented in hardware, a software module executed by a processor, or a combination of both.
  • the software module can be placed in random access memory (RAM), memory, read only memory (ROM), electrically programmable ROM, electrically erasable programmable ROM, registers, hard disk, removable disk, CD-ROM, or technical field. Any other form of storage medium known.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

本发明实施例公开了一种视频图像处理的方法和装置,所述方法包括:接收对端设备发送的对端视频图像;对所述对端视频图像进行处理,得到对端被摄对象在对端视频图像中瞳孔区域的大小,以及所述瞳孔区域在对端视频图像中的第一位置;获取本端被摄对象与本端屏幕之间的第一距离;根据所述瞳孔区域的大小、第一位置和第一距离,以及对端被摄对象的视角夹角,得到第一有效摄像范围;根据第一有效摄像范围,得到本端被摄对象的第一有效本端视频图像;将所述第一有效本端视频图像发送给所述对端设备。

Description

视频图像处理的方法和装置 本申请要求于 2013 年 10 月 31 日提交中国专利局、 申请号为 201310530762.8, 发明名称为"视频图像处理的方法和装置 "的中国专利申请的 优先权, 在先申请文件的内容通过引用结合在本申请中。
技术领域
本发明涉及通信技术领域, 尤其涉及一种视频图像处理的方法和装置。 背景技术
随着网络技术的发展, 视频通信技术的应用也越来越普及, 视频会议, 视频聊天等已经成为人们日常工作生活中不可缺少的沟通联络方式。用户对于 视频通信的质量要求越来越高,单纯的清晰、流畅, 已经不能满足用户的要求。
在人与人实际面对面对话的场景中, 对话一方想要离近另一方, 只要向 另一方的方向移动身体即可; 当一个人对其面前的物体想要仔细观察, 也只要 凑近观看即可。
然而在现有的视频通信技术中, 无论一方用户怎样移动自己的位置, 显 示器显示出对方的画面都是不会改变的,需要视频中的另一方做相应的移动才 可以实现上述效果。 发明内容
本发明实施例提供了一种视频图像处理和装置, 能够使对方用户产生直 接观看本端被摄物体或直接与本端用户面对面交流的体验。
第一方面, 本发明实施例提供了一种视频图像处理的方法, 所述方法包 括: 接收对端设备发送的对端视频图像;
对所述对端视频图像进行处理, 得到对端被摄对象在对端视频图像中瞳 孔区域的大小, 以及所述瞳孔区域在对端视频图像中的第一位置;
获取本端被摄对象与本端屏幕之间的第一距离;
根据所述瞳孔区域的大小、 第一位置和第一距离, 以及对端被摄对象的 视角夹角, 得到第一有效摄像范围;
根据第一有效摄像范围, 得到本端被摄对象的第一有效本端视频图像; 将所述第一有效本端视频图像发送给所述对端设备。
在第一种可能的实现方式中, 所述根据所述瞳孔区域的大小、 第一位置 和第一距离, 以及对端被摄对象的视角夹角, 得到第一有效摄像范围具体为:
X=2h x tg (a/2) +X0
其中, X为第一有效摄像范围的宽度、 h为第一距离、 a为对端被摄对象 的视角夹角、 X。为瞳孔区域的宽度; 所述瞳孔区域在对端视频图像中的第一位 置满足瞳孔区域边缘至对端屏幕边缘的距离不小于 h X tg (a/ 2)。
在第二种可能的实现方式中, 所述根据第一有效摄像范围, 得到本端被 摄对象的第一有效本端视频图像具体为:
通过全部摄像单元釆集所述本端的被摄对象的平行光信号, 以获得第一 数量个摄像单元图像; 其中,每个所述摄像单元图像为本端被摄对象的一部分 影像; 所述第一数量为所述全部摄像单元的数量;
由所述第一数量个摄像单元图像合成得到本端视频图像;
根据所述第一有效摄像范围对所述本端视频图像进行处理, 得到所述本 端视频图像在第一有效摄像范围内的第一有效本端视频图像。
在第三种可能的实现方式中, 所述根据第一有效摄像范围, 得到本端被 摄对象的第一有效本端视频图像具体为: 通过本端全部摄像单元在第一有效摄像范围内的多个摄像单元釆集本端 被摄对象的平行光信号, 以获得第二数量个摄像单元图像; 其中, 所述第二数 量为第一有效摄像范围内的摄像单元的数量;
由所述第二数量个摄像单元图像合成得到第一有效本端视频图像。
结合第一方面或第一方面的第二种、 第三种可能的实现方式, 在第四种 可能的实现方式中, 所述第一距离的获取方法具体为:
发射第一光信号;
通过各所述摄像单元接收所述第一光信号经过所述本端被摄对象反射后 的第二光信号;
根据所述第一光信号的发射时间和所述各摄像单元对第二光信号的接收 时间得到所述各摄像单元图像的深度信息;
根据所述各摄像单元图像的深度信息进行加权处理, 得到所述第一距离。 在第五种可能的实现方式中, 在接收对端设备发送的对端视频图像之后, 所述方法还包括:
将对端视频图像转化为显示驱动信号;
根据显示驱动信号对所述对端视频图像进行显示。
在第六种可能的实现方式中, 对所述对端视频图像进行处理具体为: 每间隔第一时间, 对所述对端视频图像进行处理; 其中所述第一时间为 釆样间隔时间。
第二方面, 本发明实施例提供了一种视频图像处理的装置, 包括: 接收单元, 用于接收对端设备发送的对端视频图像;
图像识别单元, 用于对所述对端视频图像进行处理, 得到对端被摄对象 在对端视频图像中瞳孔区域的大小,以及所述瞳孔区域在对端视频图像中的第 一位置; 距离获取单元, 用于获取本端被摄对象与本端屏幕之间的第一距离; 摄像区域决策单元, 用于根据所述瞳孔区域的大小、 第一位置和第一距 离, 以及对端被摄对象的视角夹角, 得到第一有效摄像范围;
有效图像获取单元, 根据第一有效摄像范围, 得到本端被摄对象的第一 有效本端视频图像;
发送单元, 用于将所述第一有效本端视频图像发送给所述对端设备。 在第一种可能的实现方式中, 所述有效图像获取单元具体包括多个摄像 单元、 合成单元和处理单元;
每个所述摄像单元用于, 釆集所述本端的被摄对象的平行光信号, 以获 得一个摄像单元图像; 其中, 所述一个摄像单元图像为本端被摄对象的一部分 影像;
所述合成单元用于, 由全部摄像单元获取的第一数量个摄像单元图像合 成得到本端视频图像; 其中, 所述第一数量为所述全部摄像单元的数量; 所述处理单元用于, 根据所述第一有效摄像范围对所述本端视频图像进 行处理,得到所述本端视频图像在第一有效摄像范围内的第一有效本端视频图 像。
在第二种可能的实现方式中, 所述有效图像获取单元具体包括多个摄像 单元、 摄像控制单元和合成单元:
每个所述摄像单元用于, 釆集所述本端的被摄对象的平行光信号, 以获 得一个摄像单元图像; 其中, 所述一个摄像单元图像为本端被摄对象的一部分 影像;
所述摄像控制单元用于, 控制在第一有效摄像范围内的多个摄像单元对 本端被摄对象的平行光信号进行釆集, 得到第二数量个摄像单元图像; 其中, 所述第二数量为第一有效摄像范围内的摄像单元的数量; 所述合成单元用于, 由所述第二数量个摄像单元图像合成得到第一有效 本端视频图像。
结合第二方面或第二方面的第一、 第二种可能的实现方式, 在第三种可 能的实现方式中, 所述装置还包括: 光信号发生器;
所述光信号发生器用于发射第一光信号;
所述摄像单元接收所述第一光信号经过所述本端的拍摄对象反射后的第 二光信号;
所述距离获取单元具体用于, 根据所述第一光信号的发射时间和第二光 信号的接收时间得到所述各摄像单元图像的深度信息,并根据所述各摄像单元 图像的深度信息进行加权处理, 得到所述第一距离。
在第四种可能的实现方式中, 所述装置还包括:
显示驱动单元, 用于将对端视频图像解码信息转化为显示驱动信号; 显示单元, 用于根据显示驱动信号对所述对端视频图像信息进行显示。 在第五种可能的实现方式中, 所述图像识别单元具体包括处理周期设定 单元, 用于将对所述对端视频图像信息进行处理的时间间隔设定为第一时间, 所述第一时间为釆样间隔时间。
本发明实施例的视频图像处理的方法和装置, 通过釆集图像分析并确定 对端用户的可视区域, 而模拟出与可视区域相同的第一摄像范围,从而将本端 釆集图像在第一摄像范围内的图像显示给对方用户,使对方用户能够产生直接 观看本端被摄物体或直接与本端用户面对面的感觉, 提高用户体验。 附图说明
图 1为本发明实施例一提供的一种视频图像处理的方法流程图; 图 2为本发明实施例一提供的第一有效摄像范围获取方法的示意图之一; 图 3为本发明实施例一提供的第一有效摄像范围获取方法的示意图之二; 图 4为本发明实施例二提供的一种视频图像处理的方法流程图; 图 5为本发明实施例三提供的一种视频图像处理的装置示意图; 图 6为本发明实施例四提供的一种视频图像处理的装置示意图; 图 7为本发明实施例五提供的一种视频图像处理的装置示意图; 图 8为本发明实施例六提供的一种视频图像处理的实体装置示意图。 下面通过附图和实施例, 对本发明实施例的技术方案做进一步的详细描 述。 具体实施方式
本发明实施例提供的视频图像处理的方法和装置, 可以应用在各种视频 通信场景中, 如视频会议, 视频聊天, 通过视频传输资料, 甚至网络拍卖会等 等。
图 1 为本发明实施例一提供的视频图像处理的方法流程图。 在本实施例 中, 本端的视频图像处理装置中应用了本发明的视频图像处理的方法, 其中, 对端为用户端, 对端用户通过对端的视频图像处理装置(即对端设备)来查看 本端视频图像处理装置釆集的图像, 本端被摄对象可以是人, 也可以是物。
如图 1所示, 本实施例视频图像处理的方法包括如下步骤:
步骤 110, 接收对端设备发送的对端视频图像;
具体的, 本端视频图像处理装置接收对端设备发送的对端视频图像, 其 中, 对端视频图像中包括对端用户的图像。
步骤 120, 对所述对端视频图像进行处理, 得到对端被摄对象在对端视频 图像中瞳孔区域的大小, 以及所述瞳孔区域在对端视频图像中的第一位置; 具体的, 对接收到的对端用户的图像进行识别, 优选的, 接收到的对端 用户的图像为经过编码压缩的图像, 因此在接收图像后需要对图像进行解码。 通过人脸识别和人眼瞳孔识别技术识别出对端视频图像瞳孔区域的大小,以及 瞳孔区域在对端视频图像中的第一位置;
其中, 人脸识别具体可以釆用如 OpenCV人脸识别算法等, 通过人脸识别 确定出对端视频图像中的人脸区域, 记为 doma in_face。
当某些情况下, 人脸识别算法无法决策出 doma in_face 区域的情况, 则 可以根据用户设定或使用默认区域来指定一个 doma in_face区域。
人眼瞳孔识别是在人脸识别检测的区域 doma in_face之内, 根据眼睛相 对于人脸的位置、 眼睛的形状、 以及眼睛的颜色与周围肤色的对比确定人眼的 区域, 由此可以确定人眼的瞳孔区域。 具体可以釆用如 OpenCV人眼瞳孔定位 算法等, 确定出一个人眼的瞳孔区域, 记为 doma in_eyes。
同样, 当某些情况下, 根据识别算法无法决策出 doma in_eyes 区域的情 况, 则可以根据用户设定或使用默认区域来指定一个 doma in_eyes区域。
第一位置, 是指 doma in_eyes居于图像中的位置。
其中, 对对端视频图像解码信息进行处理的处理时间设定为每间隔第一 时间处理一次, 第一时间为本端视频图像处理装置的釆样间隔时间。
步骤 130, 获取本端被摄对象与本端屏幕之间的第一距离;
在本端视频图像处理装置上具有一个用于测距的光信号发生器, 第一距 离的获取具体可以通过如下步骤 131至步骤 134的方法实现。
步骤 131, 发射第一光信号;
第一光信号由本端视频图像处理装置射向本端的被摄对象。
步骤 132,通过各所述摄像单元接收所述第一光信号经过所述本端被摄对 象反射后的第二光信号;
被摄对象对第一光信号进行反射, 反射回本端视频图像处理装置的第二 光信号被本端视频图像处理装置所接收。优选的, 本端视频图像处理装置的屏 幕上分布有 ΝχΜ个摄像单元阵列,接收平行光信号。 每隔第二时间, 阵列中的 ΝχΜ 个摄像单元都会釆集一次视频数据, 因此本端视频图像信息中的图像是 ΝχΜ个摄像单元釆集到的多个摄像单元图像合成得到的。第二时间为本端视频 图像处理装置的釆样时间。
步骤 1 33,根据所述第一光信号的发射时间和所述各摄像单元对第二光信 号的接收时间得到所述各摄像单元图像的深度信息;
根据第一光信号的发射时间与第二光信号的接收时间的时间差值, 以及 光的传播速度,可以获知每一个摄像单元所对应的部分拍摄对象与本端视频图 像处理装置之间的距离值, 该距离值为摄像单元图像的深度信息。
步骤 1 34, 对所述各摄像单元图像的深度信息进行加权处理, 得到所述第 一距离。
将全部摄像单元图像的深度信息进行加权平均, 即可得到本端被摄对象 与本端屏幕之间的第一距离。
步骤 140, 根据所述瞳孔区域的大小、 第一位置和第一距离, 以及对端被 摄对象的视角夹角, 得到第一有效摄像范围;
根据前述步骤 120 中获得的瞳孔区域的大小、 第一位置以及步骤 1 30中 获得的第一距离, 以及预设的对端被摄对象的视角夹角进行计算, 可以得到一 个模拟用户眼睛可视区域的第一有效摄像范围。其中预设的视角夹角可以釆用 人单眼的舒适视域 60。 , 也可以是用户根据需要自行设定的一个值。
在一个具体的例子中, 图像中两个瞳孔的大小近似为两个点, 如图 2 所 示, 全部有效摄像范围的宽度为 Xl。 在一个釆样周期中, 得到对端被摄对象在 对端视频图像中瞳孔区域, 其宽度为 X。, 以及所述瞳孔区域在对端视频图像中 的第一位置。 第一距离 h为屏幕至本端被摄对象之间的距离。对端被摄对象的 视角夹角为 a。 因此可以得到如图中所示的第一有效摄像范围的宽度 x2
当所述瞳孔区域在对端视频图像中的第一位置满足瞳孔区域边缘至对端 屏幕边缘的距离不小于 h x t g (a/2)时, x2=2h χ tg (a/ 2) +X„;
在一种具体的实现方式中, 瞳孔区域中, 左眼瞳孔图像对应的可视区域 为一圓形区域,右眼瞳孔图像对应的可视区域为一圓形区域, 第一有效摄像范 围是上述两个圓形区域的集合。
当所述瞳孔区域在对端视频图像中的第一位置满足瞳孔区域边缘至对端 屏幕边缘的距离小于 h x tg (a/2)时, 第一有效摄像范围中还需要去除瞳孔区 域在对端视频图像中的瞳孔区域边缘至对端屏幕边缘的这段距离所对应的范 围。
当对端被摄对象的用户与对端设备之间的距离发生变化时, 在本端视频 图像处理装置上显示的瞳孔区域大小也会发生相应的变化。
以对端用户靠近了对端设备的情况为例, 在又一个釆样周期中, 对端用 户靠近了对端设备, 如图 3所示, 在屏幕上显示出的瞳孔区域比图 2中的大, 其宽度由 X。变为 X。', 图像中的瞳孔不能再近似为点了。 在第一位置和第一距 离都不发生变化的情况下,当所述瞳孔区域在对端视频图像中的第一位置满足 瞳孔区域边缘距离对端屏幕边缘的距离不小于 h x tg (a/2)时, 第一有效摄像 范围的宽度 x3=2h x t g (a/2) +X。'; 否则, 第一有效摄像范围中还需要去除瞳孔 区域在对端视频图像中的瞳孔区域边缘至对端屏幕边缘的这段距离所对应的 范围。
因此可以看到, 随着对端被摄对象的用户与对端设备之间的距离发生变 化时, 第一有效摄像范围也发生了改变,其宽度由 x2变为 x3, 第一有效摄像范 围比图 2中变得更大了。 也就是说, 当用户靠近对端设备的时候, 第一有效摄 像范围会随之变大, 反之, 当用户远离对端设备的时候, 第一有效摄像范围会 随之变小。
步骤 150, 根据第一有效摄像范围, 得到本端被摄对象的第一有效本端视 频图像;
具体的, 第一有效本端视频图像的获取可以如下述步骤 151-153 所示的 方法来实现。
步骤 151, 通过全部摄像单元釆集所述本端的被摄对象的平行光信号, 以 获得第一数量个摄像单元图像; 其中,每个所述摄像单元图像为本端被摄对象 的一部分影像; 所述第一数量为所述全部摄像单元的数量
本端视频图像处理装置对本端的拍摄对象进行图像釆集, 优选的, 釆用 ΝχΜ个摄像单元阵列, 每隔第一时间, 对本端的拍摄对象进行拍摄, 因此得到 ΝχΜ个摄像单元图像。
步骤 152, 由所述第一数量个摄像单元图像合成得到本端视频图像; 将釆集到的 ΝχΜ个摄像单元图像合成得到本端视频图像。
步骤 153, 根据所述第一有效摄像范围对所述本端视频图像进行处理, 得 到所述本端视频图像信息在第一有效摄像范围内的第一有效本端视频图像; 利用步骤 140 中得到的第一有效摄像范围对本端视频图像进行处理, 将 ΝχΜ 个摄像单元釆集到的多个摄像单元图像中处于第一有效摄像范围内的图 像合成为第一有效本端视频图像。
或者, 第一有效本端视频图像的获取可以如下述步骤 154-155 所示的方 法来实现。
步骤 154,通过本端全部摄像单元在第一有效摄像范围内的多个摄像单元 釆集本端被摄对象的平行光信号, 以获得第二数量个摄像单元图像; 其中, 所 述第二数量为第一有效摄像范围内的摄像单元的数量;
利用步骤 140中得到的第一有效摄像范围选取 ΝχΜ个摄像单元阵列中的 一部分, 每隔第一时间, 对本端的拍摄对象进行拍摄, 因此得到第一有效摄像 范围内的多个摄像单元拍摄到的第二数量个摄像单元图像。
步骤 155, 由所述第二数量个摄像单元图像合成得到第一有效本端视频图 像。
步骤 160, 所述第一有效本端视频图像发送给所述对端设备。
优选的, 在发送之前对所述第一有效本端视频图像进行压缩;
对端设备对于接收到的压缩后的第一有效本端视频图像进行显示, 对端 的用户通过对端设备观看到的本端视频图像就是在第一有效摄像范围内的图 像, 而不是本端视频图像处理装置釆集的原始图像了。 并且, 当对端用户与对 端设备屏幕之间的距离或者位置发生变化的时候,他所观看到的第一有效本端 视频图像也会随着他的距离或位置移动而发生变化,就好像是与对端设备所显 示的本端拍摄对象面对面一样的效果。
在一个具体的例子中, 本端拍摄对象是一份资料, 通过视频通信分享给 对端用户看,如果对端用户想对资料的内容看得更清楚, 只需要将自己的身体 靠近屏幕, 就能使屏幕上相应的显示出被放大的资料内容的影像, 而无需对拍 摄的资料进行移动。 这样就好像用户直接面对这份资料在查看一样。
本发明实施例一提供的视频图像处理的方法, 通过釆集图像分析并确定 对端用户的可视区域,从而模拟出与可视区域相同的第一摄像范围,将本端釆 集图像在第一摄像范围内的图像显示给对方用户,使对方用户能够产生直接观 看本端被摄物体或直接与本端用户面对面的感觉, 为用户提供了一种真实、便 捷的视频互动环境, 提高用户体验。
图 4 为本发明实施例二提供的视频图像处理的方法流程图。 在本实施例 中, 本端和对端的视频图像处理装置中均应用了本发明的视频图像处理的方 法, 在本实施例中, 本端与对端的被拍摄对象为本端和对端的用户, 即实施例 二的应用场景为视频通话的场景。
如图 4所示, 本实施例视频图像处理的方法包括如下步骤:
步骤 401, 接收对端设备发送的对端视频图像;
步骤 402, 对所述对端视频图像进行处理, 得到对端被摄对象在对端视频 图像中瞳孔区域的大小, 以及所述瞳孔区域在对端视频图像中的第一位置; 步骤 403, 获取本端被摄对象与本端屏幕之间的第一距离;
步骤 404, 根据所述瞳孔区域的大小、 第一位置和第一距离, 以及对端被 摄对象的视角夹角, 得到第一有效摄像范围;
步骤 405, 根据第一有效摄像范围, 得到本端被摄对象的第一有效本端视 频图像;
步骤 406, 将所述第一有效本端视频图像发送给所述对端设备; 上述各步骤与本发明实施例一中的步骤 110至步骤 160完全相同, 此处 不再赘述。
在步骤 402之后, 还包括
步骤 407, 将对端视频图像转化为显示驱动信号;
步骤 410, 根据显示驱动信号进行显示;
具体的, 根据显示驱动信号进行电光转换, 产生相应的光信号对对端视 频图像进行显示。
上述步骤提供的方法, 是将对端视频图像在本端视频图像处理装置上进 行显示的过程。 当对端设备也釆用本发明的视频图像处理的方法时, 本端用户 发生与本端视频图像处理装置之间的距离和位置变化时,相应的也会看到在本 端视频图像处理装置上显示的对端视频图像的大小和位置发生相应的变化。
优选的, 在步骤 405之后还包括:
步骤 408, 将第一有效本端视频图像与对端视频图像进行合成, 得到合成 图像;
步骤 409, 将合成图像转化为显示驱动信号;
再执行步骤 410, 根据显示驱动信号进行显示;
其中显示的对象为合成图像信息。
上述步骤所提供的方法, 可以同时为本端用户显示对方的视频图像和自 己传送给对方的视频图像, 以便于用户随时检查自己的姿态, 位置, 能够更好 的满足用户之间沟通交流的需要。
相应的, 本发明实施例三还提供了一种视频图像处理装置, 如图 5所示, 包括:
接收单元 501, 用于接收对端设备发送的对端视频图像;
图像识别单元 502, 用于对所述对端视频图像信息进行处理, 得到对端被 摄对象在对端视频图像中瞳孔区域的大小,以及所述瞳孔区域在对端视频图像 中的第一位置;
距离获取单元 503, 用于获取本端被摄对象与本端屏幕之间的第一距离; 摄像区域决策单元 504, 用于根据所述瞳孔区域的大小、 第一位置和第一 距离, 以及对端被摄对象的视角夹角, 得到第一有效摄像范围;
有效图像获取单元 505, 根据第一有效摄像范围, 得到本端被摄对象的第 一有效本端视频图像;
发送单元 509, 用于将所述第一有效本端视频图像发送给所述对端设备。 具体的, 接收单元 501 对对端设备发送的对端视频图像信息进行接收, 并传送给图像识别单元 502; 图像识别单元 502, 对接收到的对端视频图像进 行处理,得到对端被摄对象中瞳孔区域的大小, 以及所述瞳孔区域在对端视频 图像中的第一位置, 并发送给摄像区域决策单元 504 ; 距离获取单元 503将获 取到的本端被摄对象与本端屏幕之间的第一距离也发送给摄像区域决策单元 504。
摄像区域决策单元 504 根据接收到的瞳孔区域的大小、 第一位置和第一 距离, 以及对端被摄对象的视角夹角,得到第一有效摄像范围并发送给有效图 像获取单元 505。 有效图像获取单元 505根据第一有效摄像范围, 得到本端被 摄对象的第一有效本端视频图像, 并发送给发送单元 509, 通过发送单元 509 发送给对端设备。
本发明实施例三提供的视频图像处理的装置, 通过釆集图像并根据图像 识别得到对端视频图像中瞳孔区域的大小,以及所述瞳孔区域在对端视频图像 中的第一位置,从而确定对端用户的可视区域,在摄像区域决策单元中模拟出 与对端用户可视区域相同的第一有效摄像范围,从而将本端釆集图像在第一有 效摄像范围内的图像显示给对方用户,使对方用户能够产生直接观看本端被摄 物体或直接与本端用户面对面的感觉, 提高用户体验。
相应的,本发明实施例四还提供了另一种视频图像处理装置,如图 6所示, 包括: 如上述实施例所述的接收单元 601、 图像识别单元 602、 距离获取单元 603、 摄像区域决策单元 604、 有效图像获取单元 605和发送单元 609。
在一个具体的例子中, 有效图像获取单元 605具体包括多个摄像单元 606 (图中仅示出一个)、 合成单元 607和处理单元 608。
每个摄像单元 606用于,釆集所述本端的被摄对象的平行光信号, 以获得 一个摄像单元图像; 其中, 所述一个摄像单元图像为本端被摄对象的一部分影 像;
合成单元 607用于,由全部摄像单元获取的第一数量个摄像单元图像合成 得到本端视频图像; 其中, 所述第一数量为所述全部摄像单元的数量;
处理单元 608用于,根据所述第一有效摄像范围对所述本端视频图像进行 处理, 得到所述本端视频图像在第一有效摄像范围内的第一有效本端视频图 像。
除此之外, 各单元具体如上述实施例所述, 此处不再赘述。
此外,本实施例的视频图像处理装置还包括: 光信号发生器 610光信号发 生器 610发射第一光信号;摄像单元 606接收光信号发生器 610发射的第一光 信号经过本端被摄对象反射后的第二光信号;距离获取单元 603根据光信号发 生器 610传送的第一光信号的发射时间和摄像单元 606传送的第二光信号的接 收时间得到所述各摄像单元图像的深度信息,并根据各摄像单元图像的深度信 息进行加权处理, 得到第一距离。
此夕卜,本实施例的视频图像处理装置还包括:解码单元 61 1、适配单元 612、 显示驱动单元 61 3和显示单元 614 ;
解码单元 611与接收单元 601相连接, 对接收单元 601接收到的对端视 频图像进行解码处理; 适配单元 612与解码单元 611相连接,对解码后的对端 视频图像解码进行适配处理,使对端视频图像转化为适合本端视频图像处理装 置显示的信息;显示驱动单元 61 3将经过适配单元 612适配处理后的对端视频 图像转化为显示驱动信号;显示单元 614根据显示驱动单元 61 3发送的显示驱 动信号对对端视频图像进行显示。
相应的, 本装置还可以包括压缩单元 615, 在将所述第一有效本端视频图 像发送给所述对端设备之前, 对图像进行编码压缩。
本发明实施例四通过釆集图像分析并确定对端用户的可视区域,从而模拟 出与可视区域相同的第一摄像范围,将本端釆集图像在第一摄像范围内的图像 显示给对方用户,使对方用户能够产生直接观看本端被摄物体或直接与本端用 户面对面的感觉, 为用户提供了一种真实、 便捷的视频互动环境, 提高用户体 验。 同时, 当对端设备也釆用本发明的视频图像处理的装置时, 本端用户发生 与本端视频图像处理装置之间的距离和位置变化时,相应的也会看到在本端视 频图像处理装置上显示的对端视频图像的大小和位置发生相应的变化。 此外, 本发明实施例提供的视频图像处理的装置还能为同时本端用户显示对方的视 频图像和自己传送给对方的视频图像, 以便于用户随时检查自己的姿态和位 置, 能够更好的满足用户之间沟通交流的需要。
相应的,本发明实施例五还提供了另一种视频图像处理装置,如图 7所示, 包括: 如上述实施例所述的接收单元 701、 图像识别单元 702、 距离获取单元 703、 摄像区域决策单元 704、 有效图像获取单元 705和发送单元 709。
在一个具体的例子中,有效图像获取单元 705具体包括多个摄像单元 706、 摄像控制单元 716和合成单元 707。
每个摄像单元 706用于,釆集所述本端的被摄对象的平行光信号, 以获得 一个摄像单元图像; 其中, 所述一个摄像单元图像为本端被摄对象的一部分影 像;
所述摄像控制单元 716用于,控制在第一有效摄像范围内的多个摄像单元 对本端被摄对象的平行光信号进行釆集,得到第二数量个摄像单元图像;其中, 所述第二数量为第一有效摄像范围内的摄像单元的数量;
合成单元 707用于,由所述第二数量个摄像单元图像合成得到第一有效本 端视频图像。
除此之外, 各单元具体如上述实施例所述, 此处不再赘述。
本发明实施例五通过釆集图像分析并确定对端用户的可视区域,从而模拟 出与可视区域相同的第一摄像范围,将本端釆集图像在第一摄像范围内的图像 显示给对方用户,使对方用户能够产生直接观看本端被摄物体或直接与本端用 户面对面的感觉, 为用户提供了一种真实、 便捷的视频互动环境, 提高用户体 验。 同时, 当对端设备也釆用本发明的视频图像处理的装置时, 本端用户发生 与本端视频图像处理装置之间的距离和位置变化时,相应的也会看到在本端视 频图像处理装置上显示的对端视频图像的大小和位置发生相应的变化。 此外, 本发明实施例提供的视频图像处理的装置还能为同时本端用户显示对方的视 频图像和自己传送给对方的视频图像, 以便于用户随时检查自己的姿态和位 置, 能够更好的满足用户之间沟通交流的需要。
图 8 为本发明实施例提供的一种视频图像处理的实体装置示意图, 如图 所示, 本实施例包括网络接口 81、 处理器 82、 存储器 83、 显示器 85和图像 釆集器 86。 系统总线 84用于连接网络接口 81、 处理器 82和存储器 83。
网络接口 81用于与物联网终端、 物联网接入网关、 承载网、 物联网服务 网关和应用^ I良务器通信。
存储器 83 可以是永久存储器, 例如硬盘驱动器和闪存,; 设备驱动程序 可以是网络和接口驱动程序。
图像釆集器 86可以是摄像头, 优选为内嵌到显示器 85的感光器件。 存储器 83用于存储应用程序, 所述应用程序包括可用于使处理器 82访 问并执行如下指令:
接收对端设备发送的对端视频图像;
对所述对端视频图像进行处理, 得到对端被摄对象在对端视频图像中瞳 孔区域的大小, 以及所述瞳孔区域在对端视频图像中的第一位置;
获取本端被摄对象与本端屏幕之间的第一距离;
根据所述瞳孔区域的大小、 第一位置和第一距离, 以及对端被摄对象的 视角夹角, 得到第一有效摄像范围;
根据第一有效摄像范围, 得到本端被摄对象的第一有效本端视频图像; 将所述第一有效本端视频图像发送给所述对端设备。
本实施例的视频图像处理的装置, 通过釆集图像分析并确定对端用户的 可视区域, 而模拟出与对端用户可视区域相同的第一有效摄像范围,从而将釆 集到的本端图像在第一有效摄像范围内的图像显示给对方用户,使对方用户能 够产生直接观看本端被摄物体或直接与本端用户面对面的感觉, 提高用户体 验。
进一步的, 所述存储器 83存储的应用程序可用于使所述处理器 82执行 根据所述瞳孔区域的大小、第一位置和第一距离, 以及对端被摄对象的视角夹 角, 得到第一有效摄像范围的过程的指令具体为执行以下过程的指令:
X=2h x tg (a/2) +X0
其中, X为第一有效摄像范围的宽度、 h为第一距离、 a为对端被摄对象 的视角夹角、 X。为瞳孔区域的宽度; 所述瞳孔区域在对端视频图像中的第一位 置满足瞳孔区域边缘至对端屏幕边缘的距离不小于 h X tg (a/2)。
进一步的, 所述存储器 83存储的应用程序可用于使所述处理器 82执行 根据第一有效摄像范围,得到本端被摄对象的第一有效本端视频图像的过程的 指令具体为执行以下过程的指令:
通过全部摄像单元釆集所述本端的被摄对象的平行光信号, 以获得第一 数量个摄像单元图像; 其中,每个所述摄像单元图像为本端被摄对象的一部分 影像; 所述第一数量为所述全部摄像单元的数量;
由所述第一数量个摄像单元图像合成得到本端视频图像;
根据所述第一有效摄像范围对所述本端视频图像进行处理, 得到所述本 端视频图像在第一有效摄像范围内的第一有效本端视频图像。
进一步的, 所述存储器 83存储的应用程序使所述处理器 82执行根据第 一有效摄像范围,得到本端被摄对象的第一有效本端视频图像的过程的指令具 体为:
通过本端全部摄像单元在第一有效摄像范围内的多个摄像单元釆集本端 被摄对象的平行光信号, 以获得第二数量个摄像单元图像; 其中, 所述第二数 量为第一有效摄像范围内的摄像单元的数量;
由所述第二数量个摄像单元图像合成得到第一有效本端视频图像。
进一步的, 所述存储器 83存储的应用程序使所述处理器 82执行第一距 离的获取过程的指令具体为:
发射第一光信号;
通过各所述摄像单元接收所述第一光信号经过所述本端被摄对象反射后 的第二光信号;
根据所述第一光信号的发射时间和所述各摄像单元对第二光信号的接收 时间得到所述各摄像单元图像的深度信息;
对所述各摄像单元图像的深度信息进行加权处理, 得到所述第一距离。 进一步的, 所述存储器 83存储的应用程序可用于使所述处理器 82执行 以下过程的指令:
将对端视频图像转化为显示驱动信号;
根据显示驱动信号对所述对端视频图像进行显示。
进一步的, 所述存储器 83存储的应用程序使所述处理器 82执行对所述 对端视频图像进行处理过程的指令具体为:
每间隔第一时间, 对所述对端视频图像进行处理; 其中所述第一时间为 釆样间隔时间。
专业人员应该还可以进一步意识到, 结合本文中所公开的实施例描述的 各示例的单元及算法步骤, 能够以电子硬件、计算机软件或者二者的结合来实 现, 为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般 性地描述了各示例的组成及步骤。 这些功能究竟以硬件还是软件方式来执行, 取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的 应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明 的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、 处理 器执行的软件模块, 或者二者的结合来实施。 软件模块可以置于随机存储器 ( RAM )、 内存、 只读存储器(ROM )、 电可编程 R0M、 电可擦除可编程 R0M、 寄 存器、 硬盘、 可移动磁盘、 CD-ROM, 或技术领域内所公知的任意其它形式的存 储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了 进一步详细说明, 所应理解的是, 以上所述仅为本发明的具体实施方式而已, 并不用于限定本发明的保护范围, 凡在本发明的精神和原则之内, 所做的任何 修改、 等同替换、 改进等, 均应包含在本发明的保护范围之内。

Claims

权 利 要 求
1、 一种视频图像处理的方法, 其特征在于, 所述方法包括:
接收对端设备发送的对端视频图像;
对所述对端视频图像进行处理,得到对端被摄对象在对端视频图像中瞳孔 区域的大小, 以及所述瞳孔区域在对端视频图像中的第一位置;
获取本端被摄对象与本端屏幕之间的第一距离;
根据所述瞳孔区域的大小、第一位置和第一距离, 以及对端被摄对象的视 角夹角, 得到第一有效摄像范围;
根据第一有效摄像范围, 得到本端被摄对象的第一有效本端视频图像; 将所述第一有效本端视频图像发送给所述对端设备。
2、 根据权利要求 1所述的方法, 其特征在于, 所述根据所述瞳孔区域的 大小、 第一位置和第一距离, 以及对端被摄对象的视角夹角, 得到第一有效摄 像范围具体为:
X=2h x tg (a/2) +X0
其中, X为第一有效摄像范围的宽度、 h为第一距离、 a为对端被摄对象 的视角夹角、 X。为瞳孔区域的宽度; 所述瞳孔区域在对端视频图像中的第一位 置满足瞳孔区域边缘至对端屏幕边缘的距离不小于 h X tg (a/ 2)。
3、 根据权利要求 1所述的方法, 其特征在于, 所述根据第一有效摄像范 围, 得到本端被摄对象的第一有效本端视频图像具体为:
通过全部摄像单元釆集所述本端的被摄对象的平行光信号,以获得第一数 量个摄像单元图像; 其中,每个所述摄像单元图像为本端被摄对象的一部分影 像; 所述第一数量为所述全部摄像单元的数量;
由所述第一数量个摄像单元图像合成得到本端视频图像;
根据所述第一有效摄像范围对所述本端视频图像进行处理,得到所述本端 视频图像在第一有效摄像范围内的第一有效本端视频图像。
4、 根据权利要求 1所述的方法, 其特征在于, 所述根据第一有效摄像范 围, 得到本端被摄对象的第一有效本端视频图像具体为:
通过本端全部摄像单元在第一有效摄像范围内的多个摄像单元釆集本端 被摄对象的平行光信号, 以获得第二数量个摄像单元图像; 其中, 所述第二数 量为第一有效摄像范围内的摄像单元的数量;
由所述第二数量个摄像单元图像合成得到第一有效本端视频图像。
5、 根据权利要求 3或 4所述的方法, 其特征在于, 所述第一距离的获取 方法具体为:
发射第一光信号;
通过各所述摄像单元接收所述第一光信号经过所述本端被摄对象反射后 的第二光信号;
根据所述第一光信号的发射时间和所述各摄像单元对第二光信号的接收 时间得到所述各摄像单元图像的深度信息;
对所述各摄像单元图像的深度信息进行加权处理, 得到所述第一距离。
6、 根据权利要求 1所述的方法, 其特征在于, 在接收对端设备发送的对 端视频图像之后, 所述方法还包括:
将对端视频图像转化为显示驱动信号;
根据显示驱动信号对所述对端视频图像进行显示。
7、 根据权利要求 1所述的方法, 其特征在于, 对所述对端视频图像进行 处理具体为:
每间隔第一时间,对所述对端视频图像进行处理; 其中所述第一时间为釆 样间隔时间。
8、 一种视频图像处理的装置, 其特征在于, 所述装置包括: 接收单元, 用于接收对端设备发送的对端视频图像;
图像识别单元, 用于对所述对端视频图像进行处理,得到对端被摄对象在 对端视频图像中瞳孔区域的大小,以及所述瞳孔区域在对端视频图像中的第一 位置;
距离获取单元, 用于获取本端被摄对象与本端屏幕之间的第一距离; 摄像区域决策单元,用于根据所述瞳孔区域的大小、第一位置和第一距离, 以及对端被摄对象的视角夹角, 得到第一有效摄像范围;
有效图像获取单元,根据第一有效摄像范围,得到本端被摄对象的第一有 效本端视频图像;
发送单元, 用于将所述第一有效本端视频图像发送给所述对端设备。
9、 根据权利要求 8所述的装置, 其特征在于, 所述有效图像获取单元具 体包括多个摄像单元、 合成单元和处理单元;
每个所述摄像单元用于,釆集所述本端的被摄对象的平行光信号, 以获得 一个摄像单元图像; 其中, 所述一个摄像单元图像为本端被摄对象的一部分影 像;
所述合成单元用于,由全部摄像单元获取的第一数量个摄像单元图像合成 得到本端视频图像; 其中, 所述第一数量为所述全部摄像单元的数量;
所述处理单元用于,根据所述第一有效摄像范围对所述本端视频图像进行 处理, 得到所述本端视频图像在第一有效摄像范围内的第一有效本端视频图 像。
10、根据权利要求 8所述的装置, 其特征在于, 所述有效图像获取单元具 体包括多个摄像单元、 摄像控制单元和合成单元:
每个所述摄像单元用于,釆集所述本端的被摄对象的平行光信号, 以获得 一个摄像单元图像; 其中, 所述一个摄像单元图像为本端被摄对象的一部分影 像;
所述摄像控制单元用于,控制在第一有效摄像范围内的多个摄像单元对本 端被摄对象的平行光信号进行釆集, 得到第二数量个摄像单元图像; 其中, 所 述第二数量为第一有效摄像范围内的摄像单元的数量;
所述合成单元用于,由所述第二数量个摄像单元图像合成得到第一有效本 端视频图像。
11、 根据权利要求 9或 10所述的装置, 其特征在于, 所述装置还包括: 光信号发生器;
所述光信号发生器用于发射第一光信号;
所述摄像单元接收所述第一光信号经过所述本端被摄对象反射后的第二 光信号;
所述距离获取单元具体用于,根据所述第一光信号的发射时间和第二光信 号的接收时间得到所述各摄像单元图像的深度信息,并对所述各摄像单元图像 的深度信息进行加权处理, 得到所述第一距离。
12、 根据权利要求 8所述的方法, 其特征在于, 所述装置还包括: 显示驱动单元, 用于将对端视频图像解码信息转化为显示驱动信号; 显示单元, 用于根据显示驱动信号对所述对端视频图像信息进行显示。
1 3、根据权利要求 8所述的装置, 其特征在于, 所述图像识别单元具体包 括处理周期设定单元,用于将对所述对端视频图像信息进行处理的时间间隔设 定为第一时间, 所述第一时间为釆样间隔时间。
PCT/CN2014/077345 2013-10-31 2014-05-13 视频图像处理的方法和装置 WO2015062238A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310530762.8A CN104601875A (zh) 2013-10-31 2013-10-31 视频图像处理的方法和装置
CN201310530762.8 2013-10-31

Publications (1)

Publication Number Publication Date
WO2015062238A1 true WO2015062238A1 (zh) 2015-05-07

Family

ID=53003244

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/077345 WO2015062238A1 (zh) 2013-10-31 2014-05-13 视频图像处理的方法和装置

Country Status (2)

Country Link
CN (1) CN104601875A (zh)
WO (1) WO2015062238A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108259807A (zh) * 2018-01-30 2018-07-06 维沃移动通信有限公司 一种通讯方法、移动终端及计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112399124A (zh) * 2019-08-14 2021-02-23 大唐移动通信设备有限公司 视频通讯方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006093864A (ja) * 2004-09-21 2006-04-06 Sumitomo Electric Ind Ltd 画像表示方法、端末装置、及び双方向対話型システム
CN101124820A (zh) * 2004-06-30 2008-02-13 索尼爱立信移动通讯股份有限公司 面部图像校正
US20080278516A1 (en) * 2007-05-11 2008-11-13 Santon John C System and method for adjusting perceived eye rotation in image of face

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124820A (zh) * 2004-06-30 2008-02-13 索尼爱立信移动通讯股份有限公司 面部图像校正
JP2006093864A (ja) * 2004-09-21 2006-04-06 Sumitomo Electric Ind Ltd 画像表示方法、端末装置、及び双方向対話型システム
US20080278516A1 (en) * 2007-05-11 2008-11-13 Santon John C System and method for adjusting perceived eye rotation in image of face

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108259807A (zh) * 2018-01-30 2018-07-06 维沃移动通信有限公司 一种通讯方法、移动终端及计算机可读存储介质

Also Published As

Publication number Publication date
CN104601875A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
US20080235724A1 (en) Face Annotation In Streaming Video
US20120092475A1 (en) Method, Apparatus And System For Implementing Interaction Between A Video And A Virtual Network Scene
JP2016537922A (ja) 擬似ビデオ通話方法及び端末
US20080059578A1 (en) Informing a user of gestures made by others out of the user's line of sight
JP2003506927A (ja) ビデオ会議の参加者がカメラに焦点を合わせた状態で相手方ユーザの前に出現できるようにする方法と装置
JP2010206307A (ja) 情報処理装置、情報処理方法、情報処理プログラム、およびネットワーク会議システム
KR20190031504A (ko) 파노라마 비디오의 상호작용적 전송을 위한 방법 및 시스템
US8902280B2 (en) Communicating visual representations in virtual collaboration systems
CN110401810B (zh) 虚拟画面的处理方法、装置、系统、电子设备及存储介质
JP2012054897A (ja) 会議システム、情報処理装置、及び情報処理方法
JP2014233035A (ja) 情報処理装置、表示制御方法及びプログラム
WO2017049843A1 (zh) 可穿戴设备及其信息处理方法、信息处理装置
CN105763829A (zh) 一种图像处理方法及电子设备
KR20130045553A (ko) 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법
US20150244984A1 (en) Information processing method and device
CN109274921A (zh) 视频会议系统
JP3464754B2 (ja) ヘッドマウントディスプレイを装着した人物の顔画像合成方法およびその装置
US20130308829A1 (en) Still image extraction apparatus
WO2015062238A1 (zh) 视频图像处理的方法和装置
CN112887654B (zh) 一种会议设备、会议系统及数据处理方法
JP2000090288A (ja) 3次元共有仮想空間通信サービスにおける顔画像制御方法,3次元共有仮想空間通信用装置およびそのプログラム記録媒体
JP6807744B2 (ja) 画像表示方法及び装置
JP2016192687A (ja) 映像表示システム及び映像表示方法
JP2006054830A (ja) 画像圧縮通信方法及び装置
JP2009100193A (ja) 選択支援装置および選択支援システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14858398

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2014858398

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE