WO2012091526A2 - 카메라를 구비한 휴대용 영상 통화 장치 및 그 방법 - Google Patents

카메라를 구비한 휴대용 영상 통화 장치 및 그 방법 Download PDF

Info

Publication number
WO2012091526A2
WO2012091526A2 PCT/KR2011/010401 KR2011010401W WO2012091526A2 WO 2012091526 A2 WO2012091526 A2 WO 2012091526A2 KR 2011010401 W KR2011010401 W KR 2011010401W WO 2012091526 A2 WO2012091526 A2 WO 2012091526A2
Authority
WO
WIPO (PCT)
Prior art keywords
call
call mode
image
video
mode
Prior art date
Application number
PCT/KR2011/010401
Other languages
English (en)
French (fr)
Other versions
WO2012091526A3 (ko
Inventor
최민서
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US13/977,358 priority Critical patent/US20130278729A1/en
Priority to EP11854137.4A priority patent/EP2661076A2/en
Publication of WO2012091526A2 publication Critical patent/WO2012091526A2/ko
Publication of WO2012091526A3 publication Critical patent/WO2012091526A3/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/286Image signal generators having separate monoscopic and stereoscopic modes
    • H04N13/289Switching between monoscopic and stereoscopic modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals

Definitions

  • the present invention relates to a video call device, and more particularly, to a portable video call device having a camera and a method thereof.
  • the gaze mismatch problem means that a gaze of a user looking at a video call terminal does not coincide with a gaze of a user displayed on a screen of the video call terminal. This occurs because the camera of the video call terminal photographing the user is located at the edge of the video call terminal, whereas the user's line of sight is directed toward the center of the screen of the video call terminal, so the user's line of sight and the center axis of the camera lens do not coincide with each other. It is a problem. This inevitably acts as a detrimental factor for users who are trying to make video calls.
  • FIG. 1 is a diagram illustrating an example of a gaze mismatch problem in a conventional video call apparatus.
  • the eyes of a user making a call are directed to the left in an image displayed on a screen of a video call apparatus.
  • the user is looking at the center of the screen of the video call device. That is, the other party is displayed on the screen.
  • the camera located at the edge of the screen is photographing the user from the right side (that is, in a direction that is out of line of sight)
  • the user looks as if the user is looking to the left. Therefore, although both parties in the video call are staring at the center of the screen, no one can see the other party.
  • the conventional video call apparatus has a disadvantage in that the mode cannot be changed between the video call and the voice call before the incoming call or during the call. Therefore, even if poor communication environment and insufficient system resources are a problem, it is insufficient to cope with the problem of deteriorating overall call quality by maintaining the currently set call mode.
  • the problem to be solved by the present invention is to provide a video call device and a method for providing a more realistic video call service by solving the problem of gaze mismatch during video calls.
  • Another object of the present invention is to provide a multifunctional portable video call device and a control method thereof capable of displaying any one of a viewpoint synthesized video and a stereoscopic video during a video call.
  • an object of the present invention is to provide a video call apparatus and a control method thereof capable of freely performing a mode change between a video call and a voice call or a change between various voice call modes.
  • a video call apparatus comprising: a call processor configured to perform communication through a network; An image display unit; And a first camera and a second camera which are positioned around the image display unit and are positioned at different positions that form symmetrical relations with respect to a reference point.
  • the reference point may be located at the center of the screen of the image display unit.
  • first camera and the second camera may be formed at each position to form a vertical symmetry relationship based on the reference point.
  • the first camera and the second camera may be formed at a position forming a symmetrical relationship based on the reference point.
  • the video call apparatus may further include an image processor which processes an image photographed by the first camera and the second camera and outputs the image to the image display unit or outputs the image to the call processor.
  • it may further include a call mode changer for changing the call mode from the current call mode to the target call mode according to the change request.
  • the image processor may include: a first viewpoint image acquisition unit configured to receive and process an image captured by the first camera to generate a first viewpoint image; A second viewpoint image acquisition unit configured to receive and process an image captured by the second camera to generate a second viewpoint image; A stereo matching unit configured to output disparity values based on the first view image and the second view image; And generate the view synthesis image by synthesizing the first view image and the second view image based on the variation values, or generate the stereoscopic image by processing the first view image and the second view image, or the first view image. And an image synthesizer configured to select and process one of the image and the second view image.
  • the call mode changer may change the call mode at the time of starting a call or while performing a call.
  • a call method comprising: checking whether a call mode change request has occurred in a call method of a video call device performing a call with a counterpart call device through a network; And changing a call mode from a current call mode to a target call mode according to the change request when the call mode change request occurs.
  • the changing may further include notifying the counterpart call device of the changed call mode after changing the call mode.
  • the changing may include comparing the level of the current call mode with the level of the target call mode; And changing the call mode when the level of the target call mode is lower than the level of the current call mode.
  • the changing may further include informing the counterpart call device that the call mode is to be changed when the level of the target call mode is lower than the level of the current call mode, and after the notification, the call The mode change is made.
  • the changing may include: performing media negotiation with the counterpart calling device when the level of the target call mode is higher than the level of the current call mode; And when the media negotiation is successful, changing the current call mode to the target call mode.
  • the call mode change request may be generated when a call mode change is requested in consideration of at least one of a state of a communication channel and an available state of a current system resource.
  • the call mode may include a first video call mode in which a call is made based on a synthesized view video, a second video call mode in which a call is made based on a stereoscopic video, a third video call mode in which a call is made based on a single video, and a voice call mode. It may include at least two. The first level is assigned to the voice call mode, the second level is assigned to the third video call mode, the third level is assigned to the first video call mode, and the fourth level is assigned to the second video call mode, respectively. The condition of ⁇ second level ⁇ third level ⁇ fourth level may be satisfied.
  • the method may further include receiving permission from the counterpart call device to change the call mode before performing the change to the target call mode, in which case the change to the target call mode is performed from the counterpart call device. It can only be implemented with permission.
  • the method according to another aspect of the present invention is a call method of a video call device that performs a call with a counterpart call device through a network, and is located in the periphery of a screen where an image is displayed and forms a symmetrical relationship with respect to a reference point.
  • And performing a video call based on the view synthesis video is a call method of a video call device that performs a call with a counterpart call device through a network, and is located in the periphery of a screen where an image is displayed and forms a symmetrical relationship with respect to a reference point.
  • a gaze mismatch problem of a user who makes a call may be solved by providing a view composite image during a video call. Therefore, the other party making a video call can make a call while meeting each other's eyes, thereby providing a more realistic video call service. This effect may be more prominent as the video call screen is larger and the distance from the center of the screen to the camera (eg, tablet PC) is greater.
  • the video call apparatus can provide a stereoscopic image to solve the problem of gaze mismatch generated during the video call.
  • FIG. 1 is a diagram illustrating a gaze mismatch problem in a conventional video call device.
  • FIG. 2 is a structural diagram of a video call device according to an embodiment of the present invention.
  • 3 to 5 are diagrams illustrating examples of installation of a camera in a video call apparatus according to an exemplary embodiment of the present invention.
  • FIG. 6 is an exemplary view showing a video call device implemented in a tablet PC according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating a structure of an image processor of a video call apparatus according to an exemplary embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a structure when an image processor generates a stereoscopic image according to an exemplary embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating a video call method according to a first embodiment of the present invention.
  • FIG. 10 is a flowchart of a video call method according to a second embodiment of the present invention.
  • FIG. 11 is a flowchart illustrating a process of changing a call mode in a video call method according to an embodiment of the present invention.
  • FIG. 12 is an exemplary view showing levels for each call mode according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a structure of a video call apparatus according to an exemplary embodiment of the present invention.
  • the video call device 1 includes a plurality of cameras 11 and 12 and an image processor 13 for processing images acquired from the plurality of cameras.
  • an image display unit 14 for displaying an image
  • the call mode changing unit 15 and the call processing unit 16 for performing a call according to the changed call mode may be further included.
  • the plurality of cameras 11 respectively photograph to acquire an image.
  • the cameras 11 and 12 according to the embodiment of the present invention are formed at different positions to photograph each, and form a symmetric relationship with each other based on a reference point.
  • the reference point is positioned on the screen on which the image is displayed on the image display unit 14.
  • 3 to 5 are diagrams illustrating examples of installation of a camera in a video call apparatus according to an exemplary embodiment of the present invention.
  • the plurality of cameras 11 and 12 are positioned around the screen on which the image is displayed by the image display unit 14. Specifically, the cameras 11 and 12 are located in the circumferential region of the screen and have a symmetric relationship based on a reference point. Are formed in different positions to form. For example, as illustrated in (a) of FIG. 3, the cameras 11 and 12 may be positioned to be symmetrical with each other in the peripheral area of the screen.
  • the camera 11 is located in the center of a 3rd surface, and another camera 12 is made Located at the center of the fourth surface facing the third surface, the cameras 11 and 12 can form a symmetrical relationship with each other.
  • the cameras 11 and 12 may be positioned to be symmetrical with each other in the peripheral area of the screen. That is, one camera 11 is positioned at the center of the first surface of the screen, and the other camera 12 is positioned at the center of the second surface facing the first surface. ) May form a vertically symmetric relationship with each other.
  • the two cameras are symmetrical or vertically symmetrical, but not necessarily limited to vertically or horizontally symmetrical depending on the embodiment.
  • the reference point forming the symmetric relationship is not limited to being located at the center of the screen.
  • two cameras 11 and 12 may be arranged to have a line symmetry with respect to a vertical axis dividing the screen.
  • one camera 11 is positioned at the upper left or right corner of the screen, as in the existing single camera-based video call terminal using only one camera.
  • the other camera 12 may be positioned to be point symmetrical with respect to the camera 11 and an arbitrary point of the screen center area.
  • one camera 11 when one camera 11 is formed at a position similar to the existing single camera-based video call terminal and another camera 12 is formed to form a symmetrical relationship with the camera 11 based on an arbitrary reference point, Alternatively, depending on the system situation, one camera (eg, 12) may be stopped and a video call may be made using only a single camera (eg, 11). In this case, when the transmitting video call device transmits the captured image only through one camera, the receiving video call device receives and displays only the image corresponding to one camera.
  • operating only one of the two cameras is not applied only to the video call device implemented in the form of placing the camera in the upper left or right corner of the screen, as in the existing video call terminal, according to an embodiment of the present invention. Thus, it can be applied in all cases where a plurality of cameras are positioned to form a symmetric relationship with each other based on a reference point (or reference line).
  • the epipolar lines of the two cameras are parallel with the horizontal scan line or the vertical scan line of the image display unit 14, rather than performing additional operations considering the situation as described above in the image processing.
  • stereoscopic video considers only the left and right images, it is correct to express that the epipolar line is always parallel to the horizontal line, but here the horizontal and vertical lines are due to the gyroscope function embedded in the smartphone or tablet PC. This takes into account that it can be shifted at any time.
  • a total of three cameras 111 are formed independently for a single video-based call.
  • a configuration for arranging cameras can also be considered.
  • the video call device may be applied to various devices having a call function.
  • FIG. 6 is an exemplary view showing a video call device implemented in a tablet PC according to an embodiment of the present invention.
  • the aforementioned contents may be similarly applied to the smart phone, and a person skilled in the art may implement the above embodiments, and thus detailed description thereof will be omitted.
  • two cameras 11 and 12 are formed in a circumferential region of the image display screen of the tablet PC so as to form a symmetrical relationship based on a reference point, thereby obtaining images having different viewpoints.
  • the video call is made based on the synthesized video.
  • the distance from the center of the screen displayed to the user for video communication to the position of the camera is much longer than that of the smartphone, and the size of the screen may be relatively large. The advantages of the composite view can be more prominent.
  • the cameras 11, 12, and 111 may be various types of cameras, such as an external camera or a removable camera, in addition to the built-in fixed camera.
  • the camera may be a built-in camera formed to be able to rotate around the cylindrical axis. In this case, the camera may be rotated during the video call to provide a viewpoint for not only the caller's face but also the surrounding landscape. The rotation of the built-in camera can be performed here manually and / or electrically.
  • the cameras when using a camera that is formed in various shapes, that is, an external type, a built-in type, or a rotary type, the cameras may be formed so that the fixed position and the relative angle of the cameras remain constant while performing an image acquisition operation despite external interference. Can be.
  • an image photographed by the plurality of cameras 11 and 12 positioned to form a symmetrical relationship based on various reference points is input to the image processing unit 13 and processed as shown in FIG. 2.
  • the image processor 13 may process each image photographed by the plurality of cameras 11 and 12 and output the image to the image display unit 14 or transmit the image through the call processor 16.
  • the image processor 13 synthesizes images captured by the plurality of cameras 11 and 12 to generate a view synthesized image, generates a stereoscopic image format from each image, or selects only one image. Processing is performed and output to the video display unit 14.
  • the image generated by processing may be provided to the call processor 16 to be transmitted to a counterpart call device (not shown) that makes a call.
  • FIG. 7 is a diagram illustrating a structure of an image processor according to an exemplary embodiment of the present invention.
  • the image processor 13 may include a first viewpoint image acquirer 131, a second viewpoint image acquirer 132, a stereo matcher 133, and image synthesis. A portion 134 is included.
  • the first viewpoint image acquisition unit 131 receives an image captured by the camera 11 and processes the image to generate a first viewpoint image
  • the second viewpoint image acquisition unit 132 receives the image captured by the camera 12. The received view is processed to generate a second view image.
  • the stereo matching unit 133 compares the first viewpoint image and the second viewpoint image provided from the first viewpoint image acquisition unit 131 and the second viewpoint image acquisition unit 132, and compares the result with the image synthesis unit 134. To provide. For example, the stereo matching unit 133 calculates a disparity between the first viewpoint image and the second viewpoint image and provides the value to the image synthesis unit 134.
  • the image synthesizer 134 receives the first view image and the second view image from the first view image acquirer 131 and the second view image acquirer 132, and the first view image from the stereo matcher 133.
  • the view synthesis image is generated by synthesizing the first view image and the second view image by receiving a shift value between the image and the second view image.
  • the image synthesizing unit 134 checks the difference between viewpoints according to the shift value between the first viewpoint image and the second viewpoint image, and synthesizes the first viewpoint image and the second viewpoint image by applying the identified viewpoint difference. To generate a composite image of the new view (ie, the front view).
  • the synthesized front view image solves the gaze mismatch problem.
  • the embodiment of the present invention does not deal in detail with regard to the new view synthesis itself. Many studies have been conducted in this regard, and many studies have been made to improve the performance. As a simple example, see Antonio Criminisi et al., "Efficient Dense Stereo with Occlusion for New View-Synthesis by Four-State Dynamic Programming" (International Journal on Computer Vision, 2007). Although any kind of viewpoint image synthesis technique may be applied to the present invention, a method capable of real-time processing and minimizing calculation amount will be more useful.
  • the image synthesizing unit 134 generates a predetermined stereoscopic video format by processing the first view image and the second view image as a left image and a right image for the stereoscopic image, which are transmitted to the call processor 16 again. Is transmitted to the other terminal.
  • the operation of the stereo matching unit 133 is not necessary, and the image synthesizing unit 134 includes a configuration of a conventional stereoscopic encoder.
  • the image synthesizer 134 includes a stereoscopic encoder 1341, and the stereoscopic encoder 1341 outputs an image and a second viewpoint image output from the first viewpoint image acquisition unit 131.
  • the image output from the acquirer 132 may be encoded in a stereoscopic image format and output. Since a process of generating a stereoscopic video format based on two images photographed at different positions is known in the art, a detailed description thereof will be omitted. For example, MPEG-4 MVC standard technology can be used.
  • the stereoscopic video stream sent from the other party is input to the video processor 13 through the call processor 16, which is decoded by the video processor 13 through the normal stereoscopic video stream.
  • the image processing unit 13 for performing such decoding is not shown, a configuration of a conventional stereoscopic video decoder (eg, MPEG-4 MVC) may be used as it is.
  • the stereoscopic image represented by the image display unit 14 may be spectacles or autostereoscopic stereoscopic images, and in the case of spectacles, the stereoscopic image may be a polarization type or a shutter glass type.
  • the video call device 1 according to an embodiment of the present invention is applied to a smart phone or a tablet PC, it may be more convenient to generate an autostereoscopic stereoscopic image, but is not necessarily limited thereto.
  • the image synthesizer 16 may include, for example, an MPEG-4 AVC (MVC) codec for stereoscopic video encoding.
  • MVC MPEG-4 AVC
  • encoding is performed at an intermediate point of the transit network, or the load handled by the video call device 1 is reduced by using a distributed video coding technique. You can also
  • the image synthesizing unit 134 may select and output one of the first viewpoint image and the second viewpoint image. In this case, the stereo matching unit 133 does not perform a special operation.
  • the image synthesizing unit 134 synthesizes a first view image and a second view image synthesized according to a call mode according to an embodiment of the present invention described later or stereoscopic image Alternatively, one of the first view image and the second view image may be output.
  • the process of generating the stereoscopic image may be performed directly at the terminal that acquires the two view images, or may be performed at the intermediate point of the communicating network or at the opposite terminal having more computational resources.
  • the image processor 14 according to an exemplary embodiment of the present invention may be implemented in a form of generating a view synthesized image or generating a stereoscopic image.
  • the image processor 14 and the first view image acquirer 131 may be implemented.
  • the mobile terminal may be implemented in a form that performs only a function of processing and delivering each image provided from the two-view image acquisition unit 132.
  • the mobile terminal since a smartphone generally used uses a separate graphics processor in addition to the CPU, in some cases, as shown in FIG. 7, the mobile terminal generates a view synthesized image or generates a stereoscopic image format.
  • the engine that is, the image processing unit.
  • the image synthesis engine may be implemented at any one of a transmitting terminal, a receiving terminal, or any node on the transit network according to a designer's intention.
  • the call mode changing unit 15 selects one of the plurality of call modes.
  • the call processor 16 performs a call according to the call mode selected by the call mode changer 15. This call mode will be described in more detail below.
  • the call processor 16 performs a voice call or a video call by communicating with a counterpart call device (not shown), and transmits an image output from the video processor 13 to the counterpart call device to make a video call.
  • the image received from the call partner is provided to the image processor 13 to be processed.
  • the image processor 13 processes the received image and displays the image on the image display unit 14.
  • the received image may be a view synthesis image, or may be a stereoscopic image (ie, an encoded stereoscopic image data stream), or a plurality of images (ie, a plurality of images for a view synthesis image or a stereoscopic image). Independent image data streams for each of the viewpoints), or may be a single image.
  • a voice call can be performed.
  • the video call apparatus operates in one call mode among a plurality of call modes.
  • the plurality of call modes include a first video call mode based on a view synthesized video obtained by synthesizing images of different views, and a second video call mode in which a stereoscopic video is generated by processing images of different views and making a call based on the same. , A third video call mode based on the video of one view, and a voice call mode.
  • the call mode When making a video call through a video call device having two cameras, the call mode may be adaptively changed according to a communication environment or a system environment by introducing a graceful degradation or a phased degradation method.
  • the call mode can be changed adaptively according to the user's selection.
  • a good communication channel or sufficient system resources when available, it operates in a first video call mode based on an image synthesized into a new viewpoint based on two viewpoint images. If the communication channel is not good or the sufficient use of system resources is not possible, it operates in the second video call mode based only on the image of one viewpoint obtained by one camera. In addition, it operates in a voice call mode in a communication environment where it is difficult to provide a single image. Dynamic change of the call mode can implement an error resistant cyclic deterioration system.
  • the adaptive change of the call mode may be performed according to the self-determining operation of the video call device, or may be performed by receiving an input regarding the mode change from the user.
  • the video call device transmits a signal indicating that the call mode has been changed to the other call device, so that both devices on the call are connected. Allows you to adaptively change the call mode.
  • This call mode change may be made not only during the call but also at the time of initiating a call from the counterpart call device. For example, when the counterpart device attempts to make a call in the video call mode, the receiver may start the call in the voice call mode according to a self-determination operation or a user's arbitrary selection, even though a call in the video call mode is received.
  • the video call apparatus may determine the call mode change based on, for example, the state of the communication channel, the amount of available resources, or the user preference.
  • the call mode change may include at least two of a first video call mode based on a view composite video, a second video call mode based on stereoscopic video, a third video call mode based on video acquired by a single camera, and a voice call mode. It can be configured to be performed between two modes belonging to any combination including dogs. For example, a change may be made between the two modes, such as a change from the first video call mode to the third video call mode or a change from the first video call mode to the voice call mode.
  • FIG. 9 is a flowchart illustrating a video call method according to a first embodiment of the present invention.
  • a process of changing a call mode before a call is initiated for an incoming call In the first embodiment of the present invention, a process of changing a call mode before a call is initiated for an incoming call.
  • the video call device 1 checks the mode of the incoming call (S110).
  • the video call device 1 checks whether there is a call mode change request (S120). There may be a call mode change request according to a user's selection, or a call mode change may be requested by an operation of determining whether the call mode change unit 15 of the video call device 1 changes the call mode.
  • the video call device 1 performs a call mode change (S130). That is, a change from the mode of the incoming call to the call mode according to the change request is performed. For example, when the incoming call mode is the first video call mode, but the call mode according to the generated change request is the voice call mode, a change from the first video call mode to the voice call mode is performed.
  • the video call device 1 starts a call with a counterpart call device according to the changed call mode (S140).
  • step S120 when there is no separate call mode change request, the video call device 1 starts a call according to the call mode of the incoming call. For example, when the incoming call mode is the first video call mode, the call is initiated according to the first video call mode.
  • FIG. 10 is a flowchart of a video call method according to a second embodiment of the present invention.
  • a second embodiment of the present invention shows a process of changing a call mode during a call.
  • the video call device 1 continues the call according to the changed call mode.
  • FIG. 11 is a flowchart illustrating a process of changing a call mode in a video call method according to an embodiment of the present invention.
  • the video call device 1 when the procedure for changing the call mode is started (S300), the video call device 1 first shows that the call mode to be changed is the level of the current call mode. It is determined whether the level is higher (S310).
  • the call mode to be changed is called "target call mode" for convenience of description.
  • the plurality of call modes may have different levels.
  • FIG. 12 is an exemplary view showing levels for each call mode according to an embodiment of the present invention.
  • the level is given according to the bandwidth and system resources required for each call mode, and as shown in FIG. 12, the level according to the embodiment of the present invention includes a first level, a second level, and a third level. , The fourth level. Like the first level ⁇ second level ⁇ third level ⁇ fourth level, the larger the level, the greater the bandwidth and system resources required for the call.
  • the meaning of large or small system resources required here can be understood in the following context. That is, since the first level only needs to process a voice call, the most required calculation amount among the four levels is small. If you go to the second level to process not only the audio but also the image, the amount of calculation increases by that amount. In addition, this requires that at least one camera has to be provided.
  • the amount of computation required becomes larger, and at least two cameras are required to acquire two viewpoint images in the first place.
  • the calculation amount itself may be smaller than the third level, but the terminal for displaying the stereoscopic image should have a special configuration for this, so the requirement of system resources is higher.
  • the expression system resources would be sufficient to mean the amount of computation and physical specifications required to provide that level of service.
  • the third level requires a smaller system resource than the fourth level, but this is when the amount of calculation required for the view composite image is overwhelmingly large (when an algorithm of such a characteristic is applied). If so, the order of the third level and the fourth level may be changed. In short, what type of service is viewed at a higher level is not determined by any absolute criteria.
  • a third level of the first video call mode based on the view composite video, a fourth level of the second video call mode based on the stereoscopic video, and a third video call mode based on the single video are added.
  • the first level is given to two levels, the voice call mode.
  • the bandwidth occupied by the communication channel may be similar to that of the third video call mode in which the call is made based on the image acquired by the single camera and the second video call mode in which the call is made based on the synthesized video from different viewpoints.
  • the amount of system resources that is, the amount of computational resources of the system
  • the video call apparatus needs to perform a process of synthesizing two images having different viewpoints.
  • the present invention is not limited to this, and various modifications are possible.
  • the first level may be further subdivided. If there is a voice call using only a narrowband codec and a voice call using a wideband codec, a higher level may be given to a voice call using a wideband codec. .
  • step S310 when the target call mode to be changed is higher than the level of the current call mode, the video call device 1 performs media negotiation with the counterpart call device (S320). Due to the nature of the device performing the call, a lower level call (eg, a third video call) may be possible, but a higher level call (eg, a second video call) may not be possible. Therefore, if the user wants to change to the target change mode, which is higher than the current call mode, it is negotiated whether the change to the target change mode of the higher level is possible through media negotiation with the counterpart talker. If the media negotiation is successful, the video call device 1 changes the current call mode to the target call mode (S330, S340). Here, the media negotiation step may further include receiving explicit permission for changing the call mode for the user of the counterpart terminal.
  • a lower level call eg, a third video call
  • a higher level call eg, a second video call
  • the video call device 1 does not perform the call mode change (S350). In this case, when the call mode change is started according to a user's request, the video call device 1 notifies the user that the call mode change has failed through the video display unit 17 or fails to change the call mode through a separate notification means. Notify the user.
  • step S310 when the target call mode is lower than the current call mode, the video call device 1 notifies the counterpart call device that the call mode is to be changed to the target change mode (S360). The current call mode is changed to the target change mode (S340).
  • the call mode change procedure as described above is capable of various modifications.
  • the step S310 of comparing the level of the target change mode with the current call mode may not be performed. That is, regardless of the level of the target change mode, media negotiation with the counterpart call device may be performed according to the generated call mode change request, and the call mode may be performed according to the result.
  • the media negotiation step S320 may not be performed. If both devices, that is, the video call device 1 and the counterpart call device, already have information about a call mode that can be changed from each other using information that can be obtained in advance, the media negotiation step is used to enter the target change mode. This is because there is no need to negotiate in advance whether the change is possible. Therefore, in the same context as above, when the target change mode is lower than the current call mode, explicit media negotiation may be omitted. In some cases, the media negotiation step may be replaced by receiving explicit permission for changing the call mode for the user of the counterpart terminal.
  • Methods according to an embodiment of the present invention can be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Telephone Function (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

영상 통화 장치는 영상이 표시되는 화면의 주변에 기준점을 중심으로 서로 대칭 관계를 형성하는 서로 다른 위치에 각각 위치되어 있는 제1 카메라와 제2 카메라를 포함한다. 영상 통화 장치는 제1 카메라와 제2 카메라로부터 각각 획득되는 영상들을 토대로 영상 통화를 수행하며, 또한 통화 모드 변경 요구에 따라 통화 모드 변경을 수행한다.

Description

카메라를 구비한 휴대용 영상 통화 장치 및 그 방법
본 발명은 영상 통화 장치에 관한 것으로, 특히 카메라를 구비한 휴대용 영상 통화 장치 및 그 방법에 관한 것이다.
이동 통신 서비스의 가용 대역폭 확대와 Wi-Fi의 보급 확대에 따라, 개인용 휴대 장치에서 영상 통화를 제공하기 위한 서비스들이 점차 증가하고 있다. 그러나 3G (3generation) 망을 이용하는 영상 통화 서비스는 낮은 화질로 인해 사용자 만족도가 높지 않고, Wi-Fi망을 이용하는 경우에는 화질 열화를 어느 정도 해소하였으나 사용자가 겪는 시선 불일치 문제가 여전히 발생한다.
시선 불일치 문제란 사용자가 영상 통화 단말을 바라보는 시선과 영상 통화 단말의 화면상에 표시되는 사용자의 시선이 서로 일치하지 않는 것을 말한다. 이것은 사용자를 촬영하는 영상 통화 단말의 카메라가 영상 통화 단말의 가장 자리에 위치하는데 반하여 사용자의 시선은 영상 통화 단말의 화면 중심을 향하기 때문에, 사용자의 시선과 카메라 렌즈의 중심축이 서로 일치하지 않아서 발생되는 문제이다. 이는 필연적으로 영상 통화를 시도하는 사용자들이 느껴야 하는 현장감을 저해하는 요소로 작용하게 된다.
도 1은 종래의 영상 통화 장치에서 나타나는 시선 불일치 문제의 일 예를 나타낸 도이다.
도 1을 참조하면, 영상 통화 장치의 화면에 표시되는 영상에서 통화를 하는 사용자의 시선이 왼쪽으로 향하고 있는 것으로 보인다. 그러나 이 경우 사용자는 영상 통화 장치의 화면 중심을 바라보고 있다. 즉, 화면을 통해 표시되는 상대방을 보고 있다. 다만, 화면 가장자리에 위치한 카메라가 오른쪽에서(즉, 시선과 어긋난 방향에서) 사용자를 촬영하고 있기 때문에 마치 사용자가 왼쪽을 바라보고 있는 것처럼 보이게 된다. 따라서 영상 통화를 하는 양 당사자 모두 화면의 중심을 응시하고 있지만, 어느 누구도 상대방과 시선을 맞출 수가 없는 문제가 발생한다.
또한, 종래의 영상 통화 장치는 착신된 통화를 개시하기 전 또는 통화를 하는 중에는 영상 통화와 음성 통화 간에 모드 변경을 할 수 없는 단점이 있다. 그러므로 열악한 통신 환경 및 부족한 시스템 자원이 문제되더라도 현재 설정된 통화 모드를 계속 유지하여, 전체적으로 통화 품질이 저하되는 문제에 대처가 미흡하였다.
본 발명이 해결하고자 하는 과제는 영상 통화시에 시선 불일치 문제를 해소하여 보다 현장감 있는 영상 통화 서비스를 제공하는 영상 통화 장치 및 그 방법을 제공하는 것이다.
또한 본 발명이 해결하고자 하는 과제는 영상 통화시 시점 합성 영상 또는 스테레오스코픽(stereoscopic) 영상 중 어느 하나를 표시할 수 있는 다기능 휴대용 영상 통화 장치 및 그 제어 방법을 제공하는 것이다.
또한 본 발명이 해결하고자 하는 과제는 영상 통화와 음성 통화 간의 모드 변경이나 다양한 음성통화 모드 간 변경을 자유롭게 수행할 수 있는 영상 통화 장치 및 그 제어 방법을 제공하는 것이다.
본 발명의 특징에 따른 영상 통화 장치는 네트워크를 통한 통신을 수행하는 통화 처리부; 영상 표시부; 및 상기 영상 표시부의 주변에 위치하며, 기준점을 중심으로 서로 대칭 관계를 형성하는 서로 다른 위치에 각각 위치되어 있는 제1 카메라와 제2 카메라를 포함한다.
여기서, 상기 기준점이 상기 영상 표시부의 화면의 중심에 위치할 수 있다.
또한 상기 제1 카메라와 상기 제2 카메라가 상기 기준점을 토대로 상하 대칭 관계를 형성하는 위치에 각각 형성될 수 있다. 또한 상기 제1 카메라와 상기 제2 카메라가 상기 기준점을 토대로 좌우 대칭 관계를 형성하는 위치에 각각 형성될 수 있다.
이러한 영상 통화 장치는 상기 제1 카메라와 상기 제2 카메라에서 각각 촬영되는 영상을 처리하여 상기 영상 표시부로 출력하거나 상기 통화 처리부로 출력하는 영상 처리부를 더 포함할 수 있다.
이외에도, 통화 모드를 현재 통화 모드에서 변경 요구에 따른 목표 통화 모드로 변경하는 통화 모드 변경부를 더 포함할 수 있다.
한편 상기 영상 처리부는 상기 제1 카메라로부터 촬영된 영상을 제공받아 처리하여 제1 시점 영상을 생성하는 제1 시점 영상 획득부; 상기 제2 카메라로부터 촬영된 영상을 제공받아 처리하여 제2 시점 영상을 생성하는 제2 시점 영상 획득부; 상기 제1 시점 영상과 제2 시점 영상에 기초하여 변이 값들을 출력하는 스테레오 매칭부; 및 상기 변이 값들을 토대로 상기 제1 시점 영상과 제2 시점 영상을 합성하여 시점 합성 영상을 생성하거나, 상기 제1 시점 영상과 제2 시점 영상을 처리하여 스테레오스코픽 영상을 생성하거나, 상기 제1 시점 영상과 제2 시점 영상 중에서 하나를 선택하여 처리하여 출력하는 영상 합성부를 포함할 수 있다.
한편 통화 모드 변경부는 통화를 개시하는 시점 또는 통화를 수행하는 동안에 통화 모드를 변경할 수 있다.
본 발명의 다른 특징에 따른 통화 방법은, 네트워크를 통하여 상대 통화 장치와 통화를 수행하는 영상 통화 장치의 통화 방법에서, 통화 모드 변경 요구의 발생 여부를 확인하는 단계; 및 상기 통화 모드 변경 요구가 발생한 경우 통화 모드를 현재 통화 모드에서 상기 변경 요구에 따른 목표 통화 모드로 변경하는 단계를 포함한다.
상기 변경하는 단계는 상기 통화 모드를 변경한 다음에 변경된 통화 모드를 상기 상대 통화 장치로 통보하는 단계를 더 포함할 수 있다.
또한 상기 변경하는 단계는 상기 현재 통화 모드의 레벨과 상기 목표 통화 모드의 레벨을 비교하는 단계; 및 상기 목표 통화 모드의 레벨이 상기 현재 통화 모드의 레벨보다 낮은 경우에 통화 모드를 변경하는 단계를 포함할 수 있다.
이 경우, 상기 변경하는 단계는 상기 목표 통화 모드의 레벨이 상기 현재 통화 모드의 레벨보다 낮은 경우에 통화 모드를 변경할 예정임을 상기 상대 통화 장치로 통보하는 단계를 더 포함할 수 있으며, 상기 통보 후에 통화 모드 변경이 이루어진다.
또한 상기 변경하는 단계는 상기 목표 통화 모드의 레벨이 상기 현재 통화 모드의 레벨보다 높은 경우에 상기 상대 통화 장치와 미디어 협상을 수행하는 단계; 및 상기 미디어 협상이 성공한 경우에, 현재 통화 모드를 상기 목표 통화 모드로 변경하는 단계를 더 포함할 수 있다.
한편 상기 통화 모드 변경 요구는 통신 채널의 상태, 현재 시스템 자원의 가용 상태 중 적어도 하나를 고려하여 통화 모드 변경이 요구되는 경우에 발생될 수 있다.
한편 상기 통화 모드는 시점 합성 영상을 토대로 통화를 하는 제1 영상 통화 모드, 스테레오스코픽 영상을 토대로 통화를 하는 제2 영상 통화 모드, 단일 영상을 토대로 통화를 하는 제3 영상 통화 모드, 음성 통화 모드 중 적어도 두 개를 포함할 수 있다. 여기서 상기 음성 통화 모드에 제1 레벨, 상기 제3 영상 통화 모드에 제2 레벨, 상기 제1 영상 통화 모드에 제3 레벨, 상기 제2 영상 통화 모드에 제4 레벨이 각각 부여되고, 제1 레벨<제2 레벨<제3 레벨<제4 레벨의 조건이 만족될 수 있다.
이외에도, 상기 목표 통화 모드로의 변경을 수행하기 전에 상대 통화 장치로부터 통화 모드 변경에 관한 허락을 받는 단계를 추가로 포함할 수 있으며, 이 경우 상기 목표 통화 모드로의 변경은 상기 상대 통화 장치로부터의 허락이 있는 경우에만 이행될 수 있다.
본 발명의 또 다른 특징에 따른 방법은, 네트워크를 통하여 상대 통화 장치와 통화를 수행하는 영상 통화 장치의 통화 방법이며, 영상이 표시되는 화면의 주변에 위치하며, 기준점을 중심으로 서로 대칭 관계를 형성하는 서로 다른 위치에 각각 위치되어 있는 제1 카메라와 제2 카메라로부터 각각 제1 시점 영상 및 제2 시점 영상을 획득하는 단계; 현재 통화 모드가 시점 합성 영상을 토대로 하는 영상 통화 모드인 경우, 상기 제1 시점 영상과 제2 시점 영상을 토대로 시점 합성 영상을 생성하는 단계; 및 상기 시점 합성 영상을 토대로 영상 통화를 수행하는 단계를 포함한다.
여기서 음성 통화 모드로의 변경 요구의 발생 여부를 확인하는 단계; 및 상기 통화 모드 변경 요구가 발생한 경우 통화 모드를 현재 영상 통화 모드에서 상기 변경 요구에 따른 음성 통화 모드로 변경하는 단계를 더 포함할 수 있다.
본 발명의 실시 예에 따르면 영상 통화시에 시점 합성 영상을 제공하여 통화를 하는 사용자의 시선 불일치 문제를 해소할 수 있다. 따라서 영상 통화를 하는 상대방끼리 서로 시선을 맞추면서 통화를 할 수 있으므로, 보다 현장감 있는 영상 통화 서비스를 제공할 수 있다. 이러한 효과는 영상 통화 화면이 커질수록, 그리고 화면 중심부로부터 카메라까지의 거리가 멀수록 (예, 테블릿 PC), 시점 합성 영상에 의한 시선 불일치 문제 해소의 효과는 더욱 두드러지게 나타날 수 있다.
또한, 본 발명의 실시 예에 따른 영상통화장치는 스테레오스코픽 영상을 제공하여 영상통화 시 발생하는 시선 불일치 문제를 해소할 수 있다.
또한, 사용자의 요구에 따라 혹은 통신 환경이나 시스템 자원의 변화에 대응하여 통화 모드의 변경을 수행하여, 사용자에게 보다 편리하고 향상된 영상/음성 통화 서비스를 제공할 수 있다.
도 1은 종래의 영상 통화 장치에서 나타나는 시선 불일치 문제를 예시적으로 나타낸 도이다.
도 2는 본 발명의 실시 예에 따른 영상 통화 장치의 구조도이다.
도 3 내지 도 5는 본 발명의 실시 예에 따른 영상 통화 장치에서의 카메라의 설치 예들을 나타낸 도이다.
도 6은 본 발명의 실시 예에 따른 영상 통화 장치가 테블릿 PC에 구현된 것을 나타낸 예시도이다.
도 7은 본 발명의 실시 예에 따른 영상 통화 장치의 영상 처리부의 구조를 나타낸 도이다.
도 8은 본 발명의 실시 예에 따른 영상 처리부가 스테레오스코픽 영상을 생성할 경우의 구조를 나타낸 도이다.
도 9는 본 발명의 제1 실시 예에 따른 영상 통화 방법의 흐름도이다.
도 10은 본 발명의 제2 실시 예에 따른 영상 통화 방법의 흐름도이다.
도 11은 본 발명의 실시 예에 따른 영상 통화 방법에서 통화 모드를 변경하는 과정을 나타낸 흐름도이다.
도 12는 본 발명의 실시 예에 따른 통화 모드별 레벨을 나타낸 예시도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시 예에 따른 영상 통화 장치 및 그 제어 방법에 대하여 설명한다.
도 2는 본 발명의 실시 예에 따른 영상 통화 장치의 구조를 나타낸 블록이다.
첨부한 도 2에 도시되어 있듯이, 본 발명의 실시 예에 따른 영상 통화 장치(1)는 복수의 카메라(11, 12), 복수의 카메라로부터 획득되는 영상을 처리하는 영상 처리부(13), 처리되는 영상을 표시하는 영상 표시부(14)를 포함하며, 이외에도 통화 모드 변경부(15) 및 변경된 통화 모드에 따른 통화를 수행하는 통화 처리부(16)를 더 포함할 수 있다.
복수의 카메라(11)는 각각 촬영을 하여 영상을 획득한다. 본 발명의 실시 예에 따른 카메라(11, 12)들은 서로 다른 위치에 형성되어 각각 촬영을 하며, 기준점을 토대로 서로 대칭 관계를 형성한다. 기준점은 영상 표시부(14)에서 영상이 표시되는 화면에 위치한다.
도 3 내지 도 5는 본 발명의 실시 예에 따른 영상 통화 장치에서의 카메라의 설치 예들을 나타낸 도이다.
본 발명의 실시 예에 따른 복수의 카메라(11, 12)는 영상 표시부(14)에 의하여 영상이 표시되는 화면의 주변에 위치되는데, 구체적으로 화면의 둘레 영역에 위치하며, 기준점을 토대로 대칭 관계를 형성하도록 서로 다른 위치에 형성된다. 예를 들어, 도 3의 (a)에 도시되어 있듯이, 카메라(11, 12)가 화면의 둘레 영역에 서로 좌우 대칭을 이루도록 위치될 수 있다. 즉, 횡 방향의 제1 면 및 제2 면과 종방향의 제3 면 및 제4 면으로 이루어지는 화면에서, 카메라(11)가 제3 면의 중심이 되는 곳에 위치하고, 다른 카메라(12)가 제3 면과 마주보는 제4 면의 중심이 되는 곳에 위치되어, 카메라(11, 12)가 서로 좌우 대칭 관계를 형성할 수 있다.
또는 도 3의 (b)에 도시되어 있듯이, 카메라(11, 12)가 화면의 둘레 영역에 서로 상하 대칭을 이루도록 위치될 수 있다. 즉, 하나의 카메라(11)가 화면의 제1 면의 중심이 되는 곳에 위치하고, 다른 하나의 카메라(12)가 제1 면과 마주보는 제2 면의 중심이 되는 곳에 위치하여 카메라(11, 12)가 서로 상하 대칭 관계를 형성할 수 있다. 도 3의 (a) 및 (b)에서는 두 개의 카메라가 좌우 대칭 또는 상하 대칭을 이루는 것을 예로 들었는데, 구현 예에 따라서는 반드시 상하 또는 좌우 대칭에 한정되지 않는다.
또한, 대칭 관계를 형성하는 기준점이 화면의 중심에 위치하는 것에 한정되지 않는다. 예를 들어, 도 4의 (a)에 도시되어 있듯이, 화면을 양분하는 종축에 대해 선대칭을 이루도록 두 개의 카메라(11, 12)가 배치될 수도 있다.
또한 첨부한 도 4의 (b)에 예시되어 있듯이, 하나의 카메라만을 사용하는 기존 단일 카메라 기반의 영상 통화 단말과 같이 화면의 주변의 왼쪽 또는 오른쪽 상단 구석 부분에 하나의 카메라(11)를 위치시키고, 다른 하나의 카메라(12)를 카메라(11)와 대략 화면 중심 영역의 임의의 점에 대해 점대칭을 이루도록 위치시킬 수 있다.
이와 같이 기존 단일 카메라 기반의 영상 통화 단말과 유사한 위치에 하나의 카메라(11)를 형성하고 임의 기준점을 토대로 카메라(11)와 대칭 관계를 형성하도록 다른 카메라(12)를 형성한 경우에는, 통신 환경이나 시스템 사정에 따라, 하나의 카메라(예를 들어, 12)의 동작을 중지시키고 단일 카메라(예를 들어, 11)만을 이용하여 영상 통화를 할 수 있다. 이 경우 송신측 영상 통화 장치가 하나의 카메라를 통해서만 촬영된 영상을 전송하면, 수신측 영상 통화 장치는 하나의 카메라에 대응하는 영상만 수신해서 표시하는 동작을 수행한다. 물론, 두 개의 카메라 중에서 하나만 동작시키는 것은, 기존 영상 통화 단말과 같이 화면 주변의 왼쪽 또는 오른쪽 상단 구석 부분에 카메라를 위치시킨 형태로 구현되는 영상 통화 장치에만 적용되는 것은 아니며, 본 발명의 실시 예에 따라 복수의 카메라가 서로 기준점(또는 기준선)을 토대로 대칭 관계를 형성하도록 위치되는 모든 경우에 적용될 수 있다.
한편, 도 4의 (b)에서와 같이, 카메라(11)를 배치하고 다른 하나의 카메라(12)를 카메라(11)와 대략 화면 중심 영역의 임의의 점에 대해 점대칭을 이루도록 위치시키는 경우에, 두 카메라의 위치 관계로 인해 에피폴라 라인(epipolar line)이 영상 표시부(14)의 수평 스캔 라인과 일치하지 않고 서로 각도를 이루기 때문에, 각 카메라에 의하여 획득되는 영상들을 처리하는 경우 스테레오(stereo) 매칭과 관련한 연산이 다소 복잡해 질 수 있고, 스테레오스코픽(stereoscopic) 영상을 제공하기가 매우 곤란해 질 수 있다. 즉, 이 경우 2개 시점 영상을 새로 합성해야 스테레오스코픽 영상 표시가 가능하기 때문에 별도의 영상 합성 연산을 고려해야 한다. 따라서 영상 처리시에 위에 기술된 바와 같은 상황을 고려한 추가 연산을 수행하는 것보다는, 두 카메라의 에피폴라 라인이 영상 표시부(14)의 수평 스캔 라인 또는 수직 스캔 라인과 평행이 되도록 하는 것이 더 유리하다. 특히 스테레오스코픽 영상의 경우 좌영상과 우영상만을 고려하므로 에피폴라 라인은 항상 수평 라인과 평행이 된다고 표현하는 것이 정확하겠지만, 여기서는 스마트 폰이나 태블릿 PC에 내장된 자이로스코프 기능으로 인해 수평 라인과 수직 라인이 언제든지 교대될 수 있다는 점을 고려한 것이다.
따라서 단일 카메라 기반의 영상 통화를 가능하게 하면서 두 개의 카메라를 서로 대칭 관계를 형성하도록 위치시키는 것 보다는, 두 개의 카메라를 추후에 설명할 시점 합성이나 스테레오스코픽 영상 통화에 적합하도록 서로 대칭 관계를 형성하면서 위치시킨다면, 전체적으로 더 간단하게 본 발명의 실시 예에 따른 영상 통화 장치를 구현할 수 있다.
경우에 따라서는 도 5에 예시된 바와 같이, 기준점을 토대로 서로 대칭 관계를 형성하는 두 개의 카메라(11, 12) 이외에, 단일 영상 기반 통화를 위한 카메라(111)을 독립적으로 형성하여, 총 3개의 카메라를 배치하는 구성도 고려할 수 있다.
한편 도 3 내지 도 5에서는 본 발명의 실시 예에 따른 영상 통화 장치가 스마트 폰과 같은 형태로 구현된 것을 토대로 하였으나, 영상 통화 장치는 통화 기능이 있는 다양한 장치에 적용될 수 있다.
도 6은 본 발명의 실시 예에 따른 영상 통화 장치가 테블릿 PC에 구현된 것을 나타낸 예시도이다. 앞서 스마트폰에서 언급한 내용들이 유사하게 적용될 수 있으며, 당업자라면 위의 실시 예들을 토대로 구현할 수 있으므로 여기서는 상세한 설명을 생략한다.
첨부한 도 6에 예시되어 있듯이, 테블릿 PC의 영상 표시 화면의 둘레 영역에 두 개의 카메라(11, 12)가 기준점을 토대로 대칭 관계를 형성하도록 형성되어, 각각 서로 다른 시점을 가지는 영상을 획득하여 합성하고 합성된 영상을 토대로 영상 통화가 수행된다. 특히 테블릿 PC의 경우 영상 통신을 위해 사용자에게 표시되는 화면의 중심으로부터 카메라의 위치까지의 거리가 스마트 폰의 경우에 비해 훨씬 길고, 화면의 크기도 상대적으로 커질 수 있기 때문에, 본 발명의 실시 예에 따른 시점 합성 영상의 장점이 보다 두드러지게 나타날 수 있다.
한편 본 발명의 실시 예에 따른 카메라(11, 12, 111)는 내장형 고정식 카메라 이외에도, 외장형, 착탈식 카메라 등 다양한 형태의 카메라일 수 있다. 또한, 카메라는 원통축을 중심으로 회전이 가능하도록 형성된 내장형 카메라일 수 있다. 이 경우 영상 통화시 회전하는 카메라에 의하여 통화자의 얼굴뿐만이 아니라 주위 경관에 대한 시점을 제공할 수 있다. 여기서 내장형 카메라의 회전은 수동식 및/또는 전동식으로 수행될 수 있다. 이와 같이 다양한 형태 즉, 외장형, 내장형, 또는 회전식으로 형성되는 카메라를 사용하는 경우, 해당 카메라들은 외부 간섭에도 불구하고 영상획득동작을 수행하는 중에는 카메라들의 고정 위치와 상대 각도가 일정하게 유지되도록 형성될 수 있다.
위에 기술된 바와 같이 다양하게 기준점을 토대로 대칭 관계를 형성하도록 위치되는 복수의 카메라(11, 12)에 의하여 촬영된 영상은 도 2에서와 같이, 영상 처리부(13)로 입력되어 처리된다.
영상 처리부(13)는 복수의 카메라(11, 12)에서 촬영되는 각각의 영상을 처리하여 영상 표시부(14)로 출력하거나 통화 처리부(16)를 통하여 전송할 수 있다.
또한 영상 처리부(13)는 복수의 카메라(11, 12)에서 촬영되는 영상들을 합성하여 시점 합성 영상을 생성하거나, 각각의 영상으로부터 스테로오스코픽 영상 포맷을 생성하거나, 또는 하나의 영상만을 선택하여 처리하여, 영상 표시부(14)로 출력한다. 이외에도 처리하여 생성되는 영상을 통화 처리부(16)로 제공하여 통화를 하는 상대 통화 장치(도시하지 않음)로 전송되도록 할 수 있다.
도 7은 본 발명의 실시 예에 따른 영상 처리부의 구조를 나타낸 도이다.
첨부한 도 7에서와 같이, 본 발명의 실시 예에 따른 영상 처리부(13)는 제1 시점 영상 획득부(131), 제2 시점 영상 획득부(132), 스테레오 매칭부(133), 영상 합성부(134)를 포함한다.
제1 시점 영상 획득부(131)는 카메라(11)로부터 촬영된 영상을 제공받아 처리하여 제1 시점 영상을 생성하며, 제2 시점 영상 획득부(132)는 카메라(12)로부터 촬영된 영상을 제공받아 처리하여 제2 시점 영상을 생성한다.
스테레오 매칭부(133)는 제1 시점 영상 획득부(131)와 제2 시점 영상 획득부(132)로부터 제공되는 제1 시점 영상과 제2 시점 영상을 비교하고 비교 결과를 영상 합성부(134)로 제공한다. 예를 들어, 스테레오 매칭부(133)는 제1 시점 영상과 제2 시점 영상간의 변이(disparity)를 계산하여 그 값을 영상 합성부(134)로 제공한다.
영상 합성부(134)는 제1 시점 영상 획득부(131)와 제2 시점 영상 획득부(132)로부터 제1 시점 영상과 제2 시점 영상을 제공받으며, 스테레오 매칭부(133)로부터 제1 시점 영상과 제2 시점 영상간의 변이 값을 제공받아서 제1 시점 영상과 제2 시점 영상을 합성하여 시점 합성 영상을 생성한다. 예를 들어, 영상 합성부(134)는 제1 시점 영상과 제2 시점 영상간의 변이값에 따라 시점간의 차이를 확인하고, 확인된 시점 차이를 적용하여 제1 시점 영상과 제2 시점 영상을 합성하여 새로운 시점의 합성 영상(즉, 정면 시점의 영상)을 생성한다. 이렇게 합성된 정면 시점의 영상이 시선 불일치 문제를 해소하는 것은 물론이다. 본 발명의 실시 예에서는 시점 영상 합성(New View Synthesis) 자체에 대해서는 자세히 다루지 않는다. 이와 관련하여서는 많은 연구가 진행되어 왔고, 그 성능 개선을 위해 현재까지도 많은 연구들이 이루어지고 있다. 간단한 예로, Antonio Criminisi 등의 "Efficient Dense Stereo with Occlusion for New View-Synthesis by Four-State Dynamic Programming" (International Journal on Computer Vision, 2007)을 참고할 수 있다. 본 발명에는 어떠한 종류의 시점 영상 합성 기술이 적용되어도 좋지만, 실시간 처리가 가능하고, 계산량이 최소화 될 수 있는 방법이 보다 유용할 것이다.
또는 영상 합성부(134)는 제1 시점 영상과 제2 시점 영상을 스테레오스코픽 영상을 위한 좌영상과 우영상으로 처리하여 소정의 스테레오스코픽 영상포맷을 생성하고, 이는 다시 통화 처리부(16)로 전달되어 상대편 단말로 전송된다. 이 경우 스테레오 매칭부(133)의 동작은 필요하지 않으며, 영상 합성부(134)는 통상의 스테레오스코픽 인코더의 구성을 포함하고 있다.
도 8은 영상 처리부가 스테레오스코픽 영상을 생성할 경우의 구조를 나타낸 도이다. 첨부한 도 8에서와 같이, 영상 합성부(134)가 스테레오스코픽 인코더(1341)를 포함하고, 스테레오스코픽 인코더(1341)가 제1 시점 영상 획득부(131)에서 출력되는 영상과 제2 시점 영상 획득부(132)에서 출력되는 영상을 스테레오스코픽 영상 포맷으로 인코딩하여 출력할 수 있다. 서로 다른 위치에서 촬영되는 두 개의 영상을 토대로 스테레오스코픽 영상 포맷을 생성하는 과정은 당업계에 알려진 기술임으로 여기서는 상세한 설명을 생략한다. 예컨대, MPEG-4 MVC 표준기술이 사용될 수 있음은 물론이다. 반대로, 상대방이 보내온 스테레오스코픽 영상 스트림은 통화 처리부(16)를 거쳐 영상 처리부(13)로 입력되는데, 이는 영상 처리부(13)에서 통상의 스테레오스코픽 영상 스트림에 대한 디코딩 과정을 거쳐 영상 표시부(14)로 전달되게 된다. 이러한 디코딩을 수행하기 위한 영상 처리부(13)의 구체적인 구성을 도시하지는 않았지만, 통상의 스테레오스코픽 영상 디코더의 구성(예컨대, MPEG-4 MVC)을 그대로 사용하여도 무방하다. 영상 표시부(14)를 통해 표현되는 스테레오스코픽 영상은 안경식 또는 무안경식 스테레오스코픽 영상일 수 있으며, 안경식의 경우 편광식 또는 셔터글라스 방식일 수도 있다. 본 발명의 실시 예에 따른 영상 통화 장치(1)를 스마트 폰이나 태블릿 PC에 적용하는 경우에는 무안경식 스테레오스코픽 영상을 생성하는 것이 더 편리할 것이지만, 반드시 이에 한정되는 것은 아니다.
한편 영상 합성부(16)는 스테레오스코픽 영상 부호화를 위해서 예컨대, MPEG-4 AVC(MVC) 코덱을 포함할 수 있다. 이외에도 영상 통화 장치(1)에서 처리해야 할 계산량을 줄이기 위해서는 경유 네트워크의 중간 지점에서 인코딩을 수행하거나, 분산 비디오 코딩(Distributed Video Coding) 기술을 이용하여 영상 통화 장치(1)가 처리하는 부하를 감소시킬 수도 있다.
또는 영상 합성부(134)는 제1 시점 영상 또는 제2 시점 영상 중에서 하나를 선택하여 출력할 수도 있다. 이 경우, 스테레오 매칭부(133)는 특별한 동작을 하지 않는다.
특히, 본 발명의 실시 예에 따른 영상 합성부(134)는 추후에 설명되는 본 발명의 실시 예에 따른 통화 모드에 따라 제1 시점 영상과 제2 시점 영상을 합성한 시점 합성 영상 또는 스테레오스코픽 영상 또는 제1 시점 영상이나 제2 시점 영상 중 하나의 영상을 출력할 수 있다.
본 발명의 실시 예에 따른 영상 통화 장치(1)가 적용되는 휴대 단말 내에 얼마나 많은 영상 처리 기능을 포함시킬 것인가에 관한 고려를 할 수 있는데, 예를 들어, 서로 다른 두 시점의 영상을 합성하는 과정이나 스테레오스코픽 영상을 생성하는 과정이 2개의 시점 영상을 획득한 단말에서 직접 이루어질 수도 있고, 또는 통신을 하는 경유 네트워크의 중간 지점, 또는 보다 계산 자원이 풍부한 상대편 단말에서 이루어질 수도 있다. 따라서 본 발명의 실시 예에 따른 영상 처리부(14)는 시점 합성 영상을 생성하거나 스테레오스코픽 영상을 생성하는 기능을 수행하는 형태로 구현될 수도 있고, 이와는 달리 제1 시점 영상 획득부(131)와 제2 시점 영상 획득부(132)로부터 제공되는 각각의 영상을 처리하여 전달하는 기능만을 수행하는 형태로 구현될 수도 있다. 다만, 현재 일반적으로 사용되는 스마트 폰의 경우 CPU외에 별도의 그래픽 프로세서를 사용하고 있기 때문에, 경우에 따라 휴대 단말이 도 7에서와 같이, 시점 합성 영상을 생성하거나 스테레오스코픽 영상 포맷을 생성하는 영상 합성 엔진 즉 영상 처리부를 탑재하는 것도 충분히 고려해 볼만 할 것이다. 이와 같이 영상 합성 엔진은 설계자의 의도에 따라 송신 측 단말, 수신 측 단말, 또는 경유 네트워크 상의 임의의 노드 중 어디에나 구현될 수 있다.
한편, 통화 모드 변경부(15)는 복수의 통화 모드 중에서 하나를 선택한다. 통화 모드 변경부(15)에 의하여 선택된 통화 모드에 따라 통화 처리부(16)가 통화를 수행한다. 이러한 통화 모드에 대해서는 이하에서 더 구체적으로 설명하기로 한다.
통화 처리부(16)는 상대 통화 장치(도시하지 않음)와의 통신을 수행하여 음성 통화 또는 영상 통화가 이루어지도록 하며, 영상 처리부(13)에서 출력되는 영상을 상대 통화 장치로 전송하여 영상 통화가 이루어지도록 하며, 상대 통화 장치로부터 수신되는 영상을 영상 처리부(13)로 제공하여 처리되도록 한다. 이 경우 영상 처리부(13)는 수신되는 영상을 처리하여 영상 표시부(14)에 표시한다. 물론 이 경우 수신되는 영상이 시점 합성 영상일 수 있으며, 또는 스테레오스코픽 영상(즉, 인코딩된 스테레오스코픽 영상 데이터 스트림)일 수 있으며, 또는 시점 합성 영상이나 스테레오스코픽 영상을 위한 복수의 영상(즉, 복수의 시점 각각에 관한 독립된 영상 데이터 스트림)일 수도 있으며, 또는 단일 영상일 수도 있다. 이외에도 음성 통화를 수행할 수 있다.
다음에는 이러한 구조로 이루어지는 영상 통화 장치를 토대로 본 발명의 실시 예에 따른 영상 통화 방법에 대하여 설명한다. 그러나 이하에서 설명하는 통화모드 변경 방법이 본 발명에 따른 구성을 갖춘 영상 통화 장치에만 한정되어 적용되는 것이 아님은 당업자에게 자명하다.
본 발명의 실시 예에 따른 영상 통화 장치는 복수의 통화 모드 중 하나의 통화 모드로 동작한다. 복수의 통화 모드는 서로 다른 시점의 영상을 합성한 시점 합성 영상을 토대로 하는 제1 영상 통화 모드, 서로 다른 시점의 영상을 처리하여 스테레오스코픽 영상을 생성하고 이를 토대로 하는 통화를 하는 제2 영상 통화 모드, 한 시점의 영상을 토대로 하는 제3 영상 통화 모드, 그리고 음성 통화 모드를 포함한다.
2개의 카메라를 구비한 영상 통화 장치를 통해 영상 통화를 수행하는 경우에는 순화적 열화(graceful degradation) 또는 단계적 열화 방식을 도입하여, 통신 환경이나 시스템 환경에 따라 적응적으로 통화 모드를 변경할 수 있으며, 사용자의 선택에 따라 적응적으로 통화 모드를 변경할 수 있다.
예를 들어, 양호한 통신 채널이나 충분한 시스템 자원이 가용한 상황에서는 두 개의 시점 영상에 기초하여 새로운 시점으로 합성된 영상을 토대로 하는 제1 영상 통화 모드로 동작한다. 통신 채널이 양호하지 않거나 시스템 자원의 충분한 사용이 가능하지 않은 경우에는 1개의 카메라에 의하여 획득된 한 시점의 영상만을 토대로 하는 제2 영상 통화 모드로 동작한다. 또한 하나의 영상을 제공하기도 어려운 통신 환경에서는 음성 통화 모드로 동작한다. 이러한 통화 모드의 동적인 변경에 의하여 에러에 강한 순화적 열화 시스템을 구현할 수 있다.
한편 이러한 통화 모드의 적응적 변경은 영상 통화 장치의 자체 판단 동작에 따라 수행될 수 있으며, 또는 사용자로부터 모드 변경에 관한 입력을 받아서 수행될 수도 있다. 이 경우 영상 통화 장치는 상대 통화 장치와 통화를 하고 있는 상태에서 자체 판단 동작이나 사용자 입력에 의하여 통화 모드가 변경되면, 통화 모드가 변경되었음을 알리는 신호를 상대 통화 장치로 전송하여, 통화 중인 양 장치가 적응적으로 통화 모드를 변경할 수 있도록 한다. 이러한 통화 모드 변경은 통화가 이루어지는 동안뿐만 아니라, 상대 통화 장치로부터 걸려온 통화를 개시하는 시점에 이루어질 수도 있다. 예를 들어 상대 통화 장치가 영상 통화 모드로 통화를 시도할 때, 수신 측에서는 영상 통화 모드의 호가 수신되었음에도 불구하고 자체 판단 동작이나 사용자의 임의적인 선택에 따라 음성 통화 모드로 통화를 시작할 수 있다.
본 발명의 실시 예에 따른 영상 통화 장치는 예를 들어, 통신 채널의 상태, 가용 가능한 자원량 또는 사용자 선호도 등을 기초로 하여 통화 모드 변경을 결정할 수 있다. 통화 모드 변경은 시점 합성 영상을 토대로 하는 제1 영상 통화 모드, 스테레오스코픽 영상을 토대로 하는 제2 영상 통화 모드, 단일 카메라에 의해 획득한 영상을 토대로 하는 제3 영상 통화 모드, 음성 통화 모드 중 적어도 2개를 포함하는 임의의 조합에 속하는 2개의 모드 간에 수행될 수 있도록 구성할 수 있다. 예컨대, 제1 영상 통화 모드에서 제3 영상 통화 모드로의 변경 또는 제1 영상 통화 모드에서 음성 통화 모드로의 변경 등과 같이 2개의 모드간에 변경이 이루어질 수 있다.
도 9는 본 발명의 제1 실시 예에 따른 영상 통화 방법의 흐름도이다.
본 발명의 제1 실시 예에서는 착신된 통화에 대해 통화 개시 전 통화 모드를 변경하는 과정을 나타낸다.
첨부한 도 9에 도시되어 있듯이, 영상 통화 장치(1)는 통화가 착신되면(S100), 착신된 통화의 모드를 확인한다(S110). 그리고 영상 통화 장치(1)는 통화 모드 변경 요구가 있는지 확인한다(S120). 사용자의 선택에 따라 통화 모드 변경 요구가 있을 수도 있고, 영상 통화 장치(1)의 통화 모드 변경부(15)의 통화 모드 변경 여부를 판단하는 동작에 의하여 통화 모드 변경이 요구될 수 있다.
영상 통화 장치(1)는 통화 모드 변경 요구가 있으면 통화모드 변경을 수행한다(S130). 즉, 착신된 통화의 모드에서 변경 요구에 따른 통화 모드로의 변경을 수행한다. 예를 들어, 착신된 통화 모드는 제1 영상 통화 모드이었지만 발생된 변경 요구에 따른 통화 모드가 음성 통화 모드인 경우에는, 제1 영상 통화 모드에서 음성 통화 모드로의 변경을 수행한다.
영상 통화 장치(1)는 변경된 통화 모드에 따라 상대 통화 장치와 통화를 개시한다(S140).
한편 단계(S120)에서, 별도의 통화 모드 변경 요구가 없는 경우, 영상 통화 장치(1)는 착신된 통화의 통화 모드에 따라 통화를 개시한다. 예를 들어, 착신된 통화 모드가 제1 영상 통화 모드인 경우에는 제1 영상 통화 모드에 따라 통화를 개시한다.
도 10은 본 발명의 제2 실시 예에 따른 영상 통화 방법의 흐름도이다.
본 발명의 제2 실시 예에서는 통화 중에 통화 모드를 변경하는 과정을 나타낸다.
첨부한 도 10에 도시되어 있듯이, 영상 통화 장치(1)는 착신된 통화에서 요청된 통화 모드에 따라 통화를 하는 상태에서(S200), 통화 모드 변경 요구가 발생하면(S210), 현재 통화 모드에서 변경 요구에 따른 통화 모드로의 변경을 수행한다(S220).
이후 영상 통화 장치(1)는 변경된 통화 모드에 따라 통화를 계속하여 수행한다.
다음에는 통화 모드를 변경하는 과정에 대하여 보다 구체적으로 설명한다.
도 11은 본 발명의 실시 예에 따른 영상 통화 방법에서 통화 모드를 변경하는 과정을 나타낸 흐름도이다.
위에 기술된 제1 및 제2 실시 예에서, 통화 모드를 변경하는 절차가 시작되면(S300), 영상 통화 장치(1)는 도 11에서와 같이, 우선 변경하고자 하는 통화 모드가 현재 통화 모드의 레벨보다 상위 레벨인지를 판단한다(S310). 여기서 변경하고자 하는 통화 모드를 설명의 편의상 "목표 통화 모드"라고 명명한다.
본 발명의 실시 예에서 복수의 통화 모드들은 서로 다른 레벨을 가질 수 있다.
도 12는 본 발명의 실시 예에 따른 통화 모드별 레벨을 나타낸 예시도이다.
본 발명의 실시 예에서 레벨은 각 통화 모드별로 요구되는 대역폭 및 시스템 자원에 따라 부여되며, 도 12에 도시되어 있듯이, 본 발명의 실시 예에 따른 레벨은 제1 레벨, 제2 레벨, 제3 레벨, 제4 레벨로 분류된다. 제1 레벨<제2 레벨<제3 레벨<제4 레벨과 같이, 레벨이 클수록 통화시 요구되는 대역폭 및 시스템 자원이 크다는 것을 나타낸다. 여기서 요구되는 시스템 자원이 크거나 혹은 작다는 것의 의미는 다음과 같은 맥락에서 이해될 수 있다. 즉, 제1 레벨은 음성통화만을 처리하면 되기 때문에, 상기 4가지 레벨 중 가장 요구되는 계산량이 작다. 음성은 물론 영상까지 처리해야 하는 제2 레벨로 가면 계산량이 그만큼 증가하게 된다. 또한 이를 위해서는 적어도 하나의 카메라가 구비되어야 하는 조건을 충족해야만 한다. 나아가 두 개의 시점 영상으로부터 새로운 시점 영상을 합성해야 하는 제3 레벨의 경우에는 요구되는 계산량이 더욱 커지는 것은 물론, 애초에 두 개의 시점 영상을 획득하기 위해서는 최소한 두 개의 카메라가 요구된다. 제4레벨의 경우, 계산량 자체는 제3레벨보다 작을 수 있으나, 스테레오스코픽 영상을 표시하기 위한 단말은 이를 위한 특별한 구성을 갖추고 있어야 한다는 점에서 시스템 자원의 요구사항이 더욱 높다고 할 것이다. 요컨대, 시스템 자원이란 표현은 해당 레벨의 서비스를 제공하기 위해 요구되는 계산량과 물리적 사양을 포괄하여 의미하는 정도로 보면 충분할 것이다.
덧붙여, 본 발명의 실시 예에서는 제3레벨이 제4레벨보다 더 작은 시스템 자원을 필요로 하는 것으로 가정하였으나, 이는 시점 합성 영상에 요구되는 계산량이 압도적으로 큰 경우(그런 특성의 알고리즘을 적용한 경우)라면 제3레벨과 제4레벨의 순서가 변경될 수도 있을 것이다. 요컨대, 어떤 형태의 서비스를 보다 상위 레벨로 볼 것인지는 어떤 절대적인 기준에 따라 결정되는 것이 아니다.
본 발명의 실시 예에서는 시점 합성 영상을 토대로 하는 제1 영상 통화 모드에 제3 레벨, 스테레오스코픽 영상을 토대로 하는 제2 영상 통화 모드에 제4 레벨, 단일 영상을 토대로 하는 제3 영상 통화 모드에 제2 레벨, 음성 통화 모드에 제1 레벨이 부여된다. 여기서 단일 카메라에 의하여 획득된 영상을 토대로 통화를 하는 제3 영상 통화 모드와 서로 다른 시점의 합성 영상을 토대로 통화를 하는 제2 영상 통화 모드가 통신 채널에서 차지하는 대역폭은 유사할 수 있으나, 제2 영상 통화 모드의 경우 영상 통화 장치에서 서로 다른 시점을 가지는 두 영상을 합성하는 처리를 수행하여야 함으로 요구되는 시스템 자원량(즉, 시스템의 계산 자원량)은 더 크다고 할 수 있다. 이에 따라 여기서는 제3 영상 통화 모드에 비하여 제2 영상 통화 모드에 더 높은 레벨을 부여하였다. 그러나 본 발명은 이러한 것에 한정되지 않으며, 다양한 변형이 가능하다. 예를 들어 도 12에서, 제1 레벨은 더 세분화 될 수도 있는데, 협대역 코덱만을 이용하는 음성 통화와 광대역 코덱까지 이용하는 음성 통화가 있다고 하면, 광대역 코덱을 이용하는 음성 통화에 더 높은 레벨이 부여될 수 있다.
단계(S310)에서, 변경하고자 하는 목표 통화 모드가 현재 통화 모드의 레벨보다 상위 레벨인 경우, 영상 통화 장치(1)는 상대 통화 장치와 미디어 협상을 수행한다(S320). 통화를 수행하는 장치의 특성상 하위 레벨의 통화(예를 들어, 제3 영상 통화)는 가능하지만 상위 레벨의 통화(예를 들어, 제2 영상 통화)는 가능하지 않을 수 있다. 따라서 현재 통화 모드보다 상위 레벨인 목표 변경 모드로 변경하고자 하는 경우에는 통화를 하는 상대 통화 장치와의 미디어 협상을 통하여 상위 레벨의 목표 변경 모드로의 변경이 가능한지를 협의한다. 미디어 협상이 성공한 경우 영상 통화 장치(1)는 현재 통화 모드를 목표 통화 모드로 변경한다(S330, S340). 여기서, 미디어 협상 단계는 상대방 단말의 사용자에 대해 통화 모드 변경에 대한 명시적인 허락을 받는 단계를 추가로 포함할 수도 있다.
반면, 미디어 협상에 실패한 경우, 영상 통화 장치(1)는 통화 모드 변경을 수행하지 않는다(S350). 이때, 영상 통화 장치(1)는 사용자 요구에 따라 통화 모드 변경이 시작된 경우에는 영상 표시부(17)를 통하여 통화 모드 변경이 실패하였음을 사용자에게 알리거나 또는 별도의 알림 수단을 통하여 통화 모드 변경이 실패하였음을 사용자에게 알린다.
한편 단계(S310)에서, 목표 통화 모드가 현재 통화 모드보다 하위 레벨인 경우, 영상 통화 장치(1)는 상대 통화 장치에 목표 변경 모드로 통화 모드를 변경할 예정임을 알린다(S360). 그리고 현재 통화 모드를 목표 변경 모드로 변경한다(S340).
위에 기술된 바와 같은 통화 모드 변경 과정은 다양한 변형이 가능하다. 예컨대, 목표 변경 모드와 현재 통화 모드의 레벨을 비교하는 단계(S310)를 수행하지 않을 수도 있다. 즉, 목표 변경 모드의 레벨에 상관없이 발생된 통화 모드 변경 요구에 따라 상대 통화 장치와 미디어 협상을 수행하고 그 결과에 따라 통화 모드를 수행할 수 있다.
또한 미디어 협상 단계(S320)를 수행하지 않을 수도 있다. 통화하는 쌍방의 장치 즉, 영상 통화 장치(1)와 상대 통화 장치가 미리 얻을 수 있는 정보를 이용하여 서로 변경 가능한 통화 모드에 관한 정보를 이미 갖고 있는 경우에는, 미디어 협상 단계를 통하여 목표 변경 모드로의 변경이 가능한지를 미리 협의할 필요가 없기 때문이다. 따라서, 현재 통화 모드보다 목표 변경 모드가 하위 레벨인 경우에는 위와 동일한 맥락에서, 명시적인 미디어 협상을 생략할 수 있다. 또한, 경우에 따라 미디어 협상 단계는 상대방 단말의 사용자에 대해 통화 모드 변경에 대한 명시적인 허락을 받는 단계로 대체될 수도 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시 예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시 예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (20)

  1. 네트워크를 통한 통신을 수행하는 통화 처리부;
    영상 표시부; 및
    상기 영상 표시부의 주변에 위치하며, 기준점을 중심으로 서로 대칭 관계를 형성하는 서로 다른 위치에 각각 위치되어 있는 제1 카메라와 제2 카메라
    를 포함하는, 영상 통화 장치.
  2. 제1항에 있어서
    상기 기준점이 상기 영상 표시부의 화면의 중심에 위치하는, 영상 통화 장치.
  3. 제1항에 있어서
    상기 제1 카메라와 상기 제2 카메라가 상기 기준점을 토대로 상하 대칭 관계를 형성하는 위치에 각각 형성되어 있는, 영상 통화 장치.
  4. 제1항에 있어서
    상기 제1 카메라와 상기 제2 카메라가 상기 기준점을 토대로 좌우 대칭 관계를 형성하는 위치에 각각 형성되어 있는, 영상 통화 장치.
  5. 제1항에 있어서
    상기 제1 카메라와 상기 제2 카메라에서 각각 촬영되는 영상을 처리하여 상기 영상 표시부로 출력하거나 상기 통화 처리부로 출력하는 영상 처리부
    를 더 포함하는, 영상 통화 장치.
  6. 제5항에 있어서
    통화 모드를 현재 통화 모드에서 변경 요구에 따른 목표 통화 모드로 변경하는 통화 모드 변경부를 더 포함하고,
    상기 통화 모드는 시점 합성 영상을 토대로 통화를 하는 제1 영상 통화 모드, 스테레오스코픽 영상을 토대로 통화를 하는 제2 영상 통화 모드, 단일 영상을 토대로 통화를 하는 제3 영상 통화 모드, 음성 통화 모드 중 적어도 두 개를 포함하는 영상 통화 장치.
  7. 제6항에 있어서
    상기 영상 처리부는
    상기 제1 카메라로부터 촬영된 영상을 제공받아 처리하여 제1 시점 영상을 생성하는 제1 시점 영상 획득부;
    상기 제2 카메라로부터 촬영된 영상을 제공받아 처리하여 제2 시점 영상을 생성하는 제2 시점 영상 획득부;
    상기 제1 시점 영상과 제2 시점 영상에 기초하여 변이 값들을 출력하는 스테레오 매칭부; 및
    상기 변이 값들을 토대로 상기 제1 시점 영상과 제2 시점 영상을 합성하여 시점 합성 영상을 생성하거나, 상기 제1 시점 영상과 제2 시점 영상을 처리하여 스테레오스코픽 영상을 생성하거나, 상기 제1 시점 영상과 제2 시점 영상 중에서 하나를 선택하여 처리하여 출력하는 영상 합성부
    를 포함하는, 영상 통화 장치.
  8. 제7항에 있어서
    상기 제1 영상 통화 모드시에 상기 영상 처리부는 상기 시점 합성 영상을 생성하여 상기 통화 처리부로 출력하고,
    상기 제2 영상 통화 모드시에 상기 영상 처리부는 상기 스테레오스코픽 영상을 생성하여 상기 통화 처리부로 출력하며,
    상기 제3 영상 통화 모드시에 상기 영상 처리부는 상기 제1 시점 영상이나 상기 제2 시점 영상 중 하나를 상기 통화 처리부로 출력하고,
    상기 음성 통화 모드시에 상기 영상 처리부는 영상을 출력하지 않는
    영상 통화 장치.
  9. 제6항에 있어서
    상기 통화 모드 변경부는 통화를 개시하는 시점 또는 통화를 수행하는 동안에 통화 모드를 변경하는, 영상 통화 장치.
  10. 네트워크를 통하여 상대 통화 장치와 통화를 수행하는 영상 통화 장치의 통화 방법에서,
    통화 모드 변경 요구의 발생 여부를 확인하는 단계; 및
    상기 통화 모드 변경 요구가 발생한 경우 통화 모드를 현재 통화 모드에서 상기 변경 요구에 따른 목표 통화 모드로 변경하는 단계
    를 포함하는, 통화 방법.
  11. 제10항에 있어서
    상기 변경하는 단계는
    상기 통화 모드를 변경한 다음에 변경된 통화 모드를 상기 상대 통화 장치로 통보하는 단계를 더 포함하는, 통화 방법.
  12. 제10항에 있어서
    상기 변경하는 단계는
    상기 현재 통화 모드의 레벨과 상기 목표 통화 모드의 레벨을 비교하는 단계; 및
    상기 목표 통화 모드의 레벨이 상기 현재 통화 모드의 레벨보다 낮은 경우에 통화 모드를 변경하는 단계
    를 포함하는, 통화 방법.
  13. 제12항에 있어서
    상기 변경하는 단계는
    상기 목표 통화 모드의 레벨이 상기 현재 통화 모드의 레벨보다 낮은 경우에 통화 모드를 변경할 예정임을 상기 상대 통화 장치로 통보하는 단계
    를 더 포함하고,
    상기 통보 후에 통화 모드 변경이 이루어지는 통화 방법.
  14. 제12항에 있어서
    상기 변경하는 단계는
    상기 목표 통화 모드의 레벨이 상기 현재 통화 모드의 레벨보다 높은 경우에 상기 상대 통화 장치와 미디어 협상을 수행하는 단계; 및
    상기 미디어 협상이 성공한 경우에, 현재 통화 모드를 상기 목표 통화 모드로 변경하는 단계
    를 더 포함하는, 통화 방법.
  15. 제10항에 있어서
    상기 통화 모드 변경 요구는 통신 채널의 상태, 현재 시스템 자원의 가용 상태 중 적어도 하나를 고려하여 통화 모드 변경이 요구되는 경우에 발생되는, 통화 방법.
  16. 제10항에 있어서
    상기 통화 모드는 시점 합성 영상을 토대로 통화를 하는 제1 영상 통화 모드, 스테레오스코픽 영상을 토대로 통화를 하는 제2 영상 통화 모드, 단일 영상을 토대로 통화를 하는 제3 영상 통화 모드, 음성 통화 모드 중 적어도 두 개를 포함하고,
    상기 음성 통화 모드에 제1 레벨, 상기 제3 영상 통화 모드에 제2 레벨, 상기 제1 영상 통화 모드에 제3 레벨, 상기 제2 영상 통화 모드에 제4 레벨이 각각 부여되고,
    제1 레벨<제2 레벨<제3 레벨<제4 레벨의 조건이 만족되는, 통화 방법.
  17. 제10항에 있어서
    상기 목표 통화 모드로의 변경을 수행하기 전에 상대 통화 장치로부터 통화 모드 변경에 관한 허락을 받는 단계를 추가로 포함하고,
    상기 목표 통화 모드로의 변경은 상기 상대 통화 장치로부터의 허락이 있는 경우에만 이행되는, 통화 방법.
  18. 네트워크를 통하여 상대 통화 장치와 통화를 수행하는 영상 통화 장치의 통화 방법에서,
    영상이 표시되는 화면의 주변에 위치하며, 기준점을 중심으로 서로 대칭 관계를 형성하는 서로 다른 위치에 각각 위치되어 있는 제1 카메라와 제2 카메라로부터 각각 제1 시점 영상 및 제2 시점 영상을 획득하는 단계;
    현재 통화 모드가 시점 합성 영상을 토대로 하는 영상 통화 모드인 경우, 상기 제1 시점 영상과 제2 시점 영상을 토대로 시점 합성 영상을 생성하는 단계; 및
    상기 시점 합성 영상을 토대로 영상 통화를 수행하는 단계
    를 포함하는, 통화 방법.
  19. 제18항에 있어서
    음성 통화 모드로의 변경 요구의 발생 여부를 확인하는 단계; 및
    상기 통화 모드 변경 요구가 발생한 경우 통화 모드를 현재 영상 통화 모드에서 상기 변경 요구에 따른 음성 통화 모드로 변경하는 단계
    를 더 포함하는, 통화 방법.
  20. 제19항에 있어서
    상기 변경된 통화 모드를 상기 상대 통화 장치로 통보하는 단계를 더 포함하는, 통화 방법.
PCT/KR2011/010401 2010-12-31 2011-12-30 카메라를 구비한 휴대용 영상 통화 장치 및 그 방법 WO2012091526A2 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/977,358 US20130278729A1 (en) 2010-12-31 2011-12-30 Portable video communication device having camera, and method of performing video communication using the same
EP11854137.4A EP2661076A2 (en) 2010-12-31 2011-12-30 Portable video communication device comprising a camera, and method therefor

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2010-0140722 2010-12-31
KR20100140722 2010-12-31
KR10-2011-0004231 2011-01-14
KR20110004231 2011-01-14
KR1020110147329A KR20120078649A (ko) 2010-12-31 2011-12-30 카메라를 구비한 휴대용 영상 통화 장치 및 그 방법
KR10-2011-0147329 2011-12-30

Publications (2)

Publication Number Publication Date
WO2012091526A2 true WO2012091526A2 (ko) 2012-07-05
WO2012091526A3 WO2012091526A3 (ko) 2012-10-04

Family

ID=46711931

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/010401 WO2012091526A2 (ko) 2010-12-31 2011-12-30 카메라를 구비한 휴대용 영상 통화 장치 및 그 방법

Country Status (4)

Country Link
US (1) US20130278729A1 (ko)
EP (1) EP2661076A2 (ko)
KR (1) KR20120078649A (ko)
WO (1) WO2012091526A2 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11019323B2 (en) * 2015-02-06 2021-05-25 Tara Chand Singhal Apparatus and method for 3D like camera system in a handheld mobile wireless device
KR102480600B1 (ko) * 2015-10-21 2022-12-23 삼성전자주식회사 이미지 처리 장치의 저조도 화질 개선 방법 및 상기 방법을 수행하는 이미지 처리 시스템의 동작 방법
JP7237538B2 (ja) 2018-11-14 2023-03-13 キヤノン株式会社 情報処理装置、それを含むシステム、情報処理方法、およびプログラム
KR20200131396A (ko) 2019-05-13 2020-11-24 삼성디스플레이 주식회사 표시 장치

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4061473B2 (ja) * 2002-04-26 2008-03-19 日本電気株式会社 折り畳み型携帯電話機
JP2004048644A (ja) * 2002-05-21 2004-02-12 Sony Corp 情報処理装置、情報処理システム、及び対話者表示方法
KR100548363B1 (ko) * 2003-06-30 2006-02-02 엘지전자 주식회사 영상통화 기능을 구비한 이동통신단말기의 채널설정방법
KR20060010089A (ko) * 2004-07-27 2006-02-02 엘지전자 주식회사 입체영상이 구현되는 이동통신 단말기
FR2874781B1 (fr) * 2004-08-25 2009-03-20 Cit Alcatel Appareil electronique portatif stereo
KR100640483B1 (ko) * 2004-10-22 2006-10-30 삼성전자주식회사 이동통신 단말기에서 통화 모드를 자동변경하기 위한 장치및 방법
KR100713415B1 (ko) * 2004-12-10 2007-05-04 삼성전자주식회사 영상 시점을 보정하는 이동통신단말기
US8219073B2 (en) * 2004-12-28 2012-07-10 Motorola Mobility, Inc. Method for simlutaneous communications management
KR100713511B1 (ko) * 2005-10-07 2007-04-30 삼성전자주식회사 이동 통신 단말기의 화상 통화 서비스 수행 방법
KR20080040542A (ko) * 2007-04-06 2008-05-08 (주)파버나인 양안식 자동화 입체영상 촬영시스템
CN101459857B (zh) * 2007-12-10 2012-09-05 华为终端有限公司 通信终端
CN101291415B (zh) * 2008-05-30 2010-07-21 华为终端有限公司 一种三维视频通信的方法、装置及系统
CN102210130A (zh) * 2008-11-07 2011-10-05 Nxp股份有限公司 使用基于设备类别的传输规则的对等通信
US20100194860A1 (en) * 2009-02-03 2010-08-05 Bit Cauldron Corporation Method of stereoscopic 3d image capture using a mobile device, cradle or dongle
TWI414170B (zh) * 2009-04-29 2013-11-01 Unique Instr Co Ltd A device with a 2D and 3D image display function mobile phone
US9596453B2 (en) * 2010-06-14 2017-03-14 Lg Electronics Inc. Electronic device and control method thereof
KR20120010764A (ko) * 2010-07-27 2012-02-06 엘지전자 주식회사 이동 단말기 및 3차원 영상 제어 방법
US9274744B2 (en) * 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US9035939B2 (en) * 2010-10-04 2015-05-19 Qualcomm Incorporated 3D video control system to adjust 3D video rendering based on user preferences
KR101729023B1 (ko) * 2010-10-05 2017-04-21 엘지전자 주식회사 휴대 단말기 및 그 동작 제어방법
US8823769B2 (en) * 2011-01-05 2014-09-02 Ricoh Company, Ltd. Three-dimensional video conferencing system with eye contact
US8451344B1 (en) * 2011-03-24 2013-05-28 Amazon Technologies, Inc. Electronic devices with side viewing capability
US8937646B1 (en) * 2011-10-05 2015-01-20 Amazon Technologies, Inc. Stereo imaging using disparate imaging devices

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Efficient Dense Stereo with Occlusion for New View-Synthesis by Four-State Dynamic Programming", JOURNAL ON COMPUTER VISION, 2007

Also Published As

Publication number Publication date
WO2012091526A3 (ko) 2012-10-04
US20130278729A1 (en) 2013-10-24
EP2661076A2 (en) 2013-11-06
KR20120078649A (ko) 2012-07-10

Similar Documents

Publication Publication Date Title
WO2010038970A2 (en) Method and system for managing an imaging device by an electronic device located remotely to the imaging device
US20070147827A1 (en) Methods and apparatus for wireless stereo video streaming
US20050208962A1 (en) Mobile phone, multimedia chatting system and method thereof
CN112911197B (zh) 影像信息处理系统、移动通信终端和影像信息处理方法
US10079867B2 (en) Apparatus, system, and method of controlling output of content data, and recording medium
WO2011088803A1 (zh) 实现手机共享数据的方法、装置和通信系统
WO2012091526A2 (ko) 카메라를 구비한 휴대용 영상 통화 장치 및 그 방법
CN103997519A (zh) 传输图像的方法及装置
US9094574B2 (en) Information processing apparatus, conference system, and computer program products
US9013537B2 (en) Method, device, and network systems for controlling multiple auxiliary streams
US8373740B2 (en) Method and apparatus for video conferencing in mobile terminal
WO2022005116A1 (ko) 무선 통신 시스템에서 데이터의 송수신을 제어하기 위한 방법 및 장치
US9648276B2 (en) Transmission management apparatus, transmission system, transmission management method and recording medium
KR20130117991A (ko) 영상통신장치, 영상통신서버 및 영상통신을 위한 영상처리방법
CN113259729B (zh) 数据切换的方法、服务器、系统及存储介质
US7321382B2 (en) Virtual communication device configuring method and apparatus
WO2012074291A2 (en) Apparatus and method for transmitting video data in video device
JP2010263326A (ja) 通信システム
JP2012138772A (ja) 機器情報通信方法、映像表示装置および映像表示システム
CN115695928A (zh) 一种投屏方法、装置、电子设备及存储介质
KR20020096486A (ko) 이동전화기를 이용한 원격감시 장치 및 방법
JP2005322969A (ja) 映像送信装置,映像受信装置,映像通信システム,映像送信方法,映像受信方法,映像通信方法,映像送信プログラムおよび映像受信プログラム
WO2024167098A1 (en) Methods and device for providing seamless connectivity in a call
US10158824B2 (en) Imaging apparatus, electronic device and imaging system
WO2014010895A1 (ko) 영상 통신 시스템에서 컬러 정보를 교섭하는 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11854137

Country of ref document: EP

Kind code of ref document: A2

WWE Wipo information: entry into national phase

Ref document number: 2011854137

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13977358

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE