WO2022050622A1 - 디스플레이장치 및 그 제어방법 - Google Patents

디스플레이장치 및 그 제어방법 Download PDF

Info

Publication number
WO2022050622A1
WO2022050622A1 PCT/KR2021/011262 KR2021011262W WO2022050622A1 WO 2022050622 A1 WO2022050622 A1 WO 2022050622A1 KR 2021011262 W KR2021011262 W KR 2021011262W WO 2022050622 A1 WO2022050622 A1 WO 2022050622A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
video call
image
display apparatus
processor
Prior art date
Application number
PCT/KR2021/011262
Other languages
English (en)
French (fr)
Inventor
송요한
박찬호
Original Assignee
삼성전자(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자(주) filed Critical 삼성전자(주)
Publication of WO2022050622A1 publication Critical patent/WO2022050622A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working

Definitions

  • the present invention relates to a display apparatus capable of displaying an image by processing received data, and a method for controlling the same, and more particularly, a display apparatus for displaying an image by photographing a user's appearance to perform a video call with a counterpart of one or more external devices. and to a control method thereof.
  • an electronic device that basically includes electronic components such as a CPU, a chipset, and a memory for arithmetic operation may be of various types depending on the information to be processed or the purpose of use. can be divided into
  • electronic devices include information processing devices such as PCs or servers that process general-purpose information, image processing devices that process image data, audio devices that process audio, and household appliances that perform household chores.
  • the image processing apparatus may be implemented as a display apparatus that displays processed image data as an image on a display panel having its own.
  • the display apparatus may perform more extended functions based on communication with an external device through a wide area network.
  • An example of such a function is a video call.
  • the display device In a video call, the display device generates image data by photographing a user's appearance through a camera, and generates voice data by acquiring the user's voice through a microphone.
  • the display device outputs the user's image data and audio data from the display device, and transmits the same data to the external device, which is the other party of the video call, so that the same data is output from the external device.
  • the display device also outputs the image data and audio data of the other party received from the external device. Accordingly, a video call is made between the user and the other party through the display device and the external device.
  • Exposure of privacy during a video call may become a problem depending on various factors such as the type of display device performing the video call and the user's separation distance from the camera during video call.
  • privacy exposure may occur both when a mobile device with the camera is close to the user's face and when the user uses a fixed display device, such as a TV, which is relatively far from the camera.
  • a fixed display device such as a TV
  • the angle of view of the camera photographing the user is wider than in the former case, the area of the background other than the user in the image data photographed by the camera is also widened. Because of this, in the latter case, the risk of unintentional exposure of privacy by the user increases. .
  • a display device that minimizes privacy exposure that may occur during a video call may be required.
  • a display device includes a display, an interface provided to communicate with an external device, and an image of a user captured by a camera to perform a video call with a counterpart of the external device through the interface. to identify whether or not the object is related to the video call based on the inclusion of an object different from the user in the video, and in response to whether the object is related to the video call, within the video and a processor that selectively performs an exposure blocking process on an area corresponding to the object.
  • the processor may perform the exposure blocking process on a region corresponding to the object in the image, and release the exposure blocking processing based on the object being identified as being related to the video call.
  • the processor may identify whether the object is associated with the video call based on the object being a new user of the video call different from the user.
  • a storage unit for storing a list of caller accounts related to the video call may be further included, and the processor may search for the new user from the list stored in the storage unit.
  • the processor may identify the object as the new user based on the identification that the gaze of the object faces the camera.
  • the processor may identify the object as the new user based on the identification of the object as taking a predefined movement.
  • the processor may release the exposure blocking processing based on the identification of the object as taking a predefined movement. there is.
  • the processor may perform the exposure blocking process on the entire image based on it being identified that there is no user related to the video call in the image.
  • the processor may perform the exposure blocking process by blurring an area corresponding to the object.
  • the processor may perform the exposure blocking process by overlaying a predefined image on an area corresponding to the object.
  • the processor may perform the exposure blocking process by lowering a resolution of a region corresponding to the object.
  • the processor may perform the exposure blocking process by increasing transparency of a region corresponding to the object.
  • the processor may perform the exposure blocking process by muting the audio related to the object.
  • the method for controlling a display apparatus includes the steps of displaying an image of a user captured by a camera to perform a video call with a counterpart of an external device, and an object different from the user in the image Identifying whether the object is related to the video call based on the inclusion, and in response to whether the object is related to the video call, exposure blocking processing in an area corresponding to the object in the video optionally performing.
  • FIG. 1 is an exemplary diagram illustrating a state in which a video call is made between a display device and an external device.
  • FIG. 2 is a block diagram of a display device.
  • FIG. 3 is a flowchart illustrating a control method of a display apparatus.
  • FIG. 4 is an exemplary view illustrating an angle of view of a camera of a display device.
  • FIG. 5 is an exemplary diagram illustrating a case in which the display apparatus performs exposure blocking processing on an image.
  • FIG. 6 is an exemplary diagram illustrating a case in which exposure blocking processing is not performed on an image.
  • FIG. 7 is an exemplary diagram illustrating a criterion for determining whether a display device is related to a video call of a second user.
  • FIG. 8 is an exemplary diagram illustrating a principle of the display apparatus selectively canceling exposure blocking processing in response to a gesture of a second user.
  • FIG. 9 is an exemplary diagram illustrating a principle of a display apparatus selectively performing an exposure blocking process in response to a gesture of a second user.
  • FIG. 10 is an exemplary diagram illustrating a case in which some of a plurality of users in a display device are out of a range of an angle of view of a camera.
  • 11 is an exemplary diagram illustrating a case in which all users of the display device are out of the range of the camera's angle of view.
  • FIG. 12 is an exemplary diagram illustrating a separation distance for each location of a user in front of a display device.
  • FIG. 13 is an exemplary diagram illustrating a case in which the display apparatus performs exposure blocking processing on the background of an image.
  • the present expression refers not only to all of the plurality of components, but also each one or these excluding the rest of the plurality of components. refers to any combination of
  • FIG. 1 is an exemplary diagram illustrating a state in which a video call is made between a display device and an external device.
  • the display apparatus 100 is implemented as, for example, a TV.
  • the display device 100 can display an image on the screen other than the TV, and can be implemented as various types of devices capable of communicating with the external device 200, for example, a TV, a monitor, and a digital signage ( signage), an electronic blackboard, or a fixed display device including an electronic picture frame; or a mobile device including a smart phone, a tablet device, and a portable multimedia player; household appliances with a display, such as a refrigerator, washing machine, clothing management device, or air conditioner; It can be implemented as a gateway, hub, host device, etc. that builds an IoT environment with a display.
  • a gateway, hub, host device, etc. that builds an IoT environment with a display.
  • the display apparatus 100 may perform a video call by transmitting and receiving data to and from the external apparatus 200 .
  • the external device 200 is implemented as a device capable of displaying an image like the display device 100 . In the present embodiment, it is described that the display apparatus 100 and the external device 200 perform a one-to-one video call, but a video call can also be performed with a plurality of external devices 200 .
  • the display apparatus 100 acquires image data by photographing the user 10 through a camera, and acquires voice data by collecting the user's 10 voice through a microphone.
  • the display apparatus 100 displays the image 101 of the user 10 based on the acquired image data, and outputs the acquired audio data as sound. Then, the display apparatus 100 transmits the acquired image data and audio data to the external apparatus 200 .
  • the external device 200 displays the image 202 of the user 10 based on the received image data, and outputs the received audio data as sound. That is, the image 101 displayed on the display apparatus 100 and the image 202 displayed on the external apparatus 200 are based on the same image data.
  • the external device 200 acquires data regarding the appearance and voice of the other party 20 performing a video call with the user 10 .
  • the external device 200 displays an image 201 of the counterpart 20 based on the image data, while transmitting the image data to the display device 100 so that the display device 100 displays the same image 102 . make it displayed
  • a video call is made between the user 10 of the display device 100 and the counterpart 20 of the external device 200 .
  • FIG. 2 is a block diagram of a display device.
  • the display apparatus 100 includes various hardware elements for operation.
  • the display device 100 in the present embodiment has a structure in which the display unit 120 is not separated into a separate device, this is only an example.
  • the remaining hardware of the display apparatus 100 except for the display unit 120 constitutes an image processing device, and the display apparatus 100 in a form in which the display unit 120 is separated into a separate device is also possible. Do.
  • the display apparatus 100 may include an interface unit 110 .
  • the interface unit 110 includes an interface circuit for the display apparatus 100 to communicate with various types of external devices 200 and to transmit and receive data.
  • the interface unit 110 includes one or more wired interface units 111 for wired communication connection and one or more wireless interface units 112 for wireless communication connection according to a connection method.
  • the wired interface unit 111 includes a connector or port to which a cable of a predefined transmission standard is connected.
  • the wired interface unit 111 includes a port to which a terrestrial or satellite broadcasting antenna is connected to receive a broadcast signal, or a cable for cable broadcasting is connected.
  • the wired interface unit 111 is a port to which cables of various wired transmission standards such as HDMI, DP (DisplayPort), DVI, component, composite, S-Video, and Thunderbolt are connected to connect with various image processing devices.
  • the wired interface unit 111 includes a USB standard port for connecting to a USB device.
  • the wired interface unit 111 includes an optical port to which an optical cable is connected.
  • the wired interface unit 111 includes an audio input port to which an external microphone is connected, and an audio output port to which a headset, earphone, external speaker, etc. are connected.
  • the wired interface unit 111 includes an Ethernet port connected to a gateway, a router, a hub, or the like to access a wide area network.
  • the wireless interface unit 112 includes a bidirectional communication circuit including at least one of components such as a communication module and a communication chip corresponding to various types of wireless communication protocols.
  • the wireless interface unit 112 includes a Wi-Fi communication chip that performs wireless communication with an AP (Access Point) according to a Wi-Fi method, Bluetooth, Zigbee, Z-Wave, WirelessHD, WiGig, NFC, etc. It includes a communication chip for performing wireless communication, an IR module for IR communication, and a mobile communication chip for performing mobile communication with a mobile device.
  • the display apparatus 100 may include a display unit 120 .
  • the display unit 120 forms a screen for displaying the image signal processed by the processor 180 as an image.
  • the display unit 120 includes a display panel, and various design methods may be applied to the structure of the display panel.
  • the display unit 120 may include a display panel having a light-receiving structure such as liquid crystal and a backlight providing light thereto.
  • the display unit 120 may include a display panel having a self-luminous structure such as an OLED.
  • the display unit 120 may have a structure in which a plurality of micro LED modules are combined in a tile form to form a large screen.
  • the display apparatus 100 may include a user input unit 130 .
  • the user input unit 130 includes various types of user input interface related circuits provided to allow a user to operate the user input unit 130 .
  • the user input unit 130 may be configured in various forms depending on the type of the display apparatus 100 , for example, a mechanical button unit or an electronic button unit of the display apparatus 100 , a touch pad, various types of sensors, and a display.
  • the display apparatus 100 may include a storage unit 140 .
  • the storage unit 140 stores digitized data.
  • the storage unit 140 is a nonvolatile storage capable of preserving data regardless of whether power is supplied or not, and data to be processed by the processor 180 is loaded, and data is stored when power is not provided. This includes memory with volatile properties that cannot be used. Storage includes flash-memory, hard-disc drive (HDD), solid-state drive (SSD), read-only memory (ROM), etc., and memory includes buffer and random access memory (RAM). etc.
  • the display apparatus 100 may include a speaker 150 .
  • the speaker 150 outputs the audio signal processed by the processor 180 as sound.
  • the speaker 150 may be installed in the display device 100 , installed in the display unit 120 , or may be provided as a separate device. When the speaker 150 is provided as a separate device, the speaker 150 is connected through the interface unit 110 .
  • the display apparatus 100 may include a camera 160 .
  • the camera 160 uses a device such as a charge-coupled device (CCD), a complementary metal-oxide semiconductor (CMOS), or the like, and captures the external environment of the display device 100 to generate image data.
  • the camera 160 transmits the image data generated in this way to the processor 180 .
  • the display apparatus 100 may include a microphone 170 .
  • the microphone 170 generates audio data by collecting sounds generated in the surrounding environment of the display apparatus 100 .
  • the microphone 170 transmits the audio data generated in this way to the processor 180 .
  • the camera 160 and the microphone 170 are separate components from the user input unit 130 .
  • the camera 160 or the microphone 170 may be regarded as a configuration included in the user input unit 130 .
  • the display apparatus 100 includes the camera 160 and the microphone 170
  • the camera 160 or the microphone 170 may be a separate device rather than a component of the display device 100 . That is, the display device 100 transmits image data obtained by photographing the surrounding environment or audio data obtained by collecting sounds of the surrounding environment, with a separate device capable of communicating (eg, a photographing device having a camera, a device equipped with a microphone, etc.) It can also be obtained from In this case, the display apparatus 100 receives image data or audio data from the corresponding apparatus through the interface unit 110 .
  • the display apparatus 100 may include a processor 180 .
  • the processor 180 includes one or more hardware processors implemented with a CPU, a chipset, a buffer, a circuit, etc. mounted on a printed circuit board, and may be implemented as a system on chip (SOC) depending on a design method.
  • the processor 180 includes modules corresponding to various processes such as a demultiplexer, a decoder, a scaler, an audio digital signal processor (DSP), and an amplifier to display image content as an image.
  • some or all of these modules may be implemented as SOC.
  • a module related to image processing such as a demultiplexer, decoder, and scaler may be implemented as an image processing SOC
  • an audio DSP may be implemented as a chipset separate from the SOC.
  • the processor 180 processes the user's image data captured by the camera 160 while a predetermined user performs a video call and displays the image on the display unit 120, while displaying the image data on the interface unit ( 110) to the external device 200.
  • the processor 180 processes the user's voice data collected by the microphone 170 and outputs the sound through the speaker 150 , while outputting the corresponding voice data to the external device 200 through the interface unit 110 . send to
  • the processor 180 performs an operation for preventing privacy exposure during a video call, and this embodiment will be described below.
  • FIG. 3 is a flowchart illustrating a control method of a display apparatus.
  • the following operation is performed by the processor 180 of the display apparatus 100 .
  • step 310 the display device 100 is communicatively connected to the external device 200 for a video call.
  • the display apparatus 100 acquires image data of the user of the display apparatus 100 .
  • the user's image data may be obtained from the camera 160 provided in the display apparatus 100 or may be received from a separate apparatus.
  • step 330 the display apparatus 100 displays the user's image based on the user's image data, and transmits the user's image data to the external device 200 .
  • the display apparatus 100 detects that an object other than the user is included in the image.
  • the object other than the user may be, for example, an object corresponding to a person other than the user.
  • step 350 the display device 100 identifies whether the object is related to the video call.
  • a criterion for identifying whether an object is related to a video call may be variously designated according to a design method, and some examples of this criterion will be described later.
  • the display device 100 processes the image data so that a predefined exposure blocking process is performed on an area corresponding to the object in the video in step 360 do.
  • the exposure blocking processing is a processing prepared in advance to block the exposure of privacy, and specific examples will be described later.
  • the display apparatus 100 performs the video call without performing the exposure blocking process.
  • the display device 100 determines that the person is not involved in the video call, the display device 100 and the external device 200 Block the exposure of the person in the video displayed in . Accordingly, according to the present embodiment, it is possible to block exposure of privacy that may unintentionally occur during a video call.
  • the processor 180 of the display device 100 identifies the user in the image as described above, the operation of identifying a non-user object in the image, or whether the object is related to the video call
  • At least a part of data analysis, processing, and result information generation for performing an operation, etc. can be performed using at least one of machine learning, neural network, or deep learning algorithm as a rule-based or artificial intelligence algorithm. there is.
  • the processor 180 of the display apparatus 100 may perform the functions of the learning unit and the recognition unit together.
  • the learning unit may perform a function of generating a learned neural network
  • the recognition unit may perform a function of recognizing (or inferring, predicting, estimating, determining) data using the learned neural network.
  • the learning unit may create or update the neural network.
  • the learning unit may acquire learning data to generate a neural network.
  • the learning unit may acquire learning data from a storage unit of the display apparatus 100 or from the outside.
  • the learning data may be data used for learning of the neural network, and the neural network may be trained by using the data obtained by performing the above-described operation as learning data.
  • the learning unit may perform a preprocessing operation on the acquired training data before training the neural network using the training data, or may select data to be used for learning from among a plurality of training data. For example, the learning unit may process the learning data in a preset format, filter it, or add/remove noise to process the learning data into a form suitable for learning. The learner may generate a neural network set to perform the above-described operation by using the preprocessed learning data.
  • the learned neural network network may be composed of a plurality of neural network networks (or layers). Nodes of the plurality of neural networks have weights, and the plurality of neural networks may be connected to each other so that an output value of one neural network is used as an input value of another neural network.
  • Examples of neural networks include Convolutional Neural Network (CNN), Deep Neural Network (DNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN) and It can include models such as Deep Q-Networks.
  • the recognizer may acquire target data to perform the above-described operation.
  • the target data may be obtained from the storage 140 of the display apparatus 100 or from the outside.
  • the target data may be data to be recognized by the neural network.
  • the recognizer may perform preprocessing on the acquired target data before applying the target data to the learned neural network, or select data to be used for recognition from among a plurality of target data.
  • the recognition unit may process the target data into a preset format, filter, or add/remove noise to process the target data into a form suitable for recognition.
  • the recognizer may obtain an output value output from the neural network by applying the preprocessed target data to the neural network.
  • the recognition unit may obtain a probability value or a reliability value together with the output value.
  • the time point at which the display apparatus 100 displays an image based on the image data is a predetermined time longer than the time point at which the display apparatus 100 acquires image data by photographing the camera 160.
  • delay occurs. This delay may occur in the process of data transfer and processing performed by the display apparatus 100 , but may also depend on the relationship between the range of the angle of view detected by the camera 160 and the width of the image.
  • the display apparatus 100 may utilize the delay of this time to first perform exposure blocking processing on an object, and then release the exposure blocking processing when it is identified that the corresponding object is not a target of processing.
  • the relationship between the angle of view of the camera 160 and the width of the image will be described.
  • FIG. 4 is an exemplary view illustrating an angle of view of a camera of a display device.
  • the display apparatus 100 displays an image 101 of the first user 10 by capturing a predetermined first user 10 by the camera 160 during a video call.
  • the first user 10 is a caller related to the video call.
  • the limit of the angle of the space where the camera 160 can photograph is referred to as an angle of view of the corresponding camera 160 .
  • an angle of view of the corresponding camera 160 In order to simplify the description, in the present embodiment, a case of an angle of view along the left and right directions among the examples of the angle of view will be described.
  • the display apparatus 100 processes the image data captured by the camera 160 to display the image 101 , and the range displayed on the image 101 is smaller than the range by the angle of view of the camera 160 . That is, when the angle of view of the camera 160 is V and the angle of the range displayed on the image 101 is V1, V>V1.
  • the display apparatus 100 cuts out the left area of the first user 10 and the right area of the first user 10 from among the areas included in the angle of view of the camera 160 , and includes the first user 10 .
  • the display apparatus 100 performs an exposure blocking process for an area corresponding to the second user 30 in the image 101 at a first point in time for image data captured by the camera 160 . carry out Thereafter, the display apparatus 100 identifies whether the second user 30 is involved in the video call during the above time interval. The display device 100 continues to perform the above-described exposure blocking processing when it is identified that the second user 30 is not related to the video call, and when it is identified that the second user 30 is related to the video call, the above-described exposure Unblock processing. Accordingly, the display apparatus 100 may provide the user to feel the exposure blocking process in real time as much as possible.
  • FIG. 5 is an exemplary diagram illustrating a case in which the display apparatus performs exposure blocking processing on an image.
  • the display apparatus 100 captures the surrounding environment including the first user 10 by the camera 160 during the video call, and displays an image 510 indicating the surrounding environment.
  • the image 510 of the first user 10 is displayed on the display apparatus 100, but this is for concisely showing only the content related to the embodiment of the present invention.
  • the display apparatus 100 may display an image (eg, number 102 in FIG. 1 ) about the other party of the video call together with the image 510 about the first user 10 .
  • the display device 100 When the second user 30 is newly detected by the camera 160 while the image 510 is displayed, and the detected second user 30 is identified as not related to the video call, the display device 100 is An exposure blocking process is performed on the area 511 corresponding to the second user 30 in the image 510 .
  • the area 511 corresponding to the second user 30 is an area including at least an object corresponding to the second user 30 in the image 510, and may further include a part of the background around the object. may be
  • the exposure blocking process is to prevent the second user 30 from being exposed through the displayed image 510
  • various image processing methods may be applied depending on the design method.
  • the display apparatus 100 may perform blur processing on the area 511 corresponding to the second user 30 .
  • Blur is a method of processing the image to make it difficult to recognize the outline of an object by making the image out of focus, blurring the image as a whole. Since the blurred image blurs its outline, it becomes difficult for a viewer to recognize a specific object in the image.
  • the display apparatus 100 may overlay a predefined image on the area 511 corresponding to the second user 30 . That is, the display apparatus 100 covers the corresponding area 511 with an image prepared in advance for blocking exposure, so that the second user 30 cannot be identified from the image 510 .
  • the display apparatus 100 may lower the resolution of the area 511 corresponding to the second user 30 compared to other areas of the image 510 .
  • the resolution of a predetermined image is lowered, there is an effect that it becomes difficult to distinguish a foreground and a background in the corresponding image.
  • the display apparatus 100 may increase the transparency of the area 511 corresponding to the second user 30 .
  • the display apparatus 100 increases the transparency of the corresponding area 511 so that it is difficult to recognize the outline of the second user 30 in the image 510 .
  • various methods may be applied as a method of blocking exposure.
  • FIG. 6 is an exemplary diagram illustrating a case in which exposure blocking processing is not performed on an image.
  • the display apparatus 100 captures the surrounding environment including the first user 10 by the camera 160 during a video call, and displays an image 610 indicating the surrounding environment.
  • the display device 100 displays the image In 610 , the exposure blocking process is not performed on the area corresponding to the second user 30 .
  • the display apparatus 100 cancels the exposure blocking process in the image 610 . That is, the image 610 shows the appearance of the first user 10 and the appearance of the second user 30 together.
  • the method and example of the exposure blocking process described in the previous embodiment relates to an image.
  • the exposure blocking process is not limited to images. That is, the exposure blocking process may include a processing method related to the newly detected voice of the second user 30 .
  • the display apparatus 100 newly detects the second user 30 during the video call.
  • the display device 100 allows the collected voice of the second user 30 to be output as sound.
  • the display apparatus 100 when the display apparatus 100 identifies that the second user 30 is related to the video call, the display apparatus 100 blocks the collected voice of the second user 30 from being output as sound. That is, the display apparatus 100 mutes the voice of the second user 30 . Alternatively, the display apparatus 100 may lower the sound output of the second user 30's voice by a predefined level without completely muting the second user's 30 voice.
  • FIG. 7 is an exemplary diagram illustrating a criterion for determining whether a display device is related to a video call of a second user.
  • the display apparatus 100 may newly detect the second user while the first user is making a video call ( 710 ). In this case, the display device 100 identifies the second user as being related to the video call ( 730 ), or the second user is not related to the video call, based on the predefined criterion ( 720 ). can be identified (740).
  • the applied determination criterion 720 is not limited to any one since various methods may be applied depending on the design method of the display apparatus 100 .
  • some examples of the determination criteria 720 will be described.
  • the display apparatus 100 may use any one determination criterion 720 according to a design method, and may use two or more determination criteria 720 together.
  • a list 721 of callers involved in a video call may be prepared in advance.
  • This list 721 may include IDs of one or more users related to the video call.
  • the display apparatus 100 searches whether the ID of the second user identified in the image is in the list 721 . If the ID of the second user is in the list 721, the display device 100 identifies that the second user is related to the video call, and if the ID of the second user is not in the list 721, the second user participates in the video call. It can be identified as unrelated.
  • the display apparatus 100 lists the ID of the second user by recording the ID of the second user in the list 721 when the second user's ID is not in the list 721, and the second user is identified as being related to the video call through another method. (721) may be updated. Conversely, in the display apparatus 100 , the ID of the second user is in the list 721 , and when it is identified that the second user is not related to the video call through another method, the ID of the second user is retrieved from the list 721 . It is also possible to update the list 721 by deleting it.
  • the list 721 may be updated through a user's direct input.
  • the list 721 may be updated using the AI 722 .
  • the display device 100 performs learning of the face and voice of the second user through the AI 722, identifies whether the second user is related to the video call through various methods, and updates the identification result in the list 721. may be
  • the display apparatus 100 may identify the second user by matching the acquired second user's face information and voice information based on the previously registered DB of face information and voice information.
  • the display apparatus 100 may record the face and voice of a participant before the start of the video call and register it in the DB or model.
  • the display apparatus 100 may transmit an image to the server and receive a recognition result from the server.
  • the display apparatus 100 may automatically register a person detected from the start time of the video call as a caller in the list 721 . Thereafter, the display apparatus 100 registers the newly detected person in the list 721 according to whether or not the video call is related.
  • the AI 722 may be used.
  • the identification result of the AI 722 may be variously provided according to what parameter is applied to the AI 722 .
  • the display apparatus 100 may use the AI 722 to track the direction in which the gaze of the second user faces in the image captured by the camera. If it is analyzed that the second user's gaze is directed toward the camera for a preset time period or more than a preset number of times, the display apparatus 100 identifies that the second user is involved in the video call, and if it is not analyzed, the second user performs a video call can be identified as not related to
  • the display device 100 uses the AI 722 to analyze the context of the voice of the second user collected by the microphone, and identifies whether the second user is related to the video call according to the analysis result of the context. You may.
  • the second user's voice is converted into text through voice recognition technology, and it can be identified through the AI 722 whether the second user's text is the content of conversation with the other party of the video call in context.
  • the display apparatus 100 identifies that the second user is related to the video call if it is identified that the second user is talking with the other party, and if it is not analyzed, the second user participates in the video call can be identified as unrelated.
  • the operation of the AI 722 as described in the above embodiments may be mounted on the display device 100 or a server communicating therewith.
  • the AI 722 may be applied to various overall systems by utilizing a machine learning algorithm.
  • An AI system is a computer system that implements human-level or human-level intelligence. A machine, device, or system autonomously learns and makes decisions, and the recognition rate and judgment accuracy are improved based on the accumulation of use experience.
  • AI technology consists of element technologies that mimic functions such as cognition and judgment of the human brain by using machine learning technology and algorithms that classify and learn the characteristics of input data by themselves.
  • the element technologies are, for example, linguistic understanding technology that recognizes human language and characters, visual understanding technology that recognizes objects as if they were human eyes, reasoning and prediction technology that logically infers and predicts information by judging information, and human experience It includes at least one of a knowledge expression technology that processes information as knowledge data, and a motion control technology that controls autonomous driving of a vehicle or movement of a robot.
  • linguistic understanding is a technology for recognizing and applying human language or text, and includes natural language processing, machine translation, dialogue system, question answering, voice recognition and synthesis, and the like.
  • Inferential prediction is a technology for logically predicting information by judging it, and includes knowledge and probability-based reasoning, optimization prediction, preference-based planning, recommendation, and the like.
  • Knowledge representation is a technology for automatically processing human experience information into knowledge data, and includes knowledge construction such as data generation and classification, and knowledge management such as data utilization.
  • the gesture detection result 723 may be used.
  • the display apparatus 100 may identify the gesture action of the second user in the image data captured by the camera. When it is identified that the second user performs a predefined gesture, the display device 100 identifies the second user as being related to the video call, and when it is analyzed that it is not, the second user is identified as not involved in the video call. can
  • FIG. 8 is an exemplary diagram illustrating a principle of the display apparatus selectively canceling exposure blocking processing in response to a gesture of a second user.
  • the display apparatus 100 displays an image including the first user 10 while the first user 10 conducts a video call.
  • the display device 100 blocks exposure to the second user 30 at a predetermined time T1.
  • the image 810 on which the process 811 has been performed is displayed.
  • the image 810 includes an object corresponding to the first user 10 and an object corresponding to the second user 30 .
  • the exposure blocking process is not performed on the object corresponding to the first user 10 , whereas the exposure blocking processing is performed on the object corresponding to the second user 30 .
  • the second user 30 performs a predefined gesture after time point T1 is considered.
  • This gesture is predefined to indicate that it is related to a video call.
  • the display apparatus 100 releases the exposure blocking process 811 for the second user 30 at time T2 to display the image 820 . . That is, even if the display apparatus 100 initially identifies that the second user 30 is not related to the video call and performs the exposure blocking process 811 , it is then detected that the second user 30 makes a specific gesture. If it is, the second user 30 can be identified as being related to the video call.
  • a gesture is not necessarily defined only when it is related to a video call, and conversely, it can be defined even when it is not related to a video call.
  • a gesture is not necessarily defined only when it is related to a video call, and conversely, it can be defined even when it is not related to a video call.
  • FIG. 9 is an exemplary diagram illustrating a principle of a display apparatus selectively performing an exposure blocking process in response to a gesture of a second user.
  • the display apparatus 100 displays an image including the first user 10 while the first user 10 conducts a video call.
  • the display device 100 displays the second user together with the first user 10 at a predetermined time T1.
  • An image 910 in which the user 30 appears is displayed.
  • exposure blocking processing is not performed on the object corresponding to the second user 30 .
  • This gesture is predefined to indicate that it is not related to a video call.
  • the display apparatus 100 performs exposure blocking processing 921 on the object corresponding to the second user 30 at time T2 to display the image 920 . ) is indicated.
  • the gesture may be defined to indicate that the second user 30 is related to a video call, or conversely, may be defined to indicate that the second user 30 is not related to a video call.
  • FIG. 10 is an exemplary diagram illustrating a case in which some of a plurality of users in a display device are out of a range of an angle of view of a camera.
  • the display apparatus 100 displays an image 1000 when two users, for example, a first user 10 and a second user 30 make a video call.
  • the image 1000 is initially displayed when the first user 10 and the second user 30 are within the angle of view range V of the camera 160 , the object corresponding to the first user 10 and the second user (30) Include the corresponding object together.
  • the display apparatus 100 does not perform an additional operation other than a normal operation for a video call.
  • 11 is an exemplary diagram illustrating a case in which all users of the display device are out of the range of the camera's angle of view.
  • the display device 100 detects this state through the camera 160 (and the video call is not ended), the display device 100 performs exposure blocking processing on the entire image 1100 .
  • An example of the exposure blocking treatment is the same as described in the previous embodiment.
  • the camera 160 Even if there is no person within the field of view range V of the camera 160, if the video call is not ended, the camera 160 continues shooting, and the image data by the shooting includes the surrounding environment of the display device 100. will appear
  • the display apparatus 100 performs exposure blocking processing on the entire image 1100 so that the exposure of privacy is minimized even if the image data obtained by the camera 160 is transmitted to the other party of the video call.
  • the present embodiment is equally applied to the case where the video call is not plural but a single caller. That is, only the first user 10 performed a video call from the beginning, and then, when it is detected that the first user 10 is out of the angle of view range V of the camera 160 , the display device 100 displays the image 1100 ) to perform exposure blocking treatment throughout.
  • the display apparatus 100 may determine whether to perform exposure blocking processing when a specific condition is satisfied. That is, the display apparatus 100 may unconditionally perform step 350 of FIG. 3 , but may or may not perform step 350 of FIG. 3 according to specific conditions depending on a design method.
  • the display apparatus 100 may unconditionally perform step 350 of FIG. 3 , but may or may not perform step 350 of FIG. 3 according to specific conditions depending on a design method.
  • FIG. 12 is an exemplary diagram illustrating a separation distance for each location of a user in front of a display device.
  • the display apparatus 100 photographs the user 10 in front of the camera 160 by the camera 160 .
  • the display apparatus 100 may calculate the distance the user 10 is separated from the display apparatus 100 or the camera 160 from the image data captured by the camera 160 .
  • the separation distance of the user 10 may be calculated by various methods, and AI may be utilized as an example.
  • the display apparatus 100 may identify an object corresponding to the user 10 from the image data, and calculate the separation distance of the user 10 through depth analysis of the corresponding object. Alternatively, when there are a plurality of cameras 160 , the display apparatus 100 may calculate the separation distance of the user 10 using trigonometry.
  • the display apparatus 100 measures the time for the ultrasonic wave emitted from the sensor to be reflected by the user 10 and arrives at the sensor, and the distance of the user 10 is based on the measurement result. You can also calculate the distance.
  • the relation between the distance between the camera 160 and the user 10 and the image displayed during a video call it is as follows. If the separation distance of the user 10 is relatively close, the appearance of the user 10 in the image occupies a relatively large area. In this case, it is expected that the risk of privacy exposure through the background rather than the user 10 in the image is relatively small. On the other hand, if the separation distance of the user 10 is relatively long, the appearance of the user 10 in the image occupies a relatively small area. In this case, since the background in the image is widened, the risk of privacy exposure is relatively high.
  • the display apparatus 100 defines the separation distance Dt from the display apparatus 100 or the camera 160 as a threshold in advance.
  • the display apparatus 100 calculates the separation distance of the user 10 , and when the separation distance of the user 10 is D1 closer than Dt, the determination regarding exposure blocking processing is not performed, and the separation distance of the user 10 is Dt If it is farther than D2, a judgment regarding exposure blocking processing is performed.
  • the display device 100 selectively relates to the exposure blocking process according to the area ratio of the object corresponding to the user 10 in the video call image captured by the camera 160, not the separation distance of the user 10 judgment may be performed. If the area ratio of the object corresponding to the user 10 in the video for video call is greater than a predefined threshold (ie, if the area ratio of the background is relatively small), the display device 100 performs a determination regarding exposure blocking processing. If the area ratio of the object corresponding to the user 10 is smaller than the threshold value (ie, when the area ratio of the background is relatively large), the determination regarding the exposure blocking process may be performed.
  • a predefined threshold ie, if the area ratio of the background is relatively small
  • the display device 100 performs a determination regarding exposure blocking processing. If the area ratio of the object corresponding to the user 10 is smaller than the threshold value (ie, when the area ratio of the background is relatively large), the determination regarding the exposure blocking process may be performed.
  • the display device 100 may detect that the display of the video for video call is switched to another device. For example, consider a case where the user 10 makes a video call using the display device 100, which is a mobile device, and holds the display device 100 on top of a TV to conduct a video call. As the display apparatus 100 is mounted on the TV, the image is switched from the display apparatus 100 to the TV and displayed. When making a video call using the display device 100, the user 10 approaches the display device 100, but when the display device 100 is mounted on a TV to make a video call, the user 10 displays the display. relatively far away from the device 100 . In consideration of this point, the display apparatus 100 performs a determination regarding exposure blocking processing when detecting that the display of an image is switched to another apparatus during a video call, and otherwise does not perform the determination.
  • the display apparatus 100 may detect whether there is a movement. Since the display device 100, which is a mobile device, is held by the user 10 during a video call, a motion is detected by an acceleration sensor, a gyro sensor, etc. provided in the display device 100 . However, when the display apparatus 100 is mounted at a predetermined position, no movement is detected. Accordingly, the display apparatus 100 performs a determination regarding exposure blocking processing when the movement of the display apparatus 100 is not detected during a video call, and performs a determination regarding exposure blocking processing when a movement of the display apparatus 100 is detected I never do that.
  • FIG. 13 is an exemplary diagram illustrating a case in which the display apparatus performs exposure blocking processing on the background of an image.
  • the display apparatus 100 displays an image 1300 in which the user 10 appears by photographing the user 10 by the camera 160 while the video call is being performed.
  • the image 1300 is divided into a foreground 1310 including at least a region corresponding to the user 10 and a background 1320 that is a remaining region excluding the foreground 1310 .
  • the display apparatus 100 may distinguish the foreground 1310 and the background 1320 through various image analysis methods based on AI or the like. Accordingly, even if the user 10 makes a video call while moving in front of the camera 160 , the display apparatus 100 may identify the background 1320 for each image frame of the image data by the camera 160 .
  • the display apparatus 100 performs the exposure blocking process on the identified background 1320 and does not perform the exposure blocking process on the foreground 1310 . That is, while the image 1300 represents the user 10 performing image processing as it is, exposure blocking processing is performed on the background 1320 to minimize privacy exposure.
  • Methods according to an exemplary embodiment of the present invention may be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer-readable medium.
  • These computer-readable media may include program instructions, data files, data structures, etc. alone or in combination.
  • a computer-readable medium whether removable or rewritable, may be a non-volatile storage device, such as a USB memory device, or memory, such as, for example, RAM, ROM, flash memory, memory chips, integrated circuits, or
  • it may be stored in a storage medium that is optically or magnetically recordable, such as a CD, DVD, magnetic disk, or magnetic tape, and is also readable by a machine (eg, a computer).
  • a memory that may be included in a mobile terminal is an example of a machine-readable storage medium suitable for storing a program or programs including instructions for implementing embodiments of the present invention.
  • the program instructions recorded in this storage medium may be specially designed and configured for the present invention, or may be known and used by those skilled in the art of computer software.
  • the computer program instructions may be implemented by a computer program product.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Studio Devices (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

디스플레이장치는, 디스플레이와, 외부장치와 통신하게 마련된 인터페이스와, 인터페이스를 통해 외부장치의 상대방과 영상통화를 수행하기 위해 카메라에 의해 캡쳐된 사용자의 영상을 디스플레이에 표시하고, 영상에 사용자와 상이한 오브젝트가 포함되는 것에 기초하여 오브젝트가 영상통화에 연관되는지 여부를 식별하고, 오브젝트가 영상통화에 연관되는지 여부에 대응하여, 영상 내에서 오브젝트에 대응하는 영역에 노출차단 처리를 선택적으로 수행하는 프로세서를 포함한다.

Description

디스플레이장치 및 그 제어방법
관련된 출원에 대한 상호-참조
본 출원은 2020년 9월 4일자로 대한민국 특허청에 제출된 대한민국 특허 출원번호 제10-2020-0112766호에 기초한 우선권을 주장하며, 그 개시 내용은 전체가 참조로 본 발명에 포함된다.
본 발명은 수신되는 데이터를 처리하여 영상을 표시 가능한 디스플레이장치 및 그 제어방법에 관한 것으로서, 상세하게는 하나 이상의 외부장치의 상대방과 영상통화를 수행하도록 사용자의 모습을 촬영하여 영상으로 표시하는 디스플레이장치 및 그 제어방법에 관한 것이다.
소정의 정보를 특정 프로세스에 따라서 연산 및 처리하기 위해, 연산을 위한 CPU, 칩셋, 메모리 등의 전자부품들을 기본적으로 포함하는 전자장치는, 처리 대상이 되는 정보 또는 사용 용도가 무엇인지에 따라서 다양한 종류로 구분될 수 있다. 예를 들면, 전자장치에는 범용의 정보를 처리하는 PC나 서버 등의 정보처리장치, 영상데이터를 처리하는 영상처리장치, 오디오를 처리하는 오디오장치, 가정 내 잡무를 수행하는 생활가전 등이 있다. 영상처리장치는 처리된 영상데이터를 자체 구비한 디스플레이 패널(display panel) 상에 영상으로 표시하는 디스플레이장치로 구현될 수 있다.
디스플레이장치는 단순히 수신되는 영상데이터를 처리하여 영상을 표시하는 기본적인 역할 이외에도, 광역 네트워크를 통한 외부장치와의 통신에 기반하여 보다 확장된 기능을 수행할 수 있다. 이러한 기능의 예시로는 영상통화가 있다. 영상통화에서, 디스플레이장치는 카메라를 통해 사용자의 모습을 촬영하여 영상데이터를 생성하고, 마이크로폰을 통해 사용자의 음성을 획득하여 음성데이터를 생성한다. 디스플레이장치는 사용자의 영상데이터 및 음성데이터를 디스플레이장치에서 출력하는 한편, 영상통화의 상대측인 외부장치에 전송함으로써 동일 데이터가 외부장치에서 출력되도록 한다. 반대로, 디스플레이장치 또한 외부장치로부터 수신되는 상대방의 영상데이터 및 음성데이터를 출력한다. 이로써, 디스플레이장치 및 외부장치를 통해 사용자 및 상대방 사이의 영상통화가 이루어진다.
영상통화를 수행하는 디스플레이장치의 종류, 영상통화 시 카메라로부터 사용자의 이격 거리 등의 여러 요인에 따라서, 영상통화 동안에 프라이버시의 노출이 문제가 될 수 있다. 예를 들면, 카메라를 사용자의 얼굴에 가까이 하는 모바일장치를 사용하는 경우와, 사용자가 카메라로부터 상대적으로 멀리 떨어져 있는 TV 등의 고정형 디스플레이장치를 사용하는 경우 모두, 프라이버시 노출 문제가 발생할 수 있다. 후자의 경우는 전자의 경우에 비해 사용자를 촬영하는 카메라의 화각(angle of view)가 넓어지므로, 카메라가 촬영한 영상데이터에서 사용자가 아닌 배경의 영역 또한 넓어진다. 이 때문에 후자의 경우가 사용자가 의도하지 않게 프라이버시가 노출될 위험이 더 커지는데, 예를 들어 영상통화를 하는 사용자 이외에 다른 사람이 불시에 배경의 영역 내로 들어옴으로써 영상을 통해 상대측에 노출될 수도 있다.
이러한 점을 고려하여, 영상통화 시 발생할 수 있는 프라이버시 노출을 최소화하는 디스플레이장치가 요구될 수 있다.
본 발명의 실시예에 따른 디스플레이장치는, 디스플레이와, 외부장치와 통신하게 마련된 인터페이스와, 상기 인터페이스를 통해 상기 외부장치의 상대방과 영상통화를 수행하기 위해 카메라에 의해 캡쳐된 사용자의 영상을 상기 디스플레이에 표시하고, 상기 영상에 상기 사용자와 상이한 오브젝트가 포함되는 것에 기초하여 상기 오브젝트가 상기 영상통화에 연관되는지 여부를 식별하고, 상기 오브젝트가 상기 영상통화에 연관되는지 여부에 대응하여, 상기 영상 내에서 상기 오브젝트에 대응하는 영역에 노출차단 처리를 선택적으로 수행하는 프로세서를 포함한다.
또한, 상기 프로세서는, 상기 영상에서 상기 오브젝트에 대응하는 영역에 상기 노출차단 처리를 수행하고, 상기 오브젝트가 상기 영상통화에 연관되는 것으로 식별되는 것에 기초하여 상기 노출차단 처리를 해제할 수 있다.
또한, 상기 프로세서는, 상기 오브젝트가 상기 사용자와 상이한 상기 영상통화의 신규 사용자인 것에 기초하여 상기 오브젝트가 상기 영상통화에 연관되는지 여부를 식별할 수 있다.
또한, 상기 영상통화에 연관된 통화자 계정의 리스트를 저장하는 저장부를 더 포함하고, 상기 프로세서는, 상기 신규 사용자를 상기 저장부에 저장된 상기 리스트에서 검색할 수 있다.
또한, 상기 프로세서는, 상기 오브젝트의 시선이 상기 카메라를 향하는 것으로 식별되는 것에 기초하여 상기 오브젝트가 상기 신규 사용자인 것으로 식별할 수 있다.
또한, 상기 프로세서는, 상기 오브젝트가 기 정의된 움직임을 취하는 것으로 식별되는 것에 기초하여 상기 오브젝트가 상기 신규 사용자인 것으로 식별할 수 있다.
또한, 상기 프로세서는, 상기 오브젝트에 대응하는 영역에 상기 노출차단 처리가 수행된 상기 영상이 표시될 때에, 상기 오브젝트가 기 정의된 움직임을 취하는 것으로 식별되는 것에 기초하여 상기 노출차단 처리를 해제할 수 있다.
또한, 상기 프로세서는, 상기 영상에 상기 영상통화와 관련된 어떠한 사용자도 없다고 식별되는 것에 기초하여 상기 영상 전체에 대해 상기 노출차단 처리를 수행할 수 있다.
또한, 상기 프로세서는, 상기 오브젝트에 대응하는 영역을 블러 처리함으로써 상기 노출차단 처리를 수행할 수 있다.
또한, 상기 프로세서는, 상기 오브젝트에 대응하는 영역에 기 정의된 이미지를 오버레이시킴으로써 상기 노출차단 처리를 수행할 수 있다.
또한, 상기 프로세서는, 상기 오브젝트에 대응하는 영역의 해상도를 낮춤으로써 상기 노출차단 처리를 수행할 수 있다.
또한, 상기 프로세서는, 상기 오브젝트에 대응하는 영역의 투명도를 높임으로써 상기 노출차단 처리를 수행할 수 있다.
또한, 상기 프로세서는, 상기 오브젝트에 관련된 오디오를 뮤트 처리함으로써 상기 노출차단 처리를 수행할 수 있다.
또한, 본 발명의 실시예에 따른 디스플레이장치의 제어방법은, 외부장치의 상대방과 영상통화를 수행하기 위해 카메라에 의해 캡쳐된 사용자의 영상을 표시하는 단계와, 상기 영상에 상기 사용자와 상이한 오브젝트가 포함되는 것에 기초하여 상기 오브젝트가 상기 영상통화에 연관되는지 여부를 식별하는 단계와, 상기 오브젝트가 상기 영상통화에 연관되는지 여부에 대응하여, 상기 영상 내에서 상기 오브젝트에 대응하는 영역에 노출차단 처리를 선택적으로 수행하는 단계를 포함한다.
도 1은 디스플레이장치 및 외부장치 사이에 영상통화가 이루어지는 모습을 나타내는 예시도이다.
도 2는 디스플레이장치의 구성 블록도이다.
도 3은 디스플레이장치의 제어방법을 나타내는 플로우차트이다.
도 4는 디스플레이장치의 카메라의 화각을 나타내는 예시도이다.
도 5는 디스플레이장치가 영상에 노출차단 처리를 수행하는 경우를 나타내는 예시도이다.
도 6은 영상에 노출차단 처리를 수행하지 않는 경우를 나타내는 예시도이다.
도 7은 디스플레이장치가 제2사용자의 영상통화 연관 여부를 판단하는 기준을 나타내는 예시도이다.
도 8은 디스플레이장치가 제2사용자의 제스처에 대응하여 선택적으로 노출차단 처리를 해제하는 원리를 나타내는 예시도이다.
도 9는 디스플레이장치가 제2사용자의 제스처에 대응하여 선택적으로 노출차단 처리를 수행하는 원리를 나타내는 예시도이다.
도 10은 디스플레이장치에서 복수의 사용자 중 일부가 카메라의 화각 범위 밖으로 벗어난 경우를 나타내는 예시도이다.
도 11은 디스플레이장치에서 모든 사용자가 카메라의 화각 범위 밖으로 벗어난 경우를 나타내는 예시도이다.
도 12는 디스플레이장치 전방에서 사용자의 위치 별 이격 거리를 나타내는 예시도이다.
도 13은 디스플레이장치가 영상의 배경에 노출차단 처리를 하는 경우를 나타내는 예시도이다.
이하에서는 첨부도면을 참조하여 본 발명에 따른 실시예들에 관해 상세히 설명한다. 각 도면을 참조하여 설명하는 실시예들은 특별한 언급이 없는 한 상호 배타적인 구성이 아니며, 하나의 장치 내에서 복수 개의 실시예가 선택적으로 조합되어 구현될 수 있다. 이러한 복수의 실시예의 조합은 본 발명의 기술분야에서 숙련된 기술자가 본 발명의 사상을 구현함에 있어서 임의로 선택되어 적용될 수 있다.
만일, 실시예에서 제1구성요소, 제2구성요소 등과 같이 서수를 포함하는 용어가 있다면, 이러한 용어는 다양한 구성요소들을 설명하기 위해 사용되는 것이며, 용어는 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용되는 바, 이들 구성요소는 용어에 의해 그 의미가 한정되지 않는다. 실시예에서 사용하는 용어는 해당 실시예를 설명하기 위해 적용되는 것으로서, 본 발명의 사상을 한정하지 않는다.
또한, 본 명세서에서의 복수의 구성요소 중 "적어도 하나(at least one)"라는 표현이 나오는 경우에, 본 표현은 복수의 구성요소 전체 뿐만 아니라, 복수의 구성요소 중 나머지를 배제한 각 하나 혹은 이들의 조합 모두를 지칭한다.
도 1은 디스플레이장치 및 외부장치 사이에 영상통화가 이루어지는 모습을 나타내는 예시도이다.
도 1에 도시된 바와 같이, 본 실시예에 따른 디스플레이장치(100)는 예를 들면 TV로 구현된다. 다만, 디스플레이장치(100)는 TV 이외에도 화면 상에 영상을 표시할 수 있고, 외부장치(200)와 통신 가능한 다양한 종류의 장치로 구현될 수 있는 바, 예를 들면 TV, 모니터, 디지털 사이니지(signage), 전자칠판, 전자액자 등을 포함하는 고정형 디스플레이장치이거나; 스마트폰, 태블릿기기, 휴대용 멀티미디어 재생기기 등을 포함하는 모바일기기이거나; 냉장고, 세탁기, 의류관리기기, 공기조화기 등 디스플레이를 가진 생활가전이거나; 디스플레이를 가지고 IoT 환경을 구축하는 게이트웨이, 허브, 호스트장치 등으로 구현될 수 있다.
디스플레이장치(100)는 외부장치(200)와 데이터를 송수신함으로써 영상통화를 수행할 수 있다. 외부장치(200)는 디스플레이장치(100)와 같이 영상을 표시 가능한 장치로 구현된다. 본 실시예에서는 디스플레이장치(100) 및 외부장치(200)가 일대 일로 영상통화를 수행하는 것으로 설명하지만, 복수의 외부장치(200)와 함께 영상통화를 수행할 수도 있다. 디스플레이장치(100)는 카메라를 통해 사용자(10)의 모습을 촬영함으로써 영상데이터를 획득하는 한편, 마이크로폰을 통해 사용자(10)의 음성을 수집함으로써 음성데이터를 획득한다. 디스플레이장치(100)는 획득한 영상데이터에 기초하여 사용자(10)의 영상(101)을 표시하고, 획득한 음성데이터를 음향으로 출력한다. 그리고, 디스플레이장치(100)는 획득한 영상데이터 및 음성데이터를 외부장치(200)에 전송한다. 이에, 외부장치(200)는 수신한 영상데이터에 기초하여 사용자(10)의 영상(202)을 표시하고, 수신한 음성데이터를 음향으로 출력한다. 즉, 디스플레이장치(100)에 표시되는 영상(101) 및 외부장치(200)에 표시되는 영상(202)은, 동일한 영상데이터에 기초한다.
동일한 원리로, 외부장치(200)는 사용자(10)와 영상통화를 수행하는 상대방(20)의 모습 및 음성에 관한 데이터를 획득한다. 외부장치(200)는 영상데이터에 기초하여 상대방(20)의 모습의 영상(201)을 표시하는 한편, 영상데이터를 디스플레이장치(100)에 전송함으로써 디스플레이장치(100)에서 동일한 영상(102)이 표시되도록 한다.
이와 같은 방법에 따라서, 디스플레이장치(100)의 사용자(10) 및 외부장치(200)의 상대방(20) 사이에 영상통화가 이루어진다.
이하, 디스플레이장치(100)의 구성에 관해 설명한다.
도 2는 디스플레이장치의 구성 블록도이다.
도 2에 도시된 바와 같이, 디스플레이장치(100)는 동작을 위해 다양한 하드웨어 요소들을 포함한다. 본 실시예에서의 디스플레이장치(100)는 디스플레이부(120)가 별개의 장치로 분리되어 있지 않은 구조이지만, 이는 하나의 예시에 불과함을 밝힌다. 설계 방식에 따라서는, 디스플레이부(120)를 제외한 디스플레이장치(100)의 나머지 하드웨어들이 영상처리 디바이스를 구성하고, 디스플레이부(120)가 별도의 장치로 분리된 형태의 디스플레이장치(100)도 가능하다.
디스플레이장치(100)는 인터페이스부(110)를 포함할 수 있다. 인터페이스부(110)는 디스플레이장치(100)가 다양한 종류의 외부장치(200)와 통신을 수행하고, 또한 데이터를 송수신하기 위한 인터페이스 회로를 포함한다. 인터페이스부(110)는 연결 방식에 따라서, 유선 통신연결을 위한 하나 이상의 유선인터페이스부(111)와, 무선 통신연결을 위한 하나 이상의 무선인터페이스부(112)를 포함한다.
유선인터페이스부(111)는 기 정의된 전송규격의 케이블이 접속되는 커넥터 또는 포트를 포함한다. 예를 들면, 유선인터페이스부(111)는 방송신호를 수신하도록 지상파 또는 위성방송 안테나에 접속되거나 케이블방송의 케이블이 접속되는 포트를 포함한다. 또는, 유선인터페이스부(111)는 다양한 영상처리장치와 접속하도록 HDMI, DP(DisplayPort), DVI, 컴포넌트, 컴포지트, S-Video, 썬더볼트(Thunderbolt) 등 다양한 유선전송규격의 케이블이 접속되는 포트를 포함한다. 또는, 유선인터페이스부(111)는 USB 기기와 접속하기 위한 USB 규격의 포트를 포함한다. 또는, 유선인터페이스부(111)는 광케이블이 접속되는 광포트를 포함한다. 또는, 유선인터페이스부(111)는 외부 마이크로폰이 접속되는 오디오 입력 포트와, 헤드셋, 이어폰, 외부 스피커 등이 접속되는 오디오 출력 포트를 포함한다. 또는, 유선인터페이스부(111)는 광역 네트워크에 접속하기 위해 게이트웨이, 라우터, 허브 등에 접속하는 이더넷 포트를 포함한다.
무선인터페이스부(112)는 다양한 종류의 무선통신 프로토콜에 대응하는 통신모듈, 통신칩 등의 구성요소들 중 적어도 하나 이상을 포함하는 양방향 통신회로를 포함한다. 예를 들면, 무선인터페이스부(112)는 와이파이(Wi-Fi) 방식에 따라서 AP(Access Point)와 무선통신을 수행하는 와이파이 통신칩과, 블루투스, Zigbee, Z-Wave, WirelessHD, WiGig, NFC 등의 무선통신을 수행하는 통신칩, IR 통신을 위한 IR 모듈, 모바일기기와 이동통신을 수행하는 이동통신칩 등을 포함한다.
디스플레이장치(100)는 디스플레이부(120)를 포함할 수 있다. 디스플레이부(120)는 프로세서(180)에 의해 처리되는 영상신호를 영상으로 표시하기 위한 화면을 형성한다. 디스플레이부(120)는 디스플레이 패널을 포함하는데, 디스플레이 패널의 구조에는 여러 가지 설계방식이 적용될 수 있다. 예를 들면, 디스플레이부(120)는 액정과 같은 수광형 구조의 디스플레이 패널 및 이에 광을 제공하는 백라이트를 포함할 수 있다. 또는, 디스플레이부(120)는 OLED와 같은 자발광 구조의 디스플레이 패널을 포함할 수 있다. 또는, 디스플레이부(120)는 복수의 마이크로 LED 모듈이 타일 형태로 조합되어 대화면을 형성하는 구조일 수도 있다.
디스플레이장치(100)는 사용자입력부(130)를 포함할 수 있다. 사용자입력부(130)는 사용자의 입력을 수행하기 위해 사용자가 조작할 수 있도록 마련된 다양한 종류의 사용자 입력 인터페이스 관련 회로를 포함한다. 사용자입력부(130)는 디스플레이장치(100)의 종류에 따라서 여러 가지 형태의 구성이 가능하며, 예를 들면 디스플레이장치(100)의 기계 버튼부 또는 전자 버튼부, 터치패드, 다양한 종류의 센서, 디스플레이부(120)에 설치된 터치스크린, 디스플레이장치(100)와 분리된 리모트 컨트롤러 등이 있다.
디스플레이장치(100)는 저장부(140)를 포함할 수 있다. 저장부(140)는 디지털화된 데이터를 저장한다. 저장부(140)는 전원의 제공 유무와 무관하게 데이터를 보존할 수 있는 비휘발성 속성의 스토리지(storage)와, 프로세서(180)에 의해 처리되기 위한 데이터가 로딩되며 전원이 제공되지 않으면 데이터를 보존할 수 없는 휘발성 속성의 메모리(memory)를 포함한다. 스토리지에는 플래시메모리(flash-memory), HDD(hard-disc drive), SSD(solid-state drive) ROM(Read Only Memory) 등이 있으며, 메모리에는 버퍼(buffer), 램(RAM; Random Access Memory) 등이 있다.
디스플레이장치(100)는 스피커(150)를 포함할 수 있다. 스피커(150)는 프로세서(180)에 의해 처리되는 오디오신호를 음향으로 출력한다. 스피커(150)는 디스플레이장치(100)에 설치되거나, 디스플레이부(120)에 설치되거나, 또는 별도의 장치로 마련될 수도 있다. 스피커(150)가 별도의 장치로 마련되는 경우, 스피커(150)는 인터페이스부(110)를 통해 연결된다.
디스플레이장치(100)는 카메라(160)를 포함할 수 있다. 카메라(160)는 CCD(Charge-Coupled Device), CMOS(Complementary Metal-Oxide Semiconductor) 등과 같은 소자를 사용함으로써, 디스플레이장치(100)의 외부 환경을 촬영하여 영상데이터를 생성한다. 카메라(160)는 이와 같이 생성되는 영상데이터를 프로세서(180)에 전달한다.
디스플레이장치(100)는 마이크로폰(170)을 포함할 수 있다. 마이크로폰(170)은 디스플레이장치(100)의 주변 환경에서 발생하는 소리를 수집하여 오디오데이터를 생성한다. 마이크로폰(170)은 이와 같이 생성되는 오디오데이터를 프로세서(180)에 전달한다. 본 실시예에서는, 카메라(160) 및 마이크로폰(170)이 사용자입력부(130)와 별개의 구성요소인 것으로 설명하였다. 그러나, 설계 방식에 따라서는 카메라(160) 또는 마이크로폰(170)이 사용자입력부(130)에 포함되는 구성으로 간주될 수도 있다.
한편, 본 실시예에서는, 디스플레이장치(100)가 카메라(160) 및 마이크로폰(170)을 포함하는 경우에 관해 설명하였다. 그러나, 설계 방식에 따라서는 카메라(160) 또는 마이크로폰(170)이 디스플레이장치(100)의 구성요소가 아니라 별개의 장치일 수도 있다. 즉, 디스플레이장치(100)는 주변 환경을 촬영한 영상데이터 또는 주변 환경의 소리를 수집한 오디오데이터를, 통신 가능한 별도의 장치(예를 들면, 카메라를 가진 촬영장치, 마이크로폰이 구비된 장치 등)로부터 획득할 수도 있다. 이 경우에, 디스플레이장치(100)는 해당 장치로부터 인터페이스부(110)를 통해 영상데이터 또는 오디오데이터를 수신한다.
디스플레이장치(100)는 프로세서(180)를 포함할 수 있다. 프로세서(180)는 인쇄회로기판 상에 장착되는 CPU, 칩셋, 버퍼, 회로 등으로 구현되는 하나 이상의 하드웨어 프로세서를 포함하며, 설계 방식에 따라서는 SOC(system on chip)로 구현될 수도 있다. 프로세서(180)는 영상컨텐트를 영상으로 표시하기 위해 디멀티플렉서, 디코더, 스케일러, 오디오 DSP(Digital Signal Processor), 앰프 등의 다양한 프로세스에 대응하는 모듈들을 포함한다. 여기서, 이러한 모듈들 중 일부 또는 전체가 SOC로 구현될 수 있다. 예를 들면, 디멀티플렉서, 디코더, 스케일러 등 영상처리와 관련된 모듈이 영상처리 SOC로 구현되고, 오디오 DSP는 SOC와 별도의 칩셋으로 구현되는 것이 가능하다.
프로세서(180)는 소정의 사용자가 영상통화를 수행하는 동안, 카메라(160)에 의해 촬영된 사용자의 영상데이터를 처리하여 디스플레이부(120)에 영상으로 표시하는 한편, 해당 영상데이터를 인터페이스부(110)를 통해 외부장치(200)에 전송한다. 또한, 프로세서(180)는 마이크로폰(170)에 의해 수집된 사용자의 음성데이터를 처리하여 스피커(150)를 통해 음향으로 출력하는 한편, 해당 음성데이터를 인터페이스부(110)를 통해 외부장치(200)에 전송한다.
이러한 영상통화가 수행되는 과정에서, 사용자가 의도하지 않은 프라이버시의 노출이 발생할 수 있다. 프라이버시는, 디스플레이부(120) 및 외부장치(200)에 표시되는 영상을 통해, 또는 스피커(150) 및 외부장치(200)에서 출력되는 음향을 통해 노출될 수 있다. 본 실시예에 따른 프로세서(180)는 영상통화 시 프라이버시 노출을 방지하기 위한 동작을 수행하는 바, 이하 이러한 실시예에 관해 설명한다.
도 3은 디스플레이장치의 제어방법을 나타내는 플로우차트이다.
도 2 및 도 3에 도시된 바와 같이, 하기 동작은 디스플레이장치(100)의 프로세서(180)에 의해 수행된다.
310 단계에서 디스플레이장치(100)는 영상통화를 위해 외부장치(200)에 통신 연결한다.
320 단계에서 디스플레이장치(100)는 디스플레이장치(100)의 사용자의 영상데이터를 획득한다. 사용자의 영상데이터는 디스플레이장치(100)가 구비한 카메라(160)로부터 획득될 수 있고, 또는 별도의 장치로부터 수신될 수도 있다.
330 단계에서 디스플레이장치(100)는 사용자의 영상데이터에 기반하여 사용자의 영상을 표시하고, 사용자의 영상데이터를 외부장치(200)에 전송한다.
340 단계에서 디스플레이장치(100)는 영상에 사용자가 아닌 오브젝트가 포함되는 것을 감지한다. 여기서, 사용자가 아닌 오브젝트는, 예를 들면 사용자가 아닌 다른 사람에 대응하는 오브젝트일 수 있다.
350 단계에서 디스플레이장치(100)는 해당 오브젝트가 영상통화에 연관되는지 여부를 식별한다. 오브젝트가 영상통화에 연관되는지 여부를 식별하기 위한 기준은 설계 방식에 따라서 다양하게 지정될 수 있으며, 본 기준의 몇 가지 예시에 관해서는 후술한다.
오브젝트가 영상통화에 연관되지 않는 것으로 식별되면(350 단계에서 "No"), 360 단계에서 디스플레이장치(100)는 영상 내 오브젝트에 대응하는 영역에 기 정의된 노출차단 처리가 수행되도록 영상데이터를 처리한다. 노출차단 처리는 프라이버시의 노출을 차단하도록 사전에 마련된 처리로서, 구체적인 예시에 관해서는 후술한다. 반면에, 오브젝트가 영상통화에 연관되는 것으로 식별되면(350 단계에서 "Yes"), 디스플레이장치(100)는 노출차단 처리를 수행하지 않고 영상통화를 수행한다.
이와 같이, 디스플레이장치(100)는 영상 내에서 영상통화를 수행하는 사용자 이외의 사람이 불시에 나타나는 경우에, 해당 사람이 영상통화에 연관되지 않는다고 식별되면 디스플레이장치(100) 및 외부장치(200)에서 표시되는 영상에서 해당 사람의 노출을 차단시킨다. 이로써, 본 실시예에 따르면 영상통화 시 의도치 않게 발생할 수 있는 프라이버시의 노출을 차단할 수 있다.
한편, 이상 설명한 동작은 인공지능(Artificial Intelligence)에 의해 적어도 일부가 수행될 수 있다. 예를 들면, 디스플레이장치(100)의 프로세서(180)는 상기와 같이 영상 내에서 사용자를 식별하는 동작, 영상 내에서 사용자가 아닌 오브젝트를 식별하는 동작, 또는 오브젝트가 영상통화에 연관되는지 여부를 식별하는 동작 등을 수행하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다.
일 예로, 디스플레이장치(100)의 프로세서(180)는 학습부 및 인식부의 기능을 함께 수행할 수 있다. 학습부는 학습된 신경망 네트워크를 생성하는 기능을 수행하고, 인식부는 학습된 신경망 네트워크를 이용하여 데이터를 인식(또는, 추론, 예측, 추정, 판단)하는 기능을 수행할 수 있다. 학습부는 신경망 네트워크를 생성하거나 갱신할 수 있다. 학습부는 신경망 네트워크를 생성하기 위해서 학습 데이터를 획득할 수 있다. 일 예로, 학습부는 학습 데이터를 디스플레이장치(100)의 저장부 또는 외부로부터 획득할 수 있다. 학습 데이터는, 신경망 네트워크의 학습을 위해 이용되는 데이터일 수 있으며, 상기한 동작을 수행한 데이터를 학습데이터로 이용하여 신경망 네트워크를 학습시킬 수 있다.
학습부는 학습 데이터를 이용하여 신경망 네트워크를 학습시키기 전에, 획득된 학습 데이터에 대하여 전처리 작업을 수행하거나, 또는 복수 개의 학습 데이터들 중에서 학습에 이용될 데이터를 선별할 수 있다. 일 예로, 학습부는 학습 데이터를 기 설정된 포맷으로 가공하거나, 필터링하거나, 또는 노이즈를 추가/제거하여 학습에 적절한 데이터의 형태로 가공할 수 있다. 학습부는 전처리된 학습 데이터를 이용하여 상기한 동작을 수행하도록 설정된 신경망 네트워크를 생성할 수 있다.
학습된 신경망 네트워크는, 복수의 신경망 네트워크(또는, 레이어)들로 구성될 수 있다. 복수의 신경망 네트워크의 노드들은 가중치를 가지며, 복수의 신경망 네트워크들은 일 신경망 네트워크의 출력 값이 다른 신경망 네트워크의 입력 값으로 이용되도록 서로 연결될 수 있다. 신경망 네트워크의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN (Bidirectional Recurrent Deep Neural Network) 및 심층 Q-네트워크 (Deep Q-Networks)과 같은 모델을 포함할 수 있다.
한편 인식부는 상기한 동작을 수행하기 위해, 타겟 데이터를 획득할 수 있다. 타겟 데이터는 디스플레이장치(100)의 저장부(140) 또는 외부로부터 획득된 것일 수 있다. 타겟 데이터는 신경망 네트워크의 인식 대상이 되는 데이터일 수 있다. 인식부는 타겟 데이터를 학습된 신경망 네트워크에 적용하기 전에, 획득된 타겟 데이터에 대하여 전처리 작업을 수행하거나, 또는 복수 개의 타겟 데이터들 중에서 인식에 이용될 데이터를 선별할 수 있다. 일 예로, 인식부는 타겟 데이터를 기 설정된 포맷으로 가공하거나, 필터링 하거나, 또는 노이즈를 추가/제거하여 인식에 적절한 데이터의 형태로 가공할 수 있다. 인식부는 전처리된 타겟 데이터를 신경망 네트워크에 적용함으로써, 신경망 네트워크로부터 출력되는 출력값을 획득할 수 있다. 인식부는 출력값과 함께, 확률값 또는 신뢰도값을 획득할 수 있다.
한편, 디스플레이장치(100)가 영상데이터에 기반한 영상을 표시하는 시점(예를 들면 360 단계)은, 디스플레이장치(100)가 카메라(160)의 촬영에 의한 영상데이터를 획득하는 시점보다 소정 시간의 지연이 발생한다. 이 시간의 지연은, 디스플레이장치(100)에서 수행되는 데이터의 전달 및 처리 과정에서 발생하는 것이기도 하지만, 카메라(160)가 감지하는 화각의 범위 및 영상의 폭 사이의 관계에 따른 것일 수도 있다. 디스플레이장치(100)는 이 시간의 지연을 활용하여, 우선적으로 오브젝트에 노출차단 처리를 수행한 이후, 해당 오브젝트가 처리 대상이 아니라고 식별되면 노출차단 처리를 해제할 수도 있다. 이하, 카메라(160)의 화각 및 영상의 폭 사이의 관계에 관해 설명한다.
도 4는 디스플레이장치의 카메라의 화각을 나타내는 예시도이다.
도 4에 도시된 바와 같이, 디스플레이장치(100)는 영상통화 시에 카메라(160)에 의해 소정의 제1사용자(10)를 촬영하여 제1사용자(10)의 영상(101)을 표시한다. 여기서, 제1사용자(10)는 영상통화에 연관되는 통화자이다. 카메라(160)가 촬영 가능한 공간의 각도의 한계를, 해당 카메라(160)의 화각이라고 지칭한다. 설명을 간결하게 하기 위해, 본 실시예에서는 화각의 예시 중에서 좌우방향에 따른 화각의 경우에 관해 설명한다.
디스플레이장치(100)는 카메라(160)에 의해 촬영된 영상데이터를 처리하여 영상(101)을 표시하는데, 영상(101)에 표시되는 범위는 카메라(160)의 화각에 의한 범위보다 작다. 즉, 카메라(160)의 화각을 V, 영상(101)에 표시되는 범위의 각도를 V1라고 할 때, V>V1이 된다. 디스플레이장치(100)는 카메라(160)의 화각에 포함되는 영역 중에서, 제1사용자(10)의 좌측 영역 및 제1사용자(10)의 우측 영역을 잘라내고, 제1사용자(10)를 포함하는 중앙 영역을 추출하여 영상(101)을 표시한다. 제1사용자(10)를 포함하는 중앙 영역에 대응하는 범위의 각도를 V1, 제1사용자(10)의 좌측 영역에 대응하는 범위의 각도를 V2, 제1사용자(10)의 우측 영역에 대응하는 범위의 각도를 V3라고 할 때, V=V1+V2+V3가 된다.
만일 카메라(160)에 의해 각도 V2, V3에 대응하는 영역에 제2사용자(30)가 새로 감지되는 경우를 고려한다. 본 영역에 있는 제2사용자(30)가 카메라(160)에 최초 감지되는 시점에서는, 제2사용자(30)가 영상통화에 연관되는지 여부는 아직 식별되지 않으며, 표시되는 영상(101) 내에 제2사용자(30)는 아직 나타나지 않는다. 즉, 카메라(160)에 의해 제2사용자(30)가 최초 감지되는(보다 정확하게는, 카메라(160)에 의해 촬영된 영상데이터로부터 제2사용자(30)가 최초 식별되는) 제1시점과, 영상(101)에 제2사용자(30)가 나타나는 제2시점 사이에는 소정의 시간 간격이 존재한다.
본 실시예에 따른 디스플레이장치(100)는 카메라(160)에 의해 촬영되는 영상데이터에 대해, 제1시점에 일단 영상(101)에서 제2사용자(30)에 대응하는 영역에 대한 노출차단 처리를 수행한다. 이후, 디스플레이장치(100)는 상기한 시간 간격 동안에, 제2사용자(30)가 영상통화에 연관되는지 여부를 식별한다. 디스플레이장치(100)는 제2사용자(30)가 영상통화에 연관되지 않는 것으로 식별되면 상기한 노출차단 처리를 계속 수행하고, 제2사용자(30)가 영상통화에 연관되는 것으로 식별되면 상기한 노출차단 처리를 해제한다. 이로써, 디스플레이장치(100)는 가능한 한 사용자가 노출차단 처리를 실시간으로 느끼도록 제공할 수 있다.
이하, 노출차단 처리를 수행하는 경우(도 3의 360 단계 참조)의 영상(101)의 예시에 관해 설명한다.
도 5는 디스플레이장치가 영상에 노출차단 처리를 수행하는 경우를 나타내는 예시도이다.
도 5에 도시된 바와 같이, 디스플레이장치(100)는 영상통화 동안에 카메라(160)에 의해 제1사용자(10)를 포함한 주변 환경을 촬영하여, 주변 환경을 나타내는 영상(510)을 표시한다. 본 실시예에서는 디스플레이장치(100)에 제1사용자(10)에 관한 영상(510)을 표시하고 있는 것으로 표현하고 있지만, 이는 본 발명의 실시예에 연관된 내용만을 간결하게 나타내기 위한 것이다. 디스플레이장치(100)는 제1사용자(10)에 관한 영상(510)과 함께, 영상통화의 상대방에 관한 영상(예를 들어 도 1의 102번)을 표시할 수 있다.
영상(510)이 표시되는 동안에 카메라(160)에 의해 제2사용자(30)가 새로 감지되고, 감지된 제2사용자(30)가 영상통화에 연관되지 않은 것으로 식별되면, 디스플레이장치(100)는 영상(510)에서 제2사용자(30)에 대응하는 영역(511)에 대해 노출차단 처리를 수행한다. 여기서, 제2사용자(30)에 대응하는 영역(511)은, 영상(510) 내에서 적어도 제2사용자(30)에 대응하는 오브젝트를 포함하는 영역으로서, 해당 오브젝트 주위의 배경 일부를 더 포함할 수도 있다.
노출차단 처리는, 표시되는 영상(510)을 통해 제2사용자(30)가 노출되는 것을 방지하기 위한 것이므로, 설계 방식에 따라서 다양한 영상처리 방법이 적용될 수 있다.
노출차단의 한 가지 예시로서, 디스플레이장치(100)는 제2사용자(30)에 대응하는 영역(511)에 블러(blur) 처리를 수행할 수 있다. 블러는 이미지의 초점을 탈초점 상태로 함으로써, 이미지를 전체적으로 흐릿하게 하여 오브젝트의 윤곽의 인식이 곤란하도록 처리하는 방법이다. 블러 처리된 이미지는 그 윤곽이 모호해지므로, 이미지를 보는 사람은 이미지 내에서 특정 오브젝트를 인식하기가 곤란해진다.
다른 예시로서, 디스플레이장치(100)는 제2사용자(30)에 대응하는 영역(511)에 기 정의된 이미지를 오버레이시킬 수 있다. 즉, 디스플레이장치(100)는 해당 영역(511)을 노출차단용으로 미리 마련된 이미지로 덮음으로써, 영상(510)에서 제2사용자(30)를 식별할 수 없도록 한다.
다른 예시로서, 디스플레이장치(100)는 제2사용자(30)에 대응하는 영역(511)의 해상도를 영상(510)의 타 영역에 비해 낮출 수 있다. 소정 이미지의 해상도가 낮아지면 해당 이미지 내에서 전경 및 배경의 구분이 곤란해지는 효과가 있다.
다른 예시로서, 디스플레이장치(100)는 제2사용자(30)에 대응하는 영역(511)의 투명도를 높일 수 있다. 디스플레이장치(100)는 해당 영역(511)의 투명도를 높여서, 영상(510) 내에서 제2사용자(30)의 윤곽이 인식되기 곤란하도록 한다. 이상 설명한 예시들 이외에도, 다양한 방법이 노출차단의 방법으로 적용될 수 있다.
이하, 노출차단 처리를 수행하지 않는 경우의 예시에 관해 설명한다.
도 6은 영상에 노출차단 처리를 수행하지 않는 경우를 나타내는 예시도이다.
도 6에 도시된 바와 같이, 디스플레이장치(100)는 영상통화 동안에 카메라(160)에 의해 제1사용자(10)를 포함한 주변 환경을 촬영하여, 주변 환경을 나타내는 영상(610)을 표시한다. 영상(610)이 표시되는 동안에 카메라(160)에 의해 제2사용자(30)가 새로 감지되고, 감지된 제2사용자(30)가 영상통화에 연관되는 것으로 식별되면, 디스플레이장치(100)는 영상(610)에서 제2사용자(30)에 대응하는 영역에 대해 노출차단 처리를 수행하지 않는다. 또는, 이미 영상(610)에서 제2사용자(30)에 대응하는 영역에 대해 노출차단 처리가 수행된 경우에, 디스플레이장치(100)는 영상(610)에서 해당 노출차단 처리를 해제한다. 즉, 영상(610)에는 제1사용자(10)의 모습 및 제2사용자(30)의 모습이 함께 나타나게 된다.
한편, 앞선 실시예에서 설명한 노출차단 처리의 방법 및 예시는, 영상에 관련된 것이다. 그러나, 영상통화는 통상적으로 시각정보 및 청각정보가 모두 관여되므로, 노출차단 처리는 영상에만 한정되지 않는다. 즉, 노출차단 처리는 새로 감지된 제2사용자(30)의 음성에 관련된 처리방법을 포함할 수 있다.
예를 들어, 디스플레이장치(100)는 영상통화 동안 제2사용자(30)를 새로 감지한다. 디스플레이장치(100)는 감지된 제2사용자(30)가 영상통화에 연관되는 것으로 식별하면, 수집되는 제2사용자(30)의 음성이 음향으로 출력되도록 허용한다.
반면, 디스플레이장치(100)는 제2사용자(30)가 영상통화에 연관되는 것으로 식별하면, 수집되는 제2사용자(30)의 음성이 음향으로 출력되는 것을 차단한다. 즉, 디스플레이장치(100)는 제2사용자(30)의 음성을 뮤트(mute) 처리한다. 또는, 디스플레이장치(100)는 제2사용자(30)의 음성을 완전히 뮤트 처리하지 않고, 기 정의된 레벨만큼 제2사용자(30)의 음성의 음향출력을 낮출 수도 있다.
한편, 디스플레이장치(100)가 제2사용자(30)가 영상통화에 연관되는지 여부를 식별하기 위해, 설계 방식에 따라서 다양한 방법이 적용될 수 있다. 이하, 제2사용자(30)의 영상통화 관련 여부를 식별하는 예시에 관해 설명한다(도 3의 350 단계 참조).
도 7은 디스플레이장치가 제2사용자의 영상통화 연관 여부를 판단하는 기준을 나타내는 예시도이다.
도 7에 도시된 바와 같이, 디스플레이장치(100)는 제1사용자가 영상통화를 하는 동안에 새로 제2사용자를 감지할 수 있다(710). 이 경우에, 디스플레이장치(100)는 사전에 정의된 판단 기준(720)에 기초하여, 제2사용자가 영상통화에 연관되는 것으로 식별하거나(730), 아니면 제2사용자가 영상통화에 연관되지 않은 것으로 식별할 수 있다(740). 여기서, 적용되는 판단 기준(720)은 디스플레이장치(100)의 설계 방식에 따라서 다양한 방법이 적용될 수 있으므로, 어느 한 가지로 한정되지 않는다. 이하, 판단 기준(720)의 몇 가지 예시에 관해 설명한다. 디스플레이장치(100)는 설계 방식에 따라서 어느 하나의 판단 기준(720)을 사용할 수 있고, 둘 이상의 판단 기준(720)을 함께 사용할 수도 있다.
판단 기준(720)의 한 가지 예시로서, 영상통화에 연관된 통화자들의 리스트(721)가 사전에 마련될 수 있다. 본 리스트(721)는 영상통화에 연관되는 하나 이상의 사용자의 ID를 포함할 수 있다. 디스플레이장치(100)는 영상 내에서 식별된 제2사용자의 ID가 리스트(721)에 있는지 검색한다. 디스플레이장치(100)는 제2사용자의 ID가 리스트(721)에 있으면 제2사용자가 영상통화에 연관되는 것으로 식별하고, 제2사용자의 ID가 리스트(721)에 없으면 제2사용자가 영상통화에 연관되지 않은 것으로 식별할 수 있다.
디스플레이장치(100)는 제2사용자의 ID가 리스트(721)에 없는데, 다른 방법을 통해 제2사용자가 영상통화에 연관되는 것으로 식별되면, 제2사용자의 ID를 리스트(721)에 기록함으로써 리스트(721)를 업데이트할 수 있다. 반대로, 디스플레이장치(100)는 제2사용자의 ID가 리스트(721)에 있는데, 다른 방법을 통해 제2사용자가 영상통화에 연관되지 않는 것으로 식별되면, 제2사용자의 ID를 리스트(721)로부터 삭제함으로써 리스트(721)를 업데이트할 수도 있다.
여기서, 리스트(721)는 사용자의 직접 입력을 통해 업데이트될 수도 있다. 또는, AI(722)를 활용하여 리스트(721)가 업데이트될 수도 있다. 디스플레이장치(100)는 AI(722)를 통해 제2사용자의 얼굴 및 목소리의 학습을 수행하고, 다양한 방법을 통해 제2사용자의 영상통화 연관 여부를 식별하여 식별 결과를 리스트(721)에 업데이트할 수도 있다.
AI(722)를 활용한 제2사용자의 학습 방법으로는, 예를 들면 얼굴 인식(facial recognition), 화자 인식(speaker recognition), 음성 위치 추정 알고리즘 등 다양한 방법이 사용될 수 있다. 디스플레이장치(100)는 사전에 등록된 얼굴 정보 및 음성 정보의 DB에 기초하여, 획득한 제2사용자의 얼굴 정보 및 음성 정보를 매칭시켜, 제2사용자를 식별할 수 있다.
얼굴 정보 및 음성 정보의 DB의 사전 구축과 관련하여, 디스플레이장치(100)는 영상통화의 시작 전 단계에서 참여자의 얼굴 및 음성을 기록하여 DB 또는 모델에 등록할 수 있다. 모델의 용량이 큰 경우에, 디스플레이장치(100)는 영상을 서버에 전송하고, 서버로부터 인식 결과를 수신할 수도 있다.
리스트(721)에 제2사용자를 통화자로 등록시키는 방법은 다양하게 마련된다. 예를 들어, 디스플레이장치(100)는 영상통화의 개시 시점부터 감지되는 사람은 자동으로 리스트(721)에 통화자로 등록시킬 수 있다. 이후, 디스플레이장치(100)는 새로 감지되는 사람을 영상통화 연관 여부에 따라서 리스트(721)에 등록시킨다.
판단 기준(720)의 다른 예시로서, AI(722)가 사용될 수 있다. AI(722)에 적용할 패러미터가 무엇인가에 따라서 AI(722)의 식별 결과가 다양하게 마련될 수 있다.
예를 들면, 디스플레이장치(100)는 AI(722)를 사용하여, 카메라에 의해 촬영된 영상 내에서 제2사용자의 시선이 향하는 방향을 추적할 수 있다. 디스플레이장치(100)는 제2사용자의 시선이 카메라를 기 설정된 시간 동안 또는 기 설정된 회수 이상 향하는 것으로 분석되면 제2사용자가 영상통화에 연관되는 것으로 식별하고, 그렇지 않다고 분석되면 제2사용자가 영상통화에 연관되지 않는 것으로 식별할 수 있다.
또는, 디스플레이장치(100)는 AI(722)를 사용하여, 마이크로폰에 수집되는 제2사용자의 음성의 컨텍스트(context)를 분석하고, 컨텍스트의 분석 결과에 따라서 제2사용자의 영상통화 연관 여부를 식별할 수도 있다. 제2사용자의 음성은 음성인식기술을 통해 텍스트로 변환되고, AI(722)를 통해 제2사용자의 텍스트가 문맥상 영상통화의 상대방과 대화하는 내용인지 여부가 식별될 수 있다. 디스플레이장치(100)는 제2사용자의 음성의 분석 결과, 제2사용자가 상대방과 대화하는 것으로 식별되면 제2사용자가 영상통화에 연관되는 것으로 식별하고, 그렇지 않다고 분석되면 제2사용자가 영상통화에 연관되지 않는 것으로 식별할 수 있다.
이상 실시예들에서 설명한 바와 같은 AI(722)의 동작은, 디스플레이장치(100) 또는 이와 통신하는 서버에 탑재될 수 있다. AI(722)는 기계 학습 알고리즘을 활용하여 다양한 제반 시스템에 적용될 수 있다. AI 시스템은 인간 수준 내지는 인간 수준에 버금가는 지능을 구현하는 컴퓨터 시스템으로서, 기계, 장치 또는 시스템이 자율적으로 학습하고 판단하며, 사용 경험의 누적에 기반하여 인식률 및 판단 정확도가 향상되는 시스템이다. AI 기술은 입력되는 데이터들의 특징을 스스로 분류하고 학습하는 알고리즘을 이용한 기계학습 기술 및 알고리즘을 활용하여, 인간의 두뇌의 인지, 판단 등의 기능을 모사하는 요소 기술들로 구성된다.
요소 기술들은, 예를 들면 인간의 언어와 문자를 인식하는 언어적 이해 기술, 사물을 인간의 시각처럼 인식하는 시각적 이해 기술, 정보를 판단하여 논리적으로 추론하고 예측하는 추론 및 예측 기술, 인간의 경험 정보를 지식 데이터로 처리하는 지식 표현 기술, 차량의 자율 주행이나 로봇의 움직임을 제어하는 동작 제어 기술 중 적어도 어느 하나를 포함한다. 여기서, 언어적인 이해는 인간의 언어 또는 문자를 인식하고 응용 처리하는 기술로서, 자연어의 처리, 기계 번역, 대화 시스템, 질의 응답, 음성 인식 및 합성 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 예측하는 기술로서, 지식 및 확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험 정보를 지식 데이터로 자동화 처리하는 기술로서, 데이터의 생성 및 분류와 같은 지식 구축, 데이터의 활용과 같은 지식 관리 등을 포함한다.
판단 기준(720)의 다른 예시로서, 제스처 감지 결과(723)가 사용될 수 있다. 디스플레이장치(100)는 카메라에 의해 촬영되는 영상데이터 내에서 제2사용자의 제스처 동작을 식별할 수 있다. 디스플레이장치(100)는 제2사용자가 사전 정의된 제스처를 수행하는 것으로 식별되면 제2사용자가 영상통화에 연관되는 것으로 식별하고, 그렇지 않다고 분석되면 제2사용자가 영상통화에 연관되지 않는 것으로 식별할 수 있다.
이하, 제스처 감지 결과(723)를 사용하는 예시에 관해 설명한다.
도 8은 디스플레이장치가 제2사용자의 제스처에 대응하여 선택적으로 노출차단 처리를 해제하는 원리를 나타내는 예시도이다.
도 8에 도시된 바와 같이, 디스플레이장치(100)는 제1사용자(10)가 영상통화를 진행하는 동안 제1사용자(10)를 포함하는 영상을 표시한다. 영상통화 도중에 새로 제2사용자(30)가 감지되고 제2사용자(30)가 영상통화에 연관되지 않는다고 식별되면, 디스플레이장치(100)는 소정 시점 T1에, 제2사용자(30)에 대한 노출차단 처리(811)가 수행된 영상(810)을 표시한다. 본 영상(810)은 제1사용자(10)에 대응하는 오브젝트 및 제2사용자(30)에 대응하는 오브젝트를 포함한다. 제1사용자(10)에 대응하는 오브젝트는 노출차단 처리가 수행되지 않은 반면, 제2사용자(30)에 대응하는 오브젝트에 대해서는 노출차단 처리가 수행된다.
그런데, 시점 T1 이후에, 제2사용자(30)가 사전 정의된 제스처를 수행하는 경우를 고려한다. 본 제스처는 영상통화에 연관됨을 나타내도록 미리 정의된 것이다. 디스플레이장치(100)는 제2사용자(30)가 해당 제스처를 수행하는 것으로 식별되면, 시점 T2에서, 제2사용자(30)에 대한 노출차단 처리(811)를 해제시켜 영상(820)을 표시한다. 즉, 디스플레이장치(100)는 초기에 제2사용자(30)가 영상통화에 연관되지 않는다고 식별하여 노출차단 처리(811)를 수행했다고 해도, 이후 제2사용자(30)가 특정 제스처를 취하는 것으로 감지되면 제2사용자(30)가 영상통화에 연관되는 것으로 식별할 수 있다.
그런데, 제스처가 반드시 영상통화에 연관되는 경우에만 정의되는 것은 아니며, 반대로 영상통화에 연관되지 않는 경우에도 정의될 수 있다. 이하, 이러한 실시예에 관해 설명한다.
도 9는 디스플레이장치가 제2사용자의 제스처에 대응하여 선택적으로 노출차단 처리를 수행하는 원리를 나타내는 예시도이다.
도 9에 도시된 바와 같이, 디스플레이장치(100)는 제1사용자(10)가 영상통화를 진행하는 동안 제1사용자(10)를 포함하는 영상을 표시한다. 영상통화 도중에 새로 제2사용자(30)가 감지되고 제2사용자(30)가 영상통화에 연관되는 것으로 식별되면, 디스플레이장치(100)는 소정 시점 T1에, 제1사용자(10)와 함께 제2사용자(30)가 나타나는 영상(910)을 표시한다. 본 영상(910)에서는 제1사용자(10)의 경우와 동일하게, 제2사용자(30)에 대응하는 오브젝트에 노출차단 처리가 수행되지 않는다.
그런데, 시점 T1 이후에, 제2사용자(30)가 사전 정의된 제스처를 수행하는 경우를 고려한다. 본 제스처는 영상통화에 연관되지 않음을 나타내도록 미리 정의된 것이다. 디스플레이장치(100)는 제2사용자(30)가 해당 제스처를 수행하는 것으로 식별되면, 시점 T2에서, 제2사용자(30)에 대응하는 오브젝트에 대한 노출차단 처리(921)를 수행하여 영상(920)을 표시한다.
이와 같이, 제스처는 제2사용자(30)가 영상통화에 연관되는 것을 나타내도록 정의될 수도 있고, 반대로 영상통화에 연관되지 않는 것을 나타내도록 정의될 수도 있다.
한편, 초기에 복수의 사용자가 영상통화를 수행하다가, 모든 사용자가 카메라의 화각 범위 밖으로 벗어나는 경우도 있다. 이하, 이러한 실시예에 관해 설명한다.
도 10은 디스플레이장치에서 복수의 사용자 중 일부가 카메라의 화각 범위 밖으로 벗어난 경우를 나타내는 예시도이다.
도 10에 도시된 바와 같이, 디스플레이장치(100)는 복수의 사용자, 예를 들면 제1사용자(10) 및 제2사용자(30) 두 명이 영상통화를 할 때, 영상(1000)을 표시한다. 본 영상(1000)은, 초기에 제1사용자(10) 및 제2사용자(30)가 카메라(160)의 화각 범위(V) 내에 있는 경우에, 제1사용자(10) 대응 오브젝트 및 제2사용자(30) 대응 오브젝트를 함께 포함한다.
이후, 제1사용자(10)가 카메라(160)의 화각 범위(V) 내에 있는 반면에 제2사용자(30)가 카메라(160)의 화각 범위(V) 밖으로 벗어나도록 이동하는 경우를 고려한다. 카메라(160)에는 제2사용자(30)가 더 이상 촬영되지 않으므로, 영상(1000)은 제1사용자(10) 대응 오브젝트만을 포함하게 된다. 이상의 과정에서, 디스플레이장치(100)는 영상통화를 위한 통상적인 동작 이외에 추가적인 동작을 수행하지는 않는다.
도 11은 디스플레이장치에서 모든 사용자가 카메라의 화각 범위 밖으로 벗어난 경우를 나타내는 예시도이다.
도 11에 도시된 바와 같이, 제1사용자(10)마저 카메라(160)의 화각 범위(V)를 벗어나게 되면, 카메라(160)의 화각 범위(V) 내에는 영상통화를 수행하는 어떠한 사람도 없게 된다. 디스플레이장치(100)는 카메라(160)를 통해 이러한 상태를 감지하면(그리고, 영상통화가 종료된 것이 아니라면), 영상(1100) 전체에 노출차단 처리를 수행한다. 노출차단 처리의 예시는 앞선 실시예에서 설명한 바와 같다.
카메라(160)의 화각 범위(V) 내에 어떠한 사람도 없다고 해도, 영상통화가 종료된 것이 아니라면 카메라(160)는 촬영을 계속하게 되고, 촬영에 의한 영상데이터에는 디스플레이장치(100)의 주변 환경이 나타나게 될 것이다. 디스플레이장치(100)는 영상(1100) 전체에 노출차단 처리를 함으로써, 카메라(160)의 촬영에 의한 영상데이터가 영상통화의 상대측에 전달되더라도 프라이버시의 노출이 최소화되도록 한다.
본 실시예는 영상통화의 통화자가 복수가 아니라 단일 통화자인 경우에도 동일하게 적용된다. 즉, 초기부터 제1사용자(10)만이 영상통화를 수행하였으며, 이후 제1사용자(10)가 카메라(160)의 화각 범위(V)를 벗어난다고 감지되면, 디스플레이장치(100)는 영상(1100) 전체에 노출차단 처리를 수행한다.
한편, 디스플레이장치(100)는 특정 조건을 만족하는 경우에 노출차단 처리 여부를 판단하도록 할 수 있다. 즉, 디스플레이장치(100)는 도 3의 350 단계를 무조건 수행할 수도 있지만, 설계 방식에 따라서는 특정 조건에 따라서 도 3의 350 단계를 수행하거나 또는 수행하지 않을 수 있다. 이하, 이러한 실시예에 관해 설명한다.
도 12는 디스플레이장치 전방에서 사용자의 위치 별 이격 거리를 나타내는 예시도이다.
도 12에 도시된 바와 같이, 디스플레이장치(100)는 카메라(160)에 의해 카메라(160) 전방에 있는 사용자(10)를 촬영한다. 디스플레이장치(100)는 카메라(160)에 의해 촬영된 영상데이터에서, 디스플레이장치(100) 또는 카메라(160)로부터 사용자(10)가 이격된 거리를 산출할 수 있다. 사용자(10)의 이격 거리는 다양한 방법에 의해 산출될 수 있으며, 예시로서 AI가 활용될 수 있다. 디스플레이장치(100)는 영상데이터에서 사용자(10) 대응 오브젝트를 식별하고, 해당 오브젝트의 뎁스(depth) 분석을 통해 사용자(10)의 이격 거리를 산출할 수 있다. 또는, 카메라(160)가 복수 개인 경우에, 디스플레이장치(100)는 삼각법을 사용하여 사용자(10)의 이격 거리를 산출할 수도 있다. 또는, 초음파 센서가 구비된 경우에, 디스플레이장치(100)는 센서로부터 방사된 초음파가 사용자(10)에 의해 반사되어 센서에 도달하는 시간을 계측하고, 계측 결과를 기반으로 사용자(10)의 이격 거리를 산출할 수도 있다.
카메라(160) 및 사용자(10) 사이의 거리와, 영상통화 시 표시되는 영상의 관련성을 고려하면 다음과 같다. 사용자(10)의 이격 거리가 상대적으로 가깝다면, 영상 내에서 사용자(10)의 모습은 상대적으로 넓은 면적을 점유한다. 이 경우에는 영상에서 사용자(10) 모습이 아닌 배경을 통한 프라이버시의 노출 위험은 상대적으로 적다고 예상된다. 반면에, 사용자(10)의 이격 거리가 상대적으로 멀다면, 영상 내에서 사용자(10)의 모습은 상대적으로 적은 면적을 점유한다. 이 경우에 영상 내에서 배경이 넓어지므로, 프라이버시 노출 위험은 상대적으로 높아진다.
이러한 점을 고려하여, 디스플레이장치(100)는 디스플레이장치(100) 또는 카메라(160)로부터의 이격 거리 Dt를 사전에 문턱값으로 정의한다. 디스플레이장치(100)는 사용자(10)의 이격 거리를 산출하고, 사용자(10)의 이격 거리가 Dt보다 가까운 D1이면 노출차단 처리에 관한 판단을 수행하지 않으며, 사용자(10)의 이격 거리가 Dt보다 먼 D2이면 노출차단 처리에 관한 판단을 수행한다.
또는, 디스플레이장치(100)는 사용자(10)의 이격 거리가 아니라, 카메라(160)에 의해 촬영되는 영상통화용 영상 내에서 사용자(10) 대응 오브젝트의 면적 비율에 따라서 선택적으로 노출차단 처리에 관한 판단을 수행할 수도 있다. 디스플레이장치(100)는 영상통화용 영상 내에서 사용자(10) 대응 오브젝트의 면적 비율이 사전 정의된 문턱값보다 크면(즉, 배경의 면적 비율이 상대적으로 작으면) 노출차단 처리에 관한 판단을 수행하지 않으며, 사용자(10) 대응 오브젝트의 면적 비율이 문턱값보다 작으면(즉, 배경의 면적 비율이 상대적으로 크면) 노출차단 처리에 관한 판단을 수행할 수도 있다.
또는, 디스플레이장치(100)는 영상통화용 영상의 표시가 타 장치로 전환되는 것을 감지할 수 있다. 예를 들어 사용자(10)가 모바일장치인 디스플레이장치(100)를 사용하여 영상통화를 하다가, 디스플레이장치(100)를 TV 위에 거치시켜 영상통화를 진행하는 경우를 고려한다. 디스플레이장치(100)를 TV 위에 거치시킴에 따라서, 영상은 디스플레이장치(100)로부터 TV로 전환되어 표시되게 된다. 디스플레이장치(100)를 사용하여 영상통화를 하는 경우에는 사용자(10)가 디스플레이장치(100)에 근접하지만, 디스플레이장치(100)를 TV 위에 거치시켜 영상통화를 하는 경우에는 사용자(10)가 디스플레이장치(100)로부터 상대적으로 멀어지게 된다. 이러한 점을 고려하여, 디스플레이장치(100)는 영상통화 동안에 영상의 표시가 타 장치로 전환되는 것을 감지하면 노출차단 처리에 관한 판단을 수행하고, 그렇지 않으면 해당 판단을 수행하지 않는다.
또는, 디스플레이장치(100)는 모바일장치인 경우에 움직임 여부를 감지할 수 있다. 모바일장치인 디스플레이장치(100)는 영상통화 시 사용자(10)가 손으로 파지하므로, 디스플레이장치(100)가 구비한 가속도센서, 자이로센서 등에 의해 움직임이 감지된다. 그런데, 디스플레이장치(100)를 소정 위치에 거치시키면 움직임은 감지되지 않는다. 이에, 디스플레이장치(100)는 영상통화 동안에 디스플레이장치(100)의 움직임이 감지되지 않으면 노출차단 처리에 관한 판단을 수행하고, 디스플레이장치(100)의 움직임이 감지되면 노출차단 처리에 관한 판단을 수행하지 않는다.
이와 같이, 노출차단 처리 여부를 판단할 것인가에 관한 조건은 다양한 예시가 적용될 수 있다.
한편, 앞선 실시예들에서는 영상의 노출차단 처리를 새로 감지된 사용자의 대응 영역에 대해서만 적용하는 경우에 관해 설명하였다. 그러나, 영상통화 동안에 새로운 사용자가 감지되지 않더라도, 영상통화를 수행하는 사용자 이외의 영역(즉, 배경)에 대해 노출차단 처리가 수행될 수 있다. 이하, 이러한 실시예에 관해 설명한다.
도 13은 디스플레이장치가 영상의 배경에 노출차단 처리를 하는 경우를 나타내는 예시도이다.
도 13에 도시된 바와 같이, 디스플레이장치(100)는 영상통화가 수행되는 동안 카메라(160)에 의해 사용자(10)를 촬영하여 사용자(10)가 나타나는 영상(1300)을 표시한다. 본 영상(1300)은 적어도 사용자(10)에 대응하는 영역을 포함하는 전경(1310)과, 전경(1310)을 제외한 나머지 영역인 배경(1320)으로 구분된다. 디스플레이장치(100)는 AI 등에 기초한 다양한 영상분석방법을 통해 전경(1310)과 배경(1320)을 구분할 수 있다. 따라서, 사용자(10)가 카메라(160) 앞에서 이동하면서 영상통화를 하더라도, 디스플레이장치(100)는 카메라(160)에 의한 영상데이터의 각 영상프레임마다 배경(1320)을 식별할 수 있다.
디스플레이장치(100)는 식별된 배경(1320)에 노출차단 처리를 수행하고, 전경(1310)에 노출차단 처리를 수행하지 않는다. 즉, 영상(1300)은 영상처리를 수행하는 사용자(10)를 그대로 나타내는 반면에, 배경(1320)에 노출차단 처리가 됨으로써 프라이버시 노출을 최소화시킨다.
본 발명의 예시적 실시예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이러한 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 매체는 삭제 가능 또는 재기록 가능 여부와 상관없이, USB 메모리장치와 같은 비휘발성 저장 장치, 또는 예를 들어 RAM, ROM, 플래시메모리, 메모리 칩, 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 이동 단말 내에 포함될 수 있는 메모리는 본 발명의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 본 저장 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어의 기술 분야에서 숙련된 기술자에게 공지되어 사용 가능한 것일 수도 있다. 또는, 본 컴퓨터 프로그램 명령은 컴퓨터 프로그램 프로덕트에 의해 구현될 수도 있다.

Claims (15)

  1. 디스플레이장치에 있어서,
    디스플레이와,
    외부장치와 통신하게 마련된 인터페이스와,
    상기 인터페이스를 통해 상기 외부장치의 상대방과 영상통화를 수행하기 위해 카메라에 의해 캡쳐된 사용자의 영상을 상기 디스플레이에 표시하고,
    상기 영상에 상기 사용자와 상이한 오브젝트가 포함되는 것에 기초하여 상기 오브젝트가 상기 영상통화에 연관되는지 여부를 식별하고,
    상기 오브젝트가 상기 영상통화에 연관되는지 여부에 대응하여, 상기 영상 내에서 상기 오브젝트에 대응하는 영역에 노출차단 처리를 선택적으로 수행하는 프로세서를 포함하는 디스플레이장치.
  2. 제1항에 있어서,
    상기 프로세서는, 상기 영상에서 상기 오브젝트에 대응하는 영역에 상기 노출차단 처리를 수행하고, 상기 오브젝트가 상기 영상통화에 연관되는 것으로 식별되는 것에 기초하여 상기 노출차단 처리를 해제하는 디스플레이장치.
  3. 제1항에 있어서,
    상기 프로세서는, 상기 오브젝트가 상기 사용자와 상이한 상기 영상통화의 신규 사용자인 것에 기초하여 상기 오브젝트가 상기 영상통화에 연관되는지 여부를 식별하는 디스플레이장치.
  4. 제3항에 있어서,
    상기 영상통화에 연관된 통화자 계정의 리스트를 저장하는 저장부를 더 포함하고,
    상기 프로세서는, 상기 신규 사용자를 상기 저장부에 저장된 상기 리스트에서 검색하는 디스플레이장치.
  5. 제3항에 있어서,
    상기 프로세서는, 상기 오브젝트의 시선이 상기 카메라를 향하는 것으로 식별되는 것에 기초하여 상기 오브젝트가 상기 신규 사용자인 것으로 식별하는 디스플레이장치.
  6. 제3항에 있어서,
    상기 프로세서는, 상기 오브젝트가 기 정의된 움직임을 취하는 것으로 식별되는 것에 기초하여 상기 오브젝트가 상기 신규 사용자인 것으로 식별하는 디스플레이장치.
  7. 제3항에 있어서,
    상기 프로세서는, 상기 오브젝트에 대응하는 영역에 상기 노출차단 처리가 수행된 상기 영상이 표시될 때에, 상기 오브젝트가 기 정의된 움직임을 취하는 것으로 식별되는 것에 기초하여 상기 노출차단 처리를 해제하는 디스플레이장치.
  8. 제1항에 있어서,
    상기 프로세서는, 상기 영상에 상기 영상통화와 관련된 어떠한 사용자도 없다고 식별되는 것에 기초하여 상기 영상 전체에 대해 상기 노출차단 처리를 수행하는 디스플레이장치.
  9. 제1항에 있어서,
    상기 프로세서는, 상기 오브젝트에 대응하는 영역을 블러 처리함으로써 상기 노출차단 처리를 수행하는 디스플레이장치.
  10. 제1항에 있어서,
    상기 프로세서는, 상기 오브젝트에 대응하는 영역에 기 정의된 이미지를 오버레이시킴으로써 상기 노출차단 처리를 수행하는 디스플레이장치.
  11. 제1항에 있어서,
    상기 프로세서는, 상기 오브젝트에 대응하는 영역의 해상도를 낮춤으로써 상기 노출차단 처리를 수행하는 디스플레이장치.
  12. 제1항에 있어서,
    상기 프로세서는, 상기 오브젝트에 대응하는 영역의 투명도를 높임으로써 상기 노출차단 처리를 수행하는 디스플레이장치.
  13. 제1항에 있어서,
    상기 프로세서는, 상기 오브젝트에 관련된 오디오를 뮤트 처리함으로써 상기 노출차단 처리를 수행하는 디스플레이장치.
  14. 디스플레이장치의 제어방법에 있어서,
    외부장치의 상대방과 영상통화를 수행하기 위해 카메라에 의해 캡쳐된 사용자의 영상을 표시하는 단계와,
    상기 영상에 상기 사용자와 상이한 오브젝트가 포함되는 것에 기초하여 상기 오브젝트가 상기 영상통화에 연관되는지 여부를 식별하는 단계와,
    상기 오브젝트가 상기 영상통화에 연관되는지 여부에 대응하여, 상기 영상 내에서 상기 오브젝트에 대응하는 영역에 노출차단 처리를 선택적으로 수행하는 단계를 포함하는 디스플레이장치의 제어방법.
  15. 제14항에 있어서,
    상기 영상에서 상기 오브젝트에 대응하는 영역에 상기 노출차단 처리를 수행하고, 상기 오브젝트가 상기 영상통화에 연관되는 것으로 식별되는 것에 기초하여 상기 노출차단 처리를 해제하는 디스플레이장치의 제어방법.
PCT/KR2021/011262 2020-09-04 2021-08-24 디스플레이장치 및 그 제어방법 WO2022050622A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0112766 2020-09-04
KR1020200112766A KR20220031168A (ko) 2020-09-04 2020-09-04 디스플레이장치 및 그 제어방법

Publications (1)

Publication Number Publication Date
WO2022050622A1 true WO2022050622A1 (ko) 2022-03-10

Family

ID=80491353

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/011262 WO2022050622A1 (ko) 2020-09-04 2021-08-24 디스플레이장치 및 그 제어방법

Country Status (2)

Country Link
KR (1) KR20220031168A (ko)
WO (1) WO2022050622A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024101552A1 (ko) * 2022-11-07 2024-05-16 삼성전자 주식회사 사용자에게 민감한 내용이 외부 디스플레이 장치를 통해 다른 사람에게 노출되지 않게 하는 휴대 전자 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101394597B1 (ko) * 2012-05-09 2014-05-27 김명훈 얼굴검출 알고리즘을 이용한 영상보안장치와 영상보안시스템 및 얼굴검출 알고리즘을 이용한 영상보안방법
JP2015029241A (ja) * 2013-06-24 2015-02-12 パナソニックIpマネジメント株式会社 指向性制御システム及び音声出力制御方法
KR20170082349A (ko) * 2016-01-06 2017-07-14 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
KR101960307B1 (ko) * 2012-08-03 2019-03-20 엘지전자 주식회사 이동 단말기 및 그 제어 방법
KR102059170B1 (ko) * 2017-11-02 2019-12-24 주식회사 하이퍼커넥트 전자 장치 및 그것의 통신 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101394597B1 (ko) * 2012-05-09 2014-05-27 김명훈 얼굴검출 알고리즘을 이용한 영상보안장치와 영상보안시스템 및 얼굴검출 알고리즘을 이용한 영상보안방법
KR101960307B1 (ko) * 2012-08-03 2019-03-20 엘지전자 주식회사 이동 단말기 및 그 제어 방법
JP2015029241A (ja) * 2013-06-24 2015-02-12 パナソニックIpマネジメント株式会社 指向性制御システム及び音声出力制御方法
KR20170082349A (ko) * 2016-01-06 2017-07-14 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
KR102059170B1 (ko) * 2017-11-02 2019-12-24 주식회사 하이퍼커넥트 전자 장치 및 그것의 통신 방법

Also Published As

Publication number Publication date
KR20220031168A (ko) 2022-03-11

Similar Documents

Publication Publication Date Title
US20070120966A1 (en) Speaker predicting apparatus, speaker predicting method, and program product for predicting speaker
WO2016028042A1 (en) Method of providing visual sound image and electronic device implementing the same
WO2020204659A1 (en) Electronic device, method, and computer-readable medium for providing bokeh effect in video
WO2017034062A1 (ko) 이동 대상을 이동 로봇이 추종하는 추종 시스템
WO2013085278A1 (ko) 선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법
WO2020145517A1 (en) Method for authenticating user and electronic device thereof
WO2021158017A1 (en) Electronic device and method for recognizing object
WO2014107025A1 (en) Method and apparatus for controlling contents in electronic device
WO2022050622A1 (ko) 디스플레이장치 및 그 제어방법
WO2014088125A1 (ko) 영상 촬영 장치 및 그 방법
WO2017039250A1 (en) Video communication device and operation thereof
WO2021049730A1 (ko) 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법
WO2022255730A1 (ko) 전자장치 및 그 제어방법
WO2023080667A1 (ko) Ai 기반 객체인식을 통한 감시카메라 wdr 영상 처리
WO2020230921A1 (ko) 레이저 패턴을 이용하여 이미지 내의 특징을 추출하는 방법 및 이를 적용한 식별장치와 로봇
WO2019098729A1 (ko) 차량용 모니터링 방법 및 장치
WO2021066275A1 (ko) 전자 장치 및 그 제어 방법
WO2021256760A1 (ko) 이동 가능한 전자장치 및 그 제어방법
WO2017003152A1 (en) Apparatus and method for controlling object movement
WO2022055174A1 (ko) 전자장치 및 그 제어방법
WO2022154256A1 (ko) 전자 장치 및 이의 제어 방법
WO2022108190A1 (ko) 전자장치 및 그 제어방법
WO2021137580A1 (ko) 전자장치 및 그 제어방법
WO2022025420A1 (ko) 전자장치 및 그 제어방법
WO2022065733A1 (ko) 전자장치 및 그 제어방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21864583

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21864583

Country of ref document: EP

Kind code of ref document: A1