WO2022191424A1 - 전자 장치 및 그 제어 방법 - Google Patents
전자 장치 및 그 제어 방법 Download PDFInfo
- Publication number
- WO2022191424A1 WO2022191424A1 PCT/KR2022/001279 KR2022001279W WO2022191424A1 WO 2022191424 A1 WO2022191424 A1 WO 2022191424A1 KR 2022001279 W KR2022001279 W KR 2022001279W WO 2022191424 A1 WO2022191424 A1 WO 2022191424A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- layer
- pixel position
- target
- electronic device
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 79
- 238000006243 chemical reaction Methods 0.000 claims abstract description 42
- 230000009466 transformation Effects 0.000 claims description 76
- 238000012935 Averaging Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/156—Mixing image signals
Definitions
- the present disclosure relates to an electronic device and a method for controlling the same, and more particularly, to an electronic device for generating an intermediate image using left and right images, and a method for controlling the same.
- Existing adjacent images are generated using images of one view point or images of both views.
- an adjacent image generated using an image of one viewpoint lacks information, and thus the image quality deteriorates severely.
- An adjacent image generated using images of both viewpoints has a problem in that a ghost phenomenon occurs due to a difference in viewpoints between the two sides.
- the method of improving the image quality by solving the ghost phenomenon has a problem of generating an adjacent image with insufficient information.
- An object of the present disclosure is to provide an electronic device for generating an intermediate image with improved image quality while including information on both right and left images, and a method for controlling the same.
- first parameter information and the right image of a camera photographing the left image of the target image, the right image of the target image, and the left image based on the target image receiving second parameter information of a camera that photographed generating a second multi-layer image; converting the image pixel position of each of the generated first multi-layer image and the second multi-layer image to a location of a target image based on the first parameter information and the second parameter information performing, obtaining a layer loss value of a multi-layer image based on a first multi-layer image on which the image pixel location conversion is performed and a second multi-layer image on which the image pixel location conversion is performed, and Learning each of the first multi-layer image on which the image pixel position transformation has been performed and the second multi-layer image on which the image pixel position transformation is performed is performed, the first multi-layer image on which the image pixel position transformation is performed, the image pixel position and learning the image registration of the image registration artificial intelligence model based
- the electronic device includes an input interface and a processor, wherein the processor captures the left image of the target image, the right image of the target image, and the left image based on the target image.
- controlling the input interface to receive the first parameter information of the camera and the second parameter information of the camera photographing the right image, and classifying the left image into a preset number of depth layers to generate a first multi-layer image, , classifying the right image into the preset number of depth layers to generate a second multi-layer image, and based on the first parameter information and the second parameter information, the generated first multi-layer image and the second Image pixel position transformation is performed on each of the multi-layer images to the position of the target image, and a multi-layer based on the first multi-layer image on which the image pixel position transformation is performed and the second multi-layer image on which the image pixel position transformation is performed Obtaining a layer loss value of the image, learning the first multi-layer image on which the image pixel position transformation is performed and the second multi
- FIG. 1 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
- FIG. 2 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
- FIG 3 is a view for explaining a process of generating a multi-layer image from a photographed image according to an embodiment of the present disclosure.
- FIG. 4 is a view for explaining a process of performing an image pixel position transformation process of a generated multi-layer image according to an embodiment of the present disclosure.
- FIG. 5 is a diagram illustrating an image on which image pixel position conversion is performed according to an embodiment of the present disclosure
- FIG. 6 is a diagram illustrating an image on which image pixel position conversion is performed from left and right images according to an embodiment of the present disclosure
- 7A is a diagram illustrating a target image obtained by synthesizing images on which image pixel position conversion has been performed, respectively, from left and right images.
- FIG. 7B is a diagram illustrating a target image obtained in consideration of a degree of registration according to an embodiment of the present disclosure.
- FIG. 8A is a diagram illustrating a process of learning a multi-layer image according to an embodiment of the present disclosure.
- 8B is a diagram illustrating a process of learning an image matching artificial intelligence model according to an embodiment of the present disclosure.
- 9 is a view for explaining a process of photographing left and right images.
- FIG. 10 is a view for explaining a process of learning a multi-layer image in consideration of a depth map according to an embodiment of the present disclosure.
- FIG. 11 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
- a “module” or “unit” for a component performs at least one function or operation.
- a “module” or “unit” may perform a function or operation by hardware, software, or a combination of hardware and software.
- a plurality of “modules” or a plurality of “units” other than a “module” or “unit” that must be performed in specific hardware or are executed in at least one processor may be integrated into at least one module.
- the singular expression includes the plural expression unless the context clearly dictates otherwise.
- each step should be understood as non-limiting unless the preceding step must be logically and temporally performed before the subsequent step. That is, except for the above exceptional cases, even if the process described as the subsequent step is performed before the process described as the preceding step, the essence of the disclosure is not affected, and the scope of rights should also be defined regardless of the order of the steps.
- “A or B” is defined as meaning not only selectively pointing to any one of A and B, but also including both A and B.
- the term "comprising" has the meaning of encompassing the inclusion of other components in addition to the elements listed as being included.
- FIG. 1 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
- the electronic device 100 includes an input interface 110 and a processor 120 .
- the electronic device 100 may include a smartphone, a tablet PC, a navigation system, a slate PC, a wearable device, a digital TV, a desktop computer, a laptop computer, a kiosk, and the like.
- the input interface 110 receives a captured image and parameter information of a camera capturing the image.
- the input interface 110 may receive a left image of the target image and a right image of the target image based on the target image.
- the target image refers to an intermediate image to be generated using the left image and the right image.
- the target image may be an image (correct answer image) captured at the location of the actual target image.
- the input interface 110 may receive first parameter information of a camera photographing a left image and second parameter information of a camera photographing a right image.
- the parameter information of the camera may include intrinsic parameter information and extrinsic parameter information.
- the internal parameter information may include a focal length, a principal point, a skew coefficient, etc.
- the external parameter information includes a three-dimensional position, posture information (eg, pitch, roll, yaw, etc.), parameters indicating a transformation relationship between the camera coordinate system and the international coordinate system, and the like.
- the input interface 110 may include an input/output port.
- the input/output port is HDMI (High-Definition Multimedia Interface), DP (DisplayPort), RGB, DVI (Digital Visual Interface), USB (Universal Serial Bus), Thunderbolt, LAN It may include ports such as
- the input interface 110 performs a function of receiving a captured image and camera parameters from an external device, and may be referred to as an input unit, an input module, or the like.
- the processor 120 may control each configuration of the electronic device 100 .
- the processor 120 controls the input interface 110 to receive a captured image and camera parameters.
- the processor 120 may train an image matching artificial intelligence model based on the captured image and camera parameters.
- the processor 120 generates a first multi-layer image by classifying the left image into a preset number of depth layers.
- the multi-layer image may be referred to as a multiple plane image (MPI).
- the processor 120 generates a second multi-layer image by classifying the right image into a preset number of depth layers in the same manner.
- the processor 120 performs image pixel position transformation on each of the first multi-layer image and the second multi-layer image generated based on the first parameter information and the second parameter information to the position of the target image.
- image pixel position transformation means converting a captured image into a position of a target image.
- image pixel position transformation may be referred to as warping.
- the processor 120 determines a layer loss (or cost) of the multi-layer image based on the first multi-layer image on which the image pixel location conversion is performed and the second multi-layer image on which the image pixel location conversion is performed. . For example, the processor 120 determines the first multi-layer image of each of the depth layers of the first multi-layer image on which the image pixel location conversion is performed based on the depth layer of the second multi-layer image on which the image pixel location conversion is performed. A layer loss value can be obtained.
- the processor 120 performs the image pixel position transformation on the basis of the depth layer of the first multi-layer image on which the image pixel position transformation is performed in the same manner as each second multi-layer image of the depth layer of the second multi-layer image on which the image pixel position transformation is performed. It is possible to obtain a layer loss value of .
- the processor 120 trains the first multi-layer image of the image registration artificial intelligence model based on the obtained layer loss value of the first multi-layer image, and image registration based on the obtained layer loss value of the second multi-layer image
- the second multi-layer image of the artificial intelligence model may be trained.
- the layer loss value of the first multi-layer image is an error of the first multi-layer image on which the image pixel position transformation is performed based on the second multi-layer image on which the image pixel position transformation is performed
- the layer loss value of the second multi-layer image is an error of the second multi-layer image on which the image pixel position transformation is performed based on the first multi-layer image on which the image pixel position transformation is performed.
- a large layer loss value of a multi-layer image means a large error, and it means that the multi-layer image of the image registration AI model is not well trained.
- the processor 120 may repeatedly learn the multi-layer image by applying the obtained layer loss value of the first multi-layer image and the layer loss value of the second multi-layer image.
- Each of the layer loss value of the first multi-layer image and the layer loss value of the second multi-layer image obtained from the iteratively learned image registration artificial intelligence model may be 0 or a value close to 0.
- the processor 120 generates a first target image including the first multi-layer image and a second target image including the second multi-layer image.
- the processor 120 may control the input interface 110 to receive a preset reference image.
- the preset reference image may be a target image to be acquired.
- the processor 120 acquires a quality loss value based on the generated first target image, the generated second target image, and a preset reference image.
- the processor 120 may obtain a quality loss value between an average image obtained by averaging the generated first target image and the generated second target image and a preset reference image.
- the processor 120 learns image registration of the image registration artificial intelligence model based on the obtained image quality loss value. That is, the processor 120 may learn image registration based on the obtained image quality loss value.
- the quality loss value means an error between the average image of the generated first and second target images and a preset reference image.
- a high quality loss value means that the average image and the reference image deviate a lot, and it means that the image registration process of the image registration AI model is not well learned.
- the processor 120 may repeatedly learn the image registration process of the image registration artificial intelligence model by applying the obtained image quality loss value.
- the image quality loss value obtained from the iteratively learned image matching artificial intelligence model may be 0 or a value close to 0.
- the image quality loss value may also be 0.
- the reference image (or correct answer image) of the multi-layer image on which the image pixel position transformation is performed does not exist in the learning process of the multi-layer image
- the first multi-layer image or image on which the image pixel position transformation is performed which is a relative image.
- a second multi-layer image on which pixel position conversion has been performed is used as a reference image.
- the learning process of the multi-layer image was not learned based on the accurate reference image, the first target image on which the image pixel position transformation was performed from the left image and the second target image on which the image pixel position transformation was performed from the right image were completely may not match. That is, the image quality loss value may be greater than zero. Therefore, a separate matching learning process is required.
- the image matching artificial intelligence model may be trained, and then may generate a target image (middle image) from the input left image and right image. That is, the input interface 110 may receive the left image, the right image, parameter information of the camera photographing the left image, and parameter information of the camera photographing the right image according to the control of the processor 120 .
- the processor 120 may generate a third multi-layer image for the left image and generate a fourth multi-layer image for the right image.
- the learned image registration artificial intelligence model may obtain a layer loss value of the multi-layer image for each of the third multi-layer image and the fourth multi-layer image.
- the processor 120 generates a third target image obtained by converting the image pixel position of the third multi-layer image to the position of the target image based on the learned image registration artificial intelligence model and the layer loss value of the obtained multi-layer image, and , it is possible to generate a fourth target image obtained by performing image pixel position transformation of the fourth multi-layer image to the position of the target image.
- the processor 120 may generate a temporarily matched image obtained by averaging the generated third target image and the generated fourth target image.
- the learned image registration artificial intelligence model may acquire a quality loss value for the generated temporary registration image.
- the processor 120 may generate the final target image from the temporarily matched image generated by using the learned image registration artificial intelligence model and the acquired image quality loss value. That is, the processor 120 may generate the final target image based on the learned image matching artificial intelligence model.
- the electronic device 100 may obtain a depth map.
- the processor 120 may train an image registration artificial intelligence model based on the acquired depth map, and may generate a target image based on the learned image registration artificial intelligence model.
- the input interface 110 may receive a first depth map of a camera photographing a left image and a second depth map of a camera photographing a right image according to the control of the processor 120 .
- the processor 120 may identify overlapping regions of the first multi-layer image and the second multi-layer image based on the input first depth map and the input second depth map.
- the processor 120 may obtain a layer loss value of the multi-layer image based on the identified overlapping region and train the multi-layer image of the image registration model. Since the image registration AI model is trained only on the overlapping area, it can generate a clearer target image.
- FIG. 2 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
- the electronic device 100 includes an input interface 110 , a processor 120 , a communication interface 130 , a camera 140 , a microphone 150 , a speaker 160 , a display 170 , and a memory. 180 and a sensor 190 may be included. Since the input interface 110 is the same as that described with reference to FIG. 1 , a detailed description thereof will be omitted.
- the communication interface 130 may communicate with an external device.
- the communication interface 130 may transmit/receive data to and from an external device using a wired/wireless communication method.
- the communication interface 130 may include 3G, Long Term Evolution (LTE), 5G, Wi-Fi, Bluetooth, Digital Multimedia Broadcasting (DMB), Advanced Television Systems Committee (ATSC), Digital Video Broadcasting (DVB), and Local Area Network (LAN). It may include a module capable of performing communication in a manner such as an area network).
- the communication interface 130 for communicating with an external device may be referred to as a communication unit, a communication module, a transceiver, or the like.
- the communication interface 130 may receive an artificial intelligence model from an external device.
- the received artificial intelligence model may be stored in the memory 180 .
- the function related to artificial intelligence according to the present disclosure may be operated through the processor 120 and the memory 180 .
- the processor 120 may include one or a plurality of processors.
- one or more processors may be general-purpose processors such as CPUs, APs, digital signal processors (DSPs), etc., graphics-only processors such as GPUs and VPUs (Vision Processing Units), or artificial intelligence-only processors such as NPUs.
- One or more processors control to process input data according to the image matching artificial intelligence model stored in the memory 180 .
- the artificial intelligence-only processors may be designed with a hardware structure specialized for processing an image matching artificial intelligence model.
- the image matching artificial intelligence model may be created through the above-described learning process.
- being made through learning means that the image matching AI model is created to generate a target image by learning the basic AI model using a plurality of learning data by the image matching algorithm.
- the learning algorithm include, but are not limited to, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning.
- the image matching AI model may be composed of a plurality of neural network layers.
- Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between an operation result of a previous layer and a plurality of weights.
- the plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated so that a loss value obtained from the artificial intelligence model is reduced or minimized during the learning process.
- the artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), There may be a Deep Belief Network (DBN), a Bidirectional Recurrent Deep Neural Network (BRDNN), or a Deep Q-Networks, but is not limited to the above-described example.
- DNN Deep Neural Network
- DNN Deep Belief Network
- BBDNN Bidirectional Recurrent Deep Neural Network
- Deep Q-Networks Deep Q-Networks
- the artificial intelligence model received from the external device may be learned by the electronic device 100 under the control of the processor 120 and generated as an image matching artificial intelligence model. Alternatively, learning of the artificial intelligence model may be performed in an external device.
- the processor 120 may transmit data necessary for learning the artificial intelligence model, such as a captured image, a camera parameter, a depth map, a layer loss value or a quality loss value of a multi-layer image, to an external device including the artificial intelligence model.
- the artificial intelligence model included in the external device may be trained as an image matching artificial intelligence model based on learning data received from the electronic device 100 .
- the processor 120 may control the communication interface 130 to transmit the captured image and camera parameters to an external device including the learned image matching artificial intelligence model.
- the processor 120 may control the communication interface 130 to receive the target image generated from the external device.
- the external device may include a web server, a cloud, and the like.
- the camera 140 may photograph the surrounding environment of the electronic device 100 .
- the camera 140 may photograph the user's facial expression or motion.
- the processor 120 may recognize a control command based on the captured user's facial expression or motion, and perform a control operation corresponding to the recognized control command.
- the camera 140 may include a CCD sensor or a CMOS sensor.
- the camera 140 may include an RGB camera and a depth camera.
- the microphone 150 may receive a user's voice.
- the processor 120 may recognize a control command based on the input voice and perform a control operation corresponding to the recognized control command.
- the speaker 160 outputs an audio signal on which audio processing is performed. Also, the speaker 160 may output a user's input command, state-related information or operation-related information of the electronic device 100 as a voice or a notification sound.
- the display 170 outputs an image signal on which image processing is performed.
- the display 170 may output a photographed left image, a photographed right image, and a generated target image based on a user's command or an implemented function.
- the display 170 may be implemented as a liquid crystal display (LCD), an organic light emitting diode (OLED), a flexible display, a touch screen, or the like.
- the electronic device 100 may receive a control command through the touch screen.
- the memory 180 may store data, algorithms, artificial intelligence models, and the like that perform functions of the electronic device 100 , and may store programs and commands driven by the electronic device 100 .
- the algorithm stored in the memory 180 may be loaded into the processor 120 under the control of the processor 120 to learn the image registration artificial intelligence model, and may generate a target image using the learned image registration artificial intelligence model.
- the memory 180 may be implemented as a type of ROM, RAM, HDD, SSD, memory card, or the like.
- the sensor 190 may detect an object around the electronic device 100 .
- the processor 120 may recognize a control command based on the sensed signal and perform a control operation corresponding to the recognized control command.
- the sensor 190 may detect information about the surrounding environment of the electronic device 100 .
- the processor 120 may perform a corresponding control operation based on the surrounding environment information sensed by the sensor 190 .
- the sensor 190 may include an acceleration sensor, a gravity sensor, a gyro sensor, a geomagnetic sensor, a direction sensor, a motion recognition sensor, a proximity sensor, a voltmeter, an ammeter, a barometer, a hygrometer, a thermometer, an illuminance sensor, a heat sensor, and a touch sensor. , an infrared sensor, an ultrasonic sensor, and the like.
- the electronic device 100 may include all of the above-described configurations, or may include some of the configurations. In addition, the electronic device 100 may further include other components that perform various functions in addition to the above-described components. So far, the configuration of the electronic device 100 has been described. Hereinafter, a process of training an image matching AI model and a process of generating a target image using the learned image matching AI model will be described below.
- FIG. 3 is a view for explaining a process of generating a multi-layer image from a photographed image according to an embodiment of the present disclosure
- FIG. 4 is an image pixel position transformation of the generated multi-layer image according to an embodiment of the present disclosure
- FIG. 5 is a diagram illustrating an image on which image pixel position conversion is performed according to an embodiment of the present disclosure. A process of generating a target image will be described with reference to FIGS. 3 to 5 .
- a left image 11 including a first object 1 and a second object 3 is shown.
- the electronic device 100 may input the left image 11 and parameter information of a camera photographing the left image 11 to the image matching artificial intelligence model.
- the image matching artificial intelligence model may be stored in a memory and loaded into a processor to perform a learning process.
- the image matching artificial intelligence model may be stored in an external device, and the electronic device 100 may train the image matching artificial intelligence model by transmitting the captured image and camera parameter information to the external device.
- the electronic device 100 may classify the captured left image 11 into a preset number of depth layers 11-1, 11-2, 11-3, ..., 11-n.
- An image set classified into a preset number of depth layers 11-1, 11-2, 11-3, ..., 11-n may be referred to as a multi-layer image.
- the preset number of depth layers 11-1, 11-2, 11-3, ..., 11-n may be 32.
- the first object 1 may be included in the second layer 11-2
- the second object 3 may be included in the third layer 11-3. That is, the electronic device 100 classifies the left image 11 including the object into a preset number of depth layers 11-1, 11-2, 11-3, ..., 11-n to form a multi-layered image. can create Each of the layers 11-1, 11-2, 11-3, ..., 11-n may include different objects according to the depths of the objects 1 and 3 .
- a multi-layer image including a plurality of depth layers 11-1, 11-2, 11-3, ..., 11-n is a multi-layer image in which image pixel position is converted to a position of a target image. is shown, and referring to FIG. 5 , a target image generated by generating a single multi-layer image on which image pixel position conversion is performed is shown.
- the electronic device 100 may perform image pixel position transformation for each layer of the multi-layer image to the position of the target image.
- the image pixel position conversion process of the image may be performed using a conversion formula based on parameter information of a camera that has photographed the left image and parameter information of a camera that has photographed the right image. Since the image pixel position conversion process of an image is a well-known technique and is not a feature of the present disclosure, a detailed description thereof will be omitted.
- objects included in each depth layer of the multi-layer image may be included in the same depth layer. That is, the first object 1 may be included in the second layer 11-2, and the second object 3 may be included in the third layer 11-3.
- the position of the target image is located on the right side based on the left image, the position including the object may be changed.
- the first and second objects 1 and 3 are located in the right region of the image, but the generated target image 21 or In a multi-layer image (a first multi-layer image) on which image pixel position conversion has been performed, the first and second objects 1 and 3 may be located in a central region of the image.
- the electronic device 100 may also perform the above-described process for the right image.
- the left image is an image in the left direction
- the right image is an image in the right direction.
- the object included in the target image may be included in both the left image and the right image. That is, the first and second objects 1 and 3 included in the left image 11 may also be included in the right image.
- the right image is an image in a right direction with respect to the target image
- the first and second objects 1 and 3 may be located in the left region of the image in the right image.
- the electronic device 100 generates a multi-layer image from the right image, and performs image pixel position conversion on the generated multi-layer image to the position of the target image to perform image pixel position transformation on the multi-layer image (second multi-layer image). layer image). Similar to the first multi-layer image, in the second multi-layer image, the first and second objects 1 and 3 may be positioned in a central region of the image.
- the image matching artificial intelligence model may acquire a loss value of each layer of the first and second multi-layer images to which image pixel position transformation is performed, and learn the multi-layer image by using the obtained loss value.
- the multi-layer image learning of the image matching artificial intelligence model may be completed. Then, when the electronic device 100 (or the image matching artificial intelligence model) completes learning on the first multi-layer image and the second multi-layer image, the first target image 21 based on the first multi-layer image may be generated, and a second target image may be generated based on the second multi-layer image.
- FIG. 6 is a diagram illustrating an image on which image pixel position conversion is performed from left and right images according to an embodiment of the present disclosure
- the image quality loss value is also 0 can be That is, the first target image 21 generated from the left image and the second target image 31 generated from the right image should be matched.
- the image pixel position transformation learning process of the multi-layer image since the reference image (or the correct image) of the multi-layer image on which the image pixel position transformation is performed does not exist, the first multiple image pixel position transformation is performed, which is a relative image. A layer image or a second multi-layer image on which image pixel position conversion has been performed is used as a reference image.
- the first multi-layer image on which the image pixel position conversion has been performed is an image obtained by performing image pixel position transformation on the multi-layer image generated from the photographed left image, and the second multi-layer image with the image pixel position transformation is performed on the captured right image. It is an image obtained by performing image pixel position transformation on the generated multi-layer image.
- the first multi-layer image loss value for each layer of the first multi-layer image on which the image pixel position transformation is performed is obtained based on each layer of the second multi-layer image on which the image pixel position transformation is performed, and the image pixel
- the second multi-layer image loss value for each layer of the second multi-layer image on which the position transformation is performed may be obtained based on each layer of the first multi-layer image on which the image pixel position transformation is performed. Accordingly, the first target image 21 generated as the first multi-layer image and the second target image 31 generated as the second multi-layer image may not be completely matched as shown in FIG. 6 , and image registration For the artificial intelligence model, a separate image registration learning process must be performed.
- the image matching artificial intelligence model may generate an average image obtained by averaging the generated first target image 21 and the generated second target image 31 .
- the image matching artificial intelligence model may acquire a quality loss value between the generated average image and a preset reference image.
- the image registration artificial intelligence model may learn image registration of each of the multi-layer images of the average image based on the obtained image quality loss value.
- FIG. 7A is a view showing a target image obtained by synthesizing an image on which image pixel position conversion is performed from left and right images, respectively
- FIG. 7B is a view showing a target image obtained in consideration of the degree of registration according to an embodiment of the present disclosure. to be.
- a ghost phenomenon appears because the matching degree of the first target image and the second target image does not match.
- the ghost phenomenon is removed by considering the degree of matching between the first target image and the second target image, and thus appears clearly.
- FIG. 8A is a diagram illustrating a process of learning a multi-layer image according to an embodiment of the present disclosure.
- the electronic device 100 may generate a left image multi-layer image 41 from the left image and generate a right image multi-layer image 51 from the right image.
- the electronic device 100 converts the generated left image multi-layer image 41 into the first multi-layer image 42 by performing image pixel position transformation in the right direction, and converts the generated right image multi-layer image 51 to By performing image pixel position transformation in the left direction, it can be converted into the second multi-layered image 52 .
- the electronic device 100 includes each of the layers 42-1, ..., 42-30 of the first multi-layer image 42 on which the image pixel position transformation is performed and the second multi-layer image 52 on which the image pixel position transformation is performed.
- a layer loss value 60 of a multi-layer image between each layer of each of the layers 52-1, ..., 52-30 may be obtained.
- the electronic device 100 may learn the multi-layer image of the image registration artificial intelligence model based on the obtained layer loss value 60 of the multi-layer image of each layer.
- 8B is a diagram illustrating a process of learning an image matching artificial intelligence model according to an embodiment of the present disclosure.
- the electronic device 100 When the multi-layer image learning of the image registration artificial intelligence model is completed, the electronic device 100 generates one first target image 45 from the first multi-layer image, and one second target image 45 from the second multi-layer image. An image 55 may be generated. In addition, the electronic device 100 may generate an average image obtained by averaging the first target image 45 and the second target image 55 . The electronic device 100 may obtain a quality loss value 63 between the generated average image and a preset reference image. The electronic device 100 may learn the image registration process of the image registration artificial intelligence model based on the acquired image quality loss value 63 . That is, the electronic device 100 may learn the image matching process of each of the average image multi-layer images based on the obtained image quality loss value 63 . The image matching artificial intelligence model may learn a process of generating a target image based on a network learning loss value 65 that is a loss value of two elements: a multi-layer image loss value 60 and a quality loss value 63 .
- 9 is a view for explaining a process of photographing left and right images.
- FIG. 9 a process of photographing a left image and a right image using two cameras 200a and 200b, respectively, is illustrated. Since the left camera 200a captures the left area of the object 5, information on the right area 5-1 of the object cannot be obtained. Since the right camera 200b captures the right area of the object 5 , information on the left area 5 - 2 of the object cannot be obtained.
- the learning process of generating the above-described target image information on the right region 5-1 of the object included only in the right image and information on the left region 5-2 of the object included only in the left image may be learned together. Accordingly, a slight error may be included in the target image due to information on the right region 5-1 and the left region 5-2 of the object included only in the left image and a part of the right image.
- the two cameras 200a and 200b may acquire information on the left depth map and the right depth map in addition to the captured left image and right image.
- information on the acquired left depth map and right depth map may be provided to the electronic device 100 .
- the electronic device 100 may remove an error by identifying an overlapping area of the object 5 in consideration of the provided left depth map and right depth map, and performing an image pixel position conversion and matching process on the identified overlapping area. .
- FIG. 10 is a view for explaining a process of learning a multi-layer image in consideration of a depth map according to an embodiment of the present disclosure.
- the electronic device 100 may obtain a first multi-layer image 42 and a second multi-layer image 52 from the left image and the right image, respectively. Meanwhile, the electronic device 100 may also acquire the left depth map 43 and the right depth map 53 together with the image and camera parameters. The electronic device 100 may identify overlapping regions of the first multi-layer image 42 and the second multi-layer image 52 based on the left depth map 43 and the right depth map 53 . As described above, the overlapped region refers to a region from which the right region 5-1 of the object included only in the right image and the left region 5-2 of the object included only in the left image are removed.
- the electronic device 100 acquires a multi-layer image layer loss value 60 based on the identified overlapping region to learn a multi-layer image of the image registration artificial intelligence model, and based on the average image of the target image and a preset reference image It is possible to learn the image registration process of the image registration artificial intelligence model by acquiring the image quality loss value.
- the electronic device 100 may generate a target image based on the learned image matching artificial intelligence model. For example, the electronic device 100 may receive arbitrary left and right images, parameter information of a camera that captured a left image, and parameter information of a camera that captured a right image. In addition, the electronic device 100 may generate a target image by using the learned image matching artificial intelligence model. For example, the electronic device 100 may generate a left multi-layer image for the left image and a right multi-layer image for the right image based on the learned image matching artificial intelligence model. In addition, the electronic device 100 may generate a left target image and a right target image by converting image pixel positions of the left multi-layer image and the right multi-layer image, respectively. The electronic device 100 may generate a temporary registered image by averaging the left target image and the right target image, and may generate a final target image based on the generated temporary registered image.
- FIG. 11 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
- the electronic device 100 provides first parameter information of a camera that photographed the left image, the right image of the target image, and the left image of the target image, and second parameter information of the camera that photographed the right image, based on the target image.
- Receive parameter information (S1110).
- the electronic device 100 may also receive left and right depth maps.
- the electronic device 100 classifies the left image into a preset number of depth layers to generate a first multi-layer image, and classifies the right image into a preset number of depth layers to generate a second multi-layer image (S1120) .
- the electronic device 100 performs image pixel position transformation on each of the first multi-layer image and the second multi-layer image generated based on the first parameter information and the second parameter information to the position of the target image ( S1130 ).
- the electronic device 100 obtains the layer loss value of the multi-layer image based on the first multi-layer image on which the image pixel position transformation is performed and the second multi-layer image on which the image pixel position transformation is performed, and the image pixel position transformation is performed.
- Each of the performed first multi-layer image and the second multi-layer image on which the image pixel position transformation has been performed is learned ( S1140 ).
- the electronic device 100 performs the image pixel position transformation on the second multi-layer image.
- a layer loss value of the first multi-layer image of each depth layer of the first multi-layer image to which the image pixel position conversion is performed based on the depth layer of may be obtained.
- the electronic device 100 is a layer of each of the second multi-layer images of the depth layer of the second multi-layer image on which the image pixel location conversion is performed based on the depth layer of the first multi-layer image on which the image pixel location conversion is performed. Loss values can be obtained.
- the electronic device 100 when the electronic device 100 also receives the left and right depth maps, the electronic device 100 performs the first multi-layer image and the second multi-layer image based on the input left depth map and the right depth map. can identify overlapping regions of In addition, the electronic device 100 may obtain a layer loss value of the multi-layer image based on the identified overlapping region. The electronic device 100 learns the first multi-layer image based on the obtained layer loss value of the first multi-layer image, and learns the second multi-layer image based on the obtained layer loss value of the second multi-layer image can do it
- the electronic device 100 learns the image registration of the image registration artificial intelligence model based on the first multi-layer image on which the image pixel position transformation is performed, the second multi-layer image on which the image pixel position transformation is performed, and a preset reference image. (S1150).
- the electronic device 100 may include a first target image including each depth layer of the first multi-layer image on which the image pixel position transformation is performed, and each depth layer of the second multi-layer image on which the image pixel position transformation is performed.
- a second target image including
- the electronic device 100 may generate an average target image obtained by averaging the generated first target image and the generated second target image.
- the electronic device 100 may obtain an image quality loss value between the generated average target image and a preset reference image, and learn image registration of the image matching artificial intelligence model based on the obtained image quality loss value.
- the electronic device 100 may generate a target image by using the learned image matching artificial intelligence model. For example, the electronic device 100 may receive an arbitrary left image, an arbitrary right image, third parameter information of a camera photographing a left image, and fourth parameter information of a camera photographing a right image. In addition, the electronic device 100 may generate a third multi-layer image for the left image and generate a fourth multi-layer image for the right image.
- the electronic device 100 converts the third target image and the fourth multi-layer image obtained by performing image pixel position conversion of the third multi-layer image to the position of the target image based on the learned image registration artificial intelligence model as the position of the target image.
- a fourth target image obtained by performing image pixel position transformation may be generated, and a temporary matched image obtained by averaging the generated third target image and the generated fourth target image may be generated.
- the electronic device 100 may generate a final target image from the temporarily matched image generated using the learned image registration artificial intelligence model.
- the method for controlling an electronic device may be provided as a computer program product.
- the computer program product may include the S/W program itself or a non-transitory computer readable medium in which the S/W program is stored.
- the non-transitory readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, etc., and can be read by a device.
- a non-transitory readable medium such as a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Control Of Electric Motors In General (AREA)
Abstract
전자 장치 및 그 제어 방법이 개시된다. 전자 장치의 제어 방법은 타겟 영상을 기준으로 타겟 영상의 좌측 및 우측 영상, 좌측 및 우측 영상을 촬영한 카메라의 제1 파라미터 정보 및 제2 파라미터 정보를 입력받는 단계, 좌측 영상 및 우측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 및 제2 다중 레이어 이미지를 생성하는 단계, 제1 및 제2 파라미터 정보에 기초하여 생성된 제1 및 제2 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하는 단계, 이미지 픽셀 위치 변환이 수행된 제1 및 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값을 획득하고, 이미지 픽셀 위치 변환이 수행된 제1 및 제2 다중 레이어 이미지를 학습시키는 단계, 이미지 픽셀 위치 변환이 수행된 제1 및 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시키는 단계를 포함한다.
Description
본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 좌측 및 우측 영상을 이용하여 중간 영상을 생성하는 전자 장치 및 그 제어 방법에 관한 것이다.
최근 전자 기술의 발전에 따라 3D 기술, 360도 VR 기술 등과 같은 다양한 응용 기술이 상용화되고 있다. 현실적인 3D 기술, 360도 VR 기술을 구현하기 위해 다양한 각도에서 촬영된 영상이 필요하다. 동일한 시간에 다양한 각도에서 촬영된 영상을 획득하기 위해서 많은 카메라가 필요하다. 그러나, 현실적으로 수많은 카메라를 이용하여 영상을 촬영하는 것은 한계가 있다. 따라서, 상대적으로 적은 수의 카메라를 이용하여 영상을 촬영하고, 촬영된 영상을 이용하여 인접한 영상을 생성하는 기술이 개발되었다.
기존의 인접 영상은 하나의 시점(view point)의 영상을 이용하여 생성되거나, 양측의 시점의 영상을 이용하여 생성되었다. 그러나, 하나의 시점의 영상을 이용하여 생성되는 인접 영상은 정보가 부족하여 화질 열화가 심하다. 양측의 시점의 영상을 이용하여 생성되는 인접 영상은 양측의 시점 차로 고스트 현상이 발생하는 문제점이 있다. 또한, 고스트 현상을 해결하여 화질을 향상시키는 방법은 정보가 충분치 못한 인접 영상을 생성하는 문제가 있다.
따라서, 촬영된 영상 정보를 모두 포함하고 화질도 향상시킬 수 있는 기술에 대한 필요성이 존재한다.
본 개시의 목적은 우측 및 좌측 영상의 정보를 모두 포함하면서 화질이 향상된 중간 영상을 생성하는 전자 장치 및 그 제어 방법을 제공함에 있다.
본 개시의 일 실시 예에 따르면, 전자 장치의 제어 방법은 타겟 영상을 기준으로 상기 타겟 영상의 좌측 영상, 상기 타겟 영상의 우측 영상, 상기 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 상기 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받는 단계, 상기 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성하고, 상기 우측 영상을 상기 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성하는 단계, 상기 제1 파라미터 정보 및 상기 제2 파라미터 정보에 기초하여 상기 생성된 제1 다중 레이어 이미지 및 상기 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하는 단계, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값(loss)을 획득하고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키는 단계, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지, 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시키는 단계를 포함한다.
그리고, 본 개시의 일 실시 예에 따르면, 전자 장치는 입력 인터페이스 및 프로세서를 포함하고, 상기 프로세서는 타겟 영상을 기준으로 상기 타겟 영상의 좌측 영상, 상기 타겟 영상의 우측 영상, 상기 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 상기 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받도록 상기 입력 인터페이스를 제어하고, 상기 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성하고, 상기 우측 영상을 상기 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성하며, 상기 제1 파라미터 정보 및 상기 제2 파라미터 정보에 기초하여 상기 생성된 제1 다중 레이어 이미지 및 상기 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값(loss)을 획득하며, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지, 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시킨다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 촬영된 영상으로부터 다중 레이어 이미지를 생성하는 과정을 설명하는 도면이다.
도 4는 본 개시의 일 실시 예에 따른 생성된 다중 레이어 이미지의 이미지 픽셀 위치 변환 과정을 수행하는 과정을 설명하는 도면이다.
도 5는 본 개시의 일 실시 예에 따른 이미지 픽셀 위치 변환이 수행된 영상을 나타내는 도면이다.
도 6은 본 개시의 일 실시 예에 따른 좌측 및 우측 영상으로부터 이미지 픽셀 위치 변환이 수행된 영상을 나타내는 도면이다.
도 7a는 좌측 및 우측 영상으로부터 각각 이미지 픽셀 위치 변환이 수행된 영상을 합성한 타겟 영상을 나타내는 도면이다.
도 7b는 본 개시의 일 실시 예에 따른 정합도를 고려하여 획득한 타겟 영상을 나타내는 도면이다.
도 8a는 본 개시의 일 실시 예에 따른 다중 레이어 이미지를 학습하는 과정을 설명하는 도면이다.
도 8b는 본 개시의 일 실시 예에 따른 영상 정합 인공 지능 모델을 학습하는 과정을 설명하는 도면이다.
도 9는 좌측 및 우측 영상을 촬영하는 과정을 설명하는 도면이다.
도 10은 본 개시의 일 실시 예에 따른 뎁스 맵을 고려하여 다중 레이어 이미지를 학습하는 과정을 설명하는 도면이다.
도 11은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.
이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 개시의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 프로세서에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다. 그리고 본 명세서에서 "A 또는 B"라고 기재한 것은 A와 B 중 어느 하나를 선택적으로 가리키는 것뿐만 아니라 A와 B 모두를 포함하는 것도 의미하는 것으로 정의된다. 또한, 본 명세서에서 "포함"이라는 용어는 포함하는 것으로 나열된 요소 이외에 추가로 다른 구성요소를 더 포함하는 것도 포괄하는 의미를 가진다.
본 명세서에서는 본 개시의 설명에 필요한 필수적인 구성요소만을 설명하며, 본 개시의 본질과 관계가 없는 구성요소는 언급하지 아니한다. 그리고 언급되는 구성요소만을 포함하는 배타적인 의미로 해석되어서는 아니되며 다른 구성요소도 포함할 수 있는 비배타적인 의미로 해석되어야 한다.
그 밖에도, 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다. 한편, 각 실시 예는 독립적으로 구현되거나 동작될 수도 있지만, 각 실시 예는 조합되어 구현되거나 동작될 수도 있다.
도 1은 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.
도 1을 참조하면, 전자 장치(100)는 입력 인터페이스(110) 및 프로세서(120)를 포함한다. 예를 들어, 전자 장치(100)는 스마트폰, 태블릿 PC, 네비게이션, 슬레이트 PC, 웨어러블 디바이스, 디지털 TV, 데스크탑 컴퓨터, 랩탑 컴퓨터, 키오스크 등을 포함할 수 있다.
입력 인터페이스(110)는 촬영된 영상 및 영상을 촬영한 카메라의 파라미터 정보를 입력받는다. 예를 들어, 입력 인터페이스(110)는 타겟 영상을 기준으로 타겟 영상의 좌측 영상 및 타겟 영상의 우측 영상을 입력받을 수 있다. 타겟 영상은 좌측 영상 및 우측 영상을 이용하여 생성하려는 중간 영상을 의미한다. 그리고, 타겟 영상은 실제 타겟 영상의 위치에서 촬영된 영상(정답 영상)일 수 있다. 입력 인터페이스(110)는 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받을 수 있다. 예를 들어, 카메라의 파라미터 정보는 내부 파라미터(intrinsic parameter) 정보 및 외부 파라미터(extrinsic parameter) 정보를 포함할 수 있다. 일 실시 예로서, 내부 파라미터 정보는 초점거리(focal length), 주점(principal point), 비대칭 계수(skew coefficient) 등을 포함할 수 있고, 외부 파라미터 정보는 3차원 위치, 자세 정보(예, 피치, 롤, 요 등), 카메라 좌표계와 국제 좌표계 사이의 변환 관계를 나타내는 파라미터 등을 포함할 수 있다.
일 실시 예로서, 입력 인터페이스(110)는 입출력 포트를 포함할 수 있다. 입력 인터페이스(110)가 입출력 포트를 포함하는 경우, 입출력 포트는 HDMI(High-Definition Multimedia Interface), DP(DisplayPort), RGB, DVI(Digital Visual Interface), USB(Universal Serial Bus), 썬더볼트, LAN 등의 포트를 포함할 수 있다. 입력 인터페이스(110)는 외부 장치로부터 촬영된 영상 및 카메라 파라미터를 제공받는 기능을 수행하고, 입력부, 입력 모듈 등으로 불릴 수도 있다.
프로세서(120)는 전자 장치(100)의 각 구성을 제어할 수 있다. 예를 들어, 프로세서(120)는 촬영된 영상 및 카메라 파라미터를 제공받도록 입력 인터페이스(110)를 제어한다. 그리고, 프로세서(120)는 촬영된 영상 및 카메라 파라미터에 기초하여 영상 정합 인공 지능 모델을 학습시킬 수 있다.
예를 들어, 프로세서(120)는 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성한다. 다중 레이어 이미지는 멀티 플레인 이미지(multiple plane image,MPI)라고 칭할 수 있다. 또한, 프로세서(120)는 동일한 방식으로 우측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성한다. 프로세서(120)는 제1 파라미터 정보 및 제2 파라미터 정보에 기초하여 생성된 제1 다중 레이어 이미지 및 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한다. 본 개시에서 이미지 픽셀 위치 변환이란 촬영된 영상을 타겟 영상의 위치로 변환하는 것을 의미한다. 또는, 이미지 픽셀 위치 변환은 워핑(warping)이라고 칭할 수 있다.
프로세서(120)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값(loss)(또는, 코스트(cost))을 획득하고, 획득된 다중 레이어 이미지의 레이어 손실 값에 기초하여 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시킨다. 예를 들어, 프로세서(120)는 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어를 기준으로 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어 각각의 제1 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다. 그리고, 프로세서(120)는 동일한 방식으로 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어를 기준으로 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어 각각의 제2 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다. 프로세서(120)는 획득된 제1 다중 레이어 이미지의 레이어 손실 값에 기초하여 영상 정합 인공 지능 모델의 제1 다중 레이어 이미지를 학습시키고, 획득된 제2 다중 레이어 이미지의 레이어 손실 값에 기초하여 영상 정합 인공 지능 모델의 제2 다중 레이어 이미지를 학습시킬 수 있다.
제1 다중 레이어 이미지의 레이어 손실 값은 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기준으로 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 오차이고, 제2 다중 레이어 이미지의 레이어 손실 값은 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지를 기준으로 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 오차를 의미한다. 다중 레이어 이미지의 레이어 손실 값이 크다는 것은 오차가 크다는 것을 의미하고, 영상 정합 인공 지능 모델의 다중 레이어 이미지에 대한 학습이 잘 되지 않았음을 의미한다. 프로세서(120)는 획득된 제1 다중 레이어 이미지의 레이어 손실 값 및 제2 다중 레이어 이미지의 레이어 손실 값을 적용하여 다중 레이어 이미지를 반복하여 학습시킬 수 있다. 반복 학습된 영상 정합 인공 지능 모델로부터 획득되는 제1 다중 레이어 이미지의 레이어 손실 값 및 제2 다중 레이어 이미지의 레이어 손실 값 각각은 0 또는 0에 가까운 값일 수 있다.
이후, 프로세서(120)는 제1 다중 레이어 이미지를 포함하는 제1 타겟 영상과 제2 다중 레이어 이미지를 포함하는 제2 타겟 영상을 생성한다. 전자 장치(100)가 영상 정합 인공 지능 모델을 학습시킬 때, 프로세서(120)는 기 설정된 기준 영상을 입력받도록 입력 인터페이스(110)를 제어할 수 있다. 기 설정된 기준 영상은 획득하려는 타겟 영상일 수 있다. 프로세서(120)는 생성된 제1 타겟 영상, 생성된 제2 타겟 영상 및 기 설정된 기준 영상에 기초하여 화질 손실 값을 획득한다. 프로세서(120)는 생성된 제1 타겟 영상 및 생성된 제2 타겟 영상을 평균한 평균 영상과 기 설정된 기준 영상 간의 화질 손실 값을 획득할 수 있다. 프로세서(120)는 획득된 화질 손실 값에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시킨다. 즉, 프로세서(120)는 획득된 화질 손실 값에 기초하여 영상 정합을 학습시킬 수 있다.
화질 손실 값은 생성된 제1 타겟 영상, 제2 타겟 영상의 평균 영상과 기 설정된 기준 영상 간의 오차를 의미한다. 화질 손실 값이 크다는 것은 평균 영상과 기준 영상이 많이 어긋난다는 것을 의미하고, 영상 정합 인공 지능 모델의 영상 정합 과정의 학습이 잘 되지 않았음을 의미한다. 프로세서(120)는 획득된 화질 손실 값을 적용하여 영상 정합 인공 지능 모델의 영상 정합 과정을 반복하여 학습시킬 수 있다. 반복 학습된 영상 정합 인공 지능 모델로부터 획득되는 화질 손실 값은 0 또는 0에 가까운 값일 수 있다.
상술한 영상 정합 인공 지능 모델의 다중 레이어 이미지 학습 과정에서 제1 다중 레이어 이미지 손실 값 및 제2 다중 레이어 이미지 손실 값이 0인 경우, 이론적으로는 화질 손실 값도 0일 수 있다. 그러나, 다중 레이어 이미지의 학습 과정에서 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지의 기준 영상(또는, 정답 영상)이 존재하지 않기 때문에 상대적인 영상인 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 또는 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지가 기준 영상으로 사용된다. 따라서, 다중 레이어 이미지의 학습 과정은 정확한 기준 영상을 기초로 학습되지 않았기 때문에 좌측 영상으로부터 이미지 픽셀 위치 변환이 수행된 제1 타겟 영상 및 우측 영상으로부터 이미지 픽셀 위치 변환이 수행된 제2 타겟 영상은 완전히 정합되지 않을 수 있다. 즉, 화질 손실 값은 0보다 클 수 있다. 따라서, 별도의 정합도 학습 과정이 필요하다.
영상 정합 인공 지능 모델은 학습되고, 이후 입력되는 좌측 영상 및 우측 영상으로부터 타겟 영상(중간 영상)을 생성할 수 있다. 즉, 입력 인터페이스(110)는 프로세서(120)의 제어에 따라 좌측 영상, 우측 영상, 좌측 영상을 촬영한 카메라의 파라미터 정보, 우측 영상을 촬영한 카메라의 파라미터 정보를 입력받을 수 있다. 프로세서(120)는 좌측 영상에 대한 제3 다중 레이어 이미지를 생성하고, 우측 영상에 대한 제4 다중 레이어 이미지를 생성할 수 있다. 학습된 영상 정합 인공 지능 모델은 제3 다중 레이어 이미지 및 제4 다중 레이어 이미지 각각에 대한 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다. 프로세서(120)는 학습된 영상 정합 인공 지능 모델 및 획득된 다중 레이어 이미지의 레이어 손실 값에 기초하여 제3 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제3 타겟 영상을 생성하고, 제4 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제4 타겟 영상을 생성할 수 있다. 그리고, 프로세서(120)는 생성된 제3 타겟 영상 및 생성된 제4 타겟 영상을 평균한 임시 정합 영상을 생성할 수 있다. 학습된 영상 정합 인공 지능 모델은 생성된 임시 정합 영상에 대한 화질 손실 값을 획득할 수 있다. 프로세서(120)는 학습된 영상 정합 인공 지능 모델, 획득된 화질 손실 값을 이용하여 생성된 임시 정합 영상으로부터 최종 타겟 영상을 생성할 수 있다. 즉, 프로세서(120)는 학습된 영상 정합 인공 지능 모델에 기초하여 최종 타겟 영상을 생성할 수 있다.
한편, 영상을 촬영하는 카메라가 뎁스 카메라를 포함하는 경우, 전자 장치(100)는 뎁스 맵을 획득할 수 있다. 프로세서(120)는 획득된 뎁스 맵에 기초하여 영상 정합 인공 지능 모델을 학습시키고, 학습된 영상 정합 인공 지능 모델에 기초하여 타겟 영상을 생성할 수 있다. 예를 들어, 입력 인터페이스(110)는 프로세서(120)의 제어에 따라 좌측 영상을 촬영한 카메라의 제1 뎁스 맵 및 우측 영상을 촬영한 카메라의 제2 뎁스 맵을 입력받을 수 있다. 프로세서(120)는 입력된 제1 뎁스 맵 및 입력된 제2 뎁스 맵에 기초하여 제1 다중 레이어 이미지 및 제2 다중 레이어 이미지의 중첩된 영역을 식별할 수 있다. 프로세서(120)는 식별된 중첩된 영역에 기초하여 다중 레이어 이미지의 레이어 손실 값을 획득하고, 영상 정합 모델의 다중 레이어 이미지를 학습시킬 수 있다. 영상 정합 인공 지능 모델은 중첩된 영역에 대해서만 학습되기 때문에 더 선명한 타겟 영상을 생성할 수 있다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다.
도 2를 참조하면, 전자 장치(100)는 입력 인터페이스(110), 프로세서(120), 통신 인터페이스(130), 카메라(140), 마이크(150), 스피커(160), 디스플레이(170), 메모리(180), 센서(190)를 포함할 수 있다. 입력 인터페이스(110)는 도 1에서 설명한 바와 동일하므로 구체적인 설명을 생략한다.
통신 인터페이스(130)는 외부 장치와 통신을 수행할 수 있다. 통신 인터페이스(130)는 외부 장치와 유무선 통신 방식을 이용하여 데이터를 송수신할 수 있다. 예를 들어, 통신 인터페이스(130)는 3G, LTE(Long Term Evolution), 5G, 와이파이, 블루투스, DMB(Digital Multimedia Broadcasting), ATSC(Advanced Television Systems Committee), DVB(Digital Video Broadcasting), LAN(Local Area Network) 등의 방식으로 통신을 수행할 수 있는 모듈을 포함할 수 있다. 외부 장치와 통신을 수행하는 통신 인터페이스(130)는 통신부, 통신 모듈, 송수신부 등으로 불릴 수도 있다.
일 실시 예로서, 통신 인터페이스(130)는 외부 장치로부터 인공 지능 모델을 수신할 수 있다. 수신된 인공 지능 모델은 메모리(180)에 저장될 수 있다. 본 개시에 따른 인공 지능과 관련된 기능은 프로세서(120)와 메모리(180)를 통해 동작될 수 있다. 일 실시 예로서, 프로세서(120)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리(180)에 저장된 영상 정합 인공 지능 모델에 따라 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공 지능 전용 프로세서(또는, 연동되는 AI 클라우드)인 경우, 인공 지능 전용 프로세서는 영상 정합 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
영상 정합 인공 지능 모델은 상술한 학습 과정을 통해 만들어질 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공 지능 모델이 영상 정합 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 타겟 영상을 생성하도록 영상 정합 인공 지능 모델이 만들어짐을 의미한다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
영상 정합 인공 지능 모델은 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 손실 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
외부 장치로부터 수신된 인공 지능 모델은 프로세서(120)의 제어에 의해 전자 장치(100)에서 학습되어 영상 정합 인공 지능 모델로 생성될 수 있다. 또는, 인공 지능 모델의 학습은 외부 장치에서 수행될 수도 있다. 프로세서(120)는 촬영된 영상, 카메라 파라미터, 뎁스 맵, 다중 레이어 이미지의 레이어 손실 값 또는 화질 손실 값 등 인공 지능 모델을 학습시키기 위해 필요한 데이터를 인공 지능 모델을 포함하는 외부 장치로 전송할 수 있다. 외부 장치에 포함된 인공 지능 모델은 전자 장치(100)로부터 수신된 학습 데이터에 기초하여 영상 정합 인공 지능 모델로 학습될 수 있다. 이후, 프로세서(120)는 촬영된 영상, 카메라 파라미터를 학습된 영상 정합 인공 지능 모델을 포함하는 외부 장치로 전송하도록 통신 인터페이스(130)를 제어할 수 있다. 그리고, 프로세서(120)는 외부 장치로부터 생성된 타겟 영상을 수신하도록 통신 인터페이스(130)를 제어할 수 있다. 일 실시 예로서, 외부 장치는 웹 서버, 클라우드 등을 포함할 수 있다.
카메라(140)는 전자 장치(100)의 주변 환경을 촬영할 수 있다. 또는, 카메라(140)는 사용자의 표정이나 동작 등을 촬영할 수 있다. 프로세서(120)는 촬영된 사용자의 표정이나 동작에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 카메라(140)는 CCD 센서, CMOS 센서를 포함할 수 있다. 또한, 카메라(140)는 RGB 카메라, 뎁스 카메라를 포함할 수도 있다.
마이크(150)는 사용자의 음성을 입력받을 수 있다. 프로세서(120)는 입력된 음성에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다.
스피커(160)는 음성 처리가 수행된 음성 신호를 출력한다. 또한, 스피커(160)는 사용자의 입력 명령, 전자 장치(100)의 상태 관련 정보 또는 동작 관련 정보 등을 음성이나 알림음으로 출력할 수 있다.
디스플레이(170)는 영상 처리가 수행된 영상 신호를 출력한다. 디스플레이(170)는 사용자의 명령 또는 구현되는 기능에 기초하여 촬영된 좌측 영상, 촬영된 우측 영상, 생성된 타겟 영상을 출력할 수 있다. 예를 들어, 디스플레이(170)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diode), 플렉서블 디스플레이, 터치 스크린 등으로 구현될 수 있다. 디스플레이(170)가 터치 스크린으로 구현되는 경우, 전자 장치(100)는 터치 스크린을 통해 제어 명령을 입력받을 수 있다.
메모리(180)는 전자 장치(100)의 기능을 수행하는 데이터, 알고리즘, 인공 지능 모델 등을 저장하고, 전자 장치(100)에서 구동되는 프로그램, 명령어 등을 저장할 수 있다. 메모리(180)에 저장된 알고리즘은 프로세서(120)의 제어에 의해 프로세서(120)에 로딩되어 영상 정합 인공 지능 모델을 학습시키고, 학습된 영상 정합 인공 지능 모델을 이용하여 타겟 영상을 생성할 수 있다. 예를 들어, 메모리(180)는 롬, 램, HDD, SSD, 메모리 카드 등의 타입으로 구현될 수 있다.
센서(190)는 전자 장치(100) 주변의 물체를 감지할 수 있다. 프로세서(120)는 감지된 신호에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 또한, 센서(190)는 전자 장치(100)의 주변 환경 정보를 감지할 수 있다. 프로세서(120)는 센서(190)에서 감지된 주변 환경 정보에 기초하여 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 센서(190)는 가속도 센서, 중력 센서, 자이로 센서, 지자기 센서, 방향 센서, 모션 인식 센서, 근접 센서, 전압계, 전류계, 기압계, 습도계, 온도계, 조도 센서, 열 감지 센서, 터치 센서, 적외선 센서, 초음파 센서 등을 포함할 수 있다.
전자 장치(100)는 상술한 구성을 모두 포함할 수 있고, 일부 구성을 포함할 수도 있다. 또한, 전자 장치(100)는 상술한 구성 이외에도 다양한 기능을 수행하는 다른 구성을 더 포함할 수도 있다. 지금까지 전자 장치(100)의 구성을 설명하였다. 아래에서는 영상 정합 인공 지능 모델을 학습시키는 과정 및 학습된 영상 정합 인공 지능 모델을 이용하여 타겟 영상을 생성하는 과정을 설명한다.
도 3은 본 개시의 일 실시 예에 따른 촬영된 영상으로부터 다중 레이어 이미지를 생성하는 과정을 설명하는 도면이고, 도 4는 본 개시의 일 실시 예에 따른 생성된 다중 레이어 이미지의 이미지 픽셀 위치 변환을 수행하는 과정을 설명하는 도면이며, 도 5는 본 개시의 일 실시 예에 따른 이미지 픽셀 위치 변환이 수행된 영상을 나타내는 도면이다. 도 3 내지 도 5를 참조하여 타겟 영상의 생성 과정을 설명한다.
도 3을 참조하면, 제1 물체(1)와 제2 물체(3)를 포함하는 좌측 영상(11)이 도시되어 있다. 전자 장치(100)는 영상 정합 인공 지능 모델에 좌측 영상(11) 및 좌측 영상(11)을 촬영한 카메라의 파라미터 정보를 입력할 수 있다. 상술한 바와 같이, 영상 정합 인공 지능 모델은 메모리에 저장되고 프로세서로 로딩되어 학습 과정을 수행할 있다. 또는, 영상 정합 인공 지능 모델은 외부 장치에 저장되고, 전자 장치(100)는 촬영된 영상 및 카메라 파라미터 정보를 외부 장치로 전송하여 영상 정합 인공 지능 모델을 학습시킬 수 있다.
전자 장치(100)는 촬영된 좌측 영상(11)을 기 설정된 개수의 뎁스 레이어(11-1, 11-2, 11-3, …, 11-n)로 분류할 수 있다. 기 설정된 개수의 뎁스 레이어(11-1, 11-2, 11-3, …, 11-n)로 분류된 영상 세트는 다중 레이어 이미지라고 칭할 수 있다.
일 실시 예로서, 기 설정된 개수의 뎁스 레이어(11-1, 11-2, 11-3, …, 11-n)는 32개일 수 있다. 그리고, 제1 물체(1)는 제2 레이어(11-2)에 포함될 수 있고, 제2 물체(3)는 제3 레이어(11-3)에 포함될 수 있다. 즉, 전자 장치(100)는 물체를 포함하는 좌측 영상(11)를 기 설정된 개수의 뎁스 레이어(11-1, 11-2, 11-3, …, 11-n)로 분류하여 다중 레이어 이미지를 생성할 수 있다. 각 레이어(11-1, 11-2, 11-3, …, 11-n)는 물체(1, 3)의 뎁스에 따라 서로 다른 물체를 포함할 수 있다.
도 4를 참조하면 복수의 뎁스 레이어(11-1, 11-2, 11-3, …, 11-n)를 포함하는 다중 레이어 이미지가 타겟 영상의 위치로 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지가 도시되어 있고, 도 5를 참조하면 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지를 한 장으로 생성한 타겟 영상이 도시되어 있다.
전자 장치(100)는 다중 레이어 이미지의 각 레이어를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행할 수 있다. 영상의 이미지 픽셀 위치 변환 과정은 좌측 영상을 촬영한 카메라의 파라미터 정보 및 우측 영상을 촬영한 카메라의 파라미터 정보에 기초하여 변환 공식을 이용하여 수행될 수 있다. 영상의 이미지 픽셀 위치 변환 과정은 공지 기술이고, 본 개시의 특징이 아니므로 구체적인 설명은 생략한다. 전자 장치(100)가 좌측 영상의 다중 레이어 이미지를 이미지 픽셀 위치 변환을 수행하면, 다중 레이어 이미지의 각 뎁스 레이어에 포함된 물체는 동일한 뎁스 레이어에 포함될 수 있다. 즉, 제1 물체(1)는 제2 레이어(11-2)에 포함될 수 있고, 제2 물체(3)는 제3 레이어(11-3)에 포함될 수 있다. 다만, 타겟 영상의 위치는 좌측 영상을 기준으로 우측에 위치하기 때문에 물체가 포함된 위치가 변경될 수 있다. 예를 들어, 도 3에 도시된 좌측 영상(11) 또는 좌측 영상의 다중 레이어 이미지에는 제1 및 제2 물체(1, 3)가 영상의 우측 영역에 위치하고 있으나, 생성된 타겟 영상(21) 또는 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지(제1 다중 레이어 이미지)에는 제1 및 제2 물체(1, 3)가 영상의 중앙 영역에 위치할 수 있다.
전자 장치(100)는 상술한 과정을 우측 영상에 대해서도 수행할 수 있다. 타겟 영상을 기준으로 좌측 영상은 좌측 방향의 영상이고, 우측 영상은 우측 방향의 영상이다. 따라서, 타겟 영상에 포함된 물체는 좌측 영상 및 우측 영상 모두에 포함될 수 있다. 즉, 좌측 영상(11)에 포함된 제1 및 제2 물체(1, 3)는 우측 영상에도 포함될 수 있다. 다만, 우측 영상은 타겟 영상을 기준으로 우측 방향의 영상이므로, 우측 영상에는 제1 및 제2 물체(1, 3)가 영상의 좌측 영역에 위치할 수 있다. 그리고, 전자 장치(100)는 우측 영상으로부터 다중 레이어 이미지를 생성하고, 생성된 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하여 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지(제2 다중 레이어 이미지)를 생성할 수 있다. 제2 다중 레이어 이미지에는 제1 다중 레이어 이미지와 유사하게 제1 및 제2 물체(1, 3)가 영상의 중앙 영역에 위치할 수 있다. 영상 정합 인공 지능 모델은 이미지 픽셀 위치 변환이 수행된 제1 및 제2 다중 레이어 이미지의 각 레이어의 손실 값을 획득하고, 획득된 손실 값을 이용하여 다중 레이어 이미지를 학습할 수 있다. 예를 들어, 제1 다중 레이어 이미지의 손실 값 및 제2 다중 레이어 이미지의 손실 값이 0이나 기 설정된 값 이하인 경우, 영상 정합 인공 지능 모델의 다중 레이어 이미지 학습이 완료될 수 있다. 그리고, 전자 장치(100)(또는, 영상 정합 인공 지능 모델)는 제1 다중 레이어 이미지 및 제2 다중 레이어 이미지에 대한 학습이 완료되면, 제1 다중 레이어 이미지를 기초로 제1 타겟 영상(21)을 생성하고, 제2 다중 레이어 이미지를 기초로 제2 타겟 영상을 생성할 수 있다.
도 6은 본 개시의 일 실시 예에 따른 좌측 및 우측 영상으로부터 이미지 픽셀 위치 변환이 수행된 영상을 나타내는 도면이다.
상술한 바와 같이, 상술한 영상 정합 인공 지능 모델의 다중 레이어 이미지 학습 과정에서 제1 다중 레이어 이미지 손실 값 및 제2 다중 레이어 이미지 손실 값이 0이나 기 설정된 값 이하인 경우, 이론적으로 화질 손실 값도 0일 수 있다. 즉, 좌측 영상으로부터 생성된 제1 타겟 영상(21)과 우측 영상으로부터 생성된 제2 타겟 영상(31)은 정합되어야 한다. 그러나, 다중 레이어 이미지의 이미지 픽셀 위치 변환 학습 과정에서 이미지 픽셀 위치 변환이 수행된 다중 레이어 이미지의 기준 영상(또는, 정답 영상)이 존재하지 않기 때문에 상대적인 영상인 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 또는 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지가 기준 영상으로 사용된다. 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지는 촬영된 좌측 영상에서 생성된 다중 레이어 이미지를 이미지 픽셀 위치 변환을 수행한 영상이고, 이미지 픽셀 위치 변환된 제2 다중 레이어 이미지는 촬영된 우측 영상에서 생성된 다중 레이어 이미지를 이미지 픽셀 위치 변환을 수행한 영상이다. 즉, 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 각 레이어에 대한 제1 다중 레이어 이미지 손실 값은 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 각 레이어를 기준으로 획득되고, 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 각 레이어에 대한 제2 다중 레이어 이미지 손실 값은 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 각 레이어를 기준으로 획득될 수 있다. 따라서, 제1 다중 레이어 이미지로 생성된 제1 타겟 영상(21)과 제2 다중 레이어 이미지로 생성된 제2 타겟 영상(31)은 도 6에 도시된 바와 같이 완전히 정합되지 않을 수 있고, 영상 정합 인공 지능 모델은 별도의 영상 정합 학습 과정이 수행되어야 한다.
즉, 영상 정합 인공 지능 모델은 생성된 제1 타겟 영상(21)과 생성된 제2 타겟 영상(31)을 평균한 평균 영상을 생성할 수 있다. 그리고, 영상 정합 인공 지능 모델은 생성된 평균 영상과 기 설정된 기준 영상 간의 화질 손실 값을 획득할 수 있다. 그리고, 영상 정합 인공 지능 모델은 획득된 화질 손실 값에 기초하여 평균 영상의 다중 레이어 이미지 각각의 영상 정합을 학습시킬 수 있다.
도 7a는 좌측 및 우측 영상으로부터 각각 이미지 픽셀 위치 변환이 수행된 영상을 합성한 타겟 영상을 나타내는 도면이고, 도 7b는 본 개시의 일 실시 예에 따른 정합도를 고려하여 획득한 타겟 영상을 나타내는 도면이다. 도 7a에 도시된 영상은 제1 타겟 영상과 제2 타겟 영상의 정합도가 일치하지 않아 고스트 현상이 나타난다. 반면에, 도 7b에 도시된 영상은 제1 타겟 영상과 제2 타겟 영상의 정합도가 고려되어 고스트 현상이 제거되어 선명하게 나타난다.
도 8a는 본 개시의 일 실시 예에 따른 다중 레이어 이미지를 학습하는 과정을 설명하는 도면이다.
도 8a를 참조하면, 전자 장치(100)는 좌측 영상으로부터 좌측 영상 다중 레이어 이미지(41)를 생성하고, 우측 영상으로부터 우측 영상 다중 레이어 이미지(51)를 생성할 수 있다. 전자 장치(100)는 생성된 좌측 영상 다중 레이어 이미지(41)를 우측 방향으로 이미지 픽셀 위치 변환을 수행하여 제1 다중 레이어 이미지(42)로 변환하고, 생성된 우측 영상 다중 레이어 이미지(51)를 좌측 방향으로 이미지 픽셀 위치 변환을 수행하여 제2 다중 레이어 이미지(52)로 변환할 수 있다. 전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지(42)의 각 레이어(42-1, …, 42-30)와 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지(52)의 각 레이어(52-1, …, 52-30)의 각 레이어 간의 다중 레이어 이미지의 레이어 손실 값(60)을 획득할 수 있다. 전자 장치(100)는 획득된 각 레이어의 다중 레이어 이미지의 레이어 손실 값(60)에 기초하여 영상 정합 인공 지능 모델의 다중 레이어 이미지를 학습시킬 수 있다.
도 8b는 본 개시의 일 실시 예에 따른 영상 정합 인공 지능 모델을 학습하는 과정을 설명하는 도면이다.
전자 장치(100)는 영상 정합 인공 지능 모델의 다중 레이어 이미지 학습이 완료되면, 제1 다중 레이어 이미지로부터 1장의 제1 타겟 영상(45)을 생성하고, 제2 다중 레이어 이미지로부터 1장의 제2 타겟 영상(55)을 생성할 수 있다. 그리고, 전자 장치(100)는 제1 타겟 영상(45)과 제2 타겟 영상(55)을 평균한 평균 영상을 생성할 수 있다. 전자 장치(100)는 생성된 평균 영상과 기 설정된 기준 영상 간의 화질 손실 값(63)을 획득할 수 있다. 전자 장치(100)는 획득된 화질 손실 값(63)에 기초하여 영상 정합 인공 지능 모델의 영상 정합 과정을 학습시킬 수 있다. 즉, 전자 장치(100)는 획득된 화질 손실 값(63)에 기초하여 평균 영상 다중 레이어 이미지 각각의 영상 정합 과정을 학습시킬 수 있다. 영상 정합 인공 지능 모델은 다중 레이어 이미지 손실 값(60) 및 화질 손실 값(63)의 두 가지 요소의 손실 값인 네트워크 학습 손실 값(65)에 기초하여 타겟 영상을 생성하는 과정을 학습할 수 있다.
도 9는 좌측 및 우측 영상을 촬영하는 과정을 설명하는 도면이다.
도 9를 참조하면, 두 개의 카메라(200a, 200b)를 이용하여 각각 좌측 영상 및 우측 영상을 촬영하는 과정이 도시되어 있다. 좌측 카메라(200a)는 물체(5)의 좌측 영역을 촬영하므로 물체의 우측 영역(5-1)에 대한 정보를 획득할 수 없다. 우측 카메라(200b)는 물체(5)의 우측 영역을 촬영하므로 물체의 좌측 영역(5-2)에 대한 정보를 획득할 수 없다. 상술한 타겟 영상을 생성하는 학습 과정에서는 우측 영상에만 포함된 물체의 우측 영역(5-1)에 대한 정보와 좌측 영상에만 포함된 물체의 좌측 영역(5-2)에 대한 정보도 함께 학습될 수 있다. 따라서, 좌측 영상 및 우측 영상의 일부에만 포함된 물체의 우측 영역(5-1) 및 좌측 영역(5-2)에 대한 정보에 의해 타겟 영상에는 약간의 에러가 포함될 수 있다.
만일, 두 개의 카메라(200a, 200b)가 뎁스 카메라를 포함한다면, 두 개의 카메라(200a, 200b)는 촬영된 좌측 영상 및 우측 영상 이외에 좌측 뎁스 맵과 우측 뎁스 맵에 대한 정보를 획득할 수 있다. 그리고, 획득된 좌측 뎁스 맵과 우측 뎁스 맵에 대한 정보는 전자 장치(100)로 제공될 수 있다. 전자 장치(100)는 제공된 좌측 뎁스 맵과 우측 뎁스 맵을 고려하여 물체(5)의 중첩 영역을 식별하고, 식별된 중첩 영역에 대해서 이미지 픽셀 위치 변환 및 정합 과정을 수행함으로써 에러를 제거할 수 있다.
도 10은 본 개시의 일 실시 예에 따른 뎁스 맵을 고려하여 다중 레이어 이미지를 학습하는 과정을 설명하는 도면이다.
도 10을 참조하면, 도 8a에서 설명한 바와 동일하게 전자 장치(100)는 좌측 영상 및 우측 영상으로부터 각각 제1 다중 레이어 이미지(42) 및 제2 다중 레이어 이미지(52)를 획득할 수 있다. 한편, 전자 장치(100)는 좌측 뎁스 맵(43)과 우측 뎁스 맵(53)도 영상 및 카메라 파라미터와 함께 획득할 수 있다. 전자 장치(100)는 좌측 뎁스 맵(43)과 우측 뎁스 맵(53)에 기초하여 제1 다중 레이어 이미지(42) 및 제2 다중 레이어 이미지(52)의 중첩된 영역을 식별할 수 있다. 상술한 바와 같이, 중첩된 영역은 우측 영상에만 포함된 물체의 우측 영역(5-1)과 좌측 영상에만 포함된 물체의 좌측 영역(5-2)이 제거된 영역을 의미한다.
전자 장치(100)는 식별된 중첩 영역에 기초하여 다중 레이어 이미지 레이어 손실 값(60)을 획득하여 영상 정합 인공 지능 모델의 다중 레이어 이미지를 학습시키고, 타겟 영상의 평균 영상 및 기 설정된 기준 영상에 기초한 화질 손실 값을 획득하여 영상 정합 인공 지능 모델의 영상 정합 과정을 학습시킬 수 있다.
영상 정합 인공 지능 모델의 학습이 완료되면, 전자 장치(100)는 학습된 영상 정합 인공 지능 모델에 기초하여 타겟 영상을 생성할 수 있다. 예를 들어, 전자 장치(100)는 임의의 좌측 영상 및 우측 영상, 좌측 영상을 촬영한 카메라의 파리미터 정보, 우측 영상을 촬영한 카메라의 파라미터 정보를 입력받을 수 있다. 그리고, 전자 장치(100)는 학습된 영상 정합 인공 지능 모델을 이용하여 타겟 영상을 생성할 수 있다. 예를 들어, 전자 장치(100)는 학습된 영상 정합 인공 지능 모델에 기초하여 좌측 영상에 대한 좌측 다중 레이어 이미지와 우측 영상에 대한 우측 다중 레이어 이미지를 생성할 수 있다. 그리고, 전자 장치(100)는 좌측 다중 레이어 이미지 및 우측 다중 레이어 이미지의 이미지 픽셀 위치를 변환시켜 각각 좌측 타겟 영상 및 우측 타겟 영상을 생성할 수 있다. 전자 장치(100)는 좌측 타겟 영상 및 우측 타겟 영상을 평균하여 임시 정합 영상을 생성하고, 생성된 임시 정합 영상에 기초하여 최종 타겟 영상을 생성할 수 있다.
도 11은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.
도 11을 참조하면, 전자 장치(100)는 타겟 영상을 기준으로 타겟 영상의 좌측 영상, 타겟 영상의 우측 영상, 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받는다(S1110). 한편, 카메라가 뎁스 카메라를 포함하는 경우, 전자 장치(100)는 좌측 및 우측 뎁스 맵도 함께 입력받을 수 있다.
전자 장치(100)는 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성하고, 우측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성한다(S1120). 전자 장치(100)는 제1 파라미터 정보 및 제2 파라미터 정보에 기초하여 생성된 제1 다중 레이어 이미지 및 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한다(S1130). 전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값을 획득하고, 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시킨다(S1140).예를 들어, 전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어를 기초로 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어 각각의 제1 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다. 또한, 전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어를 기초로 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어 각각의 제2 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다.
일 실시 예로서, 전자 장치(100)가 좌측 및 우측 뎁스 맵도 입력받은 경우, 전자 장치(100)는 입력된 좌측 뎁스 맵 및 우측 뎁스 맵에 기초하여 제1 다중 레이어 이미지 및 제2 다중 레이어 이미지의 중첩된 영역을 식별할 수 있다. 그리고, 전자 장치(100)는 식별된 중첩된 영역에 기초하여 다중 레이어 이미지의 레이어 손실 값을 획득할 수 있다. 전자 장치(100)는 획득된 제1 다중 레이어 이미지의 레이어 손실 값에 기초하여 제1 다중 레이어 이미지를 학습시키고, 획득된 제2 다중 레이어 이미지의 레이어 손실 값에 기초하여 제2 다중 레이어 이미지를 학습시킬 수 있다.
전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지, 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시킨다(S1150). 예를 들어, 전자 장치(100)는 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제1 타겟 영상 및 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제2 타겟 영상을 생성할 수 있다. 그리고, 전자 장치(100)는 생성된 제1 타겟 영상 및 상기 생성된 제2 타겟 영상을 평균한 평균 타겟 영상을 생성할 수 있다. 전자 장치(100)는 생성된 평균 타겟 영상 및 기 설정된 기준 영상 간의 화질 손실 값을 획득하고, 획득된 화질 손실 값에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시킬 수 있다.
영상 정합 인공 지능 모델의 학습이 완료되면, 전자 장치(100)는 학습된 영상 정합 인공 지능 모델을 이용하여 타겟 영상을 생성할 수 있다. 예를 들어, 전자 장치(100)는 임의의 좌측 영상, 임의의 우측 영상, 좌측 영상을 촬영한 카메라의 제3 파리미터 정보 및 우측 영상을 촬영한 카메라의 제4 파라미터 정보를 입력받을 수 있다. 그리고, 전자 장치(100)는 좌측 영상에 대한 제3 다중 레이어 이미지를 생성하고, 우측 영상에 대한 제4 다중 레이어 이미지를 생성할 수 있다.
전자 장치(100)는 학습된 영상 정합 인공 지능 모델에 기초하여 제3 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제3 타겟 영상 및 제4 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제4 타겟 영상을 생성하고, 생성된 제3 타겟 영상 및 생성된 제4 타겟 영상을 평균한 임시 정합 영상을 생성할 수 있다. 그리고, 전자 장치(100)는 학습된 영상 정합 인공 지능 모델을 이용하여 생성된 임시 정합 영상으로부터 최종 타겟 영상을 생성할 수 있다.
상술한 다양한 실시 예에 따른 전자 장치의 제어 방법은 컴퓨터 프로그램 제품으로 제공될 수도 있다. 컴퓨터 프로그램 제품은 S/W 프로그램 자체 또는 S/W 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)를 포함할 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
본 개시의 효과들은 이상에서 언급된 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 상술한 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
Claims (15)
- 타겟 영상을 기준으로 상기 타겟 영상의 좌측 영상, 상기 타겟 영상의 우측 영상, 상기 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 상기 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받는 단계;상기 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성하고, 상기 우측 영상을 상기 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성하는 단계;상기 제1 파라미터 정보 및 상기 제2 파라미터 정보에 기초하여 상기 생성된 제1 다중 레이어 이미지 및 상기 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하는 단계;상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값(loss)을 획득하고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키는 단계;상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지, 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시키는 단계;를 포함하는 전자 장치의 제어 방법.
- 제1항에 있어서,상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키는 단계는,상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어를 기초로 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어 각각의 제1 다중 레이어 이미지의 레이어 손실 값을 획득하고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어를 기초로 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어 각각의 제2 다중 레이어 이미지의 레이어 손실 값을 획득하며, 상기 획득된 제1 다중 레이어 이미지의 레이어 손실 값에 기초하여 상기 제1 다중 레이어 이미지를 학습시키고, 상기 획득된 제2 다중 레이어 이미지의 레이어 손실 값에 기초하여 상기 제2 다중 레이어 이미지를 학습시키는, 전자 장치의 제어 방법.
- 제1항에 있어서,상기 영상 정합을 학습시키는 단계는,상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제1 타겟 영상 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제2 타겟 영상을 생성하는, 전자 장치의 제어 방법.
- 제3항에 있어서,상기 영상 정합을 학습시키는 단계는,상기 생성된 제1 타겟 영상 및 상기 생성된 제2 타겟 영상을 평균한 평균 타겟 영상을 생성하는, 전자 장치의 제어 방법.
- 제4항에 있어서,상기 영상 정합을 학습시키는 단계는,상기 생성된 평균 타겟 영상 및 상기 기 설정된 기준 영상 간의 화질 손실 값을 획득하고, 상기 획득된 화질 손실 값에 기초하여 상기 영상 정합 인공 지능 모델의 영상 정합을 학습시키는, 전자 장치의 제어 방법.
- 제1항에 있어서,상기 입력받는 단계는,상기 좌측 영상을 촬영한 카메라의 제1 뎁스 맵 및 상기 우측 영상을 촬영한 카메라의 제2 뎁스 맵을 입력받는, 전자 장치의 제어 방법.
- 제6항에 있어서,상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키는 단계는,상기 입력된 제1 뎁스 맵 및 상기 입력된 제2 뎁스 맵에 기초하여 상기 제1 다중 레이어 이미지 및 상기 제2 다중 레이어 이미지의 중첩된 영역을 식별하고, 상기 식별된 중첩된 영역에 기초하여 상기 다중 레이어 이미지의 레이어 손실 값을 획득하는, 전자 장치의 제어 방법.
- 제1항에 있어서,대상 좌측 영상, 대상 우측 영상, 상기 대상 좌측 영상을 촬영한 카메라의 제3 파리미터 정보 및 상기 대상 우측 영상을 촬영한 카메라의 제4 파라미터 정보를 입력받는 단계;상기 대상 좌측 영상에 대한 제3 다중 레이어 이미지를 생성하고, 상기 대상 우측 영상에 대한 제4 다중 레이어 이미지를 생성하는 단계; 및학습된 영상 정합 인공 지능 모델에 기초하여 최종 타겟 영상을 생성하는 단계;를 더 포함하는 전자 장치의 제어 방법.
- 제8항에 있어서,상기 최종 타겟 영상을 생성하는 단계는,상기 학습된 영상 정합 인공 지능 모델에 기초하여 상기 제3 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제3 타겟 영상 및 상기 제4 다중 레이어 이미지를 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행한 제4 타겟 영상을 생성하고, 상기 생성된 제3 타겟 영상 및 상기 생성된 제4 타겟 영상을 평균한 임시 정합 영상을 생성하는, 전자 장치의 제어 방법.
- 제9항에 있어서,상기 최종 타겟 영상을 생성하는 단계는,상기 학습된 영상 정합 인공 지능 모델을 이용하여 상기 생성된 임시 정합 영상으로부터 상기 최종 타겟 영상을 생성하는, 전자 장치의 제어 방법.
- 입력 인터페이스; 및프로세서;를 포함하고,상기 프로세서는,타겟 영상을 기준으로 상기 타겟 영상의 좌측 영상, 상기 타겟 영상의 우측 영상, 상기 좌측 영상을 촬영한 카메라의 제1 파라미터 정보 및 상기 우측 영상을 촬영한 카메라의 제2 파라미터 정보를 입력받도록 상기 입력 인터페이스를 제어하고,상기 좌측 영상을 기 설정된 개수의 뎁스 레이어로 분류하여 제1 다중 레이어 이미지를 생성하고, 상기 우측 영상을 상기 기 설정된 개수의 뎁스 레이어로 분류하여 제2 다중 레이어 이미지를 생성하며,상기 제1 파라미터 정보 및 상기 제2 파라미터 정보에 기초하여 상기 생성된 제1 다중 레이어 이미지 및 상기 제2 다중 레이어 이미지 각각을 타겟 영상의 위치로 이미지 픽셀 위치 변환을 수행하고,상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 기초로 다중 레이어 이미지의 레이어 손실 값(loss)을 획득하며,상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지를 각각 학습시키고,상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지, 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지 및 기 설정된 기준 영상에 기초하여 영상 정합 인공 지능 모델의 영상 정합을 학습시키는, 전자 장치.
- 제11항에 있어서,상기 프로세서는,상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어를 기초로 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어 각각의 제1 다중 레이어 이미지의 레이어 손실 값을 획득하고, 상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 뎁스 레이어를 기초로 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 뎁스 레이어 각각의 제2 다중 레이어 이미지의 레이어 손실 값을 획득하며, 상기 획득된 제1 다중 레이어 이미지의 레이어 손실 값에 기초하여 상기 제1 다중 레이어 이미지를 학습시키고, 상기 획득된 제2 다중 레이어 이미지의 레이어 손실 값에 기초하여 상기 제2 다중 레이어 이미지를 학습시키는, 전자 장치.
- 제11항에 있어서,상기 프로세서는,상기 이미지 픽셀 위치 변환이 수행된 제1 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제1 타겟 영상 및 상기 이미지 픽셀 위치 변환이 수행된 제2 다중 레이어 이미지의 각 뎁스 레이어를 포함하는 제2 타겟 영상을 생성하는, 전자 장치.
- 제13항에 있어서,상기 프로세서는,상기 생성된 제1 타겟 영상 및 상기 생성된 제2 타겟 영상을 평균한 평균 타겟 영상을 생성하는, 전자 장치.
- 제14항에 있어서,상기 프로세서는,상기 생성된 평균 타겟 영상 및 상기 기 설정된 기준 영상 간의 화질 손실 값을 획득하고, 상기 획득된 화질 손실 값에 기초하여 상기 영상 정합 인공 지능 모델의 영상 정합을 학습시키는, 전자 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0032211 | 2021-03-11 | ||
KR1020210032211A KR20220127642A (ko) | 2021-03-11 | 2021-03-11 | 전자 장치 및 그 제어 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022191424A1 true WO2022191424A1 (ko) | 2022-09-15 |
Family
ID=83226912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2022/001279 WO2022191424A1 (ko) | 2021-03-11 | 2022-01-25 | 전자 장치 및 그 제어 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20220127642A (ko) |
WO (1) | WO2022191424A1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024076101A1 (ko) * | 2022-10-04 | 2024-04-11 | 삼성전자 주식회사 | 인공지능 기반의 영상 처리 방법 및 이를 지원하는 전자 장치 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101125061B1 (ko) * | 2010-04-06 | 2012-03-21 | (주)리얼디스퀘어 | Ldi 기법 깊이맵을 참조한 2d 동영상의 3d 동영상 전환방법 |
KR20140109868A (ko) * | 2011-12-12 | 2014-09-16 | 소니 주식회사 | 화상 처리 장치, 화상 처리 방법, 및 비일시적 컴퓨터 판독가능 기억 매체 |
KR20150049952A (ko) * | 2013-10-31 | 2015-05-08 | 삼성전자주식회사 | 다시점 영상 디스플레이 장치 및 그 제어 방법 |
US20200074661A1 (en) * | 2018-08-30 | 2020-03-05 | Samsung Electronics Co., Ltd. | Method for training convolutional neural network to reconstruct an image and system for depth map generation from an image |
KR20200136996A (ko) * | 2019-02-19 | 2020-12-08 | 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 | 양안 매칭 방법 및 장치, 기기 및 저장 매체 |
-
2021
- 2021-03-11 KR KR1020210032211A patent/KR20220127642A/ko active Search and Examination
-
2022
- 2022-01-25 WO PCT/KR2022/001279 patent/WO2022191424A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101125061B1 (ko) * | 2010-04-06 | 2012-03-21 | (주)리얼디스퀘어 | Ldi 기법 깊이맵을 참조한 2d 동영상의 3d 동영상 전환방법 |
KR20140109868A (ko) * | 2011-12-12 | 2014-09-16 | 소니 주식회사 | 화상 처리 장치, 화상 처리 방법, 및 비일시적 컴퓨터 판독가능 기억 매체 |
KR20150049952A (ko) * | 2013-10-31 | 2015-05-08 | 삼성전자주식회사 | 다시점 영상 디스플레이 장치 및 그 제어 방법 |
US20200074661A1 (en) * | 2018-08-30 | 2020-03-05 | Samsung Electronics Co., Ltd. | Method for training convolutional neural network to reconstruct an image and system for depth map generation from an image |
KR20200136996A (ko) * | 2019-02-19 | 2020-12-08 | 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 | 양안 매칭 방법 및 장치, 기기 및 저장 매체 |
Also Published As
Publication number | Publication date |
---|---|
KR20220127642A (ko) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021261696A1 (en) | Visual object instance segmentation using foreground-specialized model imitation | |
WO2019164379A1 (en) | Method and system for facial recognition | |
WO2014051246A1 (en) | Method and apparatus for inferring facial composite | |
WO2021101045A1 (en) | Electronic apparatus and method for controlling thereof | |
WO2017115887A1 (ko) | 동작 인식 기반의 게임을 제공하기 위한 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
WO2020017890A1 (en) | System and method for 3d association of detected objects | |
WO2015030307A1 (en) | Head mounted display device and method for controlling the same | |
WO2015182904A1 (ko) | 관심객체 검출을 위한 관심영역 학습장치 및 방법 | |
EP3756160A1 (en) | System and method for fast object detection | |
WO2021101097A1 (en) | Multi-task fusion neural network architecture | |
WO2022191424A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2022121629A1 (zh) | 一种图像的显示方法和电子设备 | |
WO2022025565A1 (en) | System and method for generating bokeh image for dslr quality depth-of-field rendering and refinement and training method for the same | |
WO2021040345A1 (ko) | 전자 장치 및 전자 장치의 제어 방법 | |
WO2022191366A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2022131720A1 (ko) | 건축물 이미지를 생성하는 장치 및 방법 | |
WO2019225875A1 (ko) | 재고 추적 방법 및 장치 | |
WO2023149603A1 (ko) | 다수의 카메라를 이용한 열화상 감시 시스템 | |
WO2021251733A1 (ko) | 디스플레이장치 및 그 제어방법 | |
WO2021071258A1 (ko) | 인공지능 기반의 휴대용 보안영상 학습장치 및 방법 | |
WO2022177069A1 (ko) | 라벨링 방법 및 이를 위한 컴퓨팅 장치 | |
WO2021066275A1 (ko) | 전자 장치 및 그 제어 방법 | |
WO2023200114A1 (ko) | 오픈 소스 라이선스를 검증하는 전자 장치 및 방법 | |
WO2020262725A1 (ko) | 딥 러닝을 이용한 3차원 물체 인식에 기초하여 증강 현실 정보를 제공하는 방법 및 이를 이용한 시스템 | |
EP4173280A1 (en) | Method and electronic device for intelligent camera zoom |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22767321 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 22767321 Country of ref document: EP Kind code of ref document: A1 |