WO2024071700A1 - 전자 장치 및 그 동작 방법 - Google Patents

전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
WO2024071700A1
WO2024071700A1 PCT/KR2023/012858 KR2023012858W WO2024071700A1 WO 2024071700 A1 WO2024071700 A1 WO 2024071700A1 KR 2023012858 W KR2023012858 W KR 2023012858W WO 2024071700 A1 WO2024071700 A1 WO 2024071700A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
images
electronic device
wide
camera
Prior art date
Application number
PCT/KR2023/012858
Other languages
English (en)
French (fr)
Inventor
박재성
문영수
최정화
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220186376A external-priority patent/KR20240045052A/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US18/372,383 priority Critical patent/US20240114107A1/en
Publication of WO2024071700A1 publication Critical patent/WO2024071700A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/57Mechanical or electrical details of cameras or camera modules specially adapted for being embedded in other devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums

Definitions

  • the disclosed embodiments relate to an electronic device and a method of operating the same, and more specifically, to an electronic device that generates a panoramic image or a 360-degree image and a method of operating the same.
  • An electronic device includes a memory that stores one or more instructions; and one or more processors executing one or more instructions stored in the memory.
  • the one or more processors may acquire a plurality of two front images from the first front image acquired by the front camera by executing the one or more instructions.
  • the one or more processors may obtain a front ultra-wide-angle image by compositing the plurality of second front images by executing the one or more instructions.
  • the one or more processors may obtain a rear ultra-wide-angle image by compositing a plurality of rear images by executing the one or more instructions.
  • the one or more processors may generate a 360-degree image by executing the one or more instructions and combining the front ultra-wide-angle image and the rear ultra-wide-angle image.
  • FIG. 1 is a diagram illustrating how an electronic device generates a 360-degree image, according to an embodiment.
  • FIG. 2 is a diagram for explaining a camera provided in an electronic device, according to an embodiment.
  • FIG 3 is an internal block diagram of an electronic device according to an embodiment.
  • FIG. 4 is a diagram illustrating an operation in which an electronic device generates a 360-degree image, according to an embodiment.
  • Figure 5 is a diagram for explaining obtaining a learning model according to an embodiment.
  • Figure 6 is a diagram for explaining the architecture of the encoder-decoder model according to an embodiment.
  • FIG. 7 is a diagram illustrating obtaining a learning model according to an embodiment.
  • FIG. 8 is a diagram illustrating an electronic device acquiring a 360-degree image using a neural network, according to an embodiment.
  • FIG. 9 is a diagram illustrating how an electronic device selects a reference area for generating an ultra-wide-angle image from a user, according to an embodiment.
  • FIG. 10 is a diagram illustrating an internal block diagram of an electronic device according to an embodiment.
  • FIG 11 is an internal block diagram of an electronic device according to an embodiment.
  • FIG. 12 is a diagram illustrating generating a 360-degree image based on images acquired using a plurality of electronic devices, according to an embodiment.
  • Figure 13 is a flow chart explaining training of a neural network according to an embodiment.
  • Figure 14 is a flow chart illustrating a method for generating a 360-degree image, according to an embodiment.
  • a method of operating an electronic device may include acquiring a plurality of second front images from a first front image acquired with a front camera.
  • the method may include obtaining a front ultra-wide-angle image by combining the plurality of second front images.
  • the method may include obtaining a rear ultra-wide-angle image by combining a plurality of rear images, and generating a 360-degree image by combining the front ultra-wide-angle image and the rear ultra-wide-angle image.
  • the recording medium according to the embodiment is a computer on which a program is recorded that can perform a method of operating an electronic device by a computer, including the step of generating a plurality of second front images from a first front image acquired with a front camera. It may be a recording medium that can be read.
  • the recording medium may be a computer-readable recording medium on which a program capable of executing a method of operating an electronic device by a computer, including the step of synthesizing the plurality of second front images to obtain a front ultra-wide-angle image, is recorded. there is.
  • the recording medium may be a computer-readable recording medium on which a program capable of executing a method of operating an electronic device by a computer, including the step of combining a plurality of rear images to obtain a rear ultra-wide-angle image, is recorded.
  • the recording medium is a computer-readable recording medium on which a program capable of executing by a computer a method of operating an electronic device, including generating a 360-degree image by combining the front ultra-wide-angle image and the rear ultra-wide-angle image, is recorded. It can be.
  • phrases such as “ in some embodiments ” or “ in one embodiment ” that appear in various places in this specification do not necessarily all refer to the same embodiment.
  • Some embodiments may be represented by functional block configurations and various processing steps. Some or all of these functional blocks may be implemented in various numbers of hardware and/or software configurations that perform specific functions. For example, the functional blocks of the disclosed embodiment may be implemented by one or more microprocessors or by circuit configurations for a certain function. Additionally, for example, functional blocks of the disclosed embodiments may be implemented in various programming or scripting languages. Functional blocks may be implemented as algorithms running on one or more processors. Additionally, the disclosed embodiments may employ conventional technologies for, for example, electronic environment settings, signal processing, and/or data processing. Terms such as “mechanism,” “element,” “means,” and “configuration” may be used broadly and are not limited to mechanical and physical configurations.
  • connection lines or connection members between components shown in the drawings merely exemplify functional connections and/or physical or circuit connections. In an actual device, connections between components may be represented by various replaceable or additional functional connections, physical connections, or circuit connections.
  • ...unit and/or “module” described in the disclosed embodiments mean a unit that processes at least one function or operation, which is implemented in hardware or software or by a combination of hardware and software. It can be implemented.
  • the term “user” in the specification refers to a person who uses an electronic device and may include a consumer, evaluator, viewer, administrator, or installer.
  • FIG. 1 is a diagram illustrating how the electronic device 100 generates a 360-degree image, according to an embodiment.
  • Metaverse content can refer to a virtual three-dimensional space platform that can engage in social, economic, educational, cultural, scientific and technological activities similar to actual reality.
  • Panoramic images or 360-degree images can be created using dedicated photography equipment equipped with multiple cameras.
  • Dedicated photography equipment can acquire multiple images in all directions by shooting in all directions horizontally and/or vertically using multiple cameras, and create a 360-degree image by stitching the multiple images.
  • dedicated filming equipment is expensive and therefore difficult for general users to use.
  • the present application is intended to provide technology for more easily acquiring panoramic images or 360-degree images using a user terminal such as a smartphone.
  • the electronic device 100 can acquire an image of its surroundings using a camera.
  • the electronic device 100 may be a device equipped with a camera capable of acquiring an image by photographing a subject.
  • the electronic device 100 may be a user terminal such as a smart phone.
  • the electronic device 100 includes a mobile phone equipped with a camera, a video phone, an e-book reader, a laptop personal computer, a netbook computer, a digital camera, and a PDA ( At least one of Personal Digital Assistants (PMP), Portable Multimedia Player (PMP), camcorder, navigation, wearable device, smart watch, home network system, security system, medical device, or a combination thereof. It could be a device.
  • PMP Personal Digital Assistants
  • PMP Portable Multimedia Player
  • camcorder At least one of Personal Digital Assistants (PMP), Portable Multimedia Player (PMP), camcorder, navigation, wearable device, smart watch, home network system, security system, medical device, or a combination thereof. It could be a device.
  • the electronic device 100 may be equipped with a plurality of cameras.
  • a plurality of cameras may be provided, for example, on the front, rear, and/or side of the electronic device 100.
  • one or more cameras may be provided on the front and rear sides of the electronic device 100, respectively.
  • FIG. 1 shows, as an example, a case in which one front camera is mounted on the front of the electronic device 100 and three rear cameras are mounted on the back.
  • the electronic device 100 may acquire an image of the front by photographing the front with a front camera.
  • an image acquired by the electronic device 100 by photographing a subject located in the front with a front camera will be referred to as the first front image 110.
  • the electronic device 100 may be equipped with a plurality of rear cameras.
  • the electronic device 100 may obtain a plurality of rear images 111 of the rear by photographing the rear using a plurality of rear cameras.
  • the plurality of rear cameras may be multiple cameras with different angles of view or focal lengths.
  • the three cameras disposed on the rear of the electronic device 100 may be a normal camera/standard camera, a wide-angle camera, and a telephoto camera, respectively.
  • Each of the plurality of rear images 111 acquired by shooting with a plurality of rear cameras provided on the rear of the electronic device 100 may have unique characteristics of the rear image.
  • the characteristics of the rear image acquired by the rear camera may include at least one of camera lens characteristics and geometry characteristics.
  • Camera lens characteristics may refer to the lens specifications of the camera.
  • Camera lens characteristics of the rear camera may include at least one of resolution, optical magnification, aperture, angle of view, pixel pitch, dynamic range, and depth.
  • each of the plurality of rear cameras has different camera lens characteristics
  • the plurality of rear images 111 acquired by the plurality of rear cameras may also have different image characteristics.
  • Each of the plurality of rear images 111 acquired by a plurality of rear cameras may have, for example, different angles of view, sizes, positions, and/or depth values of subjects included in the images. That is, even if the same subject is photographed with a plurality of rear cameras, different images may be obtained depending on, for example, the focal length, resolution, and/or depth value of the camera.
  • the geometric characteristic may be information representing the relationship between images acquired by a plurality of rear cameras.
  • the electronic device 100 may acquire a plurality of front images from a single first front image 110 acquired with a front camera.
  • the plurality of front images that the electronic device 100 acquires from the first front image 110 may be the same images obtained by photographing the front with a plurality of rear cameras. That is, the electronic device 100 may generate a plurality of front images having the characteristics of a rear image acquired by a plurality of rear cameras from the first front image 110.
  • the front image obtained from the first front image 110 and having the characteristics of a rear image acquired with a plurality of rear cameras will be referred to as the second front image 113.
  • the rear cameras are a standard camera, a wide-angle camera, and a telephoto camera
  • the plurality of second front images 113 are obtained by photographing the front at the same time using the rear cameras, the standard camera, the wide-angle camera, and the telephoto camera, respectively. It may be the same image.
  • the electronic device 100 may generate a plurality of second front images 113 from the first front image 110 using a neural network.
  • Each of the second front images 113 may have image characteristics according to the lens characteristics of the plurality of rear cameras.
  • the geometric characteristics between the second front images 113 may be the same as the geometric characteristics between rear images acquired by shooting with a plurality of rear cameras.
  • the neural network used by the electronic device 100 is a deep neural network ( It may be a learning model in the form of DNN).
  • the positions of the front camera 131 and the rear camera 141 may not be exactly symmetrical. If the camera positions between the front camera 131 and the rear camera 141 are different, a difference in view may occur depending on the position difference.
  • a neural network may be a learning model trained to correct viewpoint differences due to differences in the positions of the front and rear cameras.
  • a neural network may be a learning model trained to minimize the difference (loss) between a plurality of ground truth images obtained by photographing the front with a plurality of rear cameras and a plurality of front learning images.
  • the plurality of second front images 113 generated by the learned neural network may be images that reflect the difference in viewpoint due to the difference in positions between the front camera 131 and the rear camera 141. More specifically, the second front image 113 may be the same image taken from the position and arrangement of the rear camera 141 mounted on the rear, that is, from the viewpoint of the rear camera 141.
  • the electronic device 100 may obtain a front ultra-wide-angle image 115 by combining a plurality of second front images 113. Since the front ultra-wide-angle image 115 is not a single image but an image obtained by combining a plurality of second front images 113, it may be an ultra-high resolution image with sufficient data.
  • the front ultra-wide-angle image 115 is a natural composite of a plurality of second front images 113, for example, a telephoto image, a standard image, and a wide-angle image.
  • the telephoto, standard, and wide-angle images are naturally synthesized. It can be a standard, wide-angle image and an ultra-high resolution video that allows the viewpoint to move naturally.
  • the front ultra-wide-angle image (115) has a natural transition between telephoto, standard, and wide-angle images, so when the user zooms in or out on a specific point, or when the user pans or tilts the image left and right, or up and down. It may also be a super-resolution image that can be easily moved or rotated to a specific point without deteriorating the resolution of the image.
  • the front ultra-wide-angle image 115 may be an image with an angle of view of 180 degrees or more, but the disclosed embodiment is not limited.
  • the electronic device 100 may acquire the rear image 111 by photographing the rear using a plurality of rear cameras at the same time as the first front image 110 using the front camera.
  • the electronic device 100 may obtain a plurality of different rear images 111 by photographing a subject located on the rear using a plurality of rear cameras. For example, if the camera mounted on the rear of the electronic device 100 is a standard camera, a wide-angle camera, or a telephoto camera, the electronic device 100 uses a plurality of different rear cameras to capture a standard image, a wide-angle image, and Each telephoto image can be acquired.
  • the electronic device 100 may obtain a rear ultra-wide-angle image 112 by combining a plurality of rear images 111 acquired by a plurality of rear cameras.
  • the rear ultra-wide-angle image 112 may be an ultra-high resolution image with sufficient data.
  • the rear ultra-wide-angle image 112 is a natural composite of a plurality of rear images 111. It is possible to naturally switch viewpoints between a plurality of rear images 111, that is, telephoto, standard, and wide-angle images, and zoom-in on a specific point. It can be an ultra-high resolution video that can be zoomed in or out, panned or tilted in the left or right or up and down directions of the image.
  • the rear ultra-wide-angle image 112 may be an image with an angle of view of 180 degrees or more, but the disclosed embodiment is not limited thereto.
  • the electronic device 100 may generate a wide image such as a panoramic image or a 360-degree image by combining the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112.
  • a panoramic image or a 360-degree image obtained by combining the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112 may also be ultra-high resolution images. there is.
  • the electronic device 100 may find an overlapping area between the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112 and stitch it to obtain a panoramic image or a 360-degree image.
  • a panoramic image may refer to a technique or an image captured in a single image that captures the environment in multiple directions around the electronic device 100.
  • a panoramic image may refer to a technique or device that captures all the scenery in directions greater than 180 degrees and less than 360 degrees out of the entire scenery, or a photograph or painting captured in such a way.
  • a 360-degree image may refer to a technique or an image captured in a 360-degree direction surrounding the electronic device 100 as a single image.
  • a 360-degree image may be an image with an angle of view of 360 degrees.
  • a 360-degree image may be generated based on a plurality of images captured in a 360-degree direction using at least one camera.
  • a plurality of captured images can be mapped to a sphere, and contact points of the mapped images can be stitched to create a 360-degree image in the form of a sphere.
  • the electronic device 100 may further include a user input unit.
  • the user input unit may also be called a user interface.
  • the electronic device 100 may receive a user's selection of an area to generate an ultra-wide-angle image through a user input unit.
  • the electronic device 100 may receive a first reference signal for selecting a first area that serves as a reference for generating the front ultra-wide-angle image 115 through the user input unit.
  • the electronic device 100 can generate the front ultra-wide-angle image 115 based on the first area selected according to the first reference signal.
  • the electronic device 100 may generate the front ultra-wide-angle image 115 with the first area as the center of the image.
  • the electronic device 100 may receive a second reference signal for selecting a second area as a reference for generating the rear ultra-wide-angle image 112 through the user input unit.
  • the electronic device 100 can generate the rear ultra-wide-angle image 112 based on the second area selected according to the second reference signal.
  • the electronic device 100 may generate the rear ultra-wide-angle image 112 with the second area as the center of the image.
  • An external terminal may acquire the first front image 110 and the plurality of back images 111.
  • the electronic device 100 may acquire the first front image 110 and the plurality of rear images 111 by receiving them from an external terminal through a communication network.
  • the electronic device 100 may acquire the second front image 113 from the first front image 110 received from an external terminal and the front ultra-wide-angle image 115 from the second front image 113. . Additionally, the electronic device 100 may generate a rear ultra-wide-angle image 112 from a plurality of rear images 111 received from an external terminal. The electronic device 100 may generate a panoramic image or a 360-degree image by combining the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112. The electronic device 100 can transmit a panoramic image or a 360-degree image back to an external terminal through a communication network.
  • the electronic device 100 can acquire a panoramic image or a 360-degree image based on images acquired using the front and rear cameras.
  • the user can select a point on the screen of the electronic device 100 or a 360-degree image output on a spherical screen to view a virtual view of the selected area in more detail. For example, the user can zoom in on the selected area to enlarge and view the area. Since the generated 360-degree image is a super-resolution image, it has sufficient data for any area selected by the user, so even if the user zooms in on a specific area, an enlarged image of the area can be provided without deterioration in image quality.
  • FIG. 2 is a diagram for explaining a camera provided in the electronic device 100, according to an embodiment.
  • the electronic device 100 may include a plurality of cameras.
  • a camera can capture a subject, create an image, and process it as a signal.
  • the camera may include an image sensor (not shown) and a lens (not shown).
  • the camera can acquire an image of the subject by photographing the subject.
  • the camera can capture a user and obtain a video of one frame or multiple frames.
  • Cameras may be disposed on the front 130 and rear 140 of the electronic device 100, respectively.
  • One front camera 131 may be disposed on the front 130 of the electronic device 100.
  • the present invention is not limited to this, and a plurality of front cameras with different specifications may be disposed on the front 130 of the electronic device 100.
  • the front camera 131 may be located at the top center of the front 130. However, the disclosed embodiment is not limited to this, and the front camera 131 may be located in various areas on the front of the electronic device 100.
  • the electronic device 100 may further include a depth sensor (not shown) in addition to the front camera 131 on the front 130.
  • the depth sensor can obtain the distance to the subject located in front.
  • the front camera 131 disposed on the front 130 of the electronic device 100 may be a depth camera that supports a depth function.
  • the front camera 131 includes a depth sensor, performs calculations on the image coming from the subject through the lens, and reprocesses the image, thereby obtaining a more three-dimensional image of the object.
  • the electronic device 100 may include a plurality of rear cameras 141 on the rear 140.
  • the plurality of rear cameras 141 may have different angles of view or focal lengths.
  • the plurality of rear cameras 141 may be cameras with various focal lengths, such as a macro camera, a standard camera, a wide-angle camera, an ultra-wide-angle camera, a telephoto camera, and/or a depth camera.
  • the three rear cameras 141 disposed on the rear 140 of the electronic device 100 may be a standard camera, a wide-angle camera, and a telephoto camera, respectively.
  • the plurality of rear cameras 141 may include a plurality of wide-angle cameras with different angles of view, such as a first wide-angle camera and/or a second wide-angle camera.
  • the plurality of rear cameras 141 may include a plurality of telephoto cameras with different focal lengths of telephoto lenses, such as a first telephoto camera and a second telephoto camera.
  • the plurality of rear cameras 141 disposed on the rear 140 of the electronic device 100 may be a wide-angle camera, a first telephoto camera, and a second telephoto camera, respectively.
  • the plurality of rear cameras 141 may be arranged vertically in a row on the upper left side of the rear 140 of the electronic device 100, or may be arranged in a triangular shape. However, this is an example, and the number or arrangement of the rear cameras 141 may vary.
  • the same subject may be photographed with different angles of view, sizes, and positions. That is, even if the same subject is photographed with a plurality of rear cameras 141, different images can be obtained depending on the focal length of the rear cameras 141.
  • images acquired by the rear camera 141 by photographing a subject on the rear may be a standard image, a wide-angle image, and a telephoto image, respectively.
  • the standard image, wide-angle image, and telephoto image may be expressed differently in terms of the range or area containing the subject, the shape of the subject, the size of the subject, and/or the perspective to the subject.
  • the bottom of FIG. 2 shows an example of a plurality of rear images 111 acquired by the rear camera 141.
  • the wide-angle image 121 shows an image obtained by shooting with a wide-angle camera among the rear cameras 141.
  • the wide-angle image 121 may be an image that includes a wide subject and has an exaggerated sense of perspective, making the distance to the subject appear farther than it actually is.
  • the standard image 123 shows an image obtained by shooting with a standard camera among the rear cameras 141.
  • the standard image 123 is an image most similar to what the human eye sees, and may be an image with little distortion in the distance to the subject or the shape of the subject.
  • a telephoto image 125 shows an image obtained by shooting with a telephoto camera of the rear camera 141 .
  • the telephoto image 125 may make a distant subject appear closer than it actually is and may include the subject in an enlarged form.
  • Each of the plurality of back images 111 may have different back image characteristics.
  • Rear images acquired with different rear cameras 141 may have different image characteristics depending on camera lens characteristics.
  • Different image characteristics according to camera lens characteristics may include at least one of resolution, optical magnification, aperture, angle of view, pixel pitch, dynamic range, and depth.
  • the plurality of rear images 111 may have different geometric characteristics.
  • the geometric characteristic may be information representing the relationship between a plurality of rear cameras or a plurality of rear images acquired with a plurality of rear cameras.
  • the first rectangular area 122 included in the wide-angle image 121 corresponds to the second rectangular area 124 included in the standard image 123, and also corresponds to the entire area of the telephoto image 125. We can respond.
  • Geometric characteristics may be information indicating differences or relationships between images due to a plurality of rear cameras having different focal lengths or angles of view. Geometric characteristics may include, for example, characteristics of the relationship between the angle of view, the size of the subject, and/or the position of the subject between a plurality of rear images.
  • the electronic device 100 uses a neural network to have the characteristics of a single front image acquired with the front camera 131, that is, the first front image 110 and the rear image acquired with the rear camera 141.
  • a plurality of front images, that is, the second front image 113, can be generated.
  • the neural network used by the electronic device 100 is a deep neural network trained to generate a plurality of front learning images having the characteristics of the back learning images acquired by a plurality of rear cameras from one front learning image and a plurality of back learning images. It may be a learning model in the form of (DNN).
  • a neural network is trained to generate the same image as the one acquired with the rear camera, a wide-angle camera, or the same image as the same image acquired with another rear camera, the telephoto camera, from one front learning image acquired with a standard front camera. It could be a neural network.
  • the neural network can learn the relationship between a plurality of rear images acquired by a plurality of rear cameras 141. For example, assuming that the neural network learns using the wide-angle image 121, the standard image 123, and the telephoto image 125 shown in FIG. 2 as learning images, the neural network uses the wide-angle image 121 and the standard image ( 123) and the telephoto image 125, the characteristics of each can be learned, and the relationship between the wide-angle image 121, the standard image 123, and the telephoto image 125 can be learned.
  • the neural network is based on the relationship between the wide-angle image 121 and the standard image 123, where the wide-angle image 121 is upscaled and the views of the wide-angle image 121 are synthesized and rendered, thereby creating the standard image 123.
  • the relationships that are created can be learned.
  • the standard image 123 is zoomed in and upscaled, and the viewpoints of the standard image 123 are synthesized and rendered. By doing so, the relationship in which the telephoto image 125 is generated can be learned.
  • the rear 140 of the electronic device 100 may further include a rear depth sensor 145 in addition to the rear camera 141.
  • the rear depth sensor 145 can obtain the distance to a subject located at the rear.
  • a separate depth sensor 145 may not be disposed on the rear 140 of the electronic device 100, and at least one rear camera among the plurality of rear cameras 141 may be a depth camera that supports the depth function. If the rear camera 141 is a depth camera, the rear camera 141 performs calculations on the image coming from the subject through the lens to obtain the distance to the subject, and reprocesses the image based on this to create a more three-dimensional image of the subject. It can be obtained with Cameras that support the depth function may, for example, have a stereo type, Time-Of-Flight (ToF) method, and/or Structured Pattern method depending on how to recognize 3D depth.
  • ToF Time-Of-Flight
  • the positions of the front camera 131 and the rear camera 141 may not be exactly symmetrical.
  • the front camera 131 is located at the top center of the front 130 of the electronic device 100
  • the rear camera 141 is located at the top of the rear 140 of the electronic device 100. They may be arranged vertically in a row on the left, or may be arranged in a triangular shape. In this case, since the camera positions between the front camera 131 and the rear camera 141 are different, a difference in view may occur depending on the position difference.
  • the electronic device 100 uses the front camera 131 and the rear camera 141 when acquiring a plurality of second front images 113 having rear image characteristics acquired by a plurality of rear cameras from the first front image 110. Differences in viewpoints due to differences in location can be taken into account.
  • the electronic device 100 may generate a front image acquired by the front camera 131, that is, a rear image shifted from the first front image 110 to the position and arrangement of the rear camera 141.
  • Figure 3 is an internal block diagram of the electronic device 100 according to an embodiment.
  • the electronic device 100 may include a memory 103 that stores one or more instructions and one or more processors 101 that execute one or more instructions stored in the memory 103.
  • the memory 103 may store at least one instruction.
  • the memory 103 may store at least one program that the processor 101 executes. Additionally, the memory 103 may store data input to or output from the electronic device 100.
  • the memory 103 is a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (for example, SD or XD memory, etc.), and RAM.
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • magnetic memory magnetic disk , and may include at least one type of storage medium among optical disks.
  • One or more instructions for acquiring the first front image 110 may be stored in the memory 103 .
  • the second front image 113 is an image generated from the first front image 110 and may be an image that has the characteristics of a rear image acquired with a plurality of rear cameras.
  • the memory 103 may store one or more instructions for obtaining the front ultra-wide-angle image 115 by combining a plurality of second front images 113.
  • One or more instructions for obtaining a rear ultra-wide-angle image 112 by combining a plurality of rear images 111 may be stored in the memory 103.
  • One or more instructions for generating a panoramic image or a 360-degree image by combining the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112 may be stored in the memory 103.
  • At least one AI model may be stored in the memory 103.
  • the neural network model stored in the memory 103 includes a plurality of front images having characteristics of the front image acquired by the front camera, that is, the first front image 110, and the back image acquired by the rear camera, that is, the second front image. It may be a neural network model for generating (113).
  • the processor 101 may control the overall operation of the electronic device 100 and signal flow between internal components of the electronic device 100, and may perform the function of processing data.
  • the processor 101 may control the electronic device 100 to function by executing one or more instructions stored in the memory 103.
  • Processor 101 may include single core, dual core, triple core, quad core, and multiple cores thereof.
  • processor 101 may include a plurality of processors.
  • the processor 101 may be implemented as a main processor and a sub processor.
  • the processor 101 may include at least one of a Central Processing Unit (CPU), a Graphics Processing Unit (GPU), and a Video Processing Unit (VPU).
  • the processor 101 may be implemented in the form of a System On Chip (SoC) that integrates at least one of a CPU, GPU, and VPU.
  • SoC System On Chip
  • the processor 101 may further include a Neural Processing Unit (NPU).
  • NPU Neural Processing Unit
  • the processor 101 may process input data according to predefined operation rules or AI models.
  • Predefined operation rules or AI models may be created using a specific algorithm.
  • an AI model may be one in which a specific algorithm has been learned.
  • One or more processors 101 may acquire the first front image 110 by executing one or more instructions.
  • the first front image 110 may be an image of the front obtained by photographing the front with a front camera.
  • One or more processors 101 may obtain a plurality of second front images 113 having the characteristics of a plurality of back images from the first front image 110 by executing one or more instructions.
  • One or more processors 101 may acquire the second front image 113 from the first front image 110 based on rules or an artificial intelligence algorithm.
  • One or more processors 101 may use at least one of machine learning, neural network, or deep learning algorithms as artificial intelligence algorithms. For example, one or more processors 101 may acquire a plurality of second front images 113 from the first front image 110 using a neural network.
  • AI technology can be composed of machine learning (deep learning) and element technologies using machine learning. AI technology can be implemented using algorithms.
  • the algorithm or set of algorithms for implementing AI technology is called a neural network.
  • a neural network can receive input data, perform operations for analysis and classification, and output result data. In order for a neural network to accurately output result data corresponding to input data, it is necessary to train the neural network. Training a neural network means creating an artificial intelligence model with desired characteristics by applying a learning algorithm to a large number of learning data. This learning may be accomplished in the electronic device 100 itself where artificial intelligence is performed, or may be accomplished through a separate server/system.
  • a learning algorithm is a method of training a target device (eg, a robot) using a large number of learning data so that the target device can make decisions or make predictions on its own.
  • Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, and learning algorithms are described above except where specified. It is not limited to one example.
  • a set of algorithms that output output data corresponding to input data through a neural network, software that runs the set of algorithms, and/or hardware that runs the set of algorithms are referred to as an 'AI model' (or, 'artificial intelligence model' or neural network). It can be called a network model, neural network).
  • the neural network used by the processor 101 may be an algorithm for obtaining the second front image 113 from the first front image 110, software executing a set of algorithms, and/or hardware executing a set of algorithms. there is.
  • the neural network may be a deep neural network (DNN) that includes two or more hidden layers.
  • DNN deep neural network
  • a neural network can be trained to receive input data, perform operations for analysis and classification, and output result data corresponding to the input data.
  • the neural network receives various front learning images and a plurality of corresponding back learning images using a large number of learning data, and applies a learning algorithm to the plurality of learning data, so that the characteristics of the back image are acquired from a plurality of rear cameras. It can be learned to generate a plurality of front learning images having .
  • a neural network can learn the characteristics of multiple back training images.
  • the plurality of rear image characteristics may include at least one of camera lens characteristics and geometry characteristics.
  • Camera lens characteristics may be characteristics of a rear image according to at least one characteristic of resolution, optical magnification, aperture, angle of view, pixel pitch, dynamic range, and depth of each of the plurality of rear cameras.
  • the geometric characteristics may include characteristics of at least one of a view angle relationship, a size relationship, and a position relationship between a plurality of rear images.
  • the neural network acquires the front image characteristics from the front learning image, transforms them to fit the characteristics of the plurality of back images acquired by the plurality of rear cameras, and then transforms them to suit the characteristics of the plurality of back images acquired by the plurality of rear cameras from one front learning image. It can be trained to generate a plurality of front learning images with .
  • the neural network can be trained to minimize the difference between the images by comparing the generated plurality of front learning images with the ground truth image.
  • the ground truth image may be a plurality of images obtained by photographing the front with a plurality of rear cameras.
  • the neural network is trained to minimize the difference between the ground truth image and the plurality of front learning images, so that it can learn the difference in view according to the position difference between the front camera and the rear camera.
  • This learning may be accomplished in the electronic device 100 itself where artificial intelligence is performed, or may be accomplished through a separate external server/system.
  • the learned neural network can be installed in the electronic device 100.
  • the electronic device 100 may be an on-device device in which the artificial intelligence (AI) function of a neural network is coupled to an edge device such as a smartphone.
  • AI artificial intelligence
  • the electronic device 100 may acquire a plurality of second front images 113 from the first front image 110 using a neural network included in the electronic device 100 without interworking with a separate server. Since the electronic device 100 collects, calculates, and processes information on its own without going through a cloud server, it can more quickly create a second front image 113 that reflects the characteristics of the rear image acquired by the rear camera from the first front image 110. It can be obtained.
  • the trained neural network can be installed, for example, on a cloud server or external computing device.
  • the electronic device 100 may not be in an on-device form, but may acquire 360-degree images by linking with a cloud server or cloud computing device.
  • the electronic device 100 may acquire a first front image 110 using the front camera 131 and a plurality of rear images 111 using the plurality of rear cameras 141, and transmit them to an external server.
  • the external server may receive the first front image 110 from the electronic device 100 and generate a plurality of second front images 113 from the first front image 110 using the neural network described above.
  • the external server may create a front ultra-wide-angle image 115 by combining a plurality of second front images 113 and create a back ultra-wide-angle image 112 by combining a plurality of back images 111.
  • the external server may combine the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112 to create a panoramic image or a 360-degree image and transmit it to the electronic device 100.
  • the electronic device 100 can output a 360-degree image received from an external server.
  • FIG. 4 is a diagram illustrating an operation of the electronic device 100 to generate a 360-degree image, according to an embodiment.
  • the electronic device 100 may acquire the first front image 110.
  • the electronic device 100 may acquire the first front image 110 by photographing a subject located on the front using the front camera 131 provided on the front of the electronic device 100.
  • the electronic device 100 may receive, from an external user terminal, the first front image 110 acquired with a front camera provided in the external user terminal.
  • the electronic device 100 may acquire a plurality of second front images 113 from the first front image 110 using a first deep neural network (DNN) 410.
  • the first DNN 410 is an artificial neural network that includes multiple hidden layers between an input layer and an output layer, and may be a pre-trained neural network.
  • the first DNN 410 may be a learning model trained to generate a plurality of front learning images having the characteristics of the back image acquired by a plurality of rear cameras from one front learning image and a plurality of back learning images.
  • the plurality of second front images 113 generated by the first DNN 410 from the first front image 110 are front images having the characteristics of a rear image, as if obtained by photographing the front with a plurality of rear cameras. It could be an image.
  • the electronic device 100 may generate a front ultra-wide-angle image 115 by combining a plurality of second front images 113.
  • the electronic device 100 may generate the front ultra-wide-angle image 115 from the plurality of second front images 113 using the second DNN 420.
  • the second DNN 420 may also be a deep neural network (DNN) including two or more hidden layers.
  • the second DNN 420 may be a neural network trained to synthesize images.
  • the second DNN 420 is an algorithm that detects similar areas or features between a plurality of images, matches them, and combines the images to obtain an ultra-wide-angle image, or software and/or an algorithm collection that executes an algorithm or a set of algorithms. It can be the hardware that runs the aggregation.
  • the second DNN 420 naturally synthesizes a plurality of second front images 113 having rear image characteristics acquired by a rear camera, for example, a plurality of images having characteristics of a telephoto image, a standard image, and a wide-angle image, It is possible to create ultra-high resolution images in which the viewpoint can be naturally shifted between telephoto images, standard images, and wide-angle images.
  • the electronic device 100 may acquire a plurality of rear images 111.
  • the electronic device 100 may acquire the first front image 110 using the front camera 131 of the electronic device 100 at the same time.
  • a plurality of rear images 111 can be obtained by photographing a subject located at the rear with a rear camera 141 mounted on the rear.
  • the electronic device 100 may receive the rear image 111 acquired by a rear camera provided in the external user terminal from an external user terminal.
  • the electronic device 100 may generate a rear ultra-wide-angle image 112 from a plurality of rear images 111 using the second DNN 425.
  • the second DNN 425 like the first DNN 410, may be a deep neural network trained to synthesize images.
  • the second DNN 425 naturally synthesizes the rear images 111 acquired by the rear camera, for example, a telephoto image, a standard image, and a wide-angle image, and generates a super-resolution image in which the viewpoint can be freely moved between the images. can do.
  • the rear ultra-wide-angle image 112 is capable of zooming in or out of a specific point, or panning or tilting the image to the left or right or up and down, without deteriorating the resolution of the image. It may be an ultra-high resolution video that can be easily moved or rotated.
  • the electronic device 100 may generate a 360-degree image 430 by combining the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112.
  • the electronic device 100 detects similar feature points in the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112, matches similar feature points, and stitches the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112. 360-degree images can be acquired.
  • Figure 5 is a diagram for explaining obtaining a learning model according to an embodiment.
  • the neural network 500 can receive a plurality of learning data inputs.
  • the neural network 500 can learn how to obtain a plurality of front learning images having the characteristics of a plurality of rear images acquired by a plurality of rear cameras from training data, and can be created as a learning model based on the learned results. there is.
  • the learning data may include captured images obtained by photographing subjects of various sizes and positions when subjects of various sizes are in various positions.
  • the captured image may include a front image acquired by shooting with a front camera and a plurality of back images obtained by shooting with a plurality of rear cameras at the same time.
  • Training data may include a front training image 510. If the front camera is a standard camera, the standard image may be a captured image of the front obtained with the front camera.
  • the front learning image 510 may be input to the neural network 500.
  • Neural network 500 may be an encoder-decoder model.
  • the encoder-decoder model may include an encoder (E1) and a decoder (G).
  • the encoder-decoder model may be a model designed to extract features from an image and reflect the extracted features well in the image to be generated.
  • the encoder-decoder model may be, for example, U-Net, Residual U-Net, and/or FD U-Net. However, this is just one embodiment, and the neural network 500 is not limited to the encoder-decoder model.
  • the neural network 500 can be trained with a plurality of learning images so that a plurality of weight values applied to each of a plurality of nodes forming the neural network 500 are set.
  • the weight may refer to the connection strength between each node of the neural network 500.
  • Weight values can be optimized through iterative learning, and can be repeatedly modified until the accuracy of the results satisfies a predetermined level of reliability. For example, the weights may be continuously modified until the image output from the neural network 500 becomes identical to the ground truth image.
  • the encoder E1 included in the neural network 500 can reduce the dimension while increasing the number of channels to capture features of the input image.
  • the decoder included in the neural network 500 can generate a high-dimensional image by reducing the number of channels and increasing the dimension using low-dimensional encoded information.
  • the decoder (G) may also be called a generator.
  • the front learning image 510 may be input to the encoder E1 of the neural network 500.
  • the encoder E1 can acquire important features from the front learning image 510 by compressing information while reducing the dimension of the front learning image 510.
  • the dimensionality is reduced while increasing the number of channels to capture the characteristics of the input image
  • the number of channels is reduced and the dimension is increased using only low-dimensional encoded information to restore a high-dimensional image. can do.
  • important information about the subject included in the image is lost during dimensionality reduction in the encoding stage, and there are cases where the lost important information cannot be recovered because only low-dimensional information is used in the decoding stage. You can.
  • the encoder-decoder model can use skip connections to extract image features using not only low-dimensional but also high-dimensional information, and at the same time use important information.
  • Skip connection may mean directly connecting the encoder layer and the decoder layer and concatenating the features obtained from each layer of the encoding stage to each layer of the decoding stage.
  • Skip connection is used to improve the performance of the decoder (G) by directly transmitting information to the corresponding layer of the decoder instead of transmitting information to another layer when the encoder and decoder included in the encoder-decoder model have a symmetrical structure. It can be.
  • Training data may include a rear training image 520.
  • the rear learning image 520 may be acquired with a rear camera at the same time as the front learning image 510 was acquired with the front camera, or may be an image created to have the rear image characteristics of the rear camera. If there are multiple rear cameras, there may also be multiple rear learning images 520 acquired through the rear cameras. For example, if the rear camera is a standard, wide-angle, or telephoto camera, the rear training image 520 may also be a standard image, wide-angle image, or telephoto image.
  • the learning data may further include front distance information obtained with a front depth sensor.
  • the front distance information may be information indicating the distance to a subject located in the front.
  • Front distance information may be obtained from a front camera or a front image that generates a front image, or may be obtained from a front depth sensor that is separate from the front camera. If there are multiple front depth sensors, there may also be multiple front distance information.
  • the learning data further includes front distance information acquired by a front depth sensor
  • the front distance information may be input to the encoder E1 of the neural network 500 together with the front learning image 510.
  • the encoder E1 can obtain important features from the front learning image 510 by compressing the information while reducing the dimensions of the front learning image 510 and the front distance information.
  • the learning data may further include rear distance information obtained with a rear depth sensor.
  • the rear distance information may be information indicating the distance to a subject located at the rear.
  • Rear distance information may be obtained from a rear camera or rear image, or may be obtained from a rear depth sensor separate from the rear camera. When there are a plurality of rear cameras and/or a plurality of rear depth sensors, there may be a plurality of rear distance information obtained from the rear camera or from the rear depth sensor.
  • the rear learning image 520 may be compressed by reducing its dimension through the encoder E2. If there is back-distance information, the back-distance degree can also be compressed through the encoder (E2).
  • the encoder (E2) like the encoder (E1) included in the encoder-decoder model, can compress data by reducing the dimension while increasing the number of channels.
  • Data compressed through the encoder E2 may be rear camera characteristics obtained as the rear training image 520 and/or rear distance information.
  • Rear camera characteristics may include at least one of image characteristics due to lens characteristics of each rear camera, and geometry characteristics due to differences in location or arrangement between rear cameras.
  • Data compressed through the encoder (E2) can be input to the decoder (G) in the form of a condition.
  • the condition may be information indicating the conditions under which the decoder (G) generates an image.
  • Data input to the decoder (G) as a condition may be data including camera characteristics of the rear camera and geometry characteristics between rear cameras.
  • the decoder (G) may be a generator that generates a high-dimensional image by reducing the number of channels and increasing the dimension using low-dimensional encoded information.
  • the decoder (G) When the decoder (G) generates a new image using the compressed information received from the encoder (E2), that is, the important features of the front learning image 510 and the front distance information, it receives the rear camera characteristics as a condition and inputs the condition An image can be created according to .
  • the decoder (G) receives compressed data about the front learning image 510 and front distance information received from the encoder (E1), and rear camera characteristics received from the encoder (E2), such as the lenses of each of the standard camera, wide-angle camera, and telephoto camera.
  • a new image can be created by considering the characteristics, positional relationships between rear cameras, and/or depth information to the rear subject.
  • the new image generated may be a learning image having the characteristics of a plurality of rear images acquired by a plurality of rear cameras. That is, the new image may be a learning image having lens characteristics of a plurality of rear cameras and geometry characteristics between the plurality of rear cameras.
  • a plurality of learning images generated by the decoder (G) may be compared with the ground truth image (512) through a comparator (D, discriminator) 503.
  • the ground truth image may be a learning image obtained by photographing the front with a plurality of rear cameras.
  • the comparator 503 may compare the image generated by the decoder (G) with the ground truth image 512 and obtain the difference between the images as a loss.
  • the loss obtained by the comparator 503 can be fed forward to the neural network 500 and used to train the weights of the nodes forming the neural network 500.
  • the weights of the neural network 500 can be optimized by repeatedly setting them until the loss is minimized.
  • the neural network 500 may be formed by the finally set weight values.
  • An operation of using the neural network 500 to learn how to generate a plurality of front images having characteristics of the back image acquired with a rear camera from the front image may be performed in advance.
  • the neural network 500 may be updated.
  • new learning images may be used in predetermined cycle units.
  • the neural network 500 can re-learn how to generate a plurality of images with rear image characteristics acquired by a rear camera from the image, and the learning model can be updated accordingly.
  • the operation of learning how to generate a plurality of front images with back image characteristics from the front image using the neural network 500 may be performed by the processor 101 inside the electronic device 100 of FIG. 3. It is not limited to this, and may be performed on an external server or external computing device connected to the electronic device 100 through a communication network.
  • the operation of learning how to generate a plurality of images using the neural network 500 may require a relatively complex amount of calculation.
  • an external computing device separate from the electronic device 100 performs a learning operation, and the electronic device 100 receives a learning model from the external computing device, thereby reducing the amount of calculation to be performed in the electronic device 100. It can be reduced.
  • the learned neural network 500 may be stored in the electronic device 100, or may be stored in an external cloud server or computing device other than the electronic device 100 and based on the image received from the electronic device 100. You can also create multiple images.
  • Figure 6 is a diagram for explaining the architecture of the encoder-decoder model according to an embodiment.
  • the encoder-decoder model of FIG. 6 may be an example of the neural network 500 of FIG. 5.
  • the encoder-decoder model may have a structure that includes an encoder at the top and a decoder at the bottom.
  • the architecture of the encoder-decoder model may include a neural network without fully connected layers.
  • the encoder-decoder model can be composed of a contracting path to acquire features from an image and an expanding path symmetrically therefrom.
  • the reduction path follows the general architecture of a convolutional network using alternating convolution and pooling operations and can gradually downsample feature maps, simultaneously increasing the number of feature maps per layer. That is, the encoder includes a plurality of convolutional layers, and each layer is followed by a ReLU activation function and a max pooling operation to reduce the feature map.
  • rectangular blocks i.e. rods, represent multi-channel feature maps that pass through a series of transformations.
  • the height of the bar represents the relative map size in pixels, and the width is proportional to the number of channels.
  • Every convolutional layer has a 3 ⁇ 3 kernel, and the number next to each bar indicates the number of channels.
  • the first convolutional layer creates 64 channels, and then as the network gets deeper, it creates twice as many channels after each max-pooling operation until the number of channels reaches 512.
  • a single convolutional layer of 512 channels serves as the bottleneck central part of the network, separating the encoder and decoder.
  • the number of channels increases step by step in the upper encoder portion while it decreases step by step in the lower decoder portion.
  • All steps in the expansion path consist of upsampling of the feature map followed by convolution, which can increase the resolution of the output image.
  • the decoder includes a transposed convolutional layer that doubles the size of the feature map while halving the number of channels.
  • the output of the transposed convolution is connected to the output of the corresponding part of the decoder.
  • the resulting feature maps are processed with a convolution operation to keep the number of channels the same as for the symmetric encoder.
  • This upsampling procedure is repeated as many times as the number of poolings of the encoder to pair with the pooling of the encoder.
  • the arrow connecting the encoder and the decoder represents a skip connection that transmits information from each coding layer of the encoder and connects to the corresponding decoding layer of the decoder.
  • Skip connection is used to prevent important features, such as detailed location information about the subject in the image, from being lost during dimensionality reduction at the encoding stage, and from failing to recover important features at the decoding stage because only low-dimensional information is used. Available. When using skip connections, it is possible to extract image features using not only low-dimensional but also high-dimensional information, and at the same time identify important features, such as accurate location.
  • the encoder-decoder model can use a method of concatenating features obtained from each layer of the encoding stage to each layer of the decoding stage.
  • the direct connection between the encoder layer and the decoder layer is called a skip connection.
  • Skip connection unlike using only the output of the previous layer as the input to the next layer, means that the output of one layer is not input to the next layer, but is added to the input of the next layer after skipping several layers.
  • the decoder can localize the upsampled features by combining features from the contracting path to high-resolution features through skip connections in the expansion path.
  • FIG. 7 is a diagram illustrating obtaining a learning model according to an embodiment.
  • the front learning image 702 may be input to a deep neural network (DNN) 751.
  • DNN 751 may be a neural network including two or more hidden layers.
  • the DNN 751 may be trained to receive input data, perform operations for analysis and classification, and output result data corresponding to the input data.
  • the DNN 751 receives various front learning images and a plurality of corresponding back learning images using a plurality of learning data, and applies a learning algorithm to the plurality of learning data to obtain a plurality of back faces obtained from a plurality of rear cameras. It can be trained to generate a plurality of front learning images with image characteristics.
  • the training dataset 701 is a database and may include a front training image 702 and a plurality of back training images 703 as one set.
  • the DNN 751 may obtain the front learning image 702 from the training dataset 701 as learning data.
  • the DNN 751 may learn a method of inferring a front training image having the characteristics of a rear image acquired with a rear camera from the training data.
  • the front learning image 702 may be a learning image that has the characteristics of an image acquired with a front camera.
  • the front camera is a standard camera
  • the front learning image 702 may be an image acquired by the front standard camera or an image created according to the specifications of the front standard camera.
  • the plurality of rear learning images 703 may be images created by being captured by a plurality of rear cameras at the same time as the front learning image 702.
  • the plurality of rear learning images 703 may be images created according to the specifications of a plurality of rear cameras.
  • the plurality of rear learning images 703 may be images with image characteristics according to various characteristics of the cameras, such as specifications of each of the plurality of rear cameras, for example, wide angle, focal length, resolution, dynamic range, image quality, etc. .
  • the DNN 751 can extract features by classifying and analyzing the input data using the front learning image 702 obtained from the training dataset 701 as an input value.
  • the DNN 751 can learn how to obtain a plurality of front learning images with characteristics of a plurality of rear images acquired by a plurality of rear cameras from the training data, and can be created as a learning model based on the learned results. .
  • the DNN 751 zooms in on the front learning image 702, which has the characteristics of a standard image acquired with a standard camera, and upscales it to change the characteristics of the telephoto image acquired with the telephoto camera from the front learning image 702. It can be trained to create a front image with
  • the DNN 751 will be trained to generate a front image with the characteristics of a wide-angle image acquired with a wide-angle camera by generating a part that is not visible in the standard image from the front learning image 702, which has the characteristics of a standard image acquired with a standard camera. You can.
  • the DNN 751 generates an image for the outskirts by extrapolating data from the front learning image 702 or creates an image appropriate for the outskirts of the standard image based on learning images with various geometric structures from the training dataset 701. can be trained to do so.
  • the plurality of front learning images 704 generated by the DNN 751 may be synthesized by the first synthesizer 753.
  • the first synthesizer 753 may be a neural network model.
  • the first synthesizer 753 may be an encoder-decoder model, but is not limited thereto.
  • the first synthesizer 753 may generate a front ultra-wide-angle learning image by combining a plurality of front learning images 704.
  • the first synthesizer 753 may extract points with the minimum difference between pixels from the plurality of front learning images 704 as feature points.
  • the first synthesizer 753 can generate one front ultra-wide-angle learning image by stitching corresponding feature points among the extracted feature points.
  • the front ultra-wide-angle learning image generated by the first synthesizer 753 may be compared with the front ultra-wide-angle learning image 706, which is a ground truth image, through a comparator (D, discriminator) 757.
  • Ground truth images may be obtained from training dataset 705.
  • the training dataset 705 may be a database storing the front ultra-wide-angle learning image 706 and the rear ultra-wide-angle learning image 707.
  • the training data set 705 may be the same database as the training data set 701 that stores the front training image 702 and a plurality of back training images 703, but is not limited thereto and may be a separate database. .
  • the comparator 757 compares the front ultra-wide-angle learning image generated by the first synthesizer 753 with the front ultra-wide-angle learning image 706, which is a ground truth image received from the training dataset 705, and loses the difference between the images. Then, the loss can be fed forward again to the first synthesizer 753, so that the weights of the nodes forming the first synthesizer 753 can be trained. The weight of the first synthesizer 753 can be repeatedly set until the loss is minimized.
  • a plurality of rear learning images 703 may be synthesized by a second synthesizer 755.
  • the second synthesizer 755 may also be an encoder-decoder model, but is not limited thereto.
  • the second synthesizer 755 can generate one back ultra-wide-angle learning image by searching for feature points in the plurality of back learning images 703, matching them, and stitching them.
  • the comparator 759 acquires the rear ultra-wide-angle learning image 707, which is a ground truth image, from the training dataset 705, and compares it with the rear ultra-wide-angle learning image generated by the second synthesizer 755 to determine the loss, which is the difference between the images. (loss) can be obtained.
  • the comparator 759 may feed forward the loss back to the second synthesizer 755 so that the weights of the nodes forming the second synthesizer 755 can be trained.
  • the weight of the second synthesizer 755 may be formed by weight values that are repeatedly set until the loss is minimized.
  • FIG. 8 is a diagram to explain how the electronic device 100 acquires a 360-degree image using the neural network 800, according to an embodiment.
  • the neural network 800 shown in FIG. 8 may be a trained neural network.
  • the trained neural network 800 may be installed in, for example, the electronic device 100, an external server, and/or an external computing device and used to obtain a plurality of images from an input image.
  • FIG. 8 illustrates that the neural network 800 is mounted on the electronic device 100 and acquires a plurality of images from an input image.
  • the neural network 800 may be included in the processor 101 or memory 103 of the electronic device 100. Alternatively, the neural network 800 may be inside the electronic device 100 and included in a location other than the processor 101 or the memory 103.
  • the neural network 800 may receive the first front image 110 as input data.
  • the first front image 110 may be, for example, a frame, a scene, a Group Of Picture (GOP), and/or a video.
  • GOP Group Of Picture
  • the first front image 110 may be a captured image of the front obtained by photographing the front with the front camera 131 of the electronic device 100.
  • the first front image 110 may vary depending on the type of front camera 131.
  • the first front image 110 may be a standard image acquired by the front camera 131 when the type of the front camera 131 is a standard camera.
  • the neural network 800 can receive the first front image 110 as input data in real time at the same time that the first front image 110 is generated by the front camera 131.
  • the neural network 800 may receive as input data the first front image 110 that the user previously captured with the front camera 131 and previously stored in the memory 103. In this case, the neural network 800 may receive the first front image 110 as input data based on receiving a control signal to generate a 360-degree image from the user.
  • the neural network 800 is an algorithm that extracts features from an input image and creates a new image based on the features, or a set of algorithms, software that executes a set of algorithms, and/or hardware that executes a set of algorithms. It can be.
  • the neural network 800 may be an encoder-decoder model, but is not limited thereto.
  • the neural network 800 may extract features from the input first front image 110.
  • the neural network 800 can extract features by inputting the first front image 110 into a feature vector encoder.
  • the neural network 800 may be a learning model that has previously learned the characteristics of the rear image obtained by the camera of the rear image generated by the rear cameras.
  • the neural network 800 may generate a plurality of second front images 113 having back image characteristics based on the features extracted from the first front image 110 and the back image characteristics.
  • the number of second front images 113 may correspond to the number of rear cameras 141.
  • the rear camera 141 is three different cameras, that is, a standard camera, a wide-angle camera, and a telephoto camera
  • the second front image 113 with rear image characteristics is also a standard image, a wide-angle image, and a telephoto image. It can be.
  • Each of the second front images 113 may have different image characteristics.
  • the rear camera 141 is a standard camera, a wide-angle camera, and a telephoto camera
  • the standard image, wide-angle image, and telephoto image acquired by each rear camera may be determined according to camera lens characteristics, such as resolution, wide-angle magnification, aperture, The angle of view, pixel pitch, dynamic range, and/or depth may be different.
  • the size of the angle of view may gradually increase in the following order: a telephoto image, a standard image, a wide-angle image, and an ultra-wide-angle image.
  • images acquired with different cameras may have different resolutions.
  • the resolution of images acquired with a wide-angle camera is greater than the resolution of images acquired with an ultra-wide-angle camera or a telephoto camera.
  • HDR High Dynamic Range
  • HDR represents the difference between the darkest and brightest levels that can be expressed, that is, the contrast ratio. The larger the range of HDR, the larger the difference between the dark and bright levels can be expressed.
  • the neural network 800 may be a model that has already learned the characteristics of a rear image acquired through a plurality of rear cameras.
  • the neural network 800 is a method of learning the camera lens characteristics of each of the plurality of rear cameras and the geometric relationship between the plurality of rear cameras, and generating a plurality of front images having the characteristics of the rear image from one front image. It may be a model that learned .
  • the neural network 800 may receive the first front image 110 and generate a plurality of second front images 113 having characteristics of each of the plurality of back images from the first front image 110.
  • the neural network 800 may generate an image having the characteristics of a wide-angle image, such as that obtained by a wide-angle camera among the rear cameras 141, from the first front image 110.
  • the neural network 800 may generate an image with wide-angle image characteristics from the first front image 110 by considering the camera lens characteristics of the wide-angle camera and the geometric characteristics between the plurality of cameras.
  • the neural network 800 may generate an image having the characteristics of a wide-angle image from the first front image 110 by generating an image for the outer edge of the first front image 110.
  • the neural network 800 may generate an image for the exterior of the first front image 110 by extrapolating data of the first front image 110.
  • the neural network 800 uses images with various geometric structures previously stored in the memory 103 of the electronic device 100 or various geometric structures stored in a DB (database) external to the electronic device 100.
  • the learning images may be learned in advance, and an image for the exterior of the first front image 110 may be generated based on the learned images.
  • the neural network 800 may generate an image similar to that obtained with a wide-angle camera from the first front image 110 by generating an outer portion that is not included in the first front image 110.
  • An image having the characteristics of a wide-angle image acquired with a wide-angle camera generated from the first front image 110 may be an image that has a larger field of view and appears to have a greater distance to the subject than a standard image.
  • an image with the characteristics of a wide-angle image generated from the first front image 110 has the distance to the subject measured by a depth sensor disposed on the back or a depth sensor included in a wide-angle camera among the rear cameras. It could be an image of maintaining distance.
  • the image with the characteristics of a wide-angle image generated from the first front image 110 is an image that reflects the different positional differences between the front camera 131 located on the front 130 and the wide-angle camera located on the rear 140, The image may have the same view as if it were taken from a wide-angle camera located on the rear 140.
  • the neural network 800 may generate an image having characteristics of a telephoto image, such as one obtained by a telephoto camera among the rear cameras 141, from the first front image 110.
  • the neural network 800 may generate an image similar to that obtained by the telephoto camera from the first front image 110 by considering the camera lens characteristics of the telephoto camera and the geometry characteristics between the plurality of cameras.
  • the neural network 800 may generate a high-resolution image, such as that obtained with a telephoto camera, from the first front image 110 by zooming in on the first front image 110 and upscaling it.
  • An image generated from the first front image 110 and having characteristics of a telephoto image generated by a telephoto camera may be an image in which the subject appears closer and the size of the subject is enlarged than a standard image.
  • an image having the characteristics of a telephoto image generated from the first front image 110 has the distance to the subject measured by a depth sensor disposed on the rear or a depth sensor included in a telephoto camera among the rear cameras. It could be an image of maintaining distance.
  • the telephoto image generated from the first front image 110 is an image that reflects the different positions between the front camera 131 located on the front 130 and the telephoto camera located on the rear 140, just like the rear 140 It may be an image with the same view as taken from a telephoto camera position located in .
  • the neural network 800 may generate an image having the characteristics of a standard image from the first front image 110. That is, the neural network 800 can generate an image having the camera lens characteristics and geometry characteristics of a standard camera among the rear cameras 141.
  • the image generated by the neural network 800 and having the characteristics of a standard image may be an image different from the first front image 110, which is a standard image used as input data. This is because, even if both the front camera 131 and the standard camera placed on the rear are standard cameras, the two standard cameras may have different camera characteristics, such as different pixels, resolutions, focal lengths, and/or depth values. Therefore, the resulting images may also have different image characteristics.
  • the image generated from the first front image 110 and having standard image characteristics acquired by a rear standard camera may be an image that has, for example, a different range of view angle and/or resolution from the first front image 110 .
  • An image with standard image characteristics acquired by a standard rear camera generated from the first front image 110 is determined by determining the distance to the subject by a depth sensor disposed on the rear or a depth sensor included in the standard camera among the rear cameras. It may be an image that maintains the measured distance to the subject.
  • An image with standard image characteristics acquired by a standard camera on the rear, generated from the first front image 110, has different position differences between the front camera 131 located on the front 130 and the standard camera located on the rear 140.
  • the plurality of second front images 113 generated from the first front image 110 and having rear image characteristics acquired by a rear camera may be images that maintain geometric relationships between the plurality of rear cameras. That is, at least one of the angle of view relationship between the plurality of second front images 113, the size relationship, and the position relationship of the subject in the image is the angle of view relationship, size relationship, and position relationship between the rear images acquired by the plurality of rear cameras. It may be identical to at least one of the relationships.
  • the electronic device 100 may include a first synthesizer 803 and a second synthesizer 805.
  • the first synthesizer 803 and the second synthesizer 805 may be disposed in the processor 101 or the memory 103, or may be disposed and used in a location other than the processor 101 or the memory 103 while being inside the electronic device 100. You can.
  • the first synthesizer 803 may generate the front ultra-wide-angle image 115 by synthesizing the plurality of second front images 113 obtained through the neural network 800.
  • the first synthesizer 803 may search for feature points in the plurality of second front images 113.
  • the first synthesizer 803 may extract a point with the minimum difference between pixels from the plurality of second front images 113 as a feature point.
  • the first synthesizer 803 may correct one or more images among the plurality of second front images 113 through methods such as color conversion and/or size adjustment in order to more easily extract feature points.
  • the first synthesizer 803 may search for feature points by comparing and analyzing all data of the plurality of second front images 113, or may search for feature points or errors among random data randomly extracted from the plurality of second front images 113. You can also search for feature points by analyzing only the data within the range.
  • the first synthesizer 803 may match feature points extracted from the plurality of second front images 113.
  • the first synthesizer 803 may generate one front ultra-wide-angle image 115 by combining the plurality of second front images 113 by stitching corresponding feature points among the extracted feature points.
  • the first synthesizer 803 can receive a reference signal from the user.
  • the reference signal may be a signal for selecting a reference area when generating an ultra-wide-angle image.
  • arrows drawn across the first synthesizer 803 and the second synthesizer 805 represent receiving a reference signal from the user.
  • the first synthesizer 803 may generate a front ultra-wide-angle image 115 based on an area selected according to the reference signal, corresponding to the input of the reference signal.
  • the front ultra-wide-angle image 115 generated by the first synthesizer 803 is not a single image but an image obtained by combining a plurality of second front images 113, it is an ultra-high resolution image with sufficiently large data. You can.
  • the front ultra-wide-angle image 115 generated by the first synthesizer 803 may be an image with an angle of view exceeding 180 degrees.
  • the second synthesizer 805 may obtain a rear ultra-wide-angle image 112 by combining a plurality of rear images 111.
  • the electronic device 100 may acquire a plurality of rear images 111 by photographing the rear using a plurality of rear cameras 141.
  • the plurality of rear images 111 may be images acquired at the same time as the first front image 110.
  • the second synthesizer 805 can capture a rear image with the rear camera 141 to generate a rear image 111 and simultaneously receive a plurality of rear images 111 in real time.
  • the second synthesizer 805 selects the first front image 110 from among the images previously stored in the memory 103 inside the electronic device 100 based on receiving a control signal to generate a 360-degree image from the user. ), a plurality of rear images 111 created by being photographed with the rear camera 141 at the same time can be received as input data.
  • the second compositor 805 can search for feature points in the plurality of rear images 111.
  • the second synthesizer 805 may adjust the colors or sizes of the plurality of rear images 111 to more easily extract feature points.
  • the second synthesizer 805 may generate the rear ultra-wide-angle image 112 by combining the plurality of rear images 111 by matching the searched feature points.
  • the second synthesizer 805 can receive a reference signal from the user. For example, in FIG. 8, an arrow passing through the second synthesizer 805 represents receiving a reference signal from the user.
  • the second synthesizer 805 may generate the rear ultra-wide-angle image 112 based on the area selected according to the reference signal, corresponding to the input of the reference signal.
  • the rear ultra-wide-angle image 112 generated by the second synthesizer 805 is not a single image, but an image obtained by combining a plurality of rear images 111, so it may be an ultra-high resolution image with sufficiently large data. .
  • the rear ultra-wide-angle image 112 generated by the second synthesizer 805 may be an image with a viewing angle exceeding 180 degrees.
  • the first synthesizer 803 and/or the second synthesizer 805 may use a neural network model when generating an ultra-wide-angle image, but is not limited to this.
  • the electronic device 100 can generate a 360-degree image 430 by combining the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112 obtained using the first synthesizer 803 and the second synthesizer 805. there is. Since the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112 are images each having a viewing angle exceeding 180 degrees, they may include a common area.
  • the electronic device 100 searches for common areas that overlap each other in the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112, and matches the common areas to combine the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112. You can.
  • the electronic device 100 may include a stitching unit 807.
  • the stitching unit 807 stitches the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112 to synthesize the two divided images with overlapping viewing angles, creating a panoramic image or 360-degree image 430 with a wide viewing angle. can be created.
  • the 360-degree image 430 created by combining the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112 may be an ultra-high resolution image containing a sufficiently large amount of data. Therefore, even when the user navigates the 360-degree image 430 and zooms in or out of part of the 360-degree image 430, information about the area selected by the user can be provided without deteriorating image quality. That is, since the electronic device 100 has enough data for the 360-degree image 430, it interpolates or extrapolates the data in the area or the data around the area to produce a zoomed-in image or zoomed-out image. It is possible to provide users with images without quality degradation while continuously generating images.
  • FIG. 9 is a diagram illustrating how the electronic device 100 receives a user's selection of a reference area for generating an ultra-wide-angle image, according to an embodiment.
  • the electronic device 100 can photograph a subject using a camera provided in the electronic device 100.
  • the electronic device 100 may output a front image 910 of a subject located in the front visible through the front camera 131 on the screen.
  • the electronic device 100 may output a rear image 920 of a subject located at the rear visible through the rear camera 141 together with the front image 910.
  • the electronic device 100 displays a front image 910 viewed through the camera lens of the front camera 131 and a rear image 920 viewed through the camera lens of the rear camera 141. It can be output simultaneously through one screen.
  • the size or output location of the front image 910 and the back image 920 may be changed in various ways.
  • the electronic device 100 may output a rear image 920 captured by one representative camera among the plurality of rear cameras 141 in the center of the screen.
  • the electronic device 100 may output a plurality of rear images 930 captured through respective lenses of the plurality of rear cameras 141 together with a rear image 920 captured by the representative camera. The user can select one of the plurality of rear images 930. The electronic device 100 may display the rear image selected by the user in the center of the screen of the electronic device 100.
  • the electronic device 100 When the electronic device 100 receives a control signal to generate a panoramic image or a 360-degree image from the user, it may output a guide UI screen 940 in response to the control signal.
  • the guide UI screen 940 may include information to allow the user to select a reference area when creating an ultra-wide-angle image.
  • the guide UI screen 940 may include phrases such as 'Select the location where you want to create an ultra-wide-angle image.'
  • the electronic device 100 may output, for example, a guide screen containing various phrases and/or symbols.
  • the position, color, and/or transparency where the guide UI screen 940 is displayed may be changed in various ways.
  • the user may input a reference signal corresponding to the guide UI screen 940 output on the screen of the electronic device 100.
  • the reference signal is a signal for selecting a reference area when generating an ultra-wide-angle image, and may include at least one of a first reference signal and a second reference signal.
  • the first reference signal is a signal for selecting a reference point for generating the front ultra-wide-angle image 115 among the front images 910
  • the second reference signal is a reference for generating the rear ultra-wide-angle image 112 among the rear images 920. This may be a signal to select the point where this occurs.
  • the reference point for creating an ultra-wide-angle image may mean, for example, an angle or point that is the center when creating an ultra-wide-angle image.
  • the user can select a point that will be the center of the ultra-wide-angle image from one of the front image 910 and the rear image 920 currently displayed on the screen.
  • the electronic device 100 includes a touch pad that recognizes the user's finger touch, the user can use, for example, a finger and/or a touch pen to display the front image 910 and the back image 910 displayed on the screen of the electronic device 100.
  • a reference signal can be input by selecting a point in one of the images 920.
  • the electronic device 100 may generate an ultra-wide-angle image based on an area selected according to the reference signal, corresponding to the input of the reference signal. For example, when a user selects a point, the electronic device 100 may use a line vertically connecting the selected point as a reference signal to generate an ultra-wide-angle image with the reference signal as the center line.
  • the electronic device 100 receives this as a first reference signal, and has a front ultra-wide angle line having a vertical line passing through the first area as a reference line.
  • Image 115 can be created.
  • the electronic device 100 may generate a front ultra-wide-angle image 115 that has a vertical line passing through the first area as the center line.
  • the electronic device 100 receives this as a second reference signal, and has a vertical line passing through the second area as the reference line.
  • An ultra-wide-angle image 112 can be generated.
  • the electronic device 100 may generate a rear ultra-wide-angle image 112 that has a vertical line passing through the second area as the center line.
  • FIG. 10 is a diagram illustrating an internal block diagram of the electronic device 100 according to an embodiment.
  • the electronic device 100 shown in FIG. 10 may be an example of the electronic device 100 in FIG. 3 . Therefore, the processor 101 and memory 103 included in the electronic device 100 of FIG. 10 perform the same functions as the processor 101 and memory 103 included in the electronic device 100 of FIG. 3. , Redundant explanations are omitted.
  • the electronic device 100 may further include a photographing unit 105, a depth sensor 107, and a user input unit 109 in addition to the processor 101 and memory 103.
  • the photographing unit 105 may include a camera.
  • the imaging unit 105 may be integrally included in the electronic device 100. That is, the photographing unit 105 can be mounted at a fixed position on the electronic device 100 and photograph a subject.
  • the photographing unit 105 can capture a subject using a camera, generate an image, and process the image.
  • the photographing unit 105 includes a CCD and/or CMOS image sensor (not shown) and a lens (not shown), and can acquire an image on the screen by photographing a subject.
  • the photographing unit 105 can capture a subject and obtain a video of one frame or multiple frames.
  • the photographing unit 105 may convert information about the subject reflected by light on the image sensor into an electrical signal. Additionally, the photographing unit 105 may perform one or more signal processing among AE (Auto Exposure), AWB (Auto White Balance), Color recovery, correction, Sharpening, Gamma, and Lens shading correction on the captured image.
  • AE Auto Exposure
  • AWB Auto White Balance
  • Color recovery correction
  • Sharpening Sharpening
  • Gamma Gamma
  • Lens shading correction on the captured image.
  • the photographing unit 105 may include a plurality of cameras.
  • the photographing unit 105 may include one or more front cameras 131 and a plurality of rear cameras 141.
  • the front camera 131 may be a standard camera, but is not limited thereto, and the front camera 131 may be a wide-angle camera.
  • the rear camera 141 may be at least two of a macro camera, a standard camera, a wide-angle camera, a telephoto camera, and a depth camera.
  • the depth sensor 107 can calculate the distance between the camera and the subject using the time when light radiated toward the subject is reflected from the subject and returns, and obtain information about the space where the subject is located.
  • the method by which the depth sensor 107 recognizes the 3D depth may be one of a stereo type method, a Time-Of-Flight (ToF) method, or a Structured Pattern method.
  • the depth sensor 107 is included in the electronic device 100 as a module or block separate from the photographing unit 105 is disclosed, but is not limited thereto, and the depth sensor 107 is included in the photographing unit 105. ) can be included.
  • the depth sensor 107 may be included in a camera having a depth function, and may obtain the distance to the subject when an image of the subject is acquired.
  • the user input unit 109 may receive user input for controlling the electronic device 100.
  • the user input unit 109 includes a touch panel that detects the user's touch, a touch pad (e.g., a contact capacitive type, a pressure-type resistive type, an infrared detection type, a surface ultrasonic conduction type, an integral tension measurement type, and/or piezo effect method), a button that receives the user's push operation, a jog wheel that receives the user's rotation operation, a jog switch, a keyboard, a key pad, and a dome switch, voice recognition It may include, but is not limited to, various types of user input devices including a microphone for detecting motion, a motion detection sensor for detecting motion, etc. Additionally, when the electronic device 100 is operated by a remote controller (not shown), the user input unit 109 may receive a control signal from the remote controller.
  • a touch pad e.g., a contact capacitive type, a pressure-type resistive type, an
  • the user input unit 109 can receive a control signal from the user.
  • the user can use the user input unit 109 to input a control signal to generate a panoramic image or a 360-degree image. Additionally, the user can select a point among the images output on the screen of the electronic device 100 to input a reference signal for selecting a reference area for generating an ultra-wide-angle image.
  • FIG. 11 is an internal block diagram of the electronic device 100 according to an embodiment.
  • the electronic device 100 of FIG. 11 may include components of the electronic device 100 of FIG. 10 .
  • the electronic device 100 includes a processor 101, a memory 103, a photographing unit 105, and a user input unit 109, as well as an output unit 1120, a sensing unit 1130, and a communication unit 1140. ), and may further include an A/V input unit 1150.
  • the output unit 1120 may output at least one of an audio signal, a video signal, and a vibration signal.
  • the output unit 1120 may include a display unit 1121, a sound output unit 1122, and a vibration motor 1123.
  • the display unit 1121 may output an image obtained from the photographing unit 105 and processed.
  • the display unit 1121 may output an image of a subject captured through at least one of the front camera 131 and the rear camera 141.
  • the display unit 1121 may output a guide UI screen, which is information for allowing the user to select a reference area when creating an ultra-wide-angle image.
  • the display unit 1121 may output content received from, for example, a broadcasting station, an external server, and/or an external storage medium on the screen.
  • Content is a media signal and may include video signals, images, and/or text signals.
  • the electronic device 100 processes image data to be displayed by the display unit 1121 and performs various image processing operations such as decoding, rendering, scaling, noise filtering, frame rate conversion, and/or resolution conversion for image data. It can be done.
  • the display unit 1121 may output image data processed by the electronic device 100.
  • the audio output unit 1122 may output audio data received from the communication unit 1140 or stored in the memory 103. Additionally, the sound output unit 1122 may output sound signals related to functions performed in the electronic device 100 (e.g., call signal reception sound, message reception sound, notification sound).
  • the sound output unit 1122 may include, for example, a speaker, a headphone connection terminal, and/or a buzzer.
  • the vibration motor 1123 may output a vibration signal.
  • the vibration motor 1123 may output a vibration signal corresponding to the output of audio data or video data (eg, a call signal reception sound and/or a message reception sound). Additionally, the vibration motor 1123 may output a vibration signal when a touch is input to the touch screen.
  • the sensing unit 1130 may detect the state of the electronic device 100 or the state surrounding the electronic device 100 and transmit the sensed information to the communication unit 1140 or the processor 101.
  • the sensing unit 1130 may include a depth sensor 107.
  • the depth sensor 107 can sense the distance to the subject.
  • the sensing unit 1130 includes a geomagnetic sensor 1131, an acceleration sensor 1132, a temperature/humidity sensor 1133, an infrared sensor 1134, and a gyroscope. It may further include at least one of a sensor 1135, a location sensor (eg, GPS) 1136, an air pressure sensor 1137, a proximity sensor 1138, and an illumination sensor 1139, but is not limited thereto.
  • a location sensor eg, GPS
  • the communication unit 1140 may include components for communicating with other devices.
  • the communication unit may also be called a communication interface.
  • the communication unit 1140 may include a short-range communication unit 1141, a mobile communication unit 1142, and a broadcast reception unit 1143.
  • the short-range wireless communication unit 1141 includes a Bluetooth communication unit, a Bluetooth Low Energy (BLE) communication unit, a Near Field Communication unit, a WLAN (Wi-Fi) communication unit, a Zigbee communication unit, and an infrared ( It may include, but is not limited to, an IrDA (infrared Data Association) communication unit, WFD (Wi-Fi Direct) communication unit, UWB (ultra wideband) communication unit, and Ant+ communication unit.
  • BLE Bluetooth Low Energy
  • Wi-Fi Wireless Fidelity
  • Zigbee communication unit Zigbee communication unit
  • an infrared It may include, but is not limited to, an IrDA (infrared Data Association) communication unit, WFD (Wi-Fi Direct) communication unit, UWB (ultra wideband) communication unit, and Ant+ communication unit.
  • the BLE communication unit may transmit a BLE signal to the surroundings at all times, periodically, at random time intervals, or at preset time points.
  • the mobile communication unit 1142 transmits and receives wireless signals with at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data according to voice call signals, video call signals, or text/multimedia message transmission and reception.
  • the broadcast receiver 1143 receives broadcast signals and/or broadcast-related information from the outside through a broadcast channel.
  • Broadcast channels may include satellite channels and terrestrial channels.
  • the electronic device 100 may not include the broadcast reception unit 1143.
  • the A/V (Audio/Video) input unit 1150 is for inputting audio signals or video signals, and the A/V input unit 1150 includes, for example, a photographing unit 105 and/or a microphone 1152. may be included.
  • the photographing unit 105 may include a camera.
  • the camera can acquire image frames such as still images or videos through an image sensor in video call mode or shooting mode. Images captured through the image sensor may be processed through the processor 101 or a separate image processing unit (not shown).
  • Image frames processed by the camera may be stored in the memory 103 or transmitted externally through the communication unit 1140.
  • one or more cameras may be provided on the front and multiple cameras may be provided on the rear.
  • the microphone 1152 receives external sound signals and processes them into electrical voice data.
  • the microphone 1152 may receive an acoustic signal from an external device or a speaker.
  • the microphone 1152 can use various noise removal algorithms to remove noise generated in the process of receiving an external acoustic signal.
  • FIG. 12 is a diagram illustrating generating a 360-degree image based on images acquired using a plurality of electronic devices, according to an embodiment.
  • the plurality of electronic devices may include a camera, for example, a mobile phone.
  • Each of the plurality of electronic devices may be equipped with cameras on the front and back.
  • a plurality of electronic devices may acquire front and back images by photographing the front and back of the electronic device using cameras respectively provided on the front and back of the electronic device.
  • the plurality of electronic devices may further include depth sensors on the front and back sides.
  • the depth sensor may be included in a camera, or may be included in an electronic device as a separate sensor separate from the camera.
  • a plurality of electronic devices may be arranged to face different directions.
  • a plurality of electronic devices may be arranged to face different directions or views.
  • a plurality of electronic devices may be arranged to face the front and rear at exactly constant angle intervals, but the disclosed embodiment is not limited thereto.
  • N electronic devices that acquire front and back images (N is a natural number of 2 or more), and N electronic devices can acquire front and rear images, respectively.
  • the plurality of electronic devices may be mobile phone number 1 1211 and mobile phone number 2 1213, respectively.
  • the first mobile phone 1211 and the second mobile phone 1213 can acquire a front image and a plurality of back images, respectively, at the same time.
  • the front of mobile phone number 1 1211 and the front of mobile phone number 2 1213 may be arranged to face directions at 90-degree intervals.
  • the front of mobile phone number 1 (1211) faces east
  • the rear of mobile phone number 1 (1211) is arranged to face west
  • the front of mobile phone number 2 (1213) faces south
  • mobile phone number 2 (1213) faces south.
  • the rear of can be placed to face north.
  • Mobile phone number 1 1211 can acquire a front image of a subject located in the east direction using the front camera, and acquire a rear image of a subject located in the west direction using the rear camera.
  • the first mobile phone 1211 can acquire a plurality of rear images of a subject located in the west using the plurality of rear cameras.
  • mobile phone number 2 1213 can acquire a front image of a subject located in the south direction using the front camera and acquire a rear image of a subject located in the north direction using the rear camera.
  • mobile phone number 2 1213 can acquire a plurality of rear images of a subject located in the north using a plurality of rear cameras.
  • the front of mobile phone number 1 1211 and the front of mobile phone number 2 1213 do not necessarily need to be arranged to maintain a 90-degree gap, and the front and back of mobile phone number 1 1211, It is sufficient if the front and back of the second mobile phone (1213) are arranged to face different directions.
  • Mobile phone number 1 1211 and mobile phone number 2 1213 can transmit the front image and a plurality of back images acquired at the same time to the server 1230 through the communication network 1220.
  • the first mobile phone 1211 and the second mobile phone 1213 can transmit the depth information about the front subject and the depth information about the rear subject acquired at the same time to the server 1230 through the communication network 1220.
  • the server 1230 can receive front and back images and front and back depth information from mobile phone number 1 1211 and mobile phone number 2 1213, respectively, through the communication network 1220.
  • Server 1230 may include a neural network.
  • the neural network included in the server 1230 may be a neural network trained to generate a plurality of front training images having characteristics of a plurality of back images acquired by a plurality of rear cameras from the front training image and the plurality of back training images.
  • the neural network included in the server 1230 may be a neural network learned for each of a plurality of electronic devices, for example, for each model of the plurality of electronic devices, using training data for each model. That is, the neural network included in the server 1230 may be a neural network that has previously learned camera characteristics for each model of a plurality of electronic devices and image characteristics obtained by the camera.
  • the neural network included in the server 1230 includes a plurality of front learning images with characteristics of a plurality of back images acquired by a plurality of rear cameras from a front learning image and a plurality of back training images that fit the model specifications of the first mobile phone 1211. It may be a learning model trained to generate. In addition, the neural network included in the server 1230 has a plurality of front images with characteristics of a plurality of rear images acquired by a plurality of rear cameras from a front learning image and a plurality of rear learning images that fit the model specifications of the second mobile phone 1213. It may be a learning model trained to generate learning images.
  • the server 1230 uses a neural network to select mobile phone number 1 (1211) from the front image received from mobile phone number 1 (1211), corresponding to receiving the front image and a plurality of back images from mobile phone number 1 (1211). It is possible to obtain a plurality of front images having the characteristics of a plurality of rear images acquired by a plurality of rear cameras provided on the back of the .
  • the server 1230 receives an image with wide-angle image characteristics acquired by the wide-angle camera among the rear cameras from the front image, and the telephoto camera. Each image having telephoto image characteristics can be acquired.
  • An image with wide-angle image characteristics obtained from a front image may have a larger field of view and a farther distance to the subject than the front image. Additionally, an image with wide-angle image characteristics may be an image in which the distance to the subject is measured by a depth sensor disposed on the rear or a depth sensor included in a wide-angle camera among the rear cameras. In addition, an image with wide-angle image characteristics generated from a front image is the same view as if it were taken from the wide-angle camera located on the back, taking into account the different positional differences between the front camera located on the front and the wide-angle camera located on the back. It may be an image with .
  • An image with telephoto image characteristics obtained from a front image may have a smaller field of view and a closer distance to the subject than the front image. Additionally, an image with telephoto image characteristics may be an image in which the distance to the subject is measured by a depth sensor disposed on the rear, or a depth sensor included in a telephoto camera among the rear cameras. In addition, an image with telephoto image characteristics generated from a front image is a view as if taken from the telephoto camera located on the back, taking into account the different positional differences between the front camera located on the front and the telephoto camera located on the back. It may be an image with .
  • a plurality of images having rear image characteristics acquired by a rear camera generated from a front image may be images that maintain a geometric relationship between the plurality of rear cameras. That is, at least one of the angle of view relationship between the plurality of images generated from the front image, the size relationship and the position relationship of the subject included in the image, the angle of view relationship between the images acquired by the plurality of rear cameras, and the relationship between the size and position of the subject included in the image. It may be identical to at least one of a size relationship and a position relationship.
  • the server 1230 may obtain a first front ultra-wide-angle image by combining a plurality of front images with back image characteristics acquired by a rear camera obtained from the front image of mobile phone number 1 1211.
  • the server 1230 may obtain a first rear ultra-wide-angle image by combining a plurality of rear images received from the first mobile phone 1211.
  • the server 1230 uses a neural network to obtain a plurality of rear image characteristics from the front image received from the second mobile phone 1213 to a plurality of rear cameras provided on the back of the second mobile phone 1213. Multiple front images can be acquired.
  • the server 1230 may obtain a second front ultra-wide-angle image by combining a plurality of front images with rear image characteristics acquired by a rear camera obtained from the front image of the second mobile phone 1213.
  • the server 1230 may obtain a second rear ultra-wide-angle image by combining a plurality of rear images received from the second mobile phone 1213.
  • the server 1230 may composite the first front ultra-wide-angle image, the second front ultra-wide-angle image, the first rear ultra-wide-angle image, and the second rear ultra-wide-angle image.
  • the server 1230 detects feature points in a common area from the first front ultra-wide-angle image, the second front ultra-wide-angle image, the first back ultra-wide-angle image, and the second back ultra-wide-angle image, and combines the images by matching the detected feature points to create a panorama. Images or 360-degree images can be obtained.
  • the server 1230 may generate a 360-degree image based on an image acquired using a single camera, or a panorama based on a plurality of images acquired using a plurality of cameras. You can also create images or 360-degree images. As the number of cameras increases, the number of images acquired using the cameras also increases, so high-resolution, high-quality panoramic images or 360-degree images can be created.
  • Figure 13 is a flow chart explaining training of a neural network according to an embodiment.
  • the neural network uses the front image acquired by the front camera, the front distance information acquired by the front depth sensor, the rear image acquired by a plurality of rear cameras, and the rear distance information acquired by the rear depth sensor as learning data. You can receive input.
  • a neural network can be trained to obtain back image characteristics acquired by a rear camera from a plurality of back training images (step 1310).
  • a neural network may be trained to obtain features of a back training image by performing operations to analyze and classify a plurality of back training images.
  • the characteristics of the rear learning image may be the characteristics of the rear image acquired by the rear camera.
  • Rear image characteristics acquired by a rear camera may include at least one of camera lens characteristics and geometry characteristics.
  • Camera lens characteristics may include at least one of resolution, optical magnification, aperture, angle of view, pixel pitch, dynamic range, and depth.
  • a neural network can be trained to obtain camera lens characteristics from each of a plurality of rear learning images.
  • the geometric characteristics may include characteristics of at least one of a view angle relationship, a size relationship, and a position relationship between a plurality of rear images acquired by a plurality of rear cameras.
  • a neural network can be trained to obtain geometric characteristics from the relationship between a plurality of back learning images.
  • a neural network may be trained using a plurality of learning images so that a weight value indicating the connection strength between a plurality of nodes forming the neural network is set.
  • the neural network may be trained to obtain a plurality of front learning images with back image characteristics from the front learning image based on the rear image characteristics acquired by the rear camera (step 1320).
  • the neural network may be an encoder-decoder model, but is not limited to this.
  • a plurality of learning images generated by a neural network can be compared with a GT (Ground Truth) image through a discriminator.
  • the ground truth image may be an image obtained by photographing the front with a plurality of rear cameras.
  • the neural network may be repeatedly trained to minimize the difference between the plurality of front learning images and the GT image (step 1330).
  • the weight values of the neural network can be optimized through iterative learning, and can be repeatedly modified until the accuracy of the results satisfies a predetermined level of reliability.
  • Figure 14 is a flowchart showing a method for generating a 360-degree image, according to an embodiment.
  • the electronic device 100 may acquire the first front image 110.
  • the electronic device 100 may acquire the first front image 110 by photographing the front using the front camera 131 provided in the electronic device 100.
  • the electronic device 100 may acquire a plurality of second front images 113 having rear image characteristics acquired by a rear camera from the first front image 110 (step 1410).
  • the rear image characteristics acquired by the rear camera may be the rear image characteristics acquired by a plurality of rear cameras mounted on the rear of the electronic device 100.
  • the electronic device 100 may acquire a plurality of second front images 113 from the first front image 110 using a neural network.
  • a neural network may be a learning model trained to generate a plurality of front learning images having the characteristics of a plurality of back images acquired by a plurality of rear cameras from one front learning image and a plurality of back learning images.
  • the neural network may be a learning model trained to minimize the difference between a plurality of ground truth images obtained by photographing the front with a plurality of rear cameras and a plurality of front learning images.
  • the electronic device 100 may obtain the front ultra-wide-angle image 115 by combining the plurality of second front images 113 (step 1420).
  • the electronic device 100 may detect feature points between the plurality of second front images 113 and synthesize the plurality of second front images 113 by matching the detected feature points.
  • the electronic device 100 may obtain a plurality of rear images 111 by photographing the rear using a plurality of rear cameras 141 provided in the electronic device 100.
  • the electronic device 100 may obtain a rear ultra-wide-angle image 112 by combining a plurality of rear images 111 (step 1430).
  • the electronic device 100 may generate a 360-degree image using the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112 (step 1440).
  • the electronic device 100 may detect a feature point between the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112, and combine the front ultra-wide-angle image 115 and the rear ultra-wide-angle image 112 using the detected feature point.
  • Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and non-volatile media, removable and non-removable media. Additionally, computer-readable media may include both computer storage media and communication media.
  • Computer storage media includes both volatile and non-volatile, removable and non-removable media implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer-readable instructions, data structures, program modules, or other data in a modulated data signal, such as a carrier wave, or other transmission mechanism, and includes any information delivery medium.
  • the electronic device and its operating method include obtaining a plurality of second front images from a first front image acquired by a front camera, synthesizing the plurality of second front images,
  • An operation of an electronic device comprising the steps of acquiring a front ultra-wide-angle image, obtaining a rear ultra-wide-angle image by combining a plurality of rear images, and generating a 360-degree image by combining the front ultra-wide-angle image and the rear ultra-wide-angle image.
  • the method may be implemented as a computer program product including a computer-readable recording medium/storage medium on which a program for implementing the method is recorded.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • 'non-transitory storage medium' simply means that it is a tangible device and does not contain signals (e.g. electromagnetic waves). This term refers to cases where data is semi-permanently stored in a storage medium and temporary storage media. It does not distinguish between cases where it is stored as .
  • a 'non-transitory storage medium' may include a buffer where data is temporarily stored.
  • the method may be provided as included in a computer program product.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • a computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or through an application store or between two user devices (e.g. smartphones). It may be distributed in person or online (e.g., downloaded or uploaded). In the case of online distribution, at least a portion of the computer program product (e.g., a downloadable app) is stored on a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.
  • a machine-readable storage medium such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Studio Devices (AREA)

Abstract

하나 이상의 인스트럭션을 저장하는 메모리 및 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 하나 이상의 프로세서를 포함하고, 하나 이상의 프로세서는 하나 이상의 인스트럭션을 실행함으로써, 전면 카메라로 획득한 제1 전면 이미지로부터, 복수개의 제2 전면 이미지를 획득하고, 복수개의 제2 전면 이미지를 합성하여 전면 초광각 이미지를 획득하고, 복수개의 후면 이미지를 합성하여 후면 초광각 이미지를 획득하고, 전면 초광각 이미지 및 후면 초광각 이미지를 합성하여 360도 이미지를 생성하는, 전자 장치가 개시된다.

Description

전자 장치 및 그 동작 방법
개시된 실시 예들은 전자 장치 및 그 동작 방법에 관한 것으로, 보다 구체적으로 파노라마 이미지나 360도 이미지를 생성하는 전자 장치 및 그 동작 방법에 관한 것이다.
기술의 발달로 구나 반구 형태의 스크린에 파노라마 이미지나 360도 이미지 등을 프로젝트하는 기술이 개발되고 있다. 사용자는 구나 반구와 같은 곡면 형태의 디스플레이에 출력된 파노라마 이미지나 360도 이미지를 이용하여 가상 현실을 체험할 수 있다.
실시 예에 따른 전자 장치는 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 하나 이상의 프로세서를 포함할 수 있다.
상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 전면 카메라로 획득한 제1 전면 이미지로부터, 복수개의 2 전면 이미지를 획득할 수 있다.
상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 복수개의 제2 전면 이미지를 합성하여 전면 초광각 이미를 획득할 수 있다.
상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 복수개의 후면 이미지를 합성하여 후면 초광각 이미지를 획득할 수 있다.
상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 전면 초광각 이미지 및 상기 후면 초광각 이미지를 합성하여 360도 이미지를 생성할 수 있다.
도 1은 실시 예에 따라, 전자 장치가 360도 이미지를 생성하는 것을 설명하기 위한 도면이다.
도 2는 실시 예에 따라, 전자 장치에 구비된 카메라를 설명하기 위한 도면이다.
도 3은 실시 예에 따른 전자 장치의 내부 블록도이다.
도 4는 실시 예에 따라, 전자 장치가 360도 이미지를 생성하는 동작을 도시한 도면이다.
도 5는 실시 예에 따라, 학습 모델을 획득하는 것을 설명하기 위한 도면이다.
도 6은 실시 예에 따른 인코더-디코더 모델의 아키텍쳐를 설명하기 위한 도면이다.
도 7은 실시 예에 따라, 학습 모델을 획득하는 것을 설명하기 위한 도면이다.
도 8은 실시 예에 따라, 전자 장치가 뉴럴 네트워크를 이용하여 360도 이미지를 획득하는 것을 설명하기 위한 도면이다.
도 9는 실시 예에 따라, 전자 장치가 사용자로부터 초광각 이미지를 생성할 기준 영역을 선택 받는 것을 설명하기 위한 도면이다.
도 10은 실시 예에 따른 전자 장치의 내부 블록도를 도시한 도면이다.
도 11은 실시 예에 따른, 전자 장치의 내부 블록도이다.
도 12는 실시 예에 따라, 복수개의 전자 장치를 이용하여 획득한 이미지에 기반하여 360도 이미지를 생성하는 것을 설명하는 도면이다.
도 13은 실시 예에 따라 뉴럴 네트워크가 트레이닝하는 것을 설명한 순서도이다.
도 14은 실시 예에 따라, 360도 이미지를 생성하는 방법을 도시한 순서도이다.
실시 예에 따른 전자 장치의 동작 방법은 전면 카메라로 획득한 제1 전면 이미지로부터, 복수개의 제2 전면 이미지를 획득하는 단계를 포함할 수 있다.
상기 방법은 상기 복수개의 제2 전면 이미지를 합성하여 전면 초광각 이미지를 획득하는 단계를 포함할 수 있다.
상기 방법은 복수개의 후면 이미지를 합성하여 후면 초광각 이미지를 획득하는 단계 및 상기 전면 초광각 이미지 및 상기 후면 초광각 이미지를 합성하여 360도 이미지를 생성하는 단계를 포함할 수 있다.
실시 예에 따른 기록 매체는 전면 카메라로 획득한 제1 전면 이미지로부터, 복수개의 제2 전면 이미지를 생성하는 단계를 포함하는, 전자 장치의 동작 방법을 컴퓨터에 의해 수행할 수 있는 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.
상기 기록 매체는 상기 복수개의 제2 전면 이미지를 합성하여 전면 초광각 이미지를 획득하는 단계를 포함하는, 전자 장치의 동작 방법을 컴퓨터에 의해 수행할 수 있는 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.
상기 기록 매체는 복수개의 후면 이미지를 합성하여 후면 초광각 이미지를 획득하는 단계를 포함하는, 전자 장치의 동작 방법을 컴퓨터에 의해 수행할 수 있는 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.
상기 기록 매체는 상기 전면 초광각 이미지 및 상기 후면 초광각 이미지를 합성하여 360도 이미지를 생성하는 단계를 포함하는, 전자 장치의 동작 방법을 컴퓨터에 의해 수행할 수 있는 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.
"a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 실시 예를 상세히 설명한다. 그러나 개시된 실시 예들은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
사용되는 용어는, 개시된 실시 예에서 언급되는 기능을 고려하여 현재 사용되는 일반적인 용어로 기재되었으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 다양한 다른 용어를 의미할 수 있다. 따라서 개시된 실시 예에서 사용되는 용어는 용어의 명칭만으로 해석되어서는 안되며, 용어가 가지는 의미와 전반에 걸친 내용을 토대로 해석되어야 한다.
또한, 사용된 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것이며, 개시된 실시 예를 한정하려는 의도로 사용되는 것이 아니다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본 명세서, 특히, 특허 청구 범위에서 사용된 "상기" 및 이와 유사한 지시어는 단수 및 복수 모두를 지시하는 것일 수 있다. 또한, 여기에서 설명하는 방법들을 설명하는 단계들의 순서를 명백하게 지정하는 기재가 없다면, 기재된 단계들은 적당한 순서로 행해질 수 있다. 기재된 단계들의 기재 순서에 따라 개시된 실시 예가 한정되는 것은 아니다.
본 명세서에서 다양한 곳에 등장하는 "일부 실시 예에서" 또는 "일 실시 예에서" 등의 어구는 반드시 모두 동일한 실시 예를 가리키는 것은 아니다.
일부 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 개시된 실시 예의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 개시된 실시 예의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 개시된 실시 예들은 예컨대, 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단" 및 "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
또한, 개시된 실시 예에 기재된 "...부", 및/또는 "모듈"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
또한, 명세서에서 "사용자"라는 용어는 전자 장치를 이용하는 사람을 의미하며, 소비자, 평가자, 시청자, 관리자 또는 설치 기사를 포함할 수 있다.
이하 첨부된 도면을 참고하여 개시된 실시 예를 상세히 설명하기로 한다.
도 1은 실시 예에 따라, 전자 장치(100)가 360도 이미지를 생성하는 것을 설명하기 위한 도면이다.
기술의 발달로 가상 공간을 나타내는 메타버스 콘텐츠 사용이 늘고 있다. 메타버스 콘텐츠는 실제 현실과 같은 사회, 경제, 교육, 문화, 과학 기술 활동을 할 수 있는 가상의 3차원 공간 플랫폼을 의미할 수 있다.
메타버스 콘텐츠에 대한 사용자 요구가 늘면서, 파노라마 이미지나 360도 이미지를 출력할 수 있는 곡면 형태의 스크린에 대한 사용자 요구 또한 늘고 있다. 사용자는 곡면 형태의 스크린에 프로젝트된 파노라마 이미지나 360도 이미지를 이용하여 몰입감 높은 가상 현실을 체험할 수 있다.
파노라마 이미지나 360도 이미지는 복수개의 카메라가 구비된 전용 촬영 장비를 이용하여 생성될 수 있다. 전용 촬영 장비는 복수개의 카메라를 이용하여 수평 방향 및/또는 상하 방향으로 모든 방향을 촬영하여 전 방향에 대한 복수의 영상을 획득하고, 복수의 영상을 스티칭함으로써 360도 이미지를 생성할 수 있다. 그러나, 전용 촬영 장비는 고가라는 점에서 일반 사용자들이 쉽게 이용하기 어렵다는 문제가 있다.
기술의 발달로, 복수개의 카메라를 구비한 스마트폰과 같은 사용자 단말기 사용이 늘면서, 사용자는 사용자 단말기를 이용하여 편리하게 사용자 단말기의 전면과 후면에 대한 이미지를 획득할 수 있다.
이에, 본 출원은 스마트폰과 같은 사용자 단말기를 이용하여 보다 쉽게 파노라마 이미지 내지는 360도 이미지를 획득하는 기술을 제공하기 위한 것이다.
도 1을 참조하면, 전자 장치(100)는 카메라를 이용하여 주변에 대한 영상을 획득할 수 있다.
전자 장치(100)는 피사체를 촬영하여 영상을 획득할 수 있는 카메라가 구비된 기기일 수 있다. 예컨대, 전자 장치(100)는 스마트 폰(smartphone) 등과 같은 사용자 단말기일 수 있다. 전자 장치(100)는 카메라가 구비된 이동 전화기(mobile phone), 화상 전화기, 전자 북 리더기(e-book reader), 랩톱 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 디지털 카메라, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 캠코더, 네비게이션, 웨어러블 장치(wearable device), 스마트 와치(smart watch), 홈 네트워크 시스템, 보안 시스템, 의료 장치 중 적어도 하나이거나, 이들이 결합된 형태의 전자 장치일 수 있다.
전자 장치(100)에는 복수개의 카메라가 구비될 수 있다. 복수개의 카메라는 예컨대, 전자 장치(100)의 전면, 후면, 및/또는 측면에 구비될 수 있다. 예컨대, 전자 장치(100)의 전면과 후면에 각각 하나 이상의 카메라가 구비되어 있을 수 있다.
도 1은, 일 예로, 전자 장치(100)의 전면에 하나의 전면 카메라가 장착되어 있고, 후면에 세 개의 후면 카메라가 장착되어 있는 경우를 도시한다.
전자 장치(100)는 전면 카메라로 전면을 촬영하여 전면에 대한 이미지를 획득할 수 있다. 이하, 전자 장치(100)가 전면 카메라로 전면에 위치한 피사체를 촬영하여 획득한 이미지를 제1 전면 이미지(110)로 호칭하기로 한다.
전자 장치(100)에는 복수개의 후면 카메라가 장착될 수 있다. 전자 장치(100)는 복수개의 후면 카메라로 후면을 촬영하여 후면에 대한 복수개의 후면 이미지(111)를 획득할 수 있다.
복수개의 후면 카메라는 화각 내지는 초점거리가 서로 다른 복수개의 카메라일 수 있다. 예컨대, 도 1에서, 전자 장치(100)의 후면에 배치된 세 개의 카메라는 각각 표준 카메라(normal camera/standard camera), 광각 카메라, 및 망원 카메라일 수 있다.
전자 장치(100)의 후면에 구비된 복수개의 후면 카메라로 촬영하여 획득되는 복수개의 후면 이미지(111)는 각각 후면 이미지 고유의 특성을 가질 수 있다.
후면 카메라로 획득되는 후면 이미지의 특성은 카메라 렌즈 특성 및 지오메트리(geometry) 특성 중 적어도 하나를 포함할 수 있다.
카메라 렌즈 특성은 카메라의 렌즈 사양을 의미할 수 있다. 후면 카메라의 카메라 렌즈 특성은 해상도, 광학 배율, 조리개, 화각, 픽셀 피치(Pixel Pitch), 다이나믹 레인지(Dynamic Range), 및 뎁쓰(depth) 중 적어도 하나의 특성을 포함할 수 있다.
복수개의 후면 카메라 각각은 서로 다른 카메라 렌즈 특성을 갖기 때문에, 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지(111) 또한 서로 다른 이미지 특성을 가질 수 있다. 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지(111) 각각은 예컨대, 화각, 이미지에 포함된 피사체의 크기, 위치, 및/또는 뎁쓰 값이 서로 다를 수 있다. 즉, 복수개의 후면 카메라들로 동일한 피사체를 촬영하여도 예컨대, 카메라의 초점거리나 해상도, 및/또는 뎁쓰 값에 따라 서로 다른 이미지가 획득될 수 있다.
지오메트리 특성은 복수개의 후면 카메라들로 획득된 이미지들의 관계를 나타내는 정보일 수 있다.
전자 장치(100)는 전면 카메라로 획득한 한 장의 제1 전면 이미지(110)로부터 복수개의 전면 이미지를 획득할 수 있다. 전자 장치(100)가 제1 전면 이미지(110)로부터 획득하는 복수개의 전면 이미지는, 복수개의 후면 카메라로 전면을 촬영하여 획득된 것과 같은 이미지일 수 있다. 즉, 전자 장치(100)는 제1 전면 이미지(110)로부터 복수개의 후면 카메라로 획득되는 후면 이미지의 특성을 갖는 복수개의 전면 이미지를 생성할 수 있다. 이하, 제1 전면 이미지(110)로부터 획득된, 복수개의 후면 카메라로 획득되는 후면 이미지의 특성을 갖는 전면 이미지를 제2 전면 이미지(113)로 호칭하기로 한다.
예컨대, 후면 카메라가 각각 표준 카메라, 광각 카메라, 및 망원 카메라인 경우, 복수개의 제2 전면 이미지(113)는 전면을 후면 카메라인 표준 카메라, 광각 카메라, 및 망원 카메라로 각각 동일 시점에 촬영하여 획득한 것과 같은 이미지일 수 있다.
전자 장치(100)는 뉴럴 네트워크를 이용하여, 제1 전면 이미지(110)로부터 복수개의 제2 전면 이미지(113)를 생성할 수 있다.
제2 전면 이미지(113) 각각은, 복수개의 후면 카메라들의 렌즈 특성에 따른 이미지 특성을 가질 수 있다.
제2 전면 이미지(113) 간의 지오메트리 특성은, 복수개의 후면 카메라들로 촬영되어 획득된 후면 이미지들 간의 지오메트리 특성과 같을 수 있다.
전자 장치(100)가 이용하는 뉴럴 네트워크는 한 장의 전면 학습 이미지 및 복수개의 후면 학습 이미지로부터, 복수개의 후면 카메라로 획득되는 후면 이미지의 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 훈련된 딥 뉴럴 네트워크(DNN) 형태의 학습 모델일 수 있다.
전면 카메라(131)와 후면 카메라(141)는 위치가 정확히 대칭이 아닐 수 있다. 전면 카메라(131)와 후면 카메라(141) 간의 카메라 위치가 상이할 경우, 위치 차이에 따라 시점(view) 차이가 발생할 수 있다.
뉴럴 네트워크는 전면 카메라와 후면 카메라의 위치 차이로 인한 시점 차이를 수정하도록 훈련된 학습 모델일 수 있다. 뉴럴 네트워크는 전면을 복수개의 후면 카메라로 촬영하여 획득한 복수개의 그라운드 트루쓰(Ground Truth) 이미지와, 복수개의 전면 학습 이미지 간의 차이(loss)가 최소가 되도록 훈련된 학습 모델일 수 있다.
학습이 끝난 뉴럴 네트워크에 의해 생성된 복수개의 제2 전면 이미지(113)는 전면 카메라(131)와 후면 카메라(141)의 위치 차이로 인한 시점 차이를 반영한 이미지일 수 있다. 보다 구체적으로, 제2 전면 이미지(113)는 전면을 후면에 장착된 후면 카메라(141)의 위치와 배열, 즉, 후면 카메라(141)의 시점(viw)에서 촬영한 것과 같은 이미지일 수 있다.
전자 장치(100)는 복수개의 제2 전면 이미지(113)를 합성하여 전면 초광각 이미지(115)를 획득할 수 있다. 전면 초광각 이미지(115)는 한 장의 이미지가 아닌, 복수개의 제2 전면 이미지(113)를 합성하여 획득된 이미지이므로, 데이터를 충분히 가지고 있는 초고해상도 이미지일 수 있다.
전면 초광각 이미지(115)는 복수개의 제2 전면 이미지(113), 예컨대, 망원 이미지, 표준 이미지, 광각 이미지를 자연스럽게 합성한 것으로, 사용자가 전면 초광각 이미지(115)에서 시점을 전환하고자 할 때 망원, 표준, 광각 이미지로 자연스럽게 시점이 이동될 수 있는 초고해상도 영상일 수 있다.
전면 초광각 이미지(115)는 망원, 표준, 광각 이미지로의 전환이 자연스러워, 사용자가 특정 지점을 zoom-in 또는 zoom out 하거나, 또는 사용자가 이미지의 좌우나 상하 방향으로 이미지를 pan하거나 tilt하는 경우에도 이미지의 해상도가 저하되지 않으면서 특정 지점으로의 이동이나 회전이 용이한 초고해상도 영상일 수 있다.
전면 초광각 이미지(115)는 화각이 180도 이상인 이미지일 수 있으나, 개시된 실시 예가한정되는 것은 아니다.
전자 장치(100)는 전면 카메라를 이용하여 제1 전면 이미지(110)를 획득한 시점과 동일 시점에 복수개의 후면 카메라로 후면을 촬영하여 후면 이미지(111)를 획득할 수 있다.
전자 장치(100)는 복수개의 후면 카메라를 이용하여 후면에 위치한 피사체를 촬영하여 복수개의 서로 다른 후면 이미지(111)를 획득할 수 있다. 예컨대, 전자 장치(100)의 후면에 장착된 카메라가 표준 카메라, 광각 카메라, 망원 카메라인 경우, 전자 장치(100)는 서로 다른 복수개의 후면 카메라를 이용하여 후면에 대한 표준 이미지, 광각 이미지, 및 망원 이미지를 각각 획득할 수 있다.
전자 장치(100)는 복수개의 후면 카메라로 획득한 복수개의 후면 이미지(111)를 합성하여 후면 초광각 이미지(112)를 획득할 수 있다.
전자 장치(100)는 한 장의 이미지가 아닌, 복수개의 후면 이미지(111)를 합성하여 후면 초광각 이미지(112)를 생성하므로, 후면 초광각 이미지(112)는 데이터를 충분히 가지고 있는 초고해상도 이미지일 수 있다.
후면 초광각 이미지(112)는 복수개의 후면 이미지(111)를 자연스럽게 합성한 것으로, 복수개의 후면 이미지(111), 즉, 망원, 표준, 광각 이미지 간에 자연스럽게 시점 전환이 가능하고, 특정 지점에 대한 zoom-in이나 zoom out, 이미지의 좌우나 상하 방향으로의 pan이나 tilt가 가능한, 초고해상도 영상일 수 있다.
후면 초광각 이미지(112)는 화각이 180도 이상인 이미지일 수 있으나, 개시된 실시 예가 이에 한정되는 것은 아니다.
전자 장치(100)는 전면 초광각 이미지(115) 및 후면 초광각 이미지(112)를 합성하여 파노라마 이미지 등의 와이드 이미지 내지는 360도 이미지를 생성할 수 있다.
전면 초광각 이미지(115) 및 후면 초광각 이미지(112)가 각각 초고해상도 이미지이므로, 전면 초광각 이미지(115) 및 후면 초광각 이미지(112)를 합성하여 획득된 파노라마 이미지 내지 360도 이미지 또한 초고해상도 이미지일 수 있다.
전자 장치(100)는 전면 초광각 이미지(115)와 후면 초광각 이미지(112) 간에 겹치는 영역을 찾고, 이를 스티칭(stiching)하여 파노라마 이미지 내지는 360도 이미지를 획득할 수 있다.
파노라마 이미지는 전자 장치(100) 주변의 복수의 방향의 환경을 하나의 이미지로 담아내는 기법이나 그렇게 담아낸 이미지를 의미할 수 있다. 파노라마 이미지는 전체 경치 중에서 180도 이상 및 360도 이하의 방향의 모든 경치를 담아내는 기법이나 장치, 또는 그렇게 담아 낸 사진이나 그림을 의미할 수 있다.
360도 이미지는 전자 장치(100) 주변의 360도 방향의 환경을 하나의 이미지로 담아내는 기법이나 그렇게 담아낸 이미지를 의미할 수 있다. 360도 이미지는 360도의 화각(angle of view)을 가지는 영상일 수 있다. 예를 들어, 360도 이미지는 적어도 하나의 카메라를 이용하여, 360도 방향으로 촬영된 복수의 영상들에 기초하여 생성될 수 있다. 촬영된 복수의 영상들은 구(shpere)에 매핑될 수 있으며, 매핑된 영상들의 접점들이 스티칭되어 구 형식의 360도 이미지가 생성될 수 있다.
전자 장치(100)는 사용자 입력부를 더 포함할 수 있다. 사용자 입력부는 사용자 인터페이스로도 호칭될 수 있다. 전자 장치(100)는 사용자 입력부를 통해 초광각 이미지를 생성할 영역을 사용자로부터 선택 받을 수 있다.
전자 장치(100)는 사용자 입력부를 통해, 전면 초광각 이미지(115) 생성에 있어 기준이 되는 제1 영역을 선택하는 제1 기준 신호를 수신할 수 있다. 전자 장치(100)는 제1 기준 신호를 입력 받으면, 제1 기준 신호에 따라 선택된 제1 영역을 기준으로 전면 초광각 이미지(115)를 생성할 수 있다. 예컨대, 전자 장치(100)는 제1 영역을 이미지의 중심으로 하는 전면 초광각 이미지(115)를 생성할 수 있다.
전자 장치(100)는 사용자 입력부를 통해, 후면 초광각 이미지(112) 생성에 있어 기준이 되는 제2 영역을 선택하는 제2 기준 신호를 수신할 수 있다. 전자 장치(100)는 제2 기준 신호를 입력 받으면, 제2 기준 신호에 따라 선택된 제2 영역을 기준으로 후면 초광각 이미지(112)를 생성할 수 있다. 예컨대, 전자 장치(100)는 제2 영역을 이미지의 중심으로 하는 후면 초광각 이미지(112)를 생성할 수 있다.
전자 장치(100)가 아닌, 외부의 단말기가 제1 전면 이미지(110) 및 복수개의 후면 이미지(111)를 획득할 수도 있다. 이 경우, 전자 장치(100)는 통신망을 통해 외부의 단말기로부터 제1 전면 이미지(110) 및 복수의 후면 이미지(111)를 수신하여 획득할 수 있다.
전자 장치(100)는 외부의 단말기로부터 수신한 제1 전면 이미지(110)로부터 제2 전면 이미지(113)를 획득하고, 제2 전면 이미지(113)로부터 전면 초광각 이미지(115)를 획득할 수 있다. 또한, 전자 장치(100)는 외부의 단말기로부터 수신한 복수의 후면 이미지(111)로부터 후면 초광각 이미지(112)를 생성할 수 있다. 전자 장치(100)는 전면 초광각 이미지(115) 및 후면 초광각 이미지(112)를 합성하여 파노라마 이미지 내지는 360도 이미지를 생성할 수 있다. 전자 장치(100)는 파노라마 이미지 내지는 360도 이미지를 통신망을 통해 다시 외부의 단말기로 전송할 수 있다.
이와 같이, 전자 장치(100)는 전면 및 후면 카메라를 이용하여 획득된 이미지를 기반으로 파노라마 이미지 내지는 360도 이미지를 획득할 수 있다.
사용자는 고가의 전문 장비 없이도 스마트 폰 등과 같은 전자 장치(100)를 이용하여 손쉽게 파노라마 이미지 내지는 360도 이미지를 획득하여 이를 이용할 수 있다.
사용자는 전자 장치(100)의 화면이나 또는 구면 스크린에 출력된 360도 이미지 중 임의의 한 지점을 선택하여, 선택된 영역에 대한 가상의 뷰(view)를 보다 자세히 시청할 수 있다. 예컨대, 사용자는 선택된 영역을 줌인(zoom in)하여 해당 영역을 확대하여 시청할 수 있다. 생성된 360도 이미지는 초고해상도 이미지이므로, 사용자가 선택한 임의의 영역에 대한 충분한 데이터를 가지고 있으므로, 사용자가 특정 영역을 줌인 하여도, 화질 열화 없이 해당 영역에 대한 확대된 이미지를 제공할 수 있다.
도 2는 실시 예에 따라, 전자 장치(100)에 구비된 카메라를 설명하기 위한 도면이다.
도 2를 참조하면, 전자 장치(100)는 복수개의 카메라를 포함할 수 있다.
카메라는 피사체를 촬영하여 영상을 생성하고, 이를 신호 처리 할 수 있다. 카메라는 이미지 센서(미도시) 및 렌즈(미도시)를 포함할 수 있다. 카메라는 피사체를 촬영하여 피사체에 대한 이미지를 획득할 수 있다. 카메라는 사용자를 촬영하여 하나의 프레임 또는 복수 프레임들로 된 동영상을 획득할 수 있다.
전자 장치(100)의 전면(130) 및 후면(140)에 각각 카메라가 배치되어 있을 수 있다.
전자 장치(100)의 전면(130)에 하나의 전면 카메라(131)가 배치될 수 있다. 다만, 이에 한정되는 것은 아니며, 전자 장치(100)의 전면(130)에는 서로 다른 사양을 갖는 복수개의 전면 카메라가 배치될 수도 있다.
전면 카메라(131)는 전면(130)의 상단 중앙에 위치할 수 있다. 다만, 개시된 실시 예가 이에 한정되는 것은 아니며, 전면 카메라(131)는 전자 장치(100)의 전면의 다양한 영역에 위치할 수 있다.
전자 장치(100)는 전면(130)에 전면 카메라(131) 외에 뎁쓰 센서(미도시)를 더 포함할 수 있다. 뎁쓰 센서는 전면에 위치한 피사체까지의 거리를 획득할 수 있다.
또는, 전자 장치(100)의 전면(130)에 배치된 전면 카메라(131)가 뎁쓰(depth) 기능을 지원하는 뎁쓰 카메라일 수도 있다. 예컨대, 전면 카메라(131)는 뎁쓰 센서를 포함하여, 피사체로부터 렌즈를 통해 들어오는 이미지에 연산을 수행하여 이미지를 재 가공함으로써 객체, 즉, 피사체를 보다 입체적인 이미지로 획득할 수 있다.
전자 장치(100)는 후면(140)에 복수개의 후면 카메라(141)를 포함할 수 있다.
복수개의 후면 카메라(141)는 화각 내지는 초점거리가 서로 다른 카메라일 수 있다. 복수개의 후면 카메라(141)는 접사 카메라, 표준 카메라, 광각 카메라, 초광각 카메라, 망원 카메라, 및/또는 심도 카메라와 같이 다양한 초점거리를 갖는 카메라일 수 있다. 예컨대, 도 2에서, 전자 장치(100)의 후면(140)에 배치된 세 개의 후면 카메라(141)는 각각 표준 카메라, 광각 카메라, 및 망원 카메라일 수 있다.
복수개의 후면 카메라(141)는 제1 광각 카메라, 및/또는 제2 광각 카메라와 같이 화각의 정도가 서로 다른 복수개의 광각 카메라를 포함할 수 있다. 또는, 복수개의 후면 카메라(141)는 제1 망원 카메라, 제2 망원 카메라와 같이 망원 렌즈의 초점거리가 서로 다른 복수개의 망원 카메라를 포함할 수 있다. 예컨대, 도 2에서, 전자 장치(100)의 후면(140)에 배치된 복수개의 후면 카메라(141)는 각각 광각 카메라, 제1 망원 카메라, 및 제2 망원 카메라일 수 있다.
도 2에 도시된 바와 같이, 복수개의 후면 카메라(141)는 전자 장치(100)의 후면(140)의 상단 좌측에 세로 방향으로 일렬로 배치되거나, 또는 삼각형 형태로 배치될 수도 있다. 다만, 이는 실시 예로, 후면 카메라(141)의 개수나 배치 형태는 다양하게 변형될 수 있다.
복수개의 후면 카메라(141)로 획득한 후면 이미지(111)에는 동일한 피사체가 서로 다른 화각, 크기, 위치를 갖는 것으로 촬영될 수 있다. 즉, 복수개의 후면 카메라(141)로 동일한 피사체를 촬영하여도 후면 카메라(141)의 초점거리에 따라 서로 다른 이미지가 획득될 수 있다.
복수개의 후면 카메라(141)가 각각 표준 카메라, 광각 카메라, 및 망원 카메라인 경우, 후면 카메라(141)가 후면의 피사체를 촬영하여 획득한 이미지는 각각 표준 이미지, 광각 이미지, 및 망원 이미지일 수 있다. 표준 이미지, 광각 이미지, 및 망원 이미지는 피사체가 포함된 범위나 면적, 피사체의 형태, 피사체의 크기, 및/또는 피사체까지의 원근감이 서로 다르게 표현될 수 있다.
도 2의 하단에는 후면 카메라(141)로 획득한 복수개의 후면 이미지(111)의 일 예를 도시한다. 도 2에서, 광각 이미지(121)는 후면 카메라(141) 중에 광각 카메라로 촬영하여 획득된 이미지를 도시한다. 광각 이미지(121)는 대상을 넓게 포함하고 원근감이 과장되게 표현되어 피사체와의 거리가 실제보다 더 멀어 보이는 이미지일 수 있다.
도 2에서, 표준 이미지(123)는 후면 카메라(141) 중에 표준 카메라로 촬영하여 획득된 이미지를 도시한다. 표준 이미지(123)는 사람이 눈으로 보는 것과 가장 유사한 이미지로, 피사체와의 거리나 피사체의 형태에 왜곡이 거의 없는 이미지일 수 있다.
도 2에서, 망원 이미지(125)는 후면 카메라(141) 중에 망원 카메라로 촬영하여 획득된 이미지를 도시한다. 망원 이미지(125)는 멀리 있는 피사체가 실제보다 더 가까워 보이고 피사체가 확대된 형태로 포함될 수 있다.
복수개의 후면 이미지(111) 각각은 서로 다른 후면 이미지의 특성을 가질 수 있다.
서로 다른 후면 카메라(141)로 획득된 후면 이미지는 카메라 렌즈 특성에 따라 서로 다른 이미지 특성을 가질 수 있다. 카메라 렌즈 특성에 따른 서로 다른 이미지 특성은 해상도, 광학 배율, 조리개, 화각, 픽셀 피치, 다이나믹 레인지, 및 뎁쓰 중 적어도 하나의 특성을 포함할 수 있다.
복수개의 후면 이미지(111)는 서로 다른 지오메트리 특성을 가질 수 있다. 지오메트리 특성은 복수개의 후면 카메라들 내지는 복수개의 후면 카메라들로 획득된 복수개의 후면 이미지들 간의 관계를 나타내는 정보일 수 있다.
예컨대, 광각 이미지(121)의 내부에 포함된 제1 직사각형 영역(122)은 표준 이미지(123)의 내부에 포함된 제2 직사각형 영역(124)에 대응하고, 또한 망원 이미지(125) 전체 영역에 대응할 수 있다.
지오메트리 특성은 복수개의 후면 카메라가 서로 다른 초점거리 내지는 화각을 가짐으로 인해 이미지들 간에 발생하는 차이 내지 관계를 나타내는 정보일 수 있다. 지오메트리 특성은 예컨대 복수개의 후면 이미지들 간의 화각이나 피사체의 크기, 및/또는 피사체의 위치의 관계에 대한 특성을 포함할 수 있다.
전자 장치(100)는 뉴럴 네트워크를 이용하여, 전면 카메라(131)로 획득한 한 장의 전면 이미지, 즉, 제1 전면 이미지(110)로부터, 후면 카메라(141)로 획득된 후면 이미지의 특성을 갖는 복수개의 전면 이미지, 즉, 제2 전면 이미지(113)를 생성할 수 있다.
전자 장치(100)가 이용하는 뉴럴 네트워크는 한 장의 전면 학습 이미지 및 복수개의 후면 학습 이미지로부터, 복수개의 후면 카메라로 획득되는 후면 학습 이미지의 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 훈련된 딥 뉴럴 네트워크(DNN) 형태의 학습 모델일 수 있다.
예컨대, 뉴럴 네트워크는 전면 카메라인 표준 카메라로 획득한 한 장의 전면 학습 이미지로부터, 후면 카메라인 광각 카메라로 획득한 것과 같은 이미지나 또 다른 후면 카메라인 망원 카메라로 획득한 것과 같은 이미지를 생성하도록 훈련된 뉴럴 네트워크일 수 있다.
뉴럴 네트워크는 복수개의 후면 카메라(141)들로 획득되는 복수개의 후면 이미지들 간의 관계를 학습할 수 있다. 예컨대, 뉴럴 네트워크가 도 2에 도시된 광각 이미지(121), 표준 이미지(123), 망원 이미지(125)를 학습 이미지로 이용하여 학습한다고 가정하면, 뉴럴 네트워크는 광각 이미지(121), 표준 이미지(123) 및 망원 이미지(125) 각각의 특성을 학습하고 또한 광각 이미지(121), 표준 이미지(123) 및 망원 이미지(125)간의 관계를 학습할 수 있다.
뉴럴 네트워크는 광각 이미지(121)와 표준 이미지(123)의 관계로부터, 광각 이미지(121)가 업스케일링되고, 광각 이미지(121)의 시점(view)들이 합성되어 렌더링됨으로써, 표준 이미지(123)가 생성되는 관계를 학습할 수 있다.
또한, 뉴럴 네트워크는 표준 이미지(123)와 망원 이미지(125)의 관계로부터, 표준 이미지(123)가 줌인(zoom in)되어 업스케일링(upscaling)되고, 표준 이미지(123)의 시점들이 합성되어 렌더링됨으로써 망원 이미지(125)가 생성되는 관계를 학습할 수 있다.
전자 장치(100)의 후면(140)에는 후면 카메라(141) 외에 후면 뎁쓰 센서(145)를 더 포함할 수도 있다. 후면 뎁쓰 센서(145)는 후면에 위치한 피사체까지의 거리를 획득할 수 있다.
또는, 전자 장치(100)의 후면(140)에는 별도의 뎁쓰 센서(145)가 배치되지 않고, 복수개의 후면 카메라(141) 중 하나 이상의 후면 카메라가 뎁쓰 기능을 지원하는 뎁쓰 카메라일 수도 있다. 후면 카메라(141)가 뎁쓰 카메라인 경우, 후면 카메라(141)는 피사체로부터 렌즈를 통해 들어오는 이미지에 연산을 수행하여 피사체까지의 거리를 획득하고, 이를 기반으로 이미지를 재 가공함으로써 피사체를 보다 입체적인 이미지로 획득할 수 있다. 뎁쓰 기능을 지원하는 카메라는 예컨대 3차원 뎁쓰를 인식하는 방법에 따라 스테레오 타입, ToF(Time-Of-Flight) 방식, 및/또는 Structured Pattern 방식이 있을 수 있다.
전면 카메라(131)와 후면 카메라(141)는 위치가 정확히 대칭이 아닐 수 있다. 예컨대, 도 2에 도시된 바와 같이, 전면 카메라(131)는 전자 장치(100)의 전면(130)의 상단 중앙에 위치하고, 후면 카메라(141)는 전자 장치(100)의 후면(140)의 상단 좌측에 세로 방향으로 일렬로 배치되어 있거나, 삼각형 형태로 배치될 수 있다. 이 경우, 전면 카메라(131)와 후면 카메라(141) 간의 카메라 위치가 상이하기 때문에 위치 차이에 따라 시점(view) 차이가 발생할 수 있다.
전자 장치(100)는 제1 전면 이미지(110)로부터 복수개의 후면 카메라로 획득되는 후면 이미지 특성을 갖는 복수개의 제2 전면 이미지(113)를 획득할 때 전면 카메라(131)와 후면 카메라(141)의 위치 차이로 인한 시점 차이를 고려할 수 있다.
전자 장치(100)는 전면 카메라(131)로 획득한 전면 이미지, 즉, 제1 전면 이미지(110)로부터 후면 카메라(141)의 위치와 배열로 옮겨진 후면 영상을 생성할 수 있다.
도 3은 실시 예에 따른 전자 장치(100)의 내부 블록도이다.
도 3을 참조하면, 전자 장치(100)는 하나 이상의 인스트럭션을 저장하는 메모리(103) 및 메모리(103)에 저장된 하나 이상의 인스트럭션을 실행하는 하나 이상의 프로세서(101)를 포함할 수 있다.
메모리(103)는, 적어도 하나의 인스트럭션을 저장할 수 있다. 메모리(103)는 프로세서(101)가 실행하는 적어도 하나의 프로그램을 저장하고 있을 수 있다. 또한 메모리(103)는 전자 장치(100)로 입력되거나 전자 장치(100)로부터 출력되는 데이터를 저장할 수 있다.
메모리(103)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(103)에는 제1 전면 이미지(110)를 획득하기 위한 하나 이상의 인스트럭션이 저장될 수 있다.
메모리(103)에는 제1 전면 이미지(110)로부터 제2 전면 이미지(113)를 획득하기 위한 하나 이상의 인스트럭션이 저장될 수 있다. 제2 전면 이미지(113)는 제1 전면 이미지(110)로부터 생성된 이미지로, 복수개의 후면 카메라로 획득되는 후면 이미지의 특성을 갖는 이미지일 수 있다.
메모리(103)에는 복수개의 제2 전면 이미지(113)를 합성하여 전면 초광각 이미지(115)를 획득하기 위한 하나 이상의 인스트럭션이 저장될 수 있다.
메모리(103)에는 복수개의 후면 이미지(111)를 합성하여 후면 초광각 이미지(112)를 획득하기 위한 하나 이상의 인스트럭션이 저장될 수 있다.
메모리(103)에는 전면 초광각 이미지(115) 및 후면 초광각 이미지(112)를 합성하여 파노라마 이미지 내지는 360도 이미지를 생성하기 위한 하나 이상의 인스트럭션이 저장될 수 있다.
메모리(103)에는 AI 모델(뉴럴 네트워크 모델)이 적어도 하나 저장되어 있을 수 있다. 메모리(103)에 저장된 뉴럴 네트워크 모델은 전면 카메라로 획득한 전면 이미지, 즉, 제1 전면 이미지(110)로부터 후면 카메라로 획득되는 후면 이미지의 특성을 갖는 복수개의 전면 이미지, 즉, 제2 전면 이미지(113)를 생성하기 위한 뉴럴 네트워크 모델일 수 있다.
프로세서(101)는 전자 장치(100)의 전반적인 동작 및 전자 장치(100)의 내부 구성 요소들 사이의 신호 흐름을 제어하고, 데이터를 처리하는 기능을 수행할 수 있다.
프로세서(101)는 메모리(103)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 전자 장치(100)가 기능하도록 제어할 수 있다.
프로세서(101)는 싱글 코어, 듀얼 코어, 트리플 코어, 쿼드 코어 및 그 배수의 코어를 포함할 수 있다.
프로세서(101)는 하나이거나 또는 복수 개일 수 있다. 예컨대, 프로세서(101)는 복수의 프로세서들을 포함할 수 있다. 이 경우, 프로세서(101)는 메인 프로세서(main processor) 및 서브 프로세서(sub processor)로 구현될 수 있다.
또한, 프로세서(101)는 CPU(Cetral Processing Unit), GPU (Graphic Processing Unit) 및 VPU(Video Processing Unit) 중 적어도 하나를 포함할 수 있다. 또는, 프로세서(101)는 CPU, GPU 및 VPU 중 적어도 하나를 통합한 SoC(System On Chip) 형태로 구현될 수 있다. 또는, 프로세서(101)는 NPU(Neural Processing Unit)를 더 포함할 수 있다.
프로세서(101)는 기 정의된 동작 규칙 또는 AI 모델에 따라, 입력 데이터를 처리할 수 있다. 기 정의된 동작 규칙 또는 AI 모델은 특정한 알고리즘을 이용하여 만들어진 것일 수 있다. 또한 AI 모델은 특정한 알고리즘이 학습된 것일 수 있다.
하나 이상의 프로세서(101)는 하나 이상의 인스트럭션을 실행함으로써, 제1 전면 이미지(110)를 획득할 수 있다. 제1 전면 이미지(110)는 전면 카메라로 전면을 촬영하여 획득한 전면에 대한 이미지일 수 있다.
하나 이상의 프로세서(101)는 하나 이상의 인스트럭션을 실행함으로써, 제1 전면 이미지(110)로부터 복수개의 후면 이미지의 특성을 갖는 복수개의 제2 전면 이미지(113)를 획득할 수 있다.
하나 이상의 프로세서(101)는 규칙 기반으로, 또는 인공지능 알고리즘 기반으로 제1 전면 이미지(110)로부터 제2 전면 이미지(113)를 획득할 수 있다.
하나 이상의 프로세서(101)는 인공지능 알고리즘으로 기계학습, 신경망 네트워크 또는 딥러닝 알고리즘 중 적어도 하나를 이용할 수 있다. 예컨대, 하나 이상의 프로세서(101)는 뉴럴 네트워크를 이용하여, 제1 전면 이미지(110)로부터 복수개의 제2 전면 이미지(113)를 획득할 수 있다.
AI 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성될 수 있다. AI 기술은 알고리즘을 활용하여 구현될 수 있다. 여기서, AI 기술을 구현하기 위한 알고리즘 또는 알고리즘의 집합을 신경망(Neural Network, 뉴럴 네트워크)이라 한다. 신경망은 입력 데이터를 입력 받고, 분석 및 분류를 위한 연산을 수행하여, 결과 데이터를 출력할 수 있다. 이와 같이 신경망이 입력 데이터에 대응되는 결과 데이터를 정확하게 출력하기 위해서는, 신경망을 트레이닝 시킬 필요가 있다. 신경망을 훈련시킨다는 것은 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 인공지능이 수행되는 전자 장치(100) 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.
학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨데, 로봇)를 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
신경망을 통하여 입력 데이터에 대응되는 출력 데이터를 출력하도록 하는 알고리즘의 집합, 알고리즘의 집합을 실행하는 소프트웨어 및/또는 알고리즘의 집합을 실행하는 하드웨어를 'AI 모델'(또는,'인공지능 모델'이나 뉴럴 네트워크 모델, 뉴럴 네트워크)이라 칭할 수 있다.
프로세서(101)가 이용하는 뉴럴 네트워크는 제1 전면 이미지(110)로부터 제2 전면 이미지(113)를 획득하는 알고리즘이나, 알고리즘의 집합을 실행하는 소프트웨어 및/또는 알고리집의 집합을 실행하는 하드웨어일 수 있다.
뉴럴 네트워크는 두 개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크(DNN)일 수 있다.
뉴럴 네트워크는 입력 데이터를 입력 받고, 분석 및 분류를 위한 연산을 수행하여, 입력 데이터에 대응되는 결과 데이터를 출력하기 위해서 트레이닝(training)될 수 있다.
뉴럴 네트워크는 다수의 학습 데이터들로 다양한 전면 학습 이미지와 그에 대응하는 복수개의 후면 학습 이미지를 입력 받고, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 학습될 수 있다.
뉴럴 네트워크는 복수개의 후면 학습 이미지들의 특성을 학습할 수 있다. 복수개의 후면 이미지 특성은 카메라 렌즈 특성 및 지오메트리(geometry) 특성 중 적어도 하나를 포함할 수 있다.
카메라 렌즈 특성은 복수개의 후면 카메라들 각각의, 해상도, 광학 배율, 조리개, 화각, 픽셀 피치, 다이나믹 레인지, 및 뎁쓰 중 적어도 하나의 특성에 따른 후면 이미지의 특성일 수 있다.
지오메트리 특성은 복수개의 후면 이미지 간의 화각 관계, 크기 관계 및 위치 관계 중 적어도 하나에 대한 특성을 포함할 수 있다.
뉴럴 네트워크는 전면 학습 이미지로부터 전면 이미지 특성을 획득하고, 이를 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지의 특성에 맞게 변형하여 한 장의 전면 학습 이미지로부터 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 훈련될 수 있다.
뉴럴 네트워크는 생성된 복수개의 전면 학습 이미지를 그라운드 트루쓰 이미지와 비교하여 이미지 간에 차이가 최소가 되도록 훈련될 수 있다. 그라운드 트루쓰 이미지는 전면을 복수개의 후면 카메라로 촬영하여 획득한 복수개의 이미지일 수 있다. 뉴럴 네트워크는 그라운드 트루쓰 이미지와, 복수개의 전면 학습 이미지 간의 차이가 최소가 되도록 훈련됨으로써, 전면 카메라와 후면 카메라의 위치 차이에 따른 시점(view) 차이를 학습할 수 있다.
이러한 학습은 인공지능이 수행되는 전자 장치(100) 자체에서 이루어질 수도 있고, 또는 별도의 외부 서버/시스템을 통해 이루어 질 수도 있다.
학습이 끝난 뉴럴 네트워크는 전자 장치(100)에 장착될 수 있다. 전자 장치(100)는 스마트폰 등의 엣지 디바이스에 뉴럴 네트워크의 인공지능(Artificial Intelligence, AI) 기능이 결부된 온 디바이스(On-Device) 형태의 장치일 수 있다. 예컨대, 전자 장치(100)는 별도 서버와의 연동없이 전자 장치(100)에 포함된 뉴럴 네트워크를 이용하여 제1 전면 이미지(110)로부터 복수개의 제2 전면 이미지(113)를 획득할 수 있다. 전자 장치(100)는 클라우드 서버를 거치지 않고 자체적으로 정보를 수집하고 연산하여 처리하기 때문에 제1 전면 이미지(110)로부터 후면 카메라로 획득되는 후면 이미지 특성이 반영된 제2 전면 이미지(113)를 보다 빨리 획득할 수 있다.
또는, 학습이 끝난 뉴럴 네트워크는 예컨대 클라우드 서버나 외부 컴퓨팅 장치에 장착될 수 있다. 예컨대, 전자 장치(100)는 온 디바이스 형태가 아니고, 클라우드 서버나 클라우드 컴퓨팅 장치와 연동하여 360도 이미지를 획득할 수도 있다. 이 경우, 전자 장치(100)는 전면 카메라(131)로 제1 전면 이미지(110) 및 복수개의 후면 카메라(141)로 복수개의 후면 이미지(111)를 획득하고, 이를 외부 서버로 전송할 수 있다.
외부 서버는 전자 장치(100)로부터 제1 전면 이미지(110)를 수신하고, 상술한 뉴럴 네트워크를 이용하여 제1 전면 이미지(110)로부터 복수개의 제2 전면 이미지(113)를 생성할 수 있다. 외부 서버는 복수개의 제2 전면 이미지(113)를 합성하여 전면 초광각 이미지(115)를 생성하고, 복수개의 후면 이미지(111)를 합성하여 후면 초광각 이미지(112)를 생성할 수 있다. 외부 서버는 전면 초광각 이미지(115)와 후면 초광각 이미지(112)를 합성하여 파노라마 이미지 내지는 360도 이미지를 생성하고, 이를 전자 장치(100)로 전송할 수 있다.
전자 장치(100)는 외부 서버로부터 수신한 360도 이미지를 출력할 수 있다.
도 4는 실시 예에 따라, 전자 장치(100)가 360도 이미지를 생성하는 동작을 도시한 도면이다.
전자 장치(100)는 제1 전면 이미지(110)를 획득할 수 있다. 전자 장치(100)는 전자 장치(100)의 전면에 구비된 전면 카메라(131)로 전면에 위치한 피사체를 촬영하여 제1 전면 이미지(110)를 획득할 수 있다. 또는, 전자 장치(100)는 외부의 사용자 단말기로부터, 외부의 사용자 단말기에 구비된 전면 카메라로 획득된 제1 전면 이미지(110)를 수신할 수도 있다.
전자 장치(100)는 제1 DNN(Deep Neural Network, 410)을 이용하여, 제1 전면 이미지(110)로부터 복수개의 제2 전면 이미지(113)를 획득할 수 있다. 제1 DNN(410)은 입력층(input layer)과 출력층(output layer) 사이에 다중의 은닉층(hidden layer)을 포함하는 인공 신경망으로, 미리 학습된 뉴럴 네트워크일 수 있다.
제1 DNN(410)은 한 장의 전면 학습 이미지 및 복수개의 후면 학습 이미지로부터, 복수개의 후면 카메라로 획득되는 후면 이미지의 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 훈련된 학습 모델일 수 있다.
제1 DNN(410)이 제1 전면 이미지(110)로부터 생성하는 복수개의 제2 전면 이미지(113)는, 마치 복수개의 후면 카메라로 전면을 촬영해서 획득되는 것과 같은, 후면 이미지의 특성을 갖는 전면 이미지일 수 있다.
전자 장치(100)는 복수개의 제2 전면 이미지(113)를 합성하여 전면 초광각 이미지(115)를 생성할 수 있다. 전자 장치(100)는 제2 DNN(420)을 이용하여 복수개의 제2 전면 이미지(113)로부터 전면 초광각 이미지(115)를 생성할 수 있다.
제2 DNN(420) 또한 두 개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크(DNN)일 수 있다. 제2 DNN(420)은 이미지들을 합성하도록 훈련된 뉴럴 네트워크일 수 있다. 제2 DNN(420)은 복수개의 이미지들 간에 유사한 영역이나 특징을 검출하고, 이들을 매칭하여 이미지들을 합성하여 초광각 이미지를 획득하는 알고리즘이나, 알고리즘 또는 알고리즘의 집합을 실행하는 소프트웨어 및/또는 알고리집의 집합을 실행하는 하드웨어일 수 있다.
제2 DNN(420)은 후면 카메라로 획득되는 후면 이미지 특성을 갖는 복수개의 제2 전면 이미지(113)들, 예컨대, 망원 이미지, 표준 이미지, 광각 이미지의 특성을 갖는 복수개의 이미지들을 자연스럽게 합성하여, 망원 이미지, 표준 이미지, 및 광각 이미지 간에 자연스럽게 시점이 이동될 수 있는 초고해상도 영상을 생성할 수 있다.
전자 장치(100)는 복수개의 후면 이미지(111)를 획득할 수 있다.전자 장치(100)는 전자 장치(100)의 전면 카메라(131)로 제1 전면 이미지(110)를 획득하는 시점과 동일한 시점에, 후면에 장착된 후면 카메라(141)로 후면에 위치한 피사체를 촬영하여 복수개의 후면 이미지(111)를 획득할 수 있다. 또는, 전자 장치(100)는 외부의 사용자 단말기로부터, 외부의 사용자 단말기에 구비된 후면 카메라로 획득된 후면 이미지(111)를 수신할 수도 있다.
전자 장치(100)는 제2 DNN(425)을 이용하여 복수개의 후면 이미지(111)로부터 후면 초광각 이미지(112)를 생성할 수 있다. 제2 DNN(425)은 제1 DNN(410)과 마찬가지로 이미지들을 합성하도록 훈련된 딥 뉴럴 네트워크일 수 있다.
제2 DNN(425)은 후면 카메라로 획득된 후면 이미지들(111), 예컨대, 망원 이미지, 표준 이미지, 광각 이미지들을 자연스럽게 합성하여, 이미지들 간에 시점 이동이 자유롭게 수행될 수 있는 초고해상도 영상을 생성할 수 있다. 후면 초광각 이미지(112)는 사용자가 특정 지점을 zoom-in 또는 zoom out 하거나, 또는 사용자가 이미지의 좌우나 상하 방향으로 이미지를 pan하거나 tilt하는 경우에도 이미지의 해상도가 저하되지 않으면서 특정 지점으로의 이동이나 회전이 용이한 초고해상도 영상일 수 있다.
전자 장치(100)는 전면 초광각 이미지(115)와 후면 초광각 이미지(112)를 합성하여 360도 이미지(430)를 생성할 수 있다. 전자 장치(100)는 전면 초광각 이미지(115)와 후면 초광각 이미지(112)에서 유사한 특징점을 검출하고, 유사한 특징점을 매칭하여 전면 초광각 이미지(115)와 후면 초광각 이미지(112)를 스티칭(stiching)하여 360도 이미지를 획득할 수 있다.
도 5는 실시 예에 따라, 학습 모델을 획득하는 것을 설명하기 위한 도면이다.
도 5를 참조하면, 뉴럴 네트워크(500)는 복수개의 학습 데이터를 입력 받을 수 있다.
뉴럴 네트워크(500)는 학습 데이터로부터 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 학습 이미지를 획득하는 방법을 학습할 수 있으며, 학습된 결과에 기초하여 학습 모델로 생성될 수 있다.
학습 데이터는 다양한 크기를 갖는 피사체가 다양한 위치에 있을 때, 다양한 크기 및 위치에 있는 피사체를 촬영하여 획득한 촬영 이미지를 포함할 수 있다. 여기서, 촬영 이미지는 전면 카메라로 촬영하여 획득한 전면 이미지와, 동일 시점에 복수개의 후면 카메라로 촬영하여 획득한 복수개의 후면 이미지를 포함할 수 있다.
학습 데이터는 전면 학습 이미지(510)를 포함할 수 있다. 표준 이미지는 전면 카메라가 표준 카메라인 경우, 전면 카메라로 획득된 전면에 대한 촬영 이미지일 수 있다.
전면 학습 이미지(510)는 뉴럴 네트워크(500)로 입력될 수 있다.
뉴럴 네트워크(500)는 인코더-디코더 모델일 수 있다. 인코더-디코더 모델은 인코더(E1) 및 디코더(G)를 포함할 수 있다. 인코더-디코더 모델은 이미지에서 특징을 추출하고 생성하려는 영상에 추출된 특징이 잘 반영하도록 설계된 모델일 수 있다. 인코더-디코더 모델은 예컨대, U-Net, Residual U-Net, 및/또는 FD U-Net일 수 있다. 다만, 이는 하나의 실시 예로, 뉴럴 네트워크(500)는 인코더-디코더 모델에 한하지 않는다.
뉴럴 네트워크(500)는 복수개의 학습 이미지로 훈련(training)되어, 뉴럴 네트워크(500)를 형성하는 복수개의 노드(node)들 각각에 적용되는 복수개의 가중치(weight)의 값이 설정되도록 할 수 있다. 가중치는 뉴럴 네트워크(500)의 각 노드들 간의 연결 강도를 의미할 수 있다. 가중치 값은 반복적인 학습을 통하여 최적화될 수 있으며, 결과의 정확도가 소정의 신뢰도를 만족할 때까지 반복적으로 수정될 수 있다. 예컨대, 가중치는 뉴럴 네트워크(500)에서 출력된 이미지가, 그라운드 트루쓰 이미지와 동일해질 때까지 계속하여 수정될 수 있다.
뉴럴 네트워크(500)에 포함된 인코더(E1)는 입력 이미지의 특징을 포착하기 위해 채널의 수를 늘리면서 차원을 축소할 수 있다. 뉴럴 네트워크(500)에 포함된 디코더는 저차원으로 인코딩된 정보를 이용하여 채널의 수를 줄이고 차원을 늘려서 고차원의 이미지를 생성할 수 있다. 디코더(G)는 제너레이터(Generator)로도 호칭될 수 있다.
전면 학습 이미지(510)는 뉴럴 네트워크(500)의 인코더(E1)로 입력될 수 있다. 인코더(E1)는 전면 학습 이미지(510)의 차원을 축소하면서 정보를 압축하여 전면 학습 이미지(510)로부터 중요 특징을 획득할 수 있다.
일반적으로, 인코딩 단계에서는 입력 이미지의 특징을 포착할 수 있도록 채널의 수를 늘리면서 차원을 축소하고, 디코딩 단계에서는 저차원으로 인코딩된 정보만 이용하여 채널의 수를 줄이고 차원을 늘려서 고차원의 이미지를 복원할 수 있다. 그러나, 인코딩 단계에서 차원 축소를 거치면서 이미지에 포함된 피사체에 대한 정보 중 중요한 정보를 잃게 되는 경우가 있고, 디코딩 단계에서도 저차원의 정보만을 이용하기 때문에 손실된 중요 정보를 회복하지 못하는 경우가 있을 수 있다.
이에, 인코더-디코더 모델은 저차원뿐 아니라 고차원 정보도 이용하여 이미지의 특징을 추출함과 동시에 중요한 정보를 이용할 수 있도록 스킵 커넥션(skip connection)을 이용할 수 있다. 스킵 커넥션은 인코더 레이어와 디코더 레이어를 직접 연결하여, 인코딩 단계의 각 레이어에서 얻은 특징을 디코딩 단계의 각 레이어에 합치는(concatenation) 것을 의미할 수 있다. 스킵 커넥션은 인코더-디코더 모델에 포함된 인코더 및 디코더가 서로 대칭 구조를 가지고 있을 때 다른 레이어로 정보를 전달하는 대신 직접 디코더의 대응 레이어로 정보를 전달하여 디코더(G)의 성능을 향상시키는 데 이용될 수 있다.
학습 데이터는 후면 학습 이미지(520)를 포함할 수 있다. 후면 학습 이미지(520)는 전면 카메라로 전면 학습 이미지(510)가 획득된 시점과 동일 시점에 후면 카메라로 획득되거나 또는 후면 카메라가 갖는 후면 이미지 특성을 갖도록 생성된 이미지일 수 있다. 후면 카메라가 복수 개인 경우, 후면 카메라로 획득한 후면 학습 이미지(520) 또한 복수 개일 수 있다. 예컨대, 후면 카메라가 표준, 광각, 망원 카메라인 경우, 후면 학습 이미지(520) 또한 표준 이미지, 광각 이미지, 망원 이미지일 수 있다.
학습 데이터는 전면 뎁쓰 센서로 획득한 전면 거리 정보를 더 포함할 수도 있다. 전면 거리 정보는 전면에 위치한 피사체까지의 거리를 나타내는 정보일 수 있다. 전면 거리 정보는 전면 이미지를 생성하는 전면 카메라 또는 전면 이미지로부터 획득될 수도 있고, 전면 카메라와 별개의 전면 뎁쓰 센서로부터 획득될 수도 있다. 전면 뎁쓰 센서가 복수개인 경우 전면 거리 정보 또한 복수 개일 수 있다.
학습 데이터가 전면 뎁쓰 센서로 획득한 전면 거리 정보를 더 포함하는 경우, 전면 거리 정보는 전면 학습 이미지(510)와 함께 뉴럴 네트워크(500)의 인코더(E1)로 입력될 수 있다. 인코더(E1)는 전면 학습 이미지(510)와 전면 거리 정보의 차원을 축소하면서 정보를 압축하여 전면 학습 이미지(510)로부터 중요 특징을 획득할 수 있다.
학습 데이터는 후면 뎁쓰 센서로 획득한 후면 거리 정보를 더 포함할 수도 있다. 후면 거리 정보는 후면에 위치한 피사체까지의 거리를 나타내는 정보일 수 있다. 후면 거리 정보는 후면 카메라 내지는 후면 이미지로부터 획득될 수도 있고, 또는 후면 카메라와 별개의 후면 뎁쓰 센서로부터 획득될 수도 있다. 후면 카메라가 복수개인 경우, 및/또는 후면 뎁쓰 센서가 복수개인 경우, 후면 카메라로부터 획득되거나 후면 뎁쓰 센서로부터 획득되는 후면 거리 정보는 복수 개일 수도 있다.
후면 학습 이미지(520)는 인코더(E2)를 통해 차원이 축소되어 압축될 수 있다. 후면 거리 정보가 있는 경우, 후면 거리 정도 또한 인코더(E2)를 통해 압축될 수 있다. 인코더(E2)는 인코더-디코더 모델에 포함된 인코더(E1)과 마찬가지로 채널 수를 늘리면서 차원을 축소하여 데이터를 압축할 수 있다. 인코더(E2)를 통해 압축된 데이터는 후면 학습 이미지(520) 및/또는 후면 거리 정보로 획득된, 후면 카메라 특성일 수 있다. 후면 카메라 특성은 후면 카메라 각각의 렌즈 특성으로 인한 이미지 특성, 및 후면 카메라들 간의 위치나 배열 차이로 인한 지오메트리 특성 중 적어도 하나를 포함할 수 있다.
인코더(E2)를 통해 압축된 데이터는 컨디션(condition) 형태로 디코더(G)로 입력될 수 있다. 컨디션은 디코더(G)가 이미지를 생성하는 조건을 나타내는 정보일 수 있다.
컨디션으로 디코더(G)로 입력되는 데이터는 후면 카메라의 카메라 특성 및 후면 카메라 간의 지오메트리 특성을 포함하는 데이터일 수 있다.
디코더(G)는 저차원으로 인코딩된 정보를 이용하여 채널의 수를 줄이고 차원을 늘려서 고차원의 이미지를 생성하는 제너레이터일 수 있다. 디코더(G)는 인코더(E2)로부터 받은 압축 정보, 즉, 전면 학습 이미지(510)와 전면 거리 정보에 대한 중요 특징을 이용하여 새로운 이미지를 생성할 때, 후면 카메라 특성을 컨디션으로 입력 받고, 컨디션에 따라 이미지를 생성할 수 있다.
디코더(G)는 인코더(E1)로부터 받은 전면 학습 이미지(510) 및 전면 거리 정보에 대한 압축 데이터, 및 인코더(E2)로부터 받은 후면 카메라 특성, 예컨대, 표준 카메라, 광각 카메라 및 망원 카메라 각각의 렌즈 특성 및 후면 카메라들 간의 위치 관계, 및/또는 후면 피사체까지의 뎁쓰 정보를 고려하여 새로운 이미지를 생성할 수 있다. 이 때 생성되는 새로운 이미지는 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 학습 이미지일 수 있다. 즉, 새로운 이미지는 복수개의 후면 카메라의 렌즈 특성 및 복수개의 후면 카메라 간의 지오메트리 특성을 갖는 학습 이미지일 수 있다.
디코더(G)가 생성한 복수개의 학습 이미지는 비교기(D, discriminator, 503)를 통해 그라운드 트루쓰(Ground Truth) 이미지(512)와 비교될 수 있다. 그라운드 트루쓰 이미지는 전면을 복수개의 후면 카메라로 촬영하여 획득한 학습 이미지일 수 있다.
비교기(503)는 디코더(G)가 생성한 이미지와 그라운드 트루쓰 이미지(512)를 비교하여 이미지 간의 차이를 로스(loss)로 획득할 수 있다. 비교기(503)가 획득한 로스는 다시 뉴럴 네트워크(500)로 피드 포워드되어, 뉴럴 네트워크(500)를 형성하는 노드들의 가중치를 훈련하는 데 이용될 수 있다.
뉴럴 네트워크(500)의 가중치는 로스가 최소가 될 때까지 반복하여 설정되어 최적화될 수 있다. 뉴럴 네트워크(500)는 최종적으로 설정된 가중치 값들에 의해서 형성될 수 있다.
뉴럴 네트워크(500)를 이용하여, 전면 이미지로부터, 후면 카메라로 획득된 후면 이미지의 특성을 갖는 복수개의 전면 이미지들을 생성하는 방법을 학습하는 동작은, 사전에 수행될 수 있다. 경우에 따라, 복수개의 학습 이미지 중 일부가 변경됨에 따라, 뉴럴 네트워크(500)가 업데이트될 수 있다. 경우에 따라, 소정의 주기 단위로, 새로운 학습 이미지가 사용될 수 있다. 새로운 학습 이미지가 추가되면, 뉴럴 네트워크(500)는 이미지로부터 후면 카메라로 획득되는 후면 이미지 특성을 갖는 복수개의 이미지를 생성하는 방법을 다시 학습할 수 있으며, 이에 따라 학습 모델이 업데이트될 수 있다.
뉴럴 네트워크(500)를 이용하여 전면 이미지로부터 후면 이미지 특성을 갖는 복수개의 전면 이미지들을 생성하는 방법을 학습하는 동작은, 도 3의 전자 장치(100) 내부의 프로세서(101)에서 수행될 수 있으나, 이에 한정되는 것은 아니고, 전자 장치(100)와 통신망을 통해 결합된 외부 서버나 외부 컴퓨팅 장치에서 수행될 수도 있다. 뉴럴 네트워크(500)를 이용하여 복수개의 이미지를 생성하는 방법을 학습하는 동작은, 상대적으로 복잡한 연산량을 필요로 할 수 있다. 이 경우, 전자 장치(100)와는 별개의 외부의 컴퓨팅 장치가 학습하는 동작을 수행하고, 전자 장치(100)는 외부 컴퓨팅 장치로부터 학습 모델을 수신함으로써, 전자 장치(100)에서 수행되어야 하는 연산량을 줄일 수 있다.
또는 학습이 끝난 뉴럴 네트워크(500)는 전자 장치(100)에 저장될 수도 있고, 또는 전자 장치(100)가 아닌 외부의 클라우드 서버나 컴퓨팅 장치에 저장되어 전자 장치(100)로부터 수신한 이미지를 기반으로 복수개의 이미지를 생성할 수도 있다.
도 6은 실시 예에 따른 인코더-디코더 모델의 아키텍쳐를 설명하기 위한 도면이다.
도 6을 참조하면, 도 6의 인코더-디코더 모델은 도 5의 뉴럴 네트워크(500)의 일 예일 수 있다. 인코더-디코더 모델은 위쪽에 인코더를 포함하고 아래쪽에 디코더를 포함하는 구조일 수 있다. 인코더-디코더 모델의 아키텍쳐는 완전 연결 레이어(fully connected layers)가 없는 신경망을 포함할 수 있다.
인코더-디코더 모델은 이미지로부터 특징을 획득하기 위한 축소(contracting) 경로와 그에 대칭적으로 확장되는 경로(expanding path)로 구성될 수 있다. 축소 경로는 교대(alternating) 컨볼루션 및 풀링 작업을 사용하는 컨볼루션 네트워크의 일반적인 아키텍처를 따르고 피쳐 맵(feature map)을 점진적으로 다운샘플링하여 동시에 레이어당 피쳐 맵 수를 늘릴 수 있다. 즉, 인코더에는 복수개의 컨볼루션 레이어가 포함되어 있고 각 레이어에는 ReLU 활성화 함수, 최대 풀링(Max Pooling) 작업이 뒤따라 수행되어 특징 맵을 감소시킬 수 있다.
도 6에서, 직사각형 블록, 즉, 막대(rod)는 일련의 변환을 통과하는 다중 채널 피쳐 맵(multi -channel features map)을 나타낸다. 막대의 높이는 픽셀 단위의 상대적인 맵 크기를 나타내며, 폭(width)은 채널 수에 비례한다. 모든 컨볼루션 레이어는 3Х3 커널을 가지며 각 막대 옆의 숫자는 채널 수를 나타낸다. 첫 번째 컨볼루션 레이어는 64개의 채널을 생성한 다음 네트워크가 깊어짐에 따라 각 최대 풀링 작업 후 채널 수가 512에 도달할 때까지 두 배의 채널을 생성하게 된다. 512개 채널의 단일 컨볼루션 레이어가 인코더와 디코더를 분리하는 네트워크의 병목 중앙 부분(bottleneck central part) 역할을 수행하게 된다.
채널 수는 위쪽의 인코더의 부분에서는 단계별로 증가하는 반면 아래쪽 디코더의 부분에서는 단계별로 감소한다.
확장 경로의 모든 단계는 피쳐 맵의 업샘플링과 그를 뒤따르는 컨볼루션으로 구성되어, 출력 이미지의 해상도를 높일 수 있다. 디코더는 채널 수를 절반으로 줄이면서 피쳐 맵의 크기를 두 배로 늘리는 전치된(transposed) 컨볼루션 레이어를 포함한다. 전치된 컨볼루션의 출력은 디코더의 해당 부분의 출력과 연결된다. 결과 특징 맵은 채널 수를 대칭 인코더와 동일하게 유지하기 위해 컨볼루션 연산으로 처리된다. 이 업샘플링 절차는 인코더의 풀링과 쌍을 이루기 위해 인코더의 풀링 수만큼 반복된다.
도 6에서 인코더와 디코더를 연결하는 화살표는 인코더의 각각의 부호화 레이어에서 정보를 전송하여 디코더의 대응하는 복호화 레이어에 접속하는 스킵 커넥션(skip connection)을 나타낸다.
인코딩 단계에서 차원 축소를 거치면서 이미지에서의 피사체에 대한 자세한 위치 정보 등의 중요 특징을 잃게 되고, 디코딩 단계에서도 저차원의 정보만을 이용하기 때문에 중요 특징을 회복하지 못하는 경우를 막기 위해, 스킵 커넥션을 이용할 수 있다. 스킵 커넥션을 이용할 경우, 저차원 뿐 아니라 고차원 정보도 이용하여 이미지의 특징을 추출함과 동시에 중요한 특징, 예컨대 정확한 위치 파악도 가능해 질 수 있다.
이를 위해서 인코더-디코더 모델은 인코딩 단계의 각 레이어에서 얻은 특징을 디코딩 단계의 각 레이어에 합치는(concatenation) 방법을 사용할 수 있다. 인코더 레이어와 디코더 레이어의 직접 연결을 스킵 연결(skip connection)이라고 한다. 스킵 커넥션은 이전 레이어의 출력만을 다음 레이어의 입력으로 사용하는 것과는 달리 하나의 레이어의 출력이 다음 레이어로 입력되는 것이 아니라 몇 개의 레이어를 건너뛴 다음의 레이어의 입력에 추가하는 형태를 의미한다.
디코더는 확장 경로에서 스킵 커넥션을 통해 압축(contracting) 경로로부터의 피쳐를 고해상도 피쳐에 결합하여 업샘플링된 피쳐를 로컬라이징할 수 있다.
도 7은 실시 예에 따라, 학습 모델을 획득하는 것을 설명하기 위한 도면이다.
도 7을 참조하면, 전면 학습 이미지(702)는 딥 뉴럴 네트워크(DNN, 751)로 입력될 수 있다. DNN(751)은 두 개 이상의 히든 레이어들을 포함하는 뉴럴 네트워크일 수 있다.
DNN(751)은 입력 데이터를 입력 받고, 분석 및 분류를 위한 연산을 수행하여, 입력 데이터에 대응되는 결과 데이터를 출력하기 위해서 트레이닝(training)될 수 있다.
DNN(751)은 다수의 학습 데이터들로 다양한 전면 학습 이미지와 그에 대응하는 복수개의 후면 학습 이미지를 입력 받고, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 학습될 수 있다.
트레이닝 데이터셋(Training Dataset, 701)은 데이터베이스로, 전면 학습 이미지(702)와 복수개의 후면 학습 이미지(703)를 하나의 세트(set)로 포함하고 있을 수 있다.
DNN(751)은 트레이닝 데이터셋(701)으로부터 전면 학습 이미지(702)를 학습 데이터로 획득할 수 있다.
DNN(751)은 학습 데이터가 입력된 것에 응답하여, 학습 데이터로부터 후면 카메라로 획득된 후면 이미지의 특성을 갖는 전면 학습 이미지를 추론하는 방법을 학습할 수 있다.
전면 학습 이미지(702)는 전면 카메라로 획득되는 이미지의 특성을 갖는 학습 이미지일 수 있다. 예컨대 전면 카메라가 표준 카메라인 경우, 전면 학습 이미지(702)는 전면의 표준 카메라로 획득된 이미지이거나 또는 전면의 표준 카메라의 사양에 맞게 생성된 이미지일 수 있다.
복수개의 후면 학습 이미지(703)는 전면 학습 이미지(702)와 동일 시점에 복수개의 후면 카메라로 촬영되어 생성된 이미지일 수 있다. 또는, 복수개의 후면 학습 이미지(703)는 복수개의 후면 카메라의 사양에 맞게 생성된 이미지일 수 있다. 예컨대, 복수개의 후면 학습 이미지(703)는 복수개의 후면 카메라들 각각의 사양, 예컨대, 광각, 초점거리, 해상도, 다이나믹 레인지, 이미지 quality등과 같은 카메라의 다양한 특성에 따른 이미지 특성을 갖는 이미지일 수 있다.
DNN(751)은 트레이닝 데이터셋(701)으로부터 획득한 전면 학습 이미지(702)를 입력 값으로 하여 입력된 데이터들을 분류 및 분석하여 특징을 추출할 수 있다. DNN(751)은 학습 데이터로부터 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 학습 이미지를 획득하는 방법을 학습할 수 있으며, 학습된 결과에 기초하여 학습 모델로 생성될 수 있다.
DNN(751)은 표준 카메라로 획득된 표준 이미지의 특성을 갖는 전면 학습 이미지(702)를 줌인(zoom in)하고 이를 업스케일링함으로써 전면 학습 이미지(702)로부터 망원 카메라로 획득된 망원 이미지의 특성을 갖는 전면 이미지를 생성하도록 훈련될 수 있다.
DNN(751)은 표준 카메라로 획득된 표준 이미지의 특성을 갖는 전면 학습 이미지(702)로부터 표준 이미지에서는 보이지 않는 부분을 생성해서 광각 카메라로 획득된 광각 이미지의 특성을 갖는 전면 이미지를 생성하도록 훈련될 수 있다. DNN(751)은 전면 학습 이미지(702)의 데이터를 extrapolation하여 외곽에 대한 이미지를 생성하거나 또는 트레이닝 데이터셋(701)으로부터 다양한 지오메트리 구조를 갖는 학습 이미지들을 기반으로 표준 이미지의 외곽에 적절한 이미지를 생성하도록 훈련될 수 있다.
DNN(751)에 의해 생성된 복수개의 전면 학습 이미지(704)는 제1 합성기(753)에 의해 합성될 수 있다. 제1 합성기(753)는 뉴럴 네트워크 모델일 수 있다. 예컨대, 제1 합성기(753)는 인코더-디코더 모델일 수 있으나 이에 한정되는 것은 아니다.
제1 합성기(753)는 복수개의 전면 학습 이미지(704)를 합성하여 전면 초광각 학습 이미지를 생성할 수 있다. 제1 합성기(753)는 복수개의 전면 학습 이미지(704)에서 픽셀 간 최소의 차이점을 갖는 지점을 특징점으로 추출할 수 있다. 제1 합성기(753)는 추출한 특징점들 중 대응되는 특징점들끼리 스티칭함으로써 하나의 전면 초광각 학습 이미지를 생성할 수 있다.
제1 합성기(753)에 의해 생성된 전면 초광각 학습 이미지는 비교기(D, discriminator, 757)를 통해 그라운드 트루쓰 이미지인 전면 초광각 학습 이미지(706)와 비교될 수 있다.
그라운드 트루쓰 이미지는 트레이닝 데이터셋(705)으로부터 획득될 수 있다. 트레이닝 데이터셋(705)은 전면 초광각 학습 이미지(706)와 후면 초광각 학습 이미지(707)를 저장하고 있는 데이터베이스일 수 있다. 트레이닝 데이터셋(705)은 전면 학습 이미지(702)와 복수개의 후면 학습 이미지(703)를 저장하고 있는 트레이닝 데이터셋(701)과 동일한 데이터베이스일 수도 있으나 이에 한정되는 것은 아니고, 별개의 데이터베이스일 수도 있다.
비교기(757)는 제1 합성기(753)가 생성한 전면 초광각 학습 이미지와 트레이닝 데이터셋(705)에서 받은 그라운드 트루쓰 이미지인 전면 초광각 학습 이미지(706)를 비교하여 이미지 간의 차이를 로스(loss)고 구하고, 로스를 다시 제1 합성기(753)로 피드 포워드하여, 제1 합성기(753)를 형성하는 노드들의 가중치가 훈련되도록 할 수 있다. 제1 합성기(753)의 가중치는 로스가 최소가 될 때까지 반복하여 설정될 수 있다.
복수개의 후면 학습 이미지(703)는 제2 합성기(755)에 의해 합성될 수 있다. 제2 합성기(755) 또한 인코더-디코더 모델일 수 있으나 이에 한정되는 것은 아니다.
제2 합성기(755)는 복수개의 후면 학습 이미지(703)에서 특징점들을 검색하고, 이를 정합하여 스티칭함으로써 하나의 후면 초광각 학습 이미지를 생성할 수 있다.
비교기(759)는 트레이닝 데이터셋(705)으로부터 그라운드 트루쓰 이미지인 후면 초광각 학습 이미지(707)를 획득하고, 이를 제2 합성기(755)가 생성한 후면 초광각 학습 이미지와 비교하여 이미지 간의 차이인 로스(loss)를 구할 수 있다. 비교기(759)는 로스를 다시 제2 합성기(755)로 피드 포워드하여, 제2 합성기(755)를 형성하는 노드들의 가중치가 훈련되도록 할 수 있다. 제2 합성기(755)의 가중치는 로스가 최소가 될 때까지 반복하여 설정되어 설정된 가중치 값들에 의해서 형성될 수 있다.
도 8은 실시 예에 따라, 전자 장치(100)가 뉴럴 네트워크(800)를 이용하여 360도 이미지를 획득하는 것을 설명하기 위한 도면이다.
도 8에 도시된 뉴럴 네트워크(800)는 학습이 끝난 뉴럴 네트워크일 수 있다. 학습이 끝난 뉴럴 네트워크(800)는 예컨대 전자 장치(100)나 외부 서버, 및/또는 외부 컴퓨팅 장치에 장착되어, 입력 이미지로부터 복수개의 이미지를 획득하는 데 이용될 수 있다.
도 8은 뉴럴 네트워크(800)가 전자 장치(100)에 장착되어 입력 이미지로부터 복수개의 이미지를 획득하는 것을 설명한다.
뉴럴 네트워크(800)는 전자 장치(100)의 프로세서(101)나 메모리(103)에 포함될 수 있다. 또는, 뉴럴 네트워크(800)는 전자 장치(100) 내부이면서 프로세서(101)나 메모리(103) 외의 위치에 포함될 수 있다.
도 8을 참조하면, 뉴럴 네트워크(800)는 제1 전면 이미지(110)를 입력 데이터로 입력 받을 수 있다. 제1 전면 이미지(110)는 예컨대, 프레임(frame), 씬(scene), GOP(Group Of Picture), 및/또는 동영상일수 있다.
제1 전면 이미지(110)는 전자 장치(100)의 전면 카메라(131)로 전면을 촬영하여 획득한 전면에 대한 촬영 이미지일 수 있다. 제1 전면 이미지(110)는 전면 카메라(131)의 종류에 따라서 달라질 수 있다. 예컨대, 도 8에서, 제1 전면 이미지(110)는 전면 카메라(131)의 종류가 표준 카메라인 경우, 전면 카메라(131)로 획득된 표준 이미지일 수 있다.
뉴럴 네트워크(800)는 전면 카메라(131)로 제1 전면 이미지(110)가 생성됨과 동시에 실시간으로 제1 전면 이미지(110)를 입력 데이터로 입력 받을 수 있다.
또는, 뉴럴 네트워크(800)는 사용자가 이전에 전면 카메라(131)로 촬영하여 획득하고, 메모리(103)에 기 저장되어 있던 제1 전면 이미지(110)를 입력 데이터로 입력 받을 수도 있다. 이 경우, 뉴럴 네트워크(800)는 사용자로부터 360도 이미지를 생성하라는 제어 신호를 수신한 것에 기반하여, 제1 전면 이미지(110)를 입력 데이터로 입력 받을 수 있다.
뉴럴 네트워크(800)는 입력된 이미지에서 특징을 추출하고, 특징들을 기반으로, 새로운 이미지를 생성하는 알고리즘, 또는 알고리즘의 집합, 알고리즘의 집합을 실행하는 소프트웨어 및/또는 알고리집의 집합을 실행하는 하드웨어일 수 있다.
뉴럴 네트워크(800)는 인코더-디코더 모델일 수 있으나, 이에 한정되는 것은 아니다.
뉴럴 네트워크(800)는 입력된 제1 전면 이미지(110)로부터 특징을 추출할 수 있다. 뉴럴 네트워크(800)는 입력된 제1 전면 이미지(110)를 feature vector 인코더에 입력시켜 feature를 추출할 수 있다.
뉴럴 네트워크(800)는 후면 카메라들이 생성하는 후면 이미지의 카메라로 획득되는 후면 이미지 특성을 미리 학습한 학습 모델일 수 있다. 뉴럴 네트워크(800)는 제1 전면 이미지(110)로부터 추출한 특징들과 후면 이미지 특성을 기반으로, 후면 이미지 특성을 갖는 복수개의 제2 전면 이미지(113)를 생성할 수 있다.
제2 전면 이미지(113)의 개수는 후면 카메라(141)의 수에 대응할 수 있다. 예컨대, 후면 카메라(141)가 세 개의 서로 다른 카메라, 즉, 표준 카메라, 광각 카메라, 및 망원 카메라인 경우, 후면 이미지 특성을 갖는 제2 전면 이미지(113) 또한 표준 이미지, 광각 이미지, 및 망원 이미지일 수 있다.
제2 전면 이미지(113) 각각은 서로 다른 이미지 특성을 가질 수 있다. 예컨대, 후면 카메라(141)가 표준 카메라, 광각 카메라, 망원 카메라인 경우, 각각의 후면 카메라로 획득된 표준 이미지, 광각 이미지, 및 망원 이미지는 카메라 렌즈 특성에 따라 예컨대, 해상도, 광각 배율, 조리개, 화각, 픽셀 피치, 다이나믹 레인지, 및/또는 뎁쓰가 서로 다를 수 있다.
예컨대, 화각의 크기는 망원 이미지, 표준 이미지, 광각 이미지, 초광각 이미지 순서대로 점차 커질 수 있다. 또한, 서로 다른 카메라로 획득된 이미지는 해상도가 서로 다를 수 있다. 일반적으로 광각 카메라로 획득된 이미지의 해상도가 초광각 카메라나 망원 카메라로 획득된 이미지의 해상도보다 더 크다. 또한, 카메라 별로 HDR(High Dynamic Range)이 다를 수 있다. HDR은 표현할 수 있는 가장 어두운 정도와 가장 밝은 정도의 차이, 즉, 명암비를 나타내며, HDR의 범위가 클수록 어두운 정도와 밝은 정도의 차이가 큰 이미지를 표현할 수 있다.
뉴럴 네트워크(800)는 복수개의 후면 카메라로 획득되는 후면 이미지의 특성을 기 학습한 모델일 수 있다. 뉴럴 네트워크(800)는 복수개의 후면 카메라들 각각의 카메라 렌즈 특성 및 복수개의 후면 카메라들 간의 지오메트리 관계를 학습해서, 한 장의 전면 이미지로부터, 후면 이미지의 특성을 갖는 전면의 복수개의 이미지를 생성하는 방법을 학습한 모델일 수 있다.
뉴럴 네트워크(800)는 제1 전면 이미지(110)를 입력 받고, 제1 전면 이미지(110)로부터 복수개의 후면 이미지 각각의 특성을 갖는 복수개의 제2 전면 이미지(113)를 생성할 수 있다.
예컨대, 뉴럴 네트워크(800)는 제1 전면 이미지(110)로부터 후면 카메라(141) 중에 광각 카메라로 획득되는 것과 같은, 광각 이미지의 특성을 갖는 이미지를 생성할 수 있다. 뉴럴 네트워크(800)는 광각 카메라의 카메라 렌즈 특성과 복수개의 카메라들 간의 지오메트리 특성을 고려하여 제1 전면 이미지(110)로부터 광각 이미지의 특성을 갖는 이미지를 생성할 수 있다.
뉴럴 네트워크(800)는 제1 전면 이미지(110)의 외곽에 대한 이미지를 생성하여 제1 전면 이미지(110)로부터 광각 이미지의 특성을 갖는 이미지를 생성할 수 있다. 뉴럴 네트워크(800)는 제1 전면 이미지(110)의 데이터를 extrapolation하여 제1 전면 이미지(110)의 외곽에 대한 이미지를 생성할 수 있다. 또는, 뉴럴 네트워크(800)는 전자 장치(100)의 메모리(103)에 기 저장되어 있는 다양한 지오메트리 구조를 갖는 이미지들 또는 전자 장치(100) 외부의 DB(데이터베이스)에 저장되어 있는 다양한 지오메트리 구조를 갖는 학습 이미지들을 미리 학습하고, 학습된 이미지들을 기반으로 제1 전면 이미지(110)의 외곽에 대한 이미지를 생성할 수 있다. 뉴럴 네트워크(800)는 제1 전면 이미지(110)에는 포함되어 있지 않은 외곽 부분을 생성함으로써, 제1 전면 이미지(110)로부터 광각 카메라로 획득된 것과 같은 이미지를 생성할 수 있다.
제1 전면 이미지(110)로부터 생성된 광각 카메라로 획득된 광각 이미지의 특성을 갖는 이미지는 표준 이미지보다 화각의 범위가 더 크고 피사체와의 거리가 더 멀어보이는 이미지일 수 있다. 또한, 제1 전면 이미지(110)로부터 생성된 광각 이미지의 특성을 갖는 이미지는 피사체까지의 거리가 후면에 배치된 뎁쓰 센서, 또는 후면 카메라 중 광각 카메라에 포함된 뎁쓰 센서에 의해 측정된 피사체까지의 거리를 유지하는 이미지일 수 있다.
또한, 제1 전면 이미지(110)로부터 생성된 광각 이미지의 특성을 갖는 이미지는 전면(130)에 위치한 전면 카메라(131)와 후면(140)에 위치한 광각 카메라 간의 서로 다른 위치 차이가 반영된 이미지로, 마치 후면(140)에 위치한 광각 카메라 위치에서 촬영된 것과 같은 뷰(view)를 갖는 이미지일 수 있다.
마찬가지로, 뉴럴 네트워크(800)는 제1 전면 이미지(110)로부터 후면 카메라(141) 중에 망원 카메라로 획득된 것과 같은, 망원 이미지의 특성을 갖는 이미지를 생성할 수 있다. 뉴럴 네트워크(800)는 망원 카메라의 카메라 렌즈 특성 및 복수개의 카메라들 간의 지오메트리 특성을 고려하여 제1 전면 이미지(110)로부터 망원 카메라로 획득된 것과 같은 이미지를 생성할 수 있다.
뉴럴 네트워크(800)는 제1 전면 이미지(110)를 줌인(zoom in)하고 이를 업스케일링함으로써 제1 전면 이미지(110)로부터 망원 카메라로 획득된 것과 같은, 고해상도 이미지를 생성할 수 있다.
제1 전면 이미지(110)로부터 생성된, 망원 카메라로 생성된 망원 이미지의 특성을 갖는 이미지는 표준 이미지보다 피사체가 더 가까워 보이고 피사체의 크기가 확대된 이미지일 수 있다. 또한, 제1 전면 이미지(110)로부터 생성된 망원 이미지의 특성을 갖는 이미지는 피사체까지의 거리가 후면에 배치된 뎁쓰 센서, 또는 후면 카메라 중 망원 카메라에 포함된 뎁쓰 센서에 의해 측정된 피사체까지의 거리를 유지하는 이미지일 수 있다.
또한, 제1 전면 이미지(110)로부터 생성된 망원 이미지는 전면(130)에 위치한 전면 카메라(131)와 후면(140)에 위치한 망원 카메라 간의 서로 다른 위치 차이가 반영된 이미지로, 마치 후면(140)에 위치한 망원 카메라 위치에서 촬영된 것과 같은 뷰를 갖는 이미지일 수 있다.
또한, 뉴럴 네트워크(800)는 제1 전면 이미지(110)로부터 표준 이미지의 특성을 갖는 이미지를 생성할 수 있다. 즉, 뉴럴 네트워크(800)는 후면 카메라(141) 중에 표준 카메라의 카메라 렌즈 특성 및 지오메트리 특성을 갖는 이미지를 생성할 수 있다. 뉴럴 네트워크(800)에 의해 생성된, 표준 이미지의 특성을 갖는 이미지는 입력 데이터로 이용된 표준 이미지인 제1 전면 이미지(110)와는 다른 이미지일 수 있다. 이는, 전면 카메라(131)와 후면에 배치된 표준 카메라가 모두 표준 카메라라고 하더라도, 두 표준 카메라가 예컨대 서로 다른 화소나 해상도, 초점거리, 및/또는 뎁쓰 값과 같이 서로 다른 카메라 특성을 가질 수 있기 때문에 그로 인해 생성된 이미지 또한 서로 다른 이미지 특성을 가질 수 있기 때문이다.
제1 전면 이미지(110)로부터 생성된, 후면의 표준 카메라로 획득된 표준 이미지 특성을 갖는 이미지는 제1 전면 이미지(110)와는 예컨대 화각의 범위 및/또는 해상도가 다른 이미지일 수 있다.
제1 전면 이미지(110)로부터 생성된, 후면의 표준 카메라로 획득된 표준 이미지 특성을 갖는 이미지는 피사체까지의 거리가 후면에 배치된 뎁쓰 센서, 또는 후면 카메라 중 표준 카메라에 포함된 뎁쓰 센서에 의해 측정된 피사체까지의 거리를 유지하는 이미지일 수 있다.
제1 전면 이미지(110)로부터 생성된, 후면의 표준 카메라로 획득된 표준 이미지 특성을 갖는 이미지는 전면(130)에 위치한 전면 카메라(131)와 후면(140)에 위치한 표준 카메라 간의 서로 다른 위치 차이가 반영된 이미지로, 마치 후면(140)에 위치한 표준 카메라 위치에서 촬영된 것과 같은 뷰를 갖는 이미지일 수 있다.
제1 전면 이미지(110)로부터 생성된, 후면 카메라로 획득된 후면 이미지 특성을 갖는 복수개의 제2 전면 이미지(113)들은 복수개의 후면 카메라들 간의 지오메트리 관계를 유지하는 이미지일 수 있다. 즉, 복수개의 제2 전면 이미지(113)들 간의 화각 관계, 이미지에서의 피사체의 크기 관계 및 위치 관계 중 적어도 하나는, 복수개의 후면 카메라들로 획득된 후면 이미지들 간의 화각 관계, 크기 관계 및 위치 관계 중 적어도 하나와 동일할 수 있다.
전자 장치(100)는 제1 합성기(803) 및 제2 합성기(805)를 포함할 수 있다. 제1 합성기(803) 및 제2 합성기(805)는 프로세서(101)나 메모리(103)에 배치되거나 또는 전자 장치(100) 내부이면서 프로세서(101)나 메모리(103) 외의 위치에 배치되어 이용될 수 있다.
제1 합성기(Synthesizer, 803)는 뉴럴 네트워크(800)를 통해 획득된 복수개의 제2 전면 이미지(113)를 합성하여 전면 초광각 이미지(115)를 생성할 수 있다.
제1 합성기(803)는 복수개의 제2 전면 이미지(113)에서 특징점들을 검색할 수 있다. 제1 합성기(803)는 복수개의 제2 전면 이미지(113)에서 픽셀 간 최소의 차이점을 갖는 지점을 특징점으로 추출할 수 있다.
제1 합성기(803)는 특징점들을 보다 쉽게 추출하기 위하여 색상 변환 및/또는 크기 조정 등의 방법을 통해 복수개의 제2 전면 이미지(113) 중에 하나 이상의 이미지를 보정할 수 있다. 제1 합성기(803)는 복수개의 제2 전면 이미지(113) 전체의 모든 데이터들을 비교 분석하여 특징점을 검색할 수도 있고, 또는 복수개의 제2 전면 이미지(113)에서 무작위로 추출한 임의의 데이터 중 오차범위 내의 데이터만을 분석하여 특징점을 검색할 수도 있다.
제1 합성기(803)는 복수개의 제2 전면 이미지(113)에서 추출한 특징점들을 정합할 수 있다. 제1 합성기(803)는 추출된 특징점들 중 대응되는 특징점들끼리 스티칭함으로써 복수개의 제2 전면 이미지(113)를 결합하여 하나의 전면 초광각 이미지(115)를 생성할 수 있다.
제1 합성기(803)는 사용자로부터 기준 신호를 입력 받을 수 있다. 기준 신호는 초광각 이미지 생성 시 기준이 되는 영역을 선택하기 위한 신호일 수 있다. 예컨대, 도 8에서 제1 합성기(803) 및 제2 합성기(805)에 걸쳐 표시된 화살표는 사용자로부터 기준 신호를 입력 받는 것을 표현한다. 제1 합성기(803)는 기준 신호가 입력된 것에 상응하여 기준 신호에 따라 선택된 영역을 기준으로 전면 초광각 이미지(115)를 생성할 수 있다.
제1 합성기(803)에 의해 생성된 전면 초광각 이미지(115)는 한 장의 이미지가 아닌, 복수개의 제2 전면 이미지(113)를 합성하여 획득된 이미지이므로, 충분히 많은 데이터를 가지고 있는 초고해상도 이미지일 수 있다.
제1 합성기(803)에 의해 생성된 전면 초광각 이미지(115)는 180도를 넘는 화각을 갖는 이미지일 수 있다.
제2 합성기(805)는 복수개의 후면 이미지(111)를 합성하여 후면 초광각 이미지(112)를 획득할 수 있다. 전자 장치(100)는 복수개의 후면 카메라(141)를 이용하여 후면을 촬영하여 복수개의 후면 이미지(111)를 획득할 수 있다. 복수개의 후면 이미지(111)는 제1 전면 이미지(110)가 획득된 시점과 동일한 시점에 획득된 이미지일 수 있다.
제2 합성기(805)는 후면 카메라(141)로 후면이 촬영되어 후면 이미지(111)가 생성됨과 동시에 실시간으로 복수개의 후면 이미지(111)를 입력 받을 수 있다. 또는, 제2 합성기(805)는 사용자로부터 360도 이미지를 생성하라는 제어 신호를 수신한 것에 기반하여, 전자 장치(100) 내부의 메모리(103)에 기 저장되어 있던 이미지 중에 제1 전면 이미지(110)와 동일 시점에 후면 카메라(141)로 촬영되어 생성된 복수개의 후면 이미지(111)를 입력 데이터로 입력 받을 수 있다.
제1 합성기(803)와 마찬가지로, 제2 합성기(805)는 복수개의 후면 이미지(111)에서 특징점들을 검색할 수 있다. 제2 합성기(805)는 특징점들을 보다 쉽게 추출하기 위하여 복수개의 후면 이미지(111)의 색상이나 크기 등을 조정할 수도 있다. 제2 합성기(805)는 검색된 특징점들을 정합하여 복수개의 후면 이미지(111)를 결합하여 후면 초광각 이미지(112)를 생성할 수 있다.
제2 합성기(805)는 사용자로부터 기준 신호를 입력 받을 수 있다. 예컨대, 도 8에서 제2 합성기(805)를 통과하는 화살표는 사용자로부터 기준 신호를 입력 받는 것을 표현한다. 제2 합성기(805)는 기준 신호가 입력된 것에 상응하여 기준 신호에 따라 선택된 영역을 기준으로 후면 초광각 이미지(112)를 생성할 수 있다.
제2 합성기(805)에 의해 생성된 후면 초광각 이미지(112)는 한 장의 이미지가 아닌, 복수개의 후면 이미지(111)를 합성하여 획득된 이미지이므로, 충분히 많은 데이터를 가지고 있는 초고해상도 이미지일 수 있다.
제2 합성기(805)에 의해 생성된 후면 초광각 이미지(112)는 180도를 넘는 화각을 갖는 이미지일 수 있다.
제1 합성기(803) 및/또는 제2 합성기(805)는 초광각 이미지를 생성할 때 뉴럴 네트워크 모델을 이용할 수도 있으나, 이에 한정되는 것은 아니다.
전자 장치(100)는 제1 합성기(803) 및 제2 합성기(805)를 이용하여 획득한 전면 초광각 이미지(115) 및 후면 초광각 이미지(112)를 결합하여 360도 이미지(430)을 생성할 수 있다. 전면 초광각 이미지(115) 및 후면 초광각 이미지(112)는 각각 180도를 넘는 화각을 갖는 이미지이므로, 서로 공통되는 영역을 포함할 수 있다.
전자 장치(100)는 전면 초광각 이미지(115) 및 후면 초광각 이미지(112)에서 서로 중첩되는 공통 영역을 검색하고, 공통 영역을 매칭하여 전면 초광각 이미지(115) 및 후면 초광각 이미지(112)를 결합할 수 있다.
전자 장치(100)는 스티칭부(807)를 포함할 수 있다. 스티칭부(807)는 전면 초광각 이미지(115) 및 후면 초광각 이미지(112)를 스티칭(stiching)하여 겹치는 시야각을 가진 분할된 두 이미지를 합성하여, 넓은 화각을 가지는 파노라마 이미지 또는 360도 이미지(430)를 생성할 수 있다.
전면 초광각 이미지(115) 및 후면 초광각 이미지(112)가 결합하여 생성된 360도 이미지(430)는 충분히 많은 데이터를 가지고 있는 초고해상도 이미지일 수 있다. 따라서, 사용자가 360도 이미지(430)를 네비게이션하여 360도 이미지(430)의 일부를 줌인하거나 줌아웃하는 경우에도 화질 열화 없이 사용자가 선택한 영역에 대한 정보를 제공할 수 있다. 즉, 전자 장치(100)는 360도 이미지(430)에 대한 데이터를 충분히 가지고 있으므로, 해당 영역의 데이터 또는 해당 영역 주변 데이터를 인터폴레이션(interpolation)하거나 엑스트라폴레이션(extrapolation)하여, 줌인 영상 또는 줌 아웃 영상을 계속하여 생성하면서 사용자에게 화질 열화 없는 영상을 제공할 수 있다.
도 9는 실시 예에 따라, 전자 장치(100)가 사용자로부터 초광각 이미지를 생성할 기준 영역을 선택 받는 것을 설명하기 위한 도면이다.
도 9를 참조하면, 전자 장치(100)는 전자 장치(100)에 구비된 카메라를 이용하여 피사체를 촬영할 수 있다. 전자 장치(100)는 화면을 통해 전면 카메라(131)를 통해 보이는 전면에 위치한 피사체에 대한 전면 이미지(910)를 출력할 수 있다. 동시에, 전자 장치(100)는 후면 카메라(141)를 통해 보이는 후면에 위치한 피사체에 대한 후면 이미지(920)를 전면 이미지(910)와 함께 출력할 수 있다.
예컨대, 도 9에 도시된 바와 같이, 전자 장치(100)는 전면 카메라(131)의 카메라 렌즈를 통해 보이는 전면 이미지(910)와 후면 카메라(141)의 카메라 렌즈를 통해 보이는 후면 이미지(920)를 하나의 화면을 통해 동시에 출력할 수 있다. 여기서, 전면 이미지(910)와 후면 이미지(920)의 크기나 출력 위치는 다양하게 변형될 수 있다.
전자 장치(100)는 복수개의 후면 카메라(141) 중에 하나의 대표 카메라로 포착되는 후면 이미지(920)를 화면의 중앙에 출력할 수 있다.
전자 장치(100)는 복수개의 후면 카메라(141) 각각의 렌즈를 통해 포착되는 복수개의 후면 이미지(930)를 대표 카메라로 포착되는 후면 이미지(920)와 함께 출력할 수도 있다. 사용자는 복수개의 후면 이미지(930) 중에 하나를 선택할 수 있다. 전자 장치(100)는 사용자가 선택한 후면 이미지가 전자 장치(100)의 화면의 중앙에 출력되도록 할 수 있다.
전자 장치(100)는 사용자로부터 파노라마 이미지 내지는 360도 이미지를 생성하라는 제어 신호를 수신하면, 제어 신호에 상응하여 가이드 UI 화면(940)을 출력할 수 있다.
가이드 UI 화면(940)은 사용자에게 초광각 이미지 생성 시 기준이 되는 영역을 선택하도록 하기 위한 정보를 포함할 수 있다. 예컨대, 도 9에 도시된 바와 같이, 가이드 UI 화면(940)은 '초광각 이미지 생성을 원하는 위치를 선택하세요'와 같은 문구를 포함할 수 있다. 다만, 이는 하나의 실시 예로, 전자 장치(100)는 예컨대 다양한 문구 및/또는 부호를 포함하는 가이드 화면을 출력할 수 있다. 예컨대, 가이드 UI 화면(940)이 출력되는 위치, 색상, 및/또는 투명도는 다양하게 변형될 수 있다.
사용자는 가이드 UI 화면(940)이 전자 장치(100)의 화면을 통해 출력된 것에 상응하여, 기준 신호를 입력할 수 있다.
기준 신호는 초광각 이미지 생성 시 기준이 되는 영역을 선택하기 위한 신호로, 제1 기준 신호 및 제2 기준 신호 중 적어도 하나를 포함할 수 있다. 제1 기준 신호는 전면 이미지(910) 중에 전면 초광각 이미지(115) 생성에 기준이 되는 지점을 선택하기 위한 신호이고, 제2 기준 신호는 후면 이미지(920) 중에 후면 초광각 이미지(112) 생성에 기준이 되는 지점을 선택하기 위한 신호일 수 있다. 초광각 이미지 생성에 기준이 되는 지점은, 예컨대, 초광각 이미지 생성 시 중심이 되는 앵글이나 지점을 의미할 수 있다.
예컨대, 사용자는 현재 화면에 출력된 전면 이미지(910)와 후면 이미지(920) 중에 하나의 이미지에서, 초광각 이미지의 중심이 될 지점을 선택할 수 있다. 전자 장치(100)가 사용자의 손가락 터치를 인식하는 터치 패드를 포함하는 경우, 사용자는 예컨대 손가락, 및/또는 터치 펜을 이용하여 전자 장치(100)의 화면에 출력된 전면 이미지(910) 및 후면 이미지(920) 중의 하나의 이미지에서 한 지점을 선택함으로써 기준 신호를 입력할 수 있다.
전자 장치(100)는 기준 신호가 입력된 것에 상응하여 기준 신호에 따라 선택된 영역을 기준으로 초광각 이미지를 생성할 수 있다. 예컨대, 전자 장치(100)는 사용자가 한 지점을 선택하면, 선택된 지점을 세로로 잇는 선을 기준 신호로 하여, 기준 신호를 중심 선으로 갖는 초광각 이미지를 생성할 수 있다.
예컨대, 사용자가 전면 이미지(910) 중에 한 지점, 예컨대, 제1 영역을 선택하면, 전자 장치(100)는 이를 제1 기준 신호로 입력 받고, 제1 영역을 지나는 세로선을 기준 선으로 갖는 전면 초광각 이미지(115)를 생성할 수 있다. 전자 장치(100)는 제1 영역을 지나는 세로선을 중심 선으로 갖는 전면 초광각 이미지(115)를 생성할 수 있다.
마찬가지로, 전자 장치(100)는 사용자가 후면 이미지(920) 중에 한 지점, 예컨대, 제2 영역을 선택하면, 이를 제2 기준 신호로 입력 받고, 제2 영역을 지나는 세로 선을 기준 선으로 갖는 후면 초광각 이미지(112)를 생성할 수 있다. 전자 장치(100)는 제2 영역을 지나는 세로 선을 중심 선으로 갖는 후면 초광각 이미지(112)를 생성할 수 있다.
도 10은 실시 예에 따른 전자 장치(100)의 내부 블록도를 도시한 도면이다.
도 10에 도시된 전자 장치(100)는 도 3의 전자 장치(100)의 일 예일 수 있다. 따라서, 도 10의 전자 장치(100)에 포함된 프로세서(101) 및 메모리(103)는 도 3의 전자 장치(100)에 포함된 프로세서(101) 및 메모리(103)와 수행하는 기능이 동일하므로, 중복되는 설명은 생략한다.
도 10을 참조하면, 전자 장치(100)는 프로세서(101) 및 메모리(103) 외에 촬영부(105), 뎁쓰 센서(107) 및 사용자 입력부(109)를 더 포함할 수 있다.
촬영부(105)는 카메라를 포함할 수 있다. 촬영부(105)는 전자 장치(100)에 일체형으로 포함될 수 있다. 즉, 촬영부(105)는 전자 장치(100)의 고정된 위치에 장착되어 피사체를 촬영할 수 있다.
촬영부(105)는 카메라를 이용하여 피사체를 촬영하여 영상을 생성하고, 이를 신호 처리 할 수 있다. 촬영부(105)는 CCD 및/또는 CMOS의 이미지 센서(미도시) 및 렌즈(미도시)를 포함하고, 피사체를 촬영하여 화면에 맺힌 이미지를 획득할 수 있다.
촬영부(105)는 피사체를 촬영하여 하나의 프레임 또는 복수 프레임들로 된 동영상을 획득할 수 있다. 촬영부(105)는 이미지 센서에 빛으로 맺힌 피사체에 대한 정보를 전기적인 신호로 변환할 수 있다. 또한, 촬영부(105)는 촬영한 영상에 대해 AE(Auto Exposure), AWB(Auto White Balance), Color recovery, correction, Sharpening, Gamma, Lens shading correction 중 하나 이상의 신호 처리를 수행할 수 있다.
촬영부(105)에는 복수개의 카메라가 포함될 수 있다. 촬영부(105)는 하나 이상의 전면 카메라(131)와 복수개의 후면 카메라(141)를 포함할 수 있다. 전면 카메라(131)는 표준 카메라일 수 있으나, 이에 한정되는 것은 아니고, 전면 카메라(131)는 광각 카메라일 수도 있다.
후면 카메라(141)는 접사 카메라, 표준 카메라, 광각 카메라, 망원 카메라, 뎁쓰 카메라 중 적어도 두 개 이상일 수 있다.
실시 예에 따른 뎁쓰 센서(107)는 피사체를 향해 방사한 빛이 피사체로부터 반사되어 되돌아오는 시간을 이용하여 카메라와 피사체 간의 거리를 계산하고, 피사체가 위치한 공간에 대한 정보 등을 획득할 수 있다. 뎁쓰 센서(107)가 3차원 뎁쓰를 인식하는 방법은 스테레오 타입, ToF(Time-Of-Flight) 방식, Structured Pattern 방식 중 하나의 방식일 수 있다.
도 10에서는 뎁쓰 센서(107)가 촬영부(105)와 분리된 모듈 내지 블록으로 전자 장치(100)에 포함된 경우를 개시하나, 이에 한정되는 것은 아니고, 뎁쓰 센서(107)는 촬영부(105)에 포함될 수 있다. 예컨대, 뎁쓰 센서(107)는 카메라 중에 뎁쓰 기능을 갖는 카메라에 포함되어, 피사체에 대한 이미지가 획득될 때 피사체에 대한 거리를 획득할 수 있다.
사용자 입력부(109)는, 전자 장치(100)를 제어하기 위한 사용자 입력을 수신할 수 있다. 사용자 입력부(109)는 사용자의 터치를 감지하는 터치 패널, 터치 패드(예컨대, 접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 및/또는 피에조 효과 방식), 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 조그 휠, 조그 스위치, 키보드(key board), 키 패드(key pad), 및 돔 스위치 (dome switch), 음성 인식을 위한 마이크, 모션을 센싱하는 모션 감지 센서 등을 포함하는 다양한 형태의 사용자 입력 디바이스를 포함할 수 있으나 이에 제한되지 않는다. 또한, 전자 장치(100)가 원격 제어 장치(remote controller)(미도시)에 의해서 조작되는 경우, 사용자 입력부(109)는 원격 제어 장치로부터 수신되는 제어 신호를 수신할 수도 있다.
사용자 입력부(109)는 사용자로부터 제어 신호를 입력 받을 수 있다. 사용자는 사용자 입력부(109)를 이용하여 파노라마 이미지 내지는 360도 이미지를 생성하라는 제어 신호를 입력할 수 있다. 또한, 사용자는 전자 장치(100)의 화면에 출력된 이미지 중에 한 지점을 선택함으로써 초광각 이미지 생성에 기준이 되는 영역을 선택하는 기준 신호를 입력할 수 있다.
도 11은 실시 예에 따른, 전자 장치(100)의 내부 블록도이다.
도 11의 전자 장치(100)는 도 10의 전자 장치(100)의 구성 요소를 포함할 수 있다.
도 11를 참조하면, 전자 장치(100)는 프로세서(101), 메모리(103), 촬영부(105), 사용자 입력부(109) 외에, 출력부(1120), 센싱부(1130), 통신부(1140), 및 A/V 입력부(1150)를 더 포함할 수 있다.
출력부(1120)는 오디오 신호, 비디오 신호, 및 진동 신호 중 적어도 하나를 출력할 수 있다. 출력부(1120)는 디스플레이부(1121), 음향 출력부(1122), 및 진동 모터(1123)를 포함할 수 있다.
디스플레이부(1121)는 촬영부(105)로부터 획득되어 처리된 이미지를 출력할 수 있다.
디스플레이부(1121)는 전면 카메라(131) 및 후면 카메라(141) 중 적어도 하나를 통해 포착된, 피사체에 대한 이미지를 출력할 수 있다.
디스플레이부(1121)는 사용자에게 초광각 이미지 생성 시 기준이 되는 영역을 선택하도록 하기 위한 정보인, 가이드 UI 화면을 출력할 수 있다.
또는 디스플레이부(1121)는 예컨대 방송국으로부터 수신하거나 외부 서버, 및/또는 외부 저장 매체로부터 수신한 콘텐츠를 화면에 출력할 수도 있다. 콘텐츠는 미디어 신호로, 비디오 신호, 이미지, 및/또는 텍스트 신호를 포함할 수 있다.
전자 장치(100)는 디스플레이부(1121)에 의해 표시될 영상 데이터를 처리하며, 영상 데이터에 대한 디코딩, 렌더링, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 및/또는 해상도 변환 과 같은 다양한 영상 처리 동작을 수행할 수 있다. 디스플레이부(1121)는 전자 장치(100)가 처리한 이미지 데이터를 출력할 수 있다.
음향 출력부(1122)는 통신부(1140)로부터 수신되거나 메모리(103)에 저장된 오디오 데이터를 출력할 수 있다. 또한, 음향 출력부(1122)는 전자 장치(100)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음, 알림음)과 관련된 음향 신호를 출력할 수 있다. 음향 출력부(1122)에는 예컨대, 스피커(speaker), 헤드폰 연결 단자, 및/또는 버저(Buzzer)가 포함될 수 있다.
진동 모터(1123)는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터(1123)는 오디오 데이터 또는 비디오 데이터(예컨대, 호신호 수신음, 및/또는 메시지 수신음)의 출력에 대응하는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1123)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다.
센싱부(1130)는, 전자 장치(100)의 상태 또는 전자 장치(100) 주변의 상태를 감지하고, 감지된 정보를 통신부(1140) 또는 프로세서(101)로 전달할 수 있다.
센싱부(1130)는, 뎁쓰 센서(107)를 포함할 수 있다. 뎁쓰 센서(107)는 피사체까지의 거리를 센싱할 수 있다.
센싱부(1130)는, 뎁쓰 센서(107) 외에, 지자기 센서(Magnetic sensor)(1131), 가속도 센서(Acceleration sensor)(1132), 온/습도 센서(1133), 적외선 센서(1134), 자이로스코프 센서(1135), 위치 센서(예컨대, GPS)(1136), 기압 센서(1137), 근접 센서(1138), 및 조도 센서(1139) 중 적어도 하나를 더 포함할 수 있으나, 이에 한정되는 것은 아니다.
통신부(1140)는, 다른 디바이스와의 통신을 수행하기 위한 구성 요소를 포함할 수 있다. 통신부는 통신 인터페이스(communication interface)로도 호칭될 수 있다. 예를 들어, 통신부(1140)는, 근거리 통신부(1141), 이동 통신부(1142), 및 방송 수신부(1143)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(1141)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
BLE 통신부는 상시, 또는 주기적으로, 또는 랜덤한 시간 간격으로, 또는 기 설정된 시점 마다 BLE 신호를 주변에 송신할 수 있다.
이동 통신부(1142)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1143)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 전자 장치(100)가 방송 수신부(1143)를 포함하지 않을 수도 있다.
실시 예에 따른, A/V(Audio/Video) 입력부(1150)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, A/V 입력부(1150)에는 예컨대 촬영부(105) 및/또는 마이크로폰(1152)이 포함될 수 있다.
촬영부(105)는 카메라를 포함할 수 있다. 카메라는 화상 통화 모드 또는 촬영 모드에서 이미지 센서를 통해 정지 영상 또는 동영상 등의 화상 프레임을 획득할 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(101) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
카메라에서 처리된 화상 프레임은 메모리(103)에 저장되거나 통신부(1140)를 통하여 외부로 전송될 수 있다. 카메라는 단말기의 구성 태양에 따라 전면에 하나 이상 및 후면에 복수개가 구비될 수 있다.
마이크로폰(1152)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(1152)은 외부 디바이스 또는 화자로부터 음향 신호를 수신할 수 있다. 마이크로폰(1152)은 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)를 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.
도 12는 실시 예에 따라, 복수개의 전자 장치를 이용하여 획득한 이미지에 기반하여 360도 이미지를 생성하는 것을 설명하는 도면이다.
복수개의 전자 장치는 카메라를 포함하는 기기로, 예컨대 휴대폰일 수 있다.
복수개의 전자 장치 각각은 전면 및 후면에 카메라가 구비되어 있을 수 있다. 복수개의 전자 장치는 전자 장치의 전면 및 후면에 각각 구비된 카메라를 이용하여, 전자 장치 전면 및 후면을 촬영하여 전면 이미지 및 후면 이미지를 획득할 수 있다.
복수개의 전자 장치는 전면 및 후면에 뎁쓰 센서를 더 포함할 수 있다. 뎁쓰 센서는 카메라에 포함된 형태일 수도 있고, 또는 카메라와 분리된 별개의 센서로 전자 장치에 포함될 수 있다.
복수개의 전자 장치는 서로 다른 방향을 향하도록 배치될 수 있다. 복수개의 전자 장치는 서로 동일하지 않은 방향이나 뷰(view)를 향하도록 배치될 수 있다.
예컨대, 복수개의 전자 장치는 정확히 일정한 각도의 간격으로 전면 및 후면을 향하도록 배치될 수도 있으나, 개시된 실시 예가 이에 한정되는 것은 아니다.
전면 및 후면 이미지를 획득하는 전자 장치는 N개(N은 2 이상의 자연수)일 수 있으며, N개의 전자 장치가 각각 전면 및 후면 이미지를 획득할 수 있다.
도 12를 참조하면, 복수개의 전자 장치는 각각 1번 휴대폰(1211) 및 2번 휴대폰(1213)일 수 있다. 1번 휴대폰(1211) 및 2번 휴대폰(1213)은 동일 시점에 각각 전면 이미지 및 복수개의 후면 이미지를 획득할 수 있다.
1번 휴대폰(1211)의 전면과 2번 휴대폰(1213)의 전면은 90도 간격의 방향을 향하도록 배치될 수 있다. 예컨대, 1번 휴대폰(1211)의 전면이 동쪽을 향하고, 1번 휴대폰(1211)의 후면이 서쪽을 향하도록 배치되고, 2번 휴대폰(1213)의 전면이 남쪽을 향하고, 2번 휴대폰(1213)의 후면이 북쪽을 향하도록 배치될 수 있다.
1번 휴대폰(1211)은 전면 카메라를 이용하여 동쪽 방향에 위치한 피사체에 대한 전면 이미지를 획득하고, 후면 카메라를 이용하여 서쪽 방향에 위치한 피사체에 대한 후면 이미지를 획득할 수 있다. 1번 휴대폰(1211)에 복수개의 후면 카메라가 장착된 경우, 1번 휴대폰(1211)은 복수개의 후면 카메라를 이용하여 서쪽 방향에 위치한 피사체에 대해 복수개의 후면 이미지를 획득할 수 있다.
마찬가지로, 2번 휴대폰(1213)은 전면 카메라를 이용하여 남쪽 방향에 위치한 피사체에 대한 전면 이미지를 획득하고, 후면 카메라를 이용하여 북쪽 방향에 위치한 피사체에 대한 후면 이미지를 획득할 수 있다. 2번 휴대폰(1213)에 복수개의 후면 카메라가 장착된 경우, 2번 휴대폰(1213)은 복수개의 후면 카메라를 이용하여 북쪽 방향에 위치한 피사체에 대해 복수개의 후면 이미지를 획득할 수 있다.
다만, 이는 하나의 실시 예로, 1번 휴대폰(1211)의 전면과 2번 휴대폰(1213)의 전면이 반드시 90도 간격을 유지하도록 배치될 필요는 없으며, 1번 휴대폰(1211)의 전면과 후면, 2번 휴대폰(1213)의 전면과 후면이 각각 서로 다른 방향을 향하도록 배치되면 족하다.
1번 휴대폰(1211) 및 2번 휴대폰(1213)은 동일 시점에 획득한 전면 이미지 및 복수개의 후면 이미지를 통신망(1220)을 통해 서버(1230)로 전송할 수 있다. 또한, 1번 휴대폰(1211) 및 2번 휴대폰(1213)은 동일 시점에 획득한 전면 피사체에 대한 뎁쓰 정보, 및 후면 피사체에 대한 뎁쓰 정보를 통신망(1220)을 통해 서버(1230)로 전송할 수 있다
서버(1230)는 통신망(1220)을 통해 1번 휴대폰(1211) 및 2번 휴대폰(1213)으로부터 각각의 전면 및 후면 이미지, 전면 및 후면 뎁쓰 정보를 수신할 수 있다.
서버(1230)는 뉴럴 네트워크를 포함할 수 있다. 서버(1230)에 포함된 뉴럴 네트워크는 전면 학습 이미지 및 복수개의 후면 학습 이미지로부터 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 훈련된 뉴럴 네트워크일 수 있다.
서버(1230)에 포함된 뉴럴 네트워크는 복수개의 전자 장치 별로, 예컨대, 복수개의 전자 장치 각각의 모델 별로, 각 모델 별 학습 데이터를 이용하여 학습한 뉴럴 네트워크일 수 있다. 즉, 서버(1230)에 포함된 뉴럴 네트워크는 복수개의 전자 장치들의 모델 별 카메라 특성 및 카메라로 획득되는 이미지 특성을 미리 학습한 뉴럴 네트워크일 수 있다.
서버(1230)에 포함된 뉴럴 네트워크는 1번 휴대폰(1211)의 모델 사양에 맞는 전면 학습 이미지 및 복수개의 후면 학습 이미지로부터 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 훈련된 학습 모델일 수 있다. 또한, 서버(1230)에 포함된 뉴럴 네트워크는 2번 휴대폰(1213)의 모델 사양에 맞는 전면 학습 이미지 및 복수개의 후면 학습 이미지로부터 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 훈련된 학습 모델일 수 있다.
서버(1230)는 뉴럴 네트워크를 이용하여, 1번 휴대폰(1211)로부터 전면 이미지 및 복수개의 후면 이미지를 수신한 것에 상응하여, 1번 휴대폰(1211)로부터 수신한 전면 이미지로부터 1번 휴대폰(1211)의 후면에 구비된 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 이미지를 획득할 수 있다.
1번 휴대폰(1211)이 후면 카메라로 광각 카메라 및 망원 카메라를 포함하는, 경우, 서버(1230)는 전면 이미지로부터, 후면 카메라 중 광각 카메라로 획득되는 광각 이미지 특성을 갖는 이미지, 및 망원 카메라로 획득되는 망원 이미지 특성을 갖는 이미지를 각각 획득할 수 있다.
전면 이미지로부터 획득된, 광각 이미지 특성을 갖는 이미지는 전면 이미지보다 화각의 범위가 더 크고 피사체와의 거리가 더 멀어보이는 이미지일 수 있다. 또한, 광각 이미지 특성을 갖는 이미지는 피사체까지의 거리가 후면에 배치된 뎁쓰 센서, 또는 후면 카메라 중 광각 카메라에 포함된 뎁쓰 센서에 의해 측정된 피사체까지의 거리를 유지하는 이미지일 수 있다. 또한, 전면 이미지로부터 생성된 광각 이미지 특성을 갖는 이미지는 전면에 위치한 전면 카메라와 후면에 위치한 광각 카메라 간의 서로 다른 위치 차이가 고려된, 마치 후면에 위치한 광각 카메라 위치에서 촬영된 것과 같은 뷰(view)를 갖는 이미지일 수 있다.
전면 이미지로부터 획득된, 망원 이미지 특성을 갖는 이미지는 전면 이미지보다 화각의 범위가 더 작고 피사체와의 거리가 더 가까워 보이는 이미지일 수 있다. 또한, 망원 이미지 특성을 갖는 이미지는 피사체까지의 거리가 후면에 배치된 뎁쓰 센서, 또는 후면 카메라 중 망원 카메라에 포함된 뎁쓰 센서에 의해 측정된 피사체까지의 거리를 유지하는 이미지일 수 있다. 또한, 전면 이미지로부터 생성된 망원 이미지 특성을 갖는 이미지는 전면에 위치한 전면 카메라와 후면에 위치한 망원 카메라 간의 서로 다른 위치 차이가 고려된, 마치 후면에 위치한 망원 카메라 위치에서 촬영된 것과 같은 뷰(view)를 갖는 이미지일 수 있다.
전면 이미지로부터 생성된 후면 카메라로 획득된 후면 이미지 특성을 갖는 복수개의 이미지는 복수개의 후면 카메라들 간의 지오메트리 관계를 유지하는 이미지일 수 있다. 즉, 전면 이미지로부터 생성된 복수개의 이미지 간의 화각 관계, 이미지에 포함된 피사체의 크기 관계 및 위치 관계 중 적어도 하나는, 복수개의 후면 카메라들로 획득된 이미지들 간의 화각 관계, 이미지에 포함된 피사체의 크기 관계 및 위치 관계 중 적어도 하나와 동일할 수 있다.
서버(1230)는 1번 휴대폰(1211)의 전면 이미지로부터 획득한 후면 카메라로 획득되는 후면 이미지 특성을 갖는 복수개의 전면 이미지를 합성하여 제1 전면 초광각 이미지를 획득할 수 있다.
서버(1230)는 1번 휴대폰(1211)로부터 수신한 복수개의 후면 이미지를 합성하여 제1 후면 초광각 이미지를 획득할 수 있다.
마찬가지로, 서버(1230)는 뉴럴 네트워크를 이용하여, 2번 휴대폰(1213)로부터 수신한 전면 이미지로부터 2번 휴대폰(1213)의 후면에 구비된 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 이미지를 획득할 수 있다.
서버(1230)는 2번 휴대폰(1213)의 전면 이미지로부터 획득한 후면 카메라로 획득되는 후면 이미지 특성을 갖는 복수개의 전면 이미지를 합성하여 제2 전면 초광각 이미지를 획득할 수 있다.
서버(1230)는 2번 휴대폰(1213)로부터 수신한 복수개의 후면 이미지를 합성하여 제2 후면 초광각 이미지를 획득할 수 있다.
서버(1230)는 제1 전면 초광각 이미지, 제2 전면 초광각 이미지, 제1 후면 초광각 이미지, 및 제2 후면 초광각 이미지를 함께 합성할 수 있다.
서버(1230)는 제1 전면 초광각 이미지, 제2 전면 초광각 이미지, 제1 후면 초광각 이미지, 및 제2 후면 초광각 이미지로부터 공통되는 영역의 특징점을 검출하고, 검출된 특징점을 매칭시켜 이미지를 결합함으로써 파노라마 이미지 내지는 360도 이미지를 획득할 수 있다.
이와 같이, 실시 예에 의하면, 서버(1230)는 하나의 카메라를 이용하여 획득한 이미지를 기반으로 360도 이미지를 생성할 수도 있고, 또는 복수개의 카메라를 이용하여 획득한 복수개의 이미지를 기반으로 파노라마 이미지 내지는 360도 이미지를 생성할 수도 있다. 카메라 수가 많아질수록, 카메라를 이용하여 획득한 이미지 또한 많아지므로 고해상도의 높은 품질을 갖는 파노라마 이미지 내지는 360도 이미지가 생성될 수 있다.
도 13은 실시 예에 따라 뉴럴 네트워크가 트레이닝하는 것을 설명한 순서도이다.
도 13을 참조하면, 뉴럴 네트워크는 전면 카메라로 획득한 전면 이미지 및 전면 뎁쓰 센서로 획득한 전면 거리 정보, 복수개의 후면 카메라로 획득한 후면 이미지 및 후면 뎁쓰 센서로 획득한 후면 거리 정보를 학습 데이터로 입력 받을 수 있다.
뉴럴 네트워크는 복수의 후면 학습 이미지로부터 후면 카메라로 획득되는 후면 이미지 특성을 획득하도록 훈련될 수 있다(단계 1310).
보다 구체적으로, 뉴럴 네트워크는 복수개의 후면 학습 이미지를 분석 및 분류하기 위한 연산을 수행하여 후면 학습 이미지의 특징을 획득하도록 훈련될 수 있다.
후면 학습 이미지의 특징은 후면 카메라로 획득되는 후면 이미지 특성일 수 있다.
후면 카메라로 획득되는 후면 이미지 특성은 카메라 렌즈 특성 및 지오메트리 특성 중 적어도 하나를 포함할 수 있다.
카메라 렌즈 특성은 해상도, 광학 배율, 조리개, 화각, 픽셀 피치, 다이나믹 레인지, 및 뎁쓰 중 적어도 하나의 특성을 포함할 수 있다.
뉴럴 네트워크는 복수개의 후면 학습 이미지 각각으로부터 카메라 렌즈 특성을 획득하도록 훈련될 수 있다.
지오메트리 특성은 복수개의 후면 카메라로 획득된 복수개의 후면 이미지 간의 화각 관계, 크기 관계 및 위치 관계 중 적어도 하나에 대한 특성을 포함할 수 있다. 뉴럴 네트워크는 복수개의 후면 학습 이미지 간의 관계로부터 지오메트리 특성을 획득하도록 훈련될 수 있다.
뉴럴 네트워크는 복수개의 학습 이미지를 이용하여 훈련되어, 뉴럴 네트워크를 형성하는 복수개의 노드(node)들 간의 연결 강도를 의미하는 가중치(weight)의 값이 설정되도록 할 수 있다.
뉴럴 네트워크는 후면 카메라로 획득되는 후면 이미지 특성에 기반하여 전면 학습 이미지로부터 후면 이미지 특성을 갖는 복수의 전면 학습 이미지를 획득하도록 훈련될 수 있다(단계 1320).
뉴럴 네트워크는 인코더-디코더 모델일 수 있으나, 이에 한정되는 것은 아니다.
뉴럴 네트워크가 생성한 복수개의 학습 이미지는 비교기(Discriminator)를 통해 GT(Ground Truth, 그라운드 트루쓰) 이미지와 비교될 수 있다. 그라운트 트루쓰 이미지는 전면을 복수개의 후면 카메라로 촬영하여 획득한 이미지일 수 있다.
뉴럴 네트워크는 복수개의 전면 학습 이미지와 GT 이미지 간의 차이가 최소가 되도록 반복하여 훈련될 수 있다(단계 1330).
뉴럴 네트워크의 가중치 값은 반복적인 학습을 통하여 최적화될 수 있으며, 결과의 정확도가 소정의 신뢰도를 만족할 때까지 반복적으로 수정될 수 있다.
도 14는 실시 예에 따라, 360도 이미지를 생성하는 방법을 도시한 순서도이다.
전자 장치(100)는 제1 전면 이미지(110)를 획득할 수 있다.
전자 장치(100)는 전자 장치(100)에 구비된 전면 카메라(131)를 이용하여 전면을 촬영하여 제1 전면 이미지(110)를 획득할 수 있다.
전자 장치(100)는 제1 전면 이미지(110)로부터 후면 카메라로 획득되는 후면 이미지 특성을 갖는 복수개의 제2 전면 이미지(113)를 획득할 수 있다(단계 1410).
후면 카메라로 획득되는 후면 이미지 특성은 전자 장치(100)의 후면에 장착된 복수개의 후면 카메라로 획득되는 후면 이미지 특성일 수 있다.
전자 장치(100)는 뉴럴 네트워크를 이용하여 제1 전면 이미지(110)로부터 복수개의 제2 전면 이미지(113)를 획득할 수 있다.
뉴럴 네트워크는 한 장의 전면 학습 이미지 및 복수개의 후면 학습 이미지로부터 복수개의 후면 카메라로 획득되는 복수개의 후면 이미지 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 훈련된 학습 모델일 수 있다.
뉴럴 네트워크는 전면을 복수개의 후면 카메라로 촬영하여 획득한 복수개의 그라운드 트루쓰 이미지와, 복수개의 전면 학습 이미지 간의 차이가 최소가 되도록 훈련된 학습 모델일 수 있다.
전자 장치(100)는 복수의 제2 전면 이미지(113)를 합성하여 전면 초광각 이미지(115)를 획득할 수 있다(단계 1420).
전자 장치(100)는 복수개의 제2 전면 이미지(113) 간에 특징점을 검출하고, 검출된 특징점을 정합하여 복수개의 제2 전면 이미지(113)를 합성할 수 있다.
전자 장치(100)는 전자 장치(100)에 구비된 복수개의 후면 카메라(141)를 이용하여 후면을 촬영하여 복수개의 후면 이미지(111)를 획득할 수 있다.
전자 장치(100)는 복수개의 후면 이미지(111)를 합성하여 후면 초광각 이미지(112)를 획득할 수 있다(단계 1430).
전자 장치(100)는 전면 초광각 이미지(115) 및 후면 초광각 이미지(112)를 이용하여 360도 이미지를 생성할 수 있다(단계 1440).
전자 장치(100)는 전면 초광각 이미지(115)와 후면 초광각 이미지(112) 간에 특징점을 검출하고, 검출된 특징점을 이용하여 전면 초광각 이미지(115)와 후면 초광각 이미지(112)를 결합할 수 있다.
상술한 전자 장치의 동작 방법 및 장치는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비 휘발성 매체, 분리형 및 비 분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비 휘발성, 분리형 및 비 분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 전술한 본 개시의 실시 예에 따른 전자 장치 및 그 동작 방법은 전면 카메라로 획득한 제1 전면 이미지로부터, 복수개의 제2 전면 이미지를 획득하는 단계, 상기 복수개의 제2 전면 이미지를 합성하여 전면 초광각 이미지를 획득하는 단계, 복수개의 후면 이미지를 합성하여 후면 초광각 이미지를 획득하는 단계 및 상기 전면 초광각 이미지 및 상기 후면 초광각 이미지를 합성하여 360도 이미지를 생성하는 단계를 포함하는, 전자 장치의 동작 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체/저장 매체를 포함하는 컴퓨터 프로그램 제품으로 구현될 수 있다.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

Claims (15)

  1. 전자 장치(100)에 있어서,
    하나 이상의 인스트럭션을 저장하는 메모리(103); 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 하나 이상의 프로세서(101)를 포함하고,
    상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    전면 카메라(131)로 획득한 제1 전면 이미지로부터, 복수개의 제2 전면 이미지를 획득하고,
    상기 복수개의 제2 전면 이미지를 합성하여 전면 초광각 이미지를 획득하고,
    복수개의 후면 이미지를 합성하여 후면 초광각 이미지를 획득하고,
    상기 전면 초광각 이미지 및 상기 후면 초광각 이미지를 합성하여 360도 이미지를 생성하는, 전자 장치.
  2. 제1 항에 있어서, 상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    뉴럴 네트워크를 이용하여, 상기 제1 전면 이미지로부터 상기 복수개의 제2 전면 이미지를 획득하고,
    상기 복수개의 제2 전면 이미지는 복수개의 후면 카메라로 획득되는 후면 이미지의 특성을 갖는 이미지이고, 상기 뉴럴 네트워크는 한 장의 전면 학습 이미지 및 복수개의 후면 학습 이미지로부터, 후면 학습 이미지의 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 훈련된 학습 모델이고, 상기 복수개의 후면 학습 이미지는 복수개의 후면 카메라를 통해 획득된 이미지인, 전자 장치.
  3. 제2 항에 있어서, 상기 뉴럴 네트워크는 전면을 복수개의 후면 카메라로 촬영하여 획득한 복수개의 그라운드 트루쓰 이미지와, 상기 복수개의 전면 학습 이미지 간의 차이가 최소가 되도록 훈련된 학습 모델인, 전자 장치.
  4. 제2 항 또는 제3 항에 있어서, 상기 복수개의 후면 카메라로 획득되는 후면 이미지의 특성은 카메라 렌즈 특성 및 지오메트리 특성 중 적어도 하나를 포함하는, 전자 장치.
  5. 제4 항에 있어서, 상기 카메라 렌즈 특성은 해상도, 광학 배율, 조리개, 화각, 픽셀 피치, 다이나믹 레인지, 및 뎁쓰 중 적어도 하나의 특성을 포함하는, 전자 장치의 동작 방법.
  6. 제4 항에 있어서, 상기 지오메트리 특성은 상기 복수개의 후면 카메라로 획득되는 후면 이미지 간의 화각 관계, 크기 관계 및 위치 관계 중 적어도 하나에 대한 특성을 포함하는, 전자 장치.
  7. 제1 항 내지 제6 항 중 어느 한 항에 있어서, 상기 복수개의 후면 이미지는 표준 이미지, 광각 이미지, 및 망원 이미지 중 적어도 두 개를 포함하는, 전자 장치.
  8. 제1 항 내지 제7 항 중 어느 한 항에 있어서, 사용자 입력부(109)를 더 포함하고,
    상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 사용자 입력부를 통해 제1 기준 신호 및 제2 기준 신호 중 적어도 하나를 입력 받고,
    상기 제1 기준 신호를 입력 받으면, 상기 제1 기준 신호에 따라 선택된 제1 영역을 기준으로 상기 전면 초광각 이미지를 생성하고,
    상기 제2 기준 신호를 입력 받으면, 상기 제2 기준 신호에 따라 선택된 제2 영역을 기준으로 상기 후면 초광각 이미지를 생성하는, 전자 장치.
  9. 제1 항 내지 제8 항 중 어느 한 항에 있어서, 상기 전면 카메라, 및 상기 복수개의 후면 이미지를 획득하는 복수개의 후면 카메라(141)를 포함하는 촬영부(105)를 더 포함하는, 전자 장치.
  10. 제1 항 내지 제8 항 중 어느 한 항에 있어서, 통신부(1140)를 더 포함하고,
    상기 하나 이상의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 통신부를 통해, 제1 사용자 단말기로부터 상기 제1 전면 이미지 및 상기 복수개의 후면 이미지를 수신하고, 상기 제1 사용자 단말기로 상기 360도 이미지를 전송하는, 전자 장치.
  11. 전자 장치의 동작 방법에 있어서,
    전면 카메라로 획득한 제1 전면 이미지로부터, 복수개의 제2 전면 이미지를 획득하는 단계;
    상기 복수개의 제2 전면 이미지를 합성하여 전면 초광각 이미지를 획득하는 단계;
    복수개의 후면 이미지를 합성하여 후면 초광각 이미지를 획득하는 단계; 및
    상기 전면 초광각 이미지 및 상기 후면 초광각 이미지를 합성하여 360도 이미지를 생성하는 단계를 포함하는, 전자 장치의 동작 방법.
  12. 제11 항에 있어서, 상기 복수개의 제2 전면 이미지를 획득하는 단계는 뉴럴 네트워크를 이용하여 상기 제1 전면 이미지로부터 상기 복수개의 제2 전면 이미지를 획득하는 단계를 포함하고,
    상기 복수개의 제2 전면 이미지는 복수개의 후면 카메라로 획득되는 후면 이미지의 특성을 갖는 이미지이고,
    상기 뉴럴 네트워크는 한 장의 전면 학습 이미지 및 복수개의 후면 학습 이미지로부터, 복수개의 후면 카메라로 획득되는 후면 학습 이미지의 특성을 갖는 복수개의 전면 학습 이미지를 생성하도록 훈련된 학습 모델인, 전자 장치의 동작 방법.
  13. 제12 항에 있어서, 상기 뉴럴 네트워크는 전면을 복수개의 후면 카메라로 촬영하여 획득한 복수개의 그라운드 트루쓰 이미지와, 상기 복수개의 전면 학습 이미지 간의 차이가 최소가 되도록 훈련된 학습 모델인, 전자 장치의 동작 방법.
  14. 제12 항 또는 제13 항에 있어서, 상기 복수개의 후면 카메라로 획득되는 후면 이미지의 특성은 카메라 렌즈 특성 및 지오메트리특성 중 적어도 하나를 포함하는, 전자 장치의 동작 방법.
  15. 제11 항 내지 제14 항 중 어느 한 항의 방법을 컴퓨터에 의해 수행할 수 있는 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
PCT/KR2023/012858 2022-09-29 2023-08-30 전자 장치 및 그 동작 방법 WO2024071700A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/372,383 US20240114107A1 (en) 2022-09-29 2023-09-25 Electronic apparatus and method thereof

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220124663 2022-09-29
KR10-2022-0124663 2022-09-29
KR1020220186376A KR20240045052A (ko) 2022-09-29 2022-12-27 전자 장치 및 그 동작 방법
KR10-2022-0186376 2022-12-27

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/372,383 Continuation US20240114107A1 (en) 2022-09-29 2023-09-25 Electronic apparatus and method thereof

Publications (1)

Publication Number Publication Date
WO2024071700A1 true WO2024071700A1 (ko) 2024-04-04

Family

ID=90478464

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/012858 WO2024071700A1 (ko) 2022-09-29 2023-08-30 전자 장치 및 그 동작 방법

Country Status (1)

Country Link
WO (1) WO2024071700A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170052673A (ko) * 2014-09-22 2017-05-12 삼성전자주식회사 3 차원 비디오의 재구성
KR20180060236A (ko) * 2016-11-28 2018-06-07 엘지전자 주식회사 이동 단말기 및 그의 동작 방법
US20200226716A1 (en) * 2019-01-10 2020-07-16 Electronics And Telecommunications Research Institute Network-based image processing apparatus and method
KR20220083830A (ko) * 2020-06-01 2022-06-20 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 이미지 처리 방법 및 이미지 합성 방법, 이미지 처리 장치 및 이미지 합성 장치, 그리고 저장 매체
US20220207679A1 (en) * 2020-12-29 2022-06-30 Foundation For Research And Business, Seoul National University Of Science And Technology Method and apparatus for stitching images

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170052673A (ko) * 2014-09-22 2017-05-12 삼성전자주식회사 3 차원 비디오의 재구성
KR20180060236A (ko) * 2016-11-28 2018-06-07 엘지전자 주식회사 이동 단말기 및 그의 동작 방법
US20200226716A1 (en) * 2019-01-10 2020-07-16 Electronics And Telecommunications Research Institute Network-based image processing apparatus and method
KR20220083830A (ko) * 2020-06-01 2022-06-20 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 이미지 처리 방법 및 이미지 합성 방법, 이미지 처리 장치 및 이미지 합성 장치, 그리고 저장 매체
US20220207679A1 (en) * 2020-12-29 2022-06-30 Foundation For Research And Business, Seoul National University Of Science And Technology Method and apparatus for stitching images

Similar Documents

Publication Publication Date Title
WO2020171550A1 (en) Image processing method and apparatus, electronic device and computer readable storage medium
WO2017090837A1 (en) Digital photographing apparatus and method of operating the same
WO2019216593A1 (en) Method and apparatus for pose processing
WO2019107724A1 (en) Method and system for providing recommendation information related to photography
WO2017039348A1 (en) Image capturing apparatus and operating method thereof
WO2017164716A1 (en) Method and device for processing multimedia information
WO2016013902A1 (en) Image photographing apparatus and image photographing method
WO2019050164A1 (en) APPARATUS AND METHOD FOR PROCESSING IMAGE RECEIVED VIA A PLURALITY OF CAMERAS
WO2019050366A1 (en) APPARATUS AND METHOD FOR PROCESSING IMAGE RECEIVED USING A PLURALITY OF CAMERAS
WO2012086966A2 (ko) 무선통신장치를 이용하여 양질의 홍채 및 피사체 영상을 편리하게 촬영하기 위한 방법 및 한 개의 밴드패스필터로 가시광선과 근적외선 일부영역을 투과시키는 카메라 장치
WO2021107406A1 (en) Electronic device, control method thereof, and system
WO2018217057A1 (ko) 360 비디오 처리 방법 및 그 장치
WO2017111268A1 (ko) 변형 가능한 디스플레이 장치 및 이를 이용한 영상 표시 방법
EP3740936A1 (en) Method and apparatus for pose processing
WO2019135621A1 (ko) 영상 재생 장치 및 그의 제어 방법
WO2019050361A1 (ko) 복수의 카메라를 통해 수신되는 이미지를 처리하기 위한 장치 및 방법
WO2019050200A1 (ko) 이미지를 처리하기 위한 장치 및 방법
WO2019017698A1 (ko) 전자 장치 및 전자 장치에서 하이 다이나믹 레인지 이미지 데이터를 압축하는 방법
WO2019017641A1 (ko) 전자 장치 및 전자 장치의 이미지 압축 방법
WO2022010122A1 (ko) 영상을 제공하는 방법 및 이를 지원하는 전자 장치
WO2017090833A1 (en) Photographing device and method of controlling the same
WO2019050261A1 (ko) 카메라 동작에 기반한 오디오 신호 처리 장치 및 방법
WO2022139262A1 (ko) 관심 객체를 이용하여 비디오를 편집하는 전자 장치 및 그 동작 방법
WO2020017936A1 (ko) 전자 장치 및 이미지의 전송 상태에 기반하여 이미지를 보정하는 방법
WO2018023925A1 (zh) 拍摄方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23872821

Country of ref document: EP

Kind code of ref document: A1