WO2023204548A1 - 이미지를 처리하는 전자 장치 및 그 동작 방법 - Google Patents

이미지를 처리하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
WO2023204548A1
WO2023204548A1 PCT/KR2023/005164 KR2023005164W WO2023204548A1 WO 2023204548 A1 WO2023204548 A1 WO 2023204548A1 KR 2023005164 W KR2023005164 W KR 2023005164W WO 2023204548 A1 WO2023204548 A1 WO 2023204548A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
electronic device
interest
region
camera
Prior art date
Application number
PCT/KR2023/005164
Other languages
English (en)
French (fr)
Inventor
최이삭
김동찬
황진영
변동남
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220133618A external-priority patent/KR20230149705A/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US18/137,266 priority Critical patent/US20230343061A1/en
Publication of WO2023204548A1 publication Critical patent/WO2023204548A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions

Definitions

  • An electronic device and method of operating the same are provided, which apply an algorithm to remove distortion of a region of interest in an image.
  • a method for an electronic device to process an image may be provided.
  • the method includes acquiring a first image of a three-dimensional object including at least one surface using a first camera, wherein the at least one surface may be non-planar.
  • the method may include identifying a region corresponding to the at least one surface as a region of interest by applying the first image to a first AI model.
  • the method may include obtaining data regarding the three-dimensional shape type of the object by applying the first image to a second AI model.
  • the method obtains a set of three-dimensional parameter values associated with at least one of the object, the at least one surface, and the first camera, based on data regarding the area identified as the region of interest and the three-dimensional shape type. It may include steps.
  • the method may include estimating a non-planar shape of the at least one surface based on the three-dimensional parameter values.
  • the method may include obtaining a flat surface image in which the non-planar shape of the at least one surface is flattened by performing a perspective transformation on the at least one surface.
  • an electronic device that processes images may be provided.
  • the electronic device may include a first camera, a memory that stores one or more instructions, and at least one processor that executes the one or more instructions stored in the memory.
  • the at least one processor by executing the one or more instructions, acquires a first image of a three-dimensional object including at least one surface using a first camera, wherein the at least one surface has a non-planar shape. It may be.
  • the at least one processor may identify an area corresponding to the at least one surface as a region of interest by executing the one or more instructions and applying the first image to a first AI model.
  • the at least one processor may acquire data about the three-dimensional shape type of the object by executing the one or more instructions and applying the first image to a second AI model.
  • the at least one processor by executing the one or more instructions, selects the object, the at least one surface, and the first camera based on data regarding a region identified as the region of interest and a three-dimensional shape type of the object.
  • a set of 3D parameter values related to at least one of the parameters may be obtained.
  • the at least one processor may estimate a non-planar shape of the at least one surface based on the set of 3D parameter values by executing the one or more instructions.
  • the at least one processor by executing the one or more instructions, performs a perspective transformation on the at least one surface, thereby forming a flat surface in which the non-planar shape of the at least one surface is flattened. Images can be obtained.
  • a method for an electronic device to process an image may be provided.
  • the method may include acquiring a partial image of the object, including a surface of the object, using a first camera.
  • the method may include identifying a region corresponding to the surface of the object as a region of interest by applying a partial image of the object to a first AI model.
  • the method may include acquiring an entire image of the object using a second camera that has a wider angle of view than the first camera.
  • the method may include identifying the three-dimensional shape type of the object by applying the entire image of the object to a second AI model.
  • the method may include obtaining a set of 3D parameter values corresponding to a 3D shape type of the object.
  • the method includes obtaining a flat surface image in which the curved shape of the surface is flattened by performing a perspective transformation of the surface based on the information about the region of interest and the set of three-dimensional parameter values. may include.
  • the method may include obtaining information related to the object from the flat surface image.
  • an electronic device that processes images may be provided.
  • the electronic device may include a first camera, a second camera, a memory that stores one or more instructions, and at least one processor that executes the one or more instructions stored in the memory.
  • the at least one processor may acquire a partial image of the object including the surface of the object using the first camera by executing the one or more instructions.
  • the at least one processor may identify an area corresponding to the surface of the object as a region of interest by executing the one or more instructions and applying a partial image of the object to a first AI model. By executing the one or more instructions, the at least one processor may obtain an entire image of the object using the second camera, which has a wider field of view than the first camera.
  • the at least one processor may identify the three-dimensional shape type of the object by executing the one or more instructions and applying the entire image of the object to a second AI model.
  • the at least one processor may obtain a set of 3D parameter values corresponding to the 3D shape type of the object by executing the one or more instructions.
  • the at least one processor by executing the one or more instructions, performs a perspective transformation of the surface based on the information about the region of interest and the set of three-dimensional parameter values, thereby forming a curved shape of the surface. An image of this flattened flat surface can be acquired.
  • the at least one processor may obtain information related to the object from the flat surface image by executing the one or more instructions.
  • an electronic device may provide a computer-readable recording medium on which a program for executing any one of the above and below-described methods of processing an image to remove distortion is recorded.
  • FIG. 1 is a diagram illustrating an example in which an electronic device removes distortion of an image according to an embodiment of the present disclosure.
  • FIG. 2 is a flowchart illustrating a method of processing an image by an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram for generally explaining an image processing operation by an electronic device according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram illustrating an operation of an electronic device identifying the three-dimensional shape of an object according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating an operation of an electronic device identifying a region of interest on the surface of an object according to an embodiment of the present disclosure.
  • FIG. 6A is a diagram illustrating an operation of an electronic device acquiring 3D information of an object according to an embodiment of the present disclosure.
  • FIG. 6B is a diagram illustrating an operation of an electronic device removing distortion of a region of interest based on 3D information of an object according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram illustrating an operation of extracting information within a region of interest by an electronic device according to an embodiment of the present disclosure.
  • FIG. 8A is a diagram illustrating a first example in which an electronic device acquires 3D information and obtains an image without distortion, according to an embodiment of the present disclosure.
  • FIG. 8B is a diagram illustrating a second example in which an electronic device acquires 3D information and obtains an image without distortion, according to an embodiment of the present disclosure.
  • FIG. 8C is a diagram illustrating a third example in which an electronic device acquires 3D information and obtains an image without distortion, according to an embodiment of the present disclosure.
  • FIG. 9A is a diagram illustrating a first example in which an electronic device extracts information from an image without distortion, according to an embodiment of the present disclosure.
  • FIG. 9B is a diagram for explaining a second example in which an electronic device extracts information from an image without distortion, according to an embodiment of the present disclosure.
  • FIG. 10A is a diagram illustrating an operation of training an object 3D shape identification model by an electronic device according to an embodiment of the present disclosure.
  • FIG. 10B is a diagram illustrating another operation in which an electronic device trains an object 3D shape identification model according to an embodiment of the present disclosure.
  • FIG. 10C is a diagram illustrating an example in which an electronic device identifies the three-dimensional shape of an object according to an embodiment of the present disclosure.
  • FIG. 10D is a diagram illustrating an example in which an electronic device identifies the three-dimensional shape of an object according to an embodiment of the present disclosure.
  • FIG. 11 is a diagram illustrating an operation of an electronic device training a region-of-interest identification model according to an embodiment of the present disclosure.
  • FIG. 12 is a diagram illustrating an operation of an electronic device training a distortion removal model according to an embodiment of the present disclosure.
  • FIG. 13 is a diagram for explaining a multi-camera included in an electronic device according to an embodiment of the present disclosure.
  • FIG. 14A is a flowchart illustrating an operation in which an electronic device uses a multi-camera according to an embodiment of the present disclosure.
  • FIG. 14B is a diagram for further supplementary explanation of FIG. 14A.
  • FIG. 15A is a flowchart illustrating an operation in which an electronic device uses a multi-camera according to an embodiment of the present disclosure.
  • FIG. 15B is a diagram for further supplementary explanation of FIG. 15A.
  • FIG. 16A is a flowchart illustrating an operation in which an electronic device uses a multi-camera according to an embodiment of the present disclosure.
  • FIG. 16B is a diagram for further supplementary explanation of FIG. 16A.
  • FIG. 16C is a diagram for further supplementary explanation of FIG. 16A.
  • FIG. 17 is a diagram illustrating an operation in which an electronic device processes an image and provides extracted information according to an embodiment of the present disclosure.
  • FIG. 18 is a diagram for explaining an example of a system related to an image processing operation by an electronic device according to an embodiment of the present disclosure.
  • FIG. 19 is a diagram illustrating an example of a system related to an operation in which an electronic device processes an image using a server according to an embodiment of the present disclosure.
  • Figure 20 is a block diagram showing the configuration of an electronic device according to an embodiment of the present disclosure.
  • Figure 21 is a block diagram showing the configuration of a server according to an embodiment of the present disclosure.
  • the expression “at least one of a, b, or c” refers to “a”, “b”, “c”, “a and b”, “a and c”, “b and c”, “a, b and c”, or variations thereof.
  • FIG. 1 is a diagram illustrating an example in which an electronic device removes distortion of an image according to an embodiment of the present disclosure.
  • an electronic device 2000 may be a device including a camera and a display.
  • the electronic device 2000 may be a device that captures images (still images and/or videos) through a camera and outputs the images through a display.
  • the electronic device 2000 may include, but is not limited to, a smart TV, smart phone, tablet PC, laptop PC, etc.
  • the electronic device 2000 may be implemented as various types and types of electronic devices including cameras and displays. Additionally, the electronic device 2000 may include a speaker for outputting audio.
  • a user of the electronic device 2000 may photograph the object 100 using the camera of the electronic device 2000.
  • the electronic device 2000 may acquire an image 110 including at least a portion of the object 100.
  • a surface area of the object 100 eg, a label area attached to the surface of the object 100
  • the electronic device 2000 may extract information related to the object 100 from the region of interest 120 of the object 100.
  • a label is made of paper, stickers, cloth, etc. and attached to the product, and the label may have the product's trademark or product name printed on it.
  • the surface of a product may contain various information related to the product, such as product ingredients, usage instructions, usage amount, handling precautions, product price, volume, capacity, etc.
  • a surface is only one example of an area on the surface of object 100.
  • text, images, logos, and other text/visual elements may be printed, imprinted, or engraved on the surface of object 100 without using labels.
  • embodiments of the present disclosure may be applied to any text, images, logos, and other textual/visual elements on the surface of object 100.
  • the electronic device 2000 identifies an area corresponding to at least one surface (e.g., a label) included in the object 100 as the region of interest 120, and identifies the area corresponding to at least one surface (e.g., a label) included in the object 100 as the region of interest 120.
  • Information related to the object 100 can be obtained from the area corresponding to the label.
  • the shape of the surface (eg, label) of the object 100 may be distorted within the two-dimensional image 110. Accordingly, the accuracy of information (eg, logo, icon, text, etc.) obtained by the electronic device 200 from the surface (eg, label) of the object 100 may be reduced.
  • the electronic device 2000 distorts the image 110 of the object 100 in order to extract accurate information from the region of interest 120 (e.g., at least one surface, label).
  • An image 130 that is not present can be obtained.
  • the distortion-free image 130 refers to an image in which distortion of the region of interest 120 of the object 100 is reduced and/or removed.
  • the distortion-free image 130 may be a flat image in which curvature distortion of a surface (eg, label) region is reduced or eliminated.
  • distortion-free image 130 may also be referred to as a flat surface (eg, label) image.
  • the electronic device 2000 may estimate three-dimensional information of the object 100 in order to generate the image 130 without distortion.
  • the electronic device 2000 obtains an image 130 without distortion by converting the region of interest 120 into a plane based on three-dimensional information of the object 100.
  • the 3D information of the object 100 may include 3D parameters related to the 3D shape of the object 100 or 3D parameters related to a camera that photographs the object. Additionally, the three-dimensional shape may include, but is not limited to, a sphere, cube, cylinder, etc.
  • 3D parameters refer to elements representing geometric characteristics related to the 3D shape of the object 100.
  • 3D parameters include, for example, height and radius information (or horizontal and vertical information) of the object 100, translation and rotation for 3D geometric transformation in the 3D space of the object 100. ) information, focal length information of the camera of the electronic device 2000 that photographed the object 100, etc., but is not limited thereto.
  • a 3D parameter is a variable, and as the value of one of the 3D parameters changes, the 3D shape may also change.
  • 3D parameter elements can be gathered to form a 3D parameter set. Information that can represent the 3D shape of the object 100, which is determined according to these 3D parameter sets, is referred to as '3D information' in the present disclosure.
  • '3D information of the object 100' refers to a set of 3D parameter values (e.g., horizontal value, vertical value) for representing the 3D shape of the object 100 included in the image 110. , height value, radius value, etc.).
  • the 3D information of the object 100 does not necessarily need to be composed of 3D parameters representing the absolute width, length, height, radius, etc. of the object 100, but relative values representing the 3D ratio of the object 100. It can be composed of three-dimensional parameters representing values. That is, if there is 3D information about the object 100, the electronic device 2000 can render the object 100 with a 3D shape having the same ratio as the object 100.
  • the electronic device 2000 may select a region of interest 120 from the image 110 including at least a portion of the object 100 in order to perform an image processing operation to remove distortion of the region of interest 120. Identify, identify the three-dimensional shape type of the object 100, and based on the region of interest 120 of the object 100 and the three-dimensional shape type of the object 100, three-dimensional information of the object 100 It can be estimated. And the electronic device 2000 can generate an image 130 without distortion based on 3D information of the object 100.
  • the electronic device 2000 extracts object information 140 from the undistorted image 130 and object information 140 extracted from the undistorted image 130 and/or the undistorted image 130. ) can also be provided to the user.
  • FIG. 2 is a flowchart illustrating a method of processing an image by an electronic device according to an embodiment of the present disclosure.
  • the electronic device 2000 acquires a first image of an object including at least one surface (eg, a label) using a first camera.
  • the electronic device 2000 may activate the first camera through user manipulation. For example, a user may activate the camera of the electronic device 2000 to photograph an object in order to obtain information about the object. Users can activate the camera by touching the hardware button or icon to launch the camera, or through voice commands (e.g., Hi Bixby turn on camera, Hi Bixby take a picture and show surface (e.g. label) information). You can also activate the camera.
  • the first camera may be one of a telephoto camera, a wide-angle camera, and an ultra-wide-angle camera
  • the first image may be one of an image captured with a telephoto camera, an image captured with a wide-angle camera, and an image captured with an ultra-wide-angle camera. It can be.
  • the electronic device 2000 may include one or more cameras.
  • the electronic device 2000 may include a multi-camera consisting of a first camera, a second camera, etc.
  • the specifications of each camera may be different.
  • the plurality of cameras may include a telephoto camera, a wide-angle camera, an ultra-wide-angle camera, etc., having different focal lengths and angles of view.
  • the type of camera included in the electronic device 2000 is not limited to the above-described examples.
  • the first image may be a composite image of images acquired through a plurality of cameras.
  • the first image may be a captured and stored preview image displayed on the screen of the electronic device 2000, may have already been captured and stored in the electronic device 2000, or may be an image acquired from outside the electronic device 2000. It can be.
  • the first image may be an image of a portion of an object including at least one surface (eg, a label), or may be an image of the entire object. Meanwhile, according to one embodiment, the first image may be a panoramic image continuously captured by the first camera.
  • the electronic device 2000 applies the first image to the first AI model to select an area corresponding to at least one surface (e.g., a label) in the first image as a region of interest. identify. For example, when the first image is acquired through the first camera, the electronic device 2000 may apply the first image to the first AI model. At this time, the first AI model may infer the region of interest within the first image and output data related to the region of interest. Meanwhile, in the present disclosure, applying the first image to the first AI model may include not only applying the first image itself to the first AI model, but also preprocessing the first image and applying it to the first AI model. It may be possible.
  • the electronic device 2000 may input a cropped image from a portion of the first image, a resized image from the first image, or an image from a portion of the first image and resize to the first AI model. It can also be applied.
  • the first AI model may be referred to as a region of interest identification model.
  • the region of interest identification model may be an artificial intelligence model trained to receive an image as input and output data related to the region of interest of an object in the image.
  • a region of interest identification model may be an artificial intelligence model trained to infer that a region corresponding to a surface (e.g., a label) within an image is a region of interest.
  • the electronic device 2000 may identify a region of interest (eg, a label attached to a product, etc.) on the surface of an object using a region of interest identification model.
  • the electronic device 2000 may identify keypoints (also referred to as first keypoints in the present disclosure) representing a region of interest of an object using a region of interest identification model.
  • the first AI model may output information about key points (or coordinate values) representing the edge of at least one surface (eg, label) within the first image. The operation of the first AI model to estimate the region of interest within the first image will be examined in more detail with reference to FIG. 5.
  • the surface (eg, label) area is explained as an example of the area of interest of an object, but the area of interest is not limited to this.
  • Other areas containing information to be extracted from an object may also be set as areas of interest by the electronic device 2000, and embodiments of the present disclosure may be applied in the same/similar manner.
  • the electronic device 2000 obtains data about the three-dimensional shape type of the object by applying the first image to the second AI model. For example, when a first image is acquired through a first camera, the electronic device 2000 may apply the first image to the second AI model. At this time, the second AI model may infer the 3D shape type of the object included in the first image and output data related to the 3D shape type of the object.
  • the second AI model may be referred to as an object 3D shape identification model.
  • the object 3D shape identification model may be an artificial intelligence model trained to receive an image as input and output data related to the 3D shape type of the object in the image.
  • an object 3D shape identification model may be an artificial intelligence model trained to infer the 3D shape type of an object in an image.
  • the electronic device 2000 may identify the 3D shape type (e.g., sphere, cube, cylinder, etc.) of the object included in the first image using a 3D object shape identification model. .
  • the operation of the electronic device 2000 to identify the 3D shape type of an object using a 3D object shape identification model will be discussed later with reference to FIG. 4 .
  • the region of interest attached to the surface of the three-dimensional object in the two-dimensional image is distorted, making it difficult to identify the information (e.g., logo, icon, text, etc.) within the region of interest. Accuracy may decrease.
  • the object is a cylinder-type product
  • the label of the product that sticks to the surface of the cylinder is attached to the curved surface of the object, so the label of the product that is the area of interest in the image taken of the cylinder-type product is distorted. there is.
  • the electronic device 2000 may use data regarding the 3D shape type of the identified object to identify the 3D shape of the object and remove distortion of the area of interest.
  • a cylinder-type product is only an example of an object.
  • an object can be any product or material with a non-planar surface. Accordingly, curved surfaces are only one example of non-planar surfaces discussed in this disclosure.
  • Step S230 of obtaining data about the 3D shape type of the object included in the first image by applying it to the second model may be performed in parallel.
  • the electronic device 2000 may input the first image into the first AI model and the second AI model, respectively.
  • the first AI model infers the area corresponding to at least one surface (e.g., label) in the first image as the area of interest
  • the second AI model infers the three-dimensional object included in the first image.
  • the operation of inferring the shape type may be performed in parallel.
  • step S220 or step S230 may be performed first.
  • the electronic device 2000 may first input the first image into the first AI model, check the result of the first AI model inferring the region of interest, and then input the first image into the second AI model.
  • the electronic device 2000 first inputs the first image into the second AI model, confirms the result of the second AI model inferring the three-dimensional shape type of the object included in the first image, and then inputs the first image to the second AI model. 1 It can also be input into the AI model.
  • step S240 the electronic device 2000 according to an embodiment determines the object based on data about the three-dimensional shape type of the object and the area corresponding to at least one surface (e.g., label) identified as the region of interest. , obtain a set of three-dimensional parameter values associated with at least one of at least one surface (e.g., label) and the first camera.
  • elements of the 3D parameters may include width, length, height, radius information, etc. related to the 3D shape of the object.
  • elements of 3D parameters may include translation and rotation information for 3D geometric transformation of the object in 3D space.
  • Movement and rotation information may be information indicating from what position and at what angle the camera of the electronic device 2000 viewed and photographed an object.
  • elements of the 3D parameters may include focal length information of the camera of the electronic device 2000 that photographs the object.
  • the 3D parameters are not limited to the above-described examples, and may further include other information for the electronic device 2000 to identify 3D geometric features of the object and remove distortion of the region of interest.
  • the three-dimensional parameters are determined to correspond to the three-dimensional shape of the object. That is, for each 3D shape type (hereinafter referred to as 3D shape type), the corresponding 3D parameter elements may be different.
  • the 3D parameter corresponding to the cylinder type may include the radius, but if the 3D shape is a cube type, the 3D parameter for the cube type may not include the radius. You can.
  • the 3D parameters corresponding to the 3D shape type of the object obtained in step S230 may be set to initial values used to obtain accurate 3D information of the object.
  • the electronic device 2000 may acquire 3D parameters representing 3D information of the object by finely adjusting parameter values so that 3D parameters with initial values represent 3D information of the object.
  • the elements of the three-dimensional parameters include the object's width, length, height, and radius information, the object's movement in three-dimensional space, and It may include rotation information and focal length information of the camera of the electronic device 2000 that photographs the object, but is not limited thereto.
  • the elements of the 3D parameter corresponding to the cuboid type may be different from the elements of the 3D parameter corresponding to the cylinder type.
  • the electronic device 2000 may acquire three-dimensional information indicating the curved shape of at least one label.
  • the electronic device 2000 can fine-tune the initial value of the 3D parameter to approximate or match the correct value of the 3D parameter of the object, so that the final value of the adjusted 3D parameter represents the 3D information of the object. .
  • the electronic device 2000 determines that the width, length, height, and radius of the 3D parameter values are the width, height, and radius of the object. It can be adjusted to represent a relative ratio of height or an absolute value.
  • the electronic device 2000 may adjust movement and rotation values among the 3D parameter values to be values representing the degree of movement and rotation of the object in 3D space. Additionally, the electronic device 2000 may adjust the focal length value among the 3D parameter values to be a value representing the focal distance of the camera of the electronic device 2000 that photographed the object.
  • the electronic device 2000 may set an arbitrary virtual object to estimate 3D information of the object.
  • the virtual object has the same shape type as the 3D shape type of the object identified in step S230 and may be an object that can be rendered using 3D parameters with initial parameter values.
  • the electronic device 2000 can project a 3D virtual object into 2D and set keypoints (also referred to as second keypoints in the present disclosure) of the 3D virtual object.
  • the electronic device 2000 may finely adjust 3D parameter values so that the keypoints of the virtual object match the keypoints (first keypoints) of the object obtained in step S220. As the fine-tuning operation of the 3D parameters is repeatedly performed, the final values of the 3D parameters are determined, and when the final values of the 3D parameters represent the 3D information of the object, the second key points obtained from the virtual object are used to determine the final values of the 3D parameters. Matched to the first key points.
  • the operation of the electronic device 2000 changing the values of 3D parameters to display 3D information of an object through a fine adjustment operation is further described in the description of FIG. 6A.
  • step S240 refers to acquiring the final value of the 3D parameter obtained through the above-described adjustment operation.
  • step S250 the electronic device 2000 according to an embodiment estimates the non-planar shape of at least one surface (eg, a label) based on 3D parameter values.
  • the 3D parameters whose values have been adjusted through the above-described steps include the 3D information of the object in the image (e.g., the width, height, height, radius of the object, degree of curvature (angle) of the label attached to the surface of the object, or Indicates the degree of curvature (angle) of the surface, etc.).
  • the electronic device 2000 may use 3D parameters to generate a 2D mesh representing a surface (eg, label), which is a region of interest on the surface of an object.
  • the two-dimensional mesh data is the result of projecting the coordinates of a surface (e.g., a label) in a three-dimensional space into two dimensions using three-dimensional parameter values, and is the result of projecting the coordinates of a surface (e.g., a label) in a three-dimensional space into two dimensions using three-dimensional parameter values. ) may mean distorted information.
  • step S260 the electronic device 2000 according to one embodiment performs a perspective transformation on at least one surface (e.g., a label) to determine a non-planar shape (e.g., a label) of the surface (e.g., a label). , curved shape) is flattened, and an image of a flat surface (e.g., label) is acquired.
  • a perspective transformation on at least one surface e.g., a label
  • a non-planar shape e.g., a label
  • curved shape is flattened, and an image of a flat surface (e.g., label) is acquired.
  • the electronic device 2000 may transform a non-planar shape (eg, curved shape) of a surface (eg, label) into a flat shape using perspective transform.
  • An image of a flat converted surface e.g., a label
  • an image without distortion, or a flat surface may be referred to as an image.
  • a distortion removal model may be used in the operations of steps S240 to S260.
  • the distortion removal model may be an artificial intelligence model trained to output a distortion-free image by receiving information on the area of interest within the object and 3D parameter values related to the object.
  • Region of interest information may include an image of the region of interest and coordinates of key points of the region of interest.
  • the distortion removal model can receive an image containing a label attached to the surface of a three-dimensional object including a curved surface and photographed while it is curved, and obtain a flat label image with the label flat.
  • the electronic device 2000 may obtain information related to an object from a flat surface (eg, label) image.
  • the electronic device 2000 may identify logos, icons, texts, etc. within the area of interest using an information detection model for extracting information within the area of interest.
  • the information detection model may be stored in the memory of the electronic device 2000 or on an external server.
  • the electronic device 2000 infers the 3D information of the object in the image and performs precise perspective transformation using the inferred 3D information of the object to remove distortion of the area of interest, thereby improving accuracy.
  • Information within the area of interest can be extracted.
  • the operation of the electronic device 2000 to obtain information related to an object from a flat surface (eg, label) image using an information detection model will be discussed in more detail later with reference to FIG. 7 .
  • the electronic device 2000 uses a first AI model (region of interest identification model) and a second AI model (object three-dimensional shape identification model) to generate a first image containing geometric distortion. Let's take a closer look at the operation of acquiring a flat surface (e.g., label) image from which distortion has been removed.
  • a first AI model region of interest identification model
  • a second AI model object three-dimensional shape identification model
  • FIG. 3 is a diagram for generally explaining an image processing operation by an electronic device according to an embodiment of the present disclosure.
  • the electronic device 2000 may acquire an image of the object 300 and an object image 304 .
  • Object 300 may include at least one label.
  • the electronic device 2000 may acquire an image of the object 300 by capturing the object 300 through a user's camera control.
  • the electronic device 2000 may receive an already captured image of the object 300 from another electronic device (eg, a server, another user's electronic device, etc.).
  • the electronic device 2000 may identify the region of interest 312 using the region of interest identification model 310.
  • the region of interest identification model 310 may be an artificial intelligence model trained to receive an image as input and output data related to the region of interest 312 of the object 300 in the image.
  • Data related to the area of interest 312 may be, for example, key points of the area of interest 312 and/or their coordinates, but are not limited thereto.
  • data related to the region of interest 312 is referred to as the region of interest 312 for convenience of description.
  • the region of interest 312 is a label attached to the surface of the object 300, but the type of region of interest 312 is not limited thereto.
  • the electronic device 2000 may use the object image 304 as input data for the region of interest identification model 310. Additionally, the electronic device 2000 may apply a pre-processing algorithm to the object image 304 to process it to be more suitable for identifying the region of interest 312. For example, the electronic device 2000 may use the cropped object image 302, obtained by cutting and resizing a portion of the object image 304, as input data for the region of interest identification model 310. In this case, the area cut out from the object image 304 may be an area other than the area of interest. Additionally, the cut object image 302 may include at least a portion of the object 300 and a region of interest 312 of the object 300.
  • the electronic device 2000 may identify the 3D shape type 322 of the object using the object 3D shape identification model 320.
  • the object 3D shape identification model 320 may be an artificial intelligence model trained to receive an image as input and output data about the 3D shape type 322 of the object 300 in the image.
  • the three-dimensional shape type 322 is exemplarily shown as a cylinder, but is not limited thereto.
  • the 3D shape type 322 may be a sphere, a cube, etc.
  • data related to the three-dimensional shape type 322 is referred to as three-dimensional shape type 322 for convenience of description.
  • the electronic device 2000 may obtain initial values of the 3D parameter 324 based on the 3D shape type 322.
  • the 3D parameter 324 can be determined based on the 3D shape type 322. For example, if the 3D shape type 322 is a cylinder type, the elements of the 3D parameter 324 corresponding to the cylinder type include height, radius, angle of the region of interest on the object surface, movement coordinates in 3D space, and It may include at least one of the image coordinates and the focal length of the camera.
  • the electronic device 2000 may acquire a distortion-free image 332 using the distortion removal model 330.
  • the distortion removal model 330 receives the region of interest 312, 3D parameters 324, and object image 304 (or cropped object image 302) and is trained to output a distortion-free image 332. It may be an artificial intelligence model.
  • the distortion-free image 332 may be a flat label image in which the distortion of the label attached to the surface of the bottle has been removed.
  • the distortion-free image 332 is not limited to a flat label image.
  • the distortion-free image 332 may include all types of images that can be obtained depending on the type of the region of interest 312 and the three-dimensional shape type 322.
  • the distortion removal model 330 may tune the initial values of the 3D parameters 324 so that the final values of the 3D parameters 324 represent 3D information of the object 300. For example, by the distortion removal model 330, relative or absolute values such as the width, height, height, radius of the object 300, and the degree of curvature (angle) of the label attached to the surface of the object 300 are obtained. It can be.
  • the distortion removal model 330 may generate a distortion-free image 332 based on the final values of the 3D parameters 324 representing 3D information of the object 300.
  • the distortion removal model 330 transforms the curvature of a label attached to the surface of the (curved) object 300 to become flat, based on the final values of the three-dimensional parameters 324, thereby reducing the distortion of the label.
  • This removed flat label image can be obtained as a distortion-free image 332.
  • the electronic device 2000 may replace the operation of the distortion removal model 330 with a series of data processing/operations.
  • the electronic device 2000 may obtain a distortion-free image 332 by performing a series of data processing/computations without using the distortion removal model 330.
  • the electronic device 2000 may set an arbitrary virtual object to estimate 3D information of the object. Any virtual object may be created based on the initial values of the 3D parameter 324.
  • the electronic device 2000 sets a random region of interest from a random virtual object and adjusts the values of the three-dimensional parameters so that a random region of interest of the random virtual object matches the region of interest 312 of the object 300. , the final values of the 3D parameters 324 can be obtained.
  • the electronic device 2000 may generate an image 332 without distortion based on the final values of the 3D parameters 324.
  • FIG. 4 is a diagram illustrating an operation of an electronic device identifying the three-dimensional shape of an object according to an embodiment of the present disclosure.
  • the electronic device 2000 may identify the 3D shape type 420 of the object using the object 3D shape identification model 410.
  • the electronic device 2000 may identify the 3D shape type 420 of the object through a neural network operation of the object 3D shape identification model 410 that receives the image 400 of the object and extracts features.
  • the object 3D shape identification model 410 may be trained based on a training dataset consisting of various images including 3D objects.
  • the object images of the training dataset of the object 3D shape identification model 410 may be labeled with the 3D shape type 420 of the object.
  • the three-dimensional shape type 420 of the object may include, for example, a sphere, a cube, a pyramid, a cone, a truncated cone, a hemisphere, a cuboid, etc., but is not limited thereto.
  • the electronic device 2000 may acquire the 3D parameter 430 corresponding to the 3D shape type 420 of the object based on the identified 3D shape type 420.
  • 3D parameters 430 refer to elements representing geometric characteristics related to the 3D shape of an object.
  • the 3D parameter 430 of 'sphere' is obtained, and if the 3D shape type 420 is 'cube', the 3D parameter 430 of 'cube' is obtained.
  • Three-dimensional parameters 430 may be obtained.
  • Elements constituting the 3D parameter 430 may be different for each 3D shape type 420.
  • the 3D parameter 430 of a 'sphere' may include elements such as radius and/or diameter
  • the 3D parameter 430 of a 'cube' may include elements such as width, height, and height. there is.
  • the 3D parameter 430 shown in FIG. 4 only shows geometrical elements such as width, height, radius, and depth for convenience of explanation, but the 3D parameter 430 is not limited thereto.
  • the three-dimensional parameters 430 include rotation coordinate information of the object in space, movement coordinate information of the object in space, focal length information of the camera that captured the object, and three-dimensional information about the area of interest of the object (e.g., (horizontal, vertical, curvature, etc.) may be further included.
  • the shown 3D parameter 430 is only an example to aid visual understanding, and the 3D parameter 430 is any type of element that can be used to estimate 3D information of an object in the image in addition to the above-described examples. More elements may be included, and some elements may be excluded from the examples described above.
  • the electronic device 2000 applies the image 400 to the object 3D shape identification model 410 to identify the 3D shape type 420 of the object in the image 400. Cylinder type 422 can be identified.
  • the electronic device 2000 may obtain the three-dimensional parameter 432 of the cylinder corresponding to the cylinder type 422.
  • the three-dimensional parameters 432 of the cylinder include, for example, the diameter D of the cylinder, the radius r of the cylinder, the rotation information R of the cylinder in three-dimensional space, the movement information T of the cylinder in three-dimensional space, the height h of the cylinder, It may include, but is not limited to, the height h' of the area of interest on the surface of the cylinder, the angle ⁇ occupied by the area of interest (e.g., product label, etc.) on the surface of the cylinder, and the focal length information F of the camera.
  • each element included in the 3D parameter 430 may be set to an initial value representing 3D information of an arbitrary object.
  • the electronic device 2000 may match the 3D parameter 430 to represent 3D information of an object.
  • the electronic device 2000 may adjust the values of the 3D parameter 432 of the cylinder so that the values of the 3D parameter 432 of the cylinder represent 3D information of the object in the image 400. That is, the electronic device 2000 may obtain 3D parameter 430 values representing 3D information of an object in the image 400. This is further described in the description of FIG. 6A.
  • the object in the image 400 is 'wine' and the region of interest is 'wine label', but the present disclosure is not limited thereto.
  • the three-dimensional shape type 420 of a wine bottle is described as being identified as a cylinder type 422, but depending on the training and tuning of the object three-dimensional shape identification model 410, the wine bottle may be identified as a bottle. It may be identified as a (bottle) type, and the 3D parameters obtained accordingly may also be 3D parameters corresponding to the bottle type.
  • the object in the image may be another type of three-dimensional object such as a sphere, cone, or cuboid.
  • the electronic device 2000 can identify the 3D shape type 420 for each object and obtain the 3D parameter 430.
  • the area of interest in the image may not be the product's label, but rather an area that represents information related to the product (object), such as the product's ingredients, usage instructions, and usage amount.
  • the electronic device 2000 may perform distortion removal operations according to embodiments of the present disclosure and obtain information related to the object from a distortion-free image in order to accurately identify information included in the area of interest of the object. there is.
  • FIG. 5 is a diagram illustrating an operation of an electronic device identifying a region of interest on the surface of an object according to an embodiment of the present disclosure.
  • the electronic device 2000 may identify the region of interest 520 using the region of interest identification model 510.
  • the electronic device 2000 may identify the region of interest 520 through a neural network operation of the region of interest identification model 510 that receives the object image 500 and extracts features.
  • the electronic device 2000 may preprocess the object image 500 to be input to the region of interest identification model 510.
  • the electronic device 2000 may use the input image 502, obtained by cutting and resizing a portion of the object image 500, as input data for the region of interest identification model 510.
  • the electronic device 2000 may acquire an image to be input to the region of interest identification model 510 using another camera.
  • the electronic device 2000 may acquire a high-resolution image of the area of interest using another high-resolution camera.
  • the image captured by the user may be in the same format as the object image 500, and the image that the electronic device 2000 separately stores to identify the region of interest may be in the same format as the input image 502.
  • the region of interest identification model 510 may be trained based on a training dataset consisting of various images including the region of interest. Key points representing the region of interest may be labeled in the region of interest images of the training dataset of the region of interest identification model 510.
  • the region of interest 520 that the electronic device 2000 identifies using the region of interest identification model 510 is an image on which the detected region of interest 520 is displayed, keypoints representing the region of interest, and/or keypoints within the image. It may include coordinates, etc., but is not limited thereto.
  • the region of interest identification model 510 may include a backbone network and a regression module.
  • the backbone network may use known neural network (eg, CNN, etc.) algorithms to extract various features from the input image 502.
  • the backbone network may be a pre-trained network model, and may be changed to another type of neural network to improve the performance of the region of interest identification model 510.
  • the regression module performs the task of detecting the region of interest (520).
  • the regression module may include a regression algorithm to learn bounding boxes representing the region of interest, key points, etc. to converge to the correct value.
  • the regression module may include a neural network layer and weights to detect the region of interest 520.
  • the regression module may be composed of R-CNN (Regions with Convolutional Neuron Networks features) for detecting a region of interest, but is not limited to this.
  • the electronic device 2000 may train the layers of the regression module using the training dataset of the region of interest identification model 510.
  • FIG. 6A is a diagram illustrating an operation of an electronic device acquiring 3D information of an object according to an embodiment of the present disclosure.
  • the three-dimensional shape type of the object is identified as a cylinder.
  • the three-dimensional shape type of the object is not limited to a cylinder, and can be applied to any three-dimensional shape type whose geometric features can be expressed as three-dimensional parameters, including the examples described above.
  • the electronic device 2000 may perform operations described later to obtain 3D information of an object. Since the electronic device 2000 performs perspective transformation based on 3D information of the object, distortion in the image can be removed more accurately than when perspective transformation is generally performed without 3D information of the object. Distortion in the image may include distortion of the region of interest due to the curved surface of the 3D object surface. For example, an example may be that a label attached to the surface of an object is distorted in a two-dimensional image due to the curved surface of the three-dimensional shape of the object, but the present invention is not limited to this.
  • the electronic device 2000 corresponds to the identified 3D shape type 'cylinder' among the 3D parameters corresponding to various pre-stored 3D shape types (e.g., cylinder, sphere, cube, etc.).
  • 3D parameters 610 can be obtained.
  • the three-dimensional parameters 610 corresponding to the cylinder type include, for example, the radius r of the cylinder, rotation information R of the cylinder in three-dimensional space, movement information T of the cylinder in three-dimensional space, height h of the region of interest, and cylinder It may include, but is not limited to, the angle ⁇ occupied by the area of interest (e.g., product label, etc.) on the surface, the focal length information F of the camera, etc.
  • Each element included in the 3D parameter 610 may have an initial value set.
  • the electronic device 2000 may set a virtual object 620 to estimate 3D information of an object in an image.
  • the virtual object 620 may be an object that is set to the same shape type as the 3D shape type of the object in the image and is rendered with the initial value of the 3D parameter 610. That is, in the example of FIG. 6A, the virtual object 620 is a cylinder type and is an object whose initial values (r, R, T, h, ⁇ , F) of the 3D parameters 610 are 3D information. Additionally, the virtual object 620 may include an initial region of interest 622 arbitrarily set for the virtual object.
  • the electronic device 2000 may finely adjust the 3D parameter 610 values so that the 3D parameter 610 values representing 3D information of the virtual object 620 represent 3D information of the object in the image.
  • the electronic device 2000 projects the virtual object 620 in two dimensions and creates keypoints (also referred to as second keypoints) 630 that represent regions of interest (e.g., labels) of the virtual object 620. can be set.
  • the electronic device 2000 finely adjusts the values of the 3D parameter 610 so that the second keypoints 630 match the keypoints (also referred to as first keypoints) 640 representing the region of interest of the object in the image. You can. Since the operation of the electronic device 2000 to acquire the first key points 640 representing the region of interest of the object in the image has been described above, the same description will be omitted.
  • the electronic device 2000 may adjust the second keypoints 630 to match the first keypoints 640 based on the loss function.
  • the function f may be a function that includes r, R, T, h, ⁇ , and F, which are three-dimensional parameters 610 of the cylinder, as variables.
  • the electronic device 2000 may estimate the second keypoints 630 of the virtual object 620 using the function f, and estimate the second keypoints 630 and the first keypoints 640 using the loss function.
  • the second key points 630 can be adjusted to minimize the error.
  • the electronic device 2000 may change the values of the 3D parameter 610 so that the second keypoints 630 match the first keypoints.
  • the electronic device 2000 may regenerate (update) the virtual object 620 based on the changed values of the 3D parameter 610 and repeat the above-described operation.
  • the electronic device 2000 adjusts the value of the 3D parameter 610, repeats the creation of a virtual object with 3D information of the adjusted values of the 3D parameter 610, and creates the virtual object 620.
  • the values of the three-dimensional parameter 610 that minimize the difference between the second key points 630 obtained by projecting in two dimensions and the first key points 640 representing the area of interest of the object in the image can be obtained.
  • the initial values of the 3D parameters 610 set for the virtual object may be adjusted to approximate the correct value of the 3D parameters 610 of the object.
  • the values of the 3D parameter 610 corresponding to the virtual object 620 at this time represent 3D information of the object in the image.
  • the electronic device 2000 may finally obtain the 3D parameter 610 representing 3D information of the object in the image.
  • FIG. 6B is a diagram illustrating an operation of an electronic device removing distortion of a region of interest based on 3D information of an object according to an embodiment of the present disclosure.
  • the electronic device 2000 acquires 3D parameter 610 values representing 3D information of the object in the image through a fine-tuning process of the values of the 3D parameter 610. can do.
  • the electronic device 2000 may use the values of the 3D parameters 610 to generate 2D mesh data 650 representing a region of interest on the surface of an object in an image.
  • the 2D mesh data 650 refers to data generated by projecting the coordinates of the object's region of interest in 3D space into 2D based on the acquired 3D parameter 610 values, and is distortion information of the object's region of interest. Includes.
  • the region of interest attached to the surface of a 'wine bottle' may be a 'wine label'.
  • the two-dimensional mesh data 650 is a two-dimensional projection of the three-dimensional spatial coordinates of the wine label attached to the surface of the wine bottle, and is the distortion information of the wine label, which is the area of interest within the image containing the wine bottle. can represent.
  • the electronic device 2000 may convert two-dimensional mesh data 650 in which bending distortion is reflected into flat data 660.
  • various algorithms for data conversion can be applied.
  • the electronic device 2000 may use a perspective conversion algorithm, but is not limited to this.
  • the electronic device 2000 may obtain a distortion-free image 670 corresponding to the planar data 660 by generating planar data 660.
  • the distortion-free image 670 may be an image of a curved wine label attached to a curved surface of a wine bottle, but is not limited thereto.
  • the electronic device 2000 may improve image quality by performing interpixel interpolation.
  • the electronic device 2000 may extract information within the region of interest using the undistorted image 670 of the region of interest. Since the distortion-free image 670 is created based on the results of inferring the accurate 3D information of the object, even if a general information detection model (e.g., OCR model) is used to extract information in the image, logos and icons within the area of interest , text, etc. can be detected more accurately.
  • a general information detection model e.g., OCR model
  • the electronic device 2000 may also use a detection model trained including training data with distortions such as logos, icons, and text.
  • FIG. 7 is a diagram illustrating an operation of extracting information within a region of interest by an electronic device according to an embodiment of the present disclosure.
  • the electronic device 2000 displays an object in the image, at least a portion of the entire area of the object is a region of interest, and an image 700 without distortion of the region of interest is displayed.
  • the distortion-free image 700 may be a flat label image in which distortion of the product label (for example, distortion due to curvature, etc.) has been removed.
  • the electronic device 2000 may extract information 720 within the region of interest from the undistorted image 700 of the region of interest using the information detection model 710.
  • Information 720 in the area of interest may be information related to an object.
  • the electronic device 2000 uses the information detection model 710 to obtain an undistorted image 700 of a product label included in an object, and information within the region of interest related to the object included in the product label. You can obtain (720).
  • the information detection model 710 extracts information using the undistorted image 700, so known detection models used for information extraction may be used.
  • information detection model 710 may be an OCR model.
  • the electronic device 2000 may detect texts within the area of interest using an OCR model.
  • the OCR model can recognize regular characters, special characters, and symbols.
  • the information 720 within the area of interest is not limited to this, and various detection models may be used to detect logos, icons, images, etc. within the area of interest. Specifically, a logo detection model, an icon detection model, an image detection model, an object detection model, etc. may be included.
  • the information detection model 710 may be an artificial intelligence model trained based on the undistorted image 700.
  • the electronic device 2000 includes the distortion-free image 700 and information 720 within the region of interest in the training dataset.
  • the information detection model 710 can be further trained.
  • the electronic device 2000 may use known detection models as pre-trained models to train the information detection model 710 so that the information 720 within the region of interest is extracted more precisely.
  • the electronic device 2000 may use one or more information detection models 710.
  • the electronic device 2000 independently displays/provides information obtained from each of two or more information detection models 710, or combines and/or processes information obtained from each of two or more information detection models 710.
  • new secondary information can be created and the generated secondary information can be displayed/provided.
  • FIG. 8A is a diagram illustrating a first example in which an electronic device acquires 3D information and obtains an image without distortion, according to an embodiment of the present disclosure.
  • the viewpoint is a term arbitrarily selected to indicate the direction and/or angle from which the camera of the electronic device 2000 views the object 800.
  • the electronic device 2000 identifies a region of interest 812 from the object image 810 that captures the object 800 from a first viewpoint, and creates an image 814 without distortion (for example, a flat label image) can be obtained.
  • the first viewpoint may be when the camera of the electronic device 2000 views the object 800 from the front.
  • the electronic device 2000 photographs the object 800 from the front, since the image captured of the three-dimensional object is two-dimensional, the surface of the object 800 or the label attached to the object 800 , there may be distortion due to a curved surface existing in the object 800 itself.
  • the electronic device 2000 may cut out the region of interest 812 from the object image 810 and obtain a distortion-free image 814 including the region of interest 812.
  • the electronic device 2000 may use three-dimensional information of the object 800 to obtain an image 814 without distortion.
  • 3D information may consist of 3D parameter values tuned for the object 800.
  • the 3D information includes the radius of the cylinder-shaped object 800, the rotation coordinates of the object 800 in 3D space, the movement coordinates of the object 800 in 3D space, and the surface of the object 800.
  • the angle occupied by the region of interest 812 i.e., the angle between the central axis of the cylinder, which is the three-dimensional shape of the object 800, and both ends of the region of interest
  • the electronic device 2000 captures the object image 810 It may include the focal length of the camera, etc.
  • the electronic device 2000 may perform perspective transformation so that the region of interest 812 can be expressed without distortion on a 2D plane. Since the specific operations for this have been described above, the same description will be omitted.
  • the degree of distortion occurring in the region of interest 812 may vary.
  • the electronic device 2000 according to one embodiment can perform robust distortion removal regardless of the degree of distortion by utilizing 3D information. This will be further explained with reference to FIGS. 8B and 8C.
  • FIG. 8B is a diagram illustrating a second example in which an electronic device acquires 3D information and obtains an image without distortion, according to an embodiment of the present disclosure.
  • the electronic device 2000 identifies a region of interest 822 from the object image 820 that captures the object 800 from a second viewpoint and creates an image 826 without distortion ( For example, a flat label image) can be obtained.
  • the second viewpoint may be when the camera of the electronic device 2000 views the object 800 by tilting it vertically upward.
  • the region of interest 822 included in the object image 820 in addition to distortion due to the three-dimensional shape of the object 800, there may also be distortion due to the viewpoint of the camera of the electronic device 2000.
  • the electronic device 2000 uses three-dimensional information of the object 800 to create a distortion-free image 826 in which distortion due to the three-dimensional shape of the object 800 and distortion due to the viewpoint of the camera of the electronic device 2000 are removed. ) can be obtained.
  • the transformed image 824 is an image created by flattening the perspective transformation of the region of interest 822. Since known perspective transformation algorithms can be used for perspective transformation, detailed descriptions are omitted. Referring to the transformed image 824, even if the region of interest 822 is transformed flat, there is distortion due to the three-dimensional shape of the object 800 and/or distortion due to the camera's viewpoint (824-1, 824-2), etc. It can survive. (The distortions 824-1 and 824-2 in FIG. 8B exemplarily represent distortions in which letters are curved compared to a reference straight line.)
  • the 3D information may consist of 3D parameter values tuned to represent 3D information of the object 800.
  • 3D information includes the radius of the object 800, the rotation coordinates of the object 800 in 3D space, the movement coordinates of the object 800 in 3D space, and the area of interest on the surface of the object 800.
  • the angle occupied by 812 i.e., the angle between the central axis of the cylinder, which is the three-dimensional shape of the object 800, and both ends of the region of interest
  • the focus of the camera when the electronic device 2000 captures the object image 820 May include distance, etc.
  • the electronic device 2000 according to one embodiment performs perspective transformation precisely using 3D information, thereby creating a distortion-free image 826 in which distortion caused by the 3D shape of the object and the shooting point of the camera is removed. It can be obtained.
  • FIG. 8C is a diagram illustrating a third example in which an electronic device acquires 3D information and obtains an image without distortion, according to an embodiment of the present disclosure.
  • the electronic device 2000 identifies a region of interest 832 from the object image 830 obtained by photographing the object 800 from a third viewpoint and creates an image 836 without distortion (for example, a flat label image) can be obtained.
  • the third viewpoint may be when the camera of the electronic device 2000 views the object 800 by tilting it vertically downward.
  • the region of interest 832 included in the image of the object 800 in addition to distortion due to the three-dimensional shape of the object 800, there may also be distortion due to the viewpoint of the camera of the electronic device 2000.
  • the transformed image 834 is an image created by flattening the perspective transformation of the region of interest 832. Referring to the transformed image 834, even if the region of interest 832 is transformed flat, there is distortion due to the three-dimensional shape of the object 800 and/or distortion due to the camera's viewpoint (834-1, 834-2), etc. It can survive.
  • the distortions 834-1 and 834-2 in FIG. 8C exemplarily represent distortions in which letters are curved compared to a reference straight line.
  • the electronic device 2000 can obtain a distortion-free image 836 with distortion precisely removed by using 3D information of the object 800. Since this has already been described in FIG. 8B, the same description is omitted.
  • 3D parameters included in 3D information may include rotation coordinates of the object 800 in 3D space, movement coordinates of the object 800 in 3D space, etc. Accordingly, when generating a distortion-free image 836, the electronic device 2000 can move and rotate the region of interest 832 and perform perspective transformation.
  • 3D parameters included in 3D information may include the focal length of the camera when the electronic device 2000 captures the object image 830. Accordingly, when generating the image 836 without distortion, the electronic device 2000 may preprocess the image including the region of interest 832 based on the focal length and perform perspective transformation.
  • the electronic device 2000 when the electronic device 2000 generates the image 836 without distortion, it uses 3D information to remove distortion due to the 3D shape of the object 800 and/or distortion due to the camera's viewpoint. . Accordingly, the electronic device 2000 can perform robust distortion removal regardless of the degree of distortion of the region of interest 832 in the image.
  • FIG. 9A is a diagram illustrating a first example in which an electronic device extracts information from an image without distortion, according to an embodiment of the present disclosure.
  • an original image 910 a cropped image 920, and an undistorted image 930 are shown.
  • the electronic device 2000 may extract information present in an image using an information detection model.
  • the electronic device 2000 acquires the image 930 without distortion, it can detect information in the region of interest using a general information detection model.
  • the electronic device 2000 reflects the distortion in the image to extract information from the distorted image, generates the distortion-free image 930 even without separately training the detection model, and uses a general image for the distortion-free image 930.
  • a detection model can be applied. Accordingly, the electronic device 2000 can save computing resources for separately training/updating the information detection model.
  • the electronic device 2000 may detect texts existing in an image using an OCR model.
  • the electronic device 2000 extracting text from an image using an OCR model will be described as an example.
  • the original image 910 is a raw image acquired by the electronic device 2000 using a camera.
  • the original image 910 may include distortion of the area of interest due to the three-dimensional shape of the object, and may further include other blank spaces in the image in addition to the area of interest. That is, noise pixels outside the area of interest may be included. If the electronic device 2000 applies OCR to the original image 910, at least some of the texts in the region of interest may be unrecognized or misrecognized due to the above-described characteristics of the original image 910.
  • the text detection area is indicated by a square box, and among the text-detected areas, the misrecognition of the detected text within the detection area is indicated by a hatched arrow (in case of misrecognition). It is done.
  • text that exists but is not identified as a detection area is indicated by a black arrow (if unrecognized).
  • a black arrow if unrecognized.
  • the OCR model can detect text in an image, recognize the detected text, and output a recognition result based on the reliability of the recognition result being greater than or equal to a predetermined threshold (e.g., 0.5). .
  • a predetermined threshold e.g., 0.5
  • 'unrecognized case' may mean that the text detection and recognition results are not output from the image even though text detection and recognition are performed on the image.
  • 'unrecognized case' means 1) when the text is not detected, 2) when the text is detected and text recognition is performed, but the reliability of the recognition result is less than a certain threshold (for example, 0.5). This may include cases where recognition results are not output.
  • 'if recognized' may include that the text was detected, text recognition was performed, and the recognition result was output because the reliability of the recognition result was greater than a predetermined threshold (e.g., 0.5).
  • a predetermined threshold e.g. 0.
  • ‘recognized cases’ can be divided into ‘well-recognized cases’ and ‘misrecognized cases’.
  • 'well-recognized case' and 'misrecognized case' may be used as relative concepts.
  • 'if it is misrecognized' may mean when the reliability of the recognized result is low (for example, reliability of 0.5 or more but less than 0.8), and 'if it is well recognized' may mean that the reliability of the recognized result is low. This may mean a case that is relatively higher than a 'case of misrecognition' (for example, a reliability of 0.8 or higher). Accordingly, text recognition results corresponding to 'misrecognition cases' may not be accurate recognition results of the actual text, although the recognition results are output.
  • the text detection/recognition results may be inaccurate due to distortion of the image itself.
  • '3: pour cette cuv6e' which represents the third recognized text
  • the actual accurate text is 'pour cette cuvee' 'am.
  • the electronic device 2000 generates an image 930 without distortion and performs OCR on the image 930 without distortion, so that accurate text can be detected even when a general OCR model is used.
  • the cropped image 920 is an image in which a region of interest is detected from the original image 910 and only the region of interest is cropped.
  • the cropped image 920 may include distortion of the region of interest due to the three-dimensional shape of the object. If the electronic device 2000 applies OCR to the cropped image 920, at least some of the texts in the region of interest may be unrecognized or misrecognized due to the above-described characteristics of the cropped image 920.
  • the result of applying OCR to the cropped image 920 i.e., referring to the text 921 detected from the cropped image 920
  • detection There are 9 text blocks, and the text detection results for at least some of them may be inaccurate.
  • the distortion-free image 930 is a three-dimensional image that the electronic device 2000 uses to identify the three-dimensional shape of the object, identify a region of interest, and represent three-dimensional information of the object, according to the above-described embodiments. This is an image obtained by obtaining parameter values and performing perspective transformation based on the 3D parameter values. Since the distortion-free image 930 is an image that has been precisely converted into a two-dimensional perspective based on three-dimensional information, the electronic device 2000 can obtain a more accurate text detection result. If the electronic device 2000 applies OCR to the image 930 without distortion, texts within the region of interest can be accurately detected.
  • the number of text blocks to be detected within the area of interest is 14, referring to the result of applying OCR to the image 930 without distortion (i.e., the text 931 detected from the image 930 without distortion) ), the number of detected text blocks is 14, and accurate text detection results can be obtained.
  • FIG. 9B is a diagram for explaining a second example in which an electronic device extracts information from an image without distortion, according to an embodiment of the present disclosure.
  • the original image 912 and the cropped image 922 may have distortion due to the point in time (distance, angle, etc.) at which the electronic device 2000 photographed the object, in addition to distortion due to the three-dimensional shape of the object. You can.
  • the electronic device 2000 identifies the 3D shape of the object, identifies the area of interest, obtains 3D parameter values representing 3D information of the object, and performs perspective transformation based on the 3D parameter values, thereby providing distortion-free image quality.
  • An image 932 may be acquired.
  • the 3D parameters may include rotation coordinates of the object in 3D space, movement coordinates of the object in 3D space, focal length of the camera, etc., so the electronic device 2000 moves and/or rotates the area of interest. and perform perspective transformation.
  • the electronic device 2000 selects the object based on the movement information of the object in space included in the 3D parameters. It can be moved to the center.
  • the electronic device 2000 determines whether the object is horizontal based on the rotation information of the object in space included in the 3D parameter. /Can be rotated to be vertically aligned. Additionally, the electronic device 2000 may use the focal length of the camera that captured the original image 912 to compensate for the degree of movement/rotation of the object.
  • movement/rotation of an object may be included in the operation of acquiring 3D parameter values representing 3D information of the object in the above-described embodiments. That is, as the electronic device 2000 performs a fine adjustment operation to obtain 3D parameter values representing 3D information of an object, movement information, rotation information, focal length information, etc. may be utilized.
  • a distortion-free image 932 can be obtained with the region of interest aligned horizontally/vertically.
  • the accuracy of the text detection result for the undistorted image 932 may be relatively higher than the text detection result for the original image 912 and the cropped image 922. That is, referring to the text 913 detected from the original image 912, the text 923 detected from the cropped image 922, and the text 933 detected from the undistorted image 930, the undistorted image 930 ) It can be seen that the text 933 detected from ) is most accurately identified.
  • unrecognized text blocks and misrecognized text blocks are only examples for convenience of explanation and are not intended to determine the text recognition result. In other words, it should be understood that this is intended to explain that the results of text detection for the undistorted image 930 are relatively more accurate than the results of text detection for the original image 910 and the cropped image 920. will be.
  • FIG. 10A is a diagram illustrating an operation of training an object 3D shape identification model by an electronic device according to an embodiment of the present disclosure.
  • the electronic device 2000 may train an object 3D shape identification model 1000.
  • the electronic device 2000 may train the object 3D shape identification model 1000 using a training dataset consisting of various images including 3D objects.
  • the training dataset may include training image(s) 1010 including the entire three-dimensional shape of the object.
  • the electronic device 2000 may use training images 1012 including a portion of the 3D shape of the object to improve the inference performance of the object 3D shape identification model 1000.
  • Training images 1012 including part of the three-dimensional shape of the object may be obtained by photographing all or part of the object at various angles and distances. For example, an image of all or part of an object may be obtained in a first direction 1012-1, and an image of all or part of an object may be obtained in a second direction 1012-2. there is.
  • images obtained by photographing the entire object or a portion thereof may be included in the training images 1012 and used as training data.
  • training images 1012 containing part of the three-dimensional shape of an object may already be included in the training dataset.
  • the electronic device 2000 may receive training images 1012 including a portion of the three-dimensional shape of an object from an external device (eg, a server, etc.).
  • the electronic device 2000 may acquire training images 1012 including a portion of the three-dimensional shape of an object using a camera.
  • the electronic device 2000 may provide an interface that guides the user to photograph a part of an object.
  • the electronic device 2000 is trained using training image(s) 1010 including the entire three-dimensional shape of the object and training images 1012 including a portion of the three-dimensional shape of the object.
  • the 3D shape of the object can be inferred. For example, even if the input image 1020 in which only a portion of the object is photographed is input, the electronic device 2000 can infer that the three-dimensional shape type of the object in the input image 1020 is a cylinder 1030.
  • FIG. 10B is a diagram illustrating another operation in which an electronic device trains an object 3D shape identification model according to an embodiment of the present disclosure.
  • the electronic device 2000 may generate training data for training the object 3D shape model 1000.
  • the training dataset may include training image(s) 1010 that include the entire three-dimensional shape of the object.
  • the electronic device 2000 may generate training data by performing a predetermined data augmentation operation on images included in the training dataset.
  • the electronic device 2000 may crop the training image(s) 1010 including the entire three-dimensional shape of the object to generate training images 1014 including a portion of the three-dimensional shape of the object. there is.
  • the electronic device 2000 may divide the training image 1010 into six, thereby augmenting the data so that one piece of training data becomes six pieces of training data.
  • the cropped first image 1014-2 may be used as training data.
  • FIG. 10B only cropping is shown as an example in FIG. 10B, but various other data enhancement methods such as rotation and flip may be applied.
  • the electronic device 2000 is trained using training image(s) 1010 including the entire three-dimensional shape of the object and training images 1014 including a portion of the three-dimensional shape of the object.
  • the 3D shape of the object can be inferred. For example, even if the input image 1020 in which only a portion of the object is photographed is input, the electronic device 2000 can infer that the three-dimensional shape type of the object in the input image 1020 is a cylinder 1030.
  • the electronic device 2000 performs a predetermined data augmentation operation on the above-described training data and trains the object 3D shape identification model 1000 using the augmented data to determine the object 3D shape.
  • the inference performance of the identification model 1000 can be improved.
  • the electronic device 2000 performs cropping, rotation, and Various data augmentation methods, such as flip, can be applied and the augmented data can be included in the training dataset.
  • FIG. 10C is a diagram illustrating an example in which an electronic device identifies the three-dimensional shape of an object according to an embodiment of the present disclosure.
  • the electronic device 2000 inputs an input image 1020 (hereinafter referred to as an input image) in which only a portion of an object is photographed to the object 3D shape identification model 1000, and produces an object 3D shape inference result ( 1026) can be obtained.
  • the input image 1020 does not include the entire shape of the object
  • the object 3D shape inference result 1026 may need to be supplemented.
  • the object 3D shape inference result 1026 may have a 50% probability of being a cylinder type and a 50% probability of being a truncated cone type, and the object 3D shape identification model 1000 may be used to determine the object 3D shape.
  • the threshold may be a probability value: 80% or higher.
  • the electronic device 2000 determines the three-dimensional shape of the object.
  • An operation may be performed to supplement the inference result 1026.
  • the electronic device 2000 performs an information detection operation to supplement the object 3D shape inference result 1026 based on the value of the object 3D shape inference result 1026 being less than a preset threshold value.
  • the information detection operation may be, for example, detecting a logo, icon, text, etc., but is not limited thereto.
  • the electronic device 2000 may perform OCR on the input image 1020 and detect text within the input image 1020.
  • the detected text may be 'ABCDE', which is the product name.
  • the electronic device 2000 can search for products within a database or through an external server based on the detected text.
  • the electronic device 2000 may search for products of 'ABCDE' in a database.
  • the electronic device 2000 may determine the weight of the 3D shape type based on the product search results. For example, as a result of a search for the 'ABCDE' product, it can be identified that more than 95% of the 'ABCDE' products distributed in the market are cylinder types.
  • the electronic device 2000 may determine to apply a weight to the cylinder type.
  • the electronic device 2000 may apply the determined weight to the object 3D shape inference result 1026. As a result of applying the weight, it may be determined that the 3D shape type of the finally determined object is a cylinder 1030.
  • the electronic device 2000 may perform an information detection operation in parallel with inputting the input image 1020 to the object 3D shape identification model 1000.
  • the electronic device 2000 can perform OCR on the input image 1020.
  • the electronic device 2000 may determine a weight to be applied to the object 3D shape inference result 1026 based on the OCR results performed in parallel.
  • FIG. 10D is a diagram illustrating an example in which an electronic device identifies the three-dimensional shape of an object according to an embodiment of the present disclosure.
  • the electronic device 2000 may input the input image 1024 into the object 3D shape identification model 1000 and obtain the object 3D shape inference result 1026.
  • the electronic device 2000 may display a user interface for selecting an object search domain.
  • the electronic device 2000 may display selectable domains such as dairy products, wine, canned food, etc., and receive a user input for selecting a domain.
  • the electronic device 2000 may determine the weight of the 3D shape type based on a user input for selecting a search domain. For example, if a user selects a wine label search, it can be identified that more than 95% of wine products distributed on the market are cylinder types. In this case, the electronic device 2000 may determine to apply a weight to the cylinder type. The electronic device 2000 may apply the determined weight to the object 3D shape inference result 1026. As a result of applying the weight, it may be determined that the 3D shape type of the finally determined object is a cylinder 1030.
  • FIG. 11 is a diagram illustrating an operation of an electronic device training a region-of-interest identification model according to an embodiment of the present disclosure.
  • the electronic device 2000 may train a region of interest identification model 1120.
  • the electronic device 2000 may train a region of interest identification model 1120 based on a training dataset 1110 composed of various images including the region of interest.
  • key points indicating the region of interest may be labeled.
  • the region of interest that the electronic device 2000 identifies using the region of interest identification model 1120 may include an image displaying the detected region of interest, key points representing the region of interest, and/or coordinates of key points within the image. However, it is not limited to this.
  • the electronic device 2000 may store the trained region-of-interest identification model 1120 in the electronic device 2000.
  • the electronic device 2000 may execute the trained region-of-interest identification model 1120.
  • the electronic device 2000 may upload the trained region-of-interest identification model 1120 to an external server.
  • FIG. 12 is a diagram illustrating an operation of an electronic device training a distortion removal model according to an embodiment of the present disclosure.
  • the electronic device 2000 may train the distortion removal model 1220.
  • the training dataset 1210 for training the distortion removal model 1220 may include region of interest data and 3D parameter data.
  • Region of interest data may include, for example, an image including the region of interest and key points representing the region of interest, but is not limited thereto.
  • 3D parameter data includes, for example, the width, length, height, and radius information of the object, translation and rotation information for 3D geometric transformation in the 3D space of the object, and the electronic device that photographed the object. (2000) may include information on the focal length of the camera, but is not limited thereto.
  • the distortion removal model 1210 may receive region of interest data and 3D parameter data and output an image without distortion. Therefore, the distortion removal model 1220 uses a neural network to learn, for an object having a specific three-dimensional shape, which part of the object is the area of interest and what are the values of the three-dimensional information of the corresponding object. You can.
  • the electronic device 2000 may store the trained distortion removal model 1220 in the electronic device 2000.
  • the electronic device 2000 may execute the trained distortion removal model 1220.
  • the electronic device 2000 may upload the trained distortion removal model 1220 to an external server.
  • FIG. 13 is a diagram for explaining a multi-camera in an electronic device according to an embodiment of the present disclosure.
  • the electronic device 2000 may include multiple cameras.
  • the electronic device 2000 may include a first camera 1310, a second camera 1320, and a third camera 1330.
  • three cameras are shown for convenience of explanation, but this is not limited and multi-camera means two or more cameras.
  • each camera included in the multi-camera may be different.
  • the first camera 1310 may be a telephoto camera
  • the second camera 1320 may be a wide-angle camera
  • the third camera 1330 may be an ultra-wide-angle camera.
  • the type of camera is not limited to this and may include standard cameras, etc.
  • the first image 1312 acquired by the first camera 1310 may be an image that includes a part of the object by zooming in on the object.
  • the second image 1322 acquired by the second camera 1320 may be an image that captures the object with a wider angle of view than the first camera 1310 and includes the entire object.
  • the third image 1332 acquired by the third camera 1330 captures the object with a wider angle of view than the first camera 1310 and the second camera 1320, and includes the entire object and a wide area of the scene. It could be an image.
  • the electronic device 2000 since the characteristics of images acquired from each of the multi-cameras included in the electronic device 2000 are different, depending on which camera the image acquired is used, the electronic device according to the above-described operations ( 2000), the results of extracting information from objects in an image may also be different. In order to recognize an object included in an image and extract information from the object's region of interest, the electronic device 2000 may determine which camera among the multiple cameras to activate.
  • the electronic device 2000 may acquire the first image 1312 by activating the first camera 1310 and photographing the object.
  • the electronic device 2000 may use the first image 1312 to identify the 3D shape type of the object in the image and the region of interest of the object.
  • the first image 1312 may be an image acquired using the first camera 1310, which is a telephoto camera.
  • the first image 1312 includes only a portion of the object, and the region of interest of the object in the first image 1312 is identified with sufficient reliability (e.g., greater than a predetermined value), but the first image 1312 ) can be identified with insufficient reliability.
  • the electronic device 2000 generates a second image 1322 including the entire object by activating the second camera 1320 and/or the third camera 1330 to identify the three-dimensional shape type of the object.
  • the third image 1332 may be acquired, and the three-dimensional shape type of the object may be identified using the second image 1322 and/or the third image 1332. That is, the electronic device 2000 can selectively use images suitable for identifying the area of interest and 3D shape type of the object.
  • the electronic device 2000 may acquire the first image 1312 and the second image 1322 by activating the first camera 1310 and the second camera 1322 and photographing the object.
  • the electronic device 2000 identifies a region of interest of the object using the first image 1312 including a part of the object, and uses a second image 1322 and/or a third image 1332 including the entire object. You can use to identify the three-dimensional shape type of the object.
  • the operation of activating the camera by the electronic device 2000 is not limited to the above-described examples.
  • the electronic device 2000 can use all possible combinations of cameras included in the multi-camera. For example, the electronic device 2000 activates only the second camera 1320 and the third camera 1330, or activates all of the first camera 1310, the second camera 1320, and the third camera 1330. can do.
  • the electronic device 2000 includes the above-described artificial intelligence models in the operation of identifying the area of interest of the object, the operation of identifying the three-dimensional shape type of the object, and the operation of removing distortion of the area of interest.
  • an object 3D shape identification model, a region of interest identification model, a distortion removal model, etc. may be used. The same explanation for this will be omitted.
  • FIG. 14A is a flowchart illustrating an operation in which an electronic device uses a multi-camera according to an embodiment of the present disclosure.
  • the electronic device 2000 may acquire a first image of an object including at least one surface (e.g., a label) using a first camera. . Since the operation of the electronic device 2000 to acquire the first image of the object has been described in detail above, redundant description will be omitted. Step S230 may be performed after step S210, and step S1410 may be performed after that.
  • the electronic device 2000 checks whether the three-dimensional shape type of the object has been identified from the first image of the object obtained using the first camera. For example, if the first image acquired using the first camera includes only a part of the object, even if the electronic device 2000 inputs the first image to the second AI model, the second AI model The dimensional shape type cannot be accurately inferred. At this time, the second AI model may output a result that it cannot infer the 3D shape type of the object, or may output a low reliability value for 3D shape type inference. When the second AI model outputs a result with a reliability value less than or equal to the threshold, the electronic device 2000 may determine that the 3D shape type of the object has not been identified from the first image.
  • the electronic device 2000 may perform step S1420 when the 3D shape type of the object is not identified from the first image. Meanwhile, in step S1420, the electronic device 2000 may be applied selectively or overlapping with the operation of determining a weight for the 3D shape type and applying the weight to identify the 3D shape, as described above in FIGS. 10C and 10D. . When the 3D shape type of the object is identified, the electronic device 2000 may perform step S1450 to continue the distortion removal operation.
  • the electronic device 2000 activates the second camera.
  • the second camera may be a camera with a wider angle of view than the first camera.
  • the second camera may be, for example, a wide-angle camera, an ultra-wide-angle camera, etc., but is not limited thereto.
  • step S1430 the electronic device 2000 according to one embodiment acquires a second image using a second camera.
  • the second camera has a wider angle of view than the first camera, so even if the first image acquired using the first camera includes only a partial three-dimensional shape of the object, the second image acquired using the second camera shows the object's shape. The entire three-dimensional shape may be included.
  • step S1440 the electronic device 2000 obtains data about the three-dimensional shape type of the object by applying the second image to the second AI model.
  • the second image may include the entire three-dimensional shape of the object. Since the operation of step S1440 is the same as the operation of step S230 of FIG. 2, detailed description is omitted.
  • step S1450 the electronic device 2000 according to an embodiment identifies the three-dimensional shape of the object by applying at least one of the first image and the second image to the first AI model.
  • the region of interest may be completely included.
  • the electronic device 2000 applies the first image to a first AI model (region of interest identification model) to identify an area corresponding to at least one surface (e.g., a label) in the first image as a region of interest. You can.
  • the second image includes the entire three-dimensional shape of the object and thus may also include the entire region of interest.
  • the electronic device 2000 applies the second image to the first AI model (region of interest identification model) to identify the area corresponding to at least one surface (e.g., label) in the second image as the area of interest. You can.
  • the electronic device 2000 applies the first image and the second image to a first AI model (region of interest identification model), and selects or combines the region of interest identification results obtained from each image. Areas of interest can be identified.
  • the electronic device 2000 may perform step S240 of FIG. 2 after performing step S1450. In this case, operations/data, etc. related to the first camera in steps S240 to S270 of FIG. 2 may be equally applied to the second camera.
  • FIG. 14B is a diagram for further supplementary explanation of FIG. 14A.
  • the first image 1410 acquired by the electronic device 2000 using the first camera may include only a portion of the object.
  • the object 3D shape identification model 1400 may not be able to identify the 3D shape type of the object from the first image 1410.
  • the electronic device 2000 may perform step S1420 to activate a second camera with a wider angle of view than the first camera and acquire the second image 1420 using the activated second camera.
  • the electronic device 2000 may identify the 3D shape type of the object by inputting the second image 1420 into the object 3D shape identification model 1400.
  • the operation of the electronic device 2000 to identify the 3D shape type of the object using the second image includes the electronic device 2000 determining a weight for the 3D shape type, as described above in FIGS. 10C and 10D. , can be applied selectively or redundantly with the operation of identifying a three-dimensional shape by applying weights.
  • FIG. 15A is a flowchart illustrating an operation in which an electronic device uses a multi-camera according to an embodiment of the present disclosure.
  • the electronic device 2000 acquires a first image including a part of the object (for example, a surface or a label) using a first camera, and uses a second camera to obtain a first image containing a part of the object (eg, a surface or a label).
  • a second image containing the entirety of is acquired.
  • the second camera may be a camera with a wider angle of view than the first camera.
  • the first camera may be a telephoto camera
  • the second camera may be a wide-angle camera, an ultra-wide-angle camera, etc., but are not limited thereto.
  • the camera of the electronic device 2000 may be activated to photograph an object. Users can activate the camera by touching the hardware button or icon to launch the camera, or they can activate the camera through voice commands.
  • the user adjusts the position of the electronic device 2000 so that the surface (e.g., label) appears generally in the preview area corresponding to the first camera.
  • the surface of the object e.g., a label
  • the surface of the object may be clearly displayed in the first image acquired by the electronic device 2000 using the first camera, but the overall shape of the object may not be displayed.
  • the entire shape of the object may appear in the second image acquired using a second camera that has a wider angle of view than the first camera.
  • step S1520 the electronic device 2000 according to one embodiment selects a region of interest (e.g., corresponding to at least one label) of the surface of the object by applying the first image to a first AI model (region of interest identification model). area). Since the first image is an image in which the area of interest is focused, the area of interest can be accurately identified by applying the first image to the first AI model. Since step S1520 corresponds to step S220 in FIG. 2, the same description is omitted.
  • step S1530 the electronic device 2000 according to one embodiment identifies the three-dimensional shape type of the object by applying the second image to the second AI model. Since step S1530 corresponds to step S230 of FIG. 2 with the only difference being that a second image is used, the same description will be omitted.
  • step S1540 the electronic device 2000 acquires 3D parameter values corresponding to the 3D shape type of the object. Since step S1540 corresponds to step S240 in FIG. 2, the same description is omitted.
  • FIG. 15B is a diagram for further supplementary explanation of FIG. 15A.
  • the first image 1502 acquired by the electronic device 2000 using a first camera may be an image acquired using a telephoto camera. Since the first image 1502 does not include the entire three-dimensional shape of the object but includes an enlarged area of interest, it may be an image suitable for identifying the area of interest.
  • the electronic device 2000 inputs the first image 1502 into the region of interest identification model 1510, thereby selecting the region corresponding to at least one surface (e.g., label) within the first image as the region of interest. It can be identified as:
  • the second image 1504 acquired by the electronic device 2000 using a second camera may be an image acquired using a wide-angle camera and/or an ultra-wide-angle camera. Since the second image 1504 includes the entire 3D shape of the object, it may be an image suitable for identifying the 3D shape of the object. In this case, the electronic device 2000 can identify the 3D shape type of the object in the second image by inputting the second image 1504 into the object 3D shape identification model 1520.
  • FIG. 16A is a flowchart illustrating an operation in which an electronic device uses a multi-camera according to an embodiment of the present disclosure.
  • step S1610 the electronic device 2000 acquires the reliability of the region of interest by applying the first image captured in real time using the first camera to the first AI model (region of interest identification model).
  • the first camera may be a telephoto camera.
  • the user of the electronic device 2000 when the user of the electronic device 2000 wants to recognize an object (for example, when searching for a product label, etc.), the user may activate the camera application.
  • the user can continuously adjust the camera's field of view so that the camera gazes at the object while watching the preview image displayed on the screen of the electronic device 2000.
  • the electronic device 2000 may input each of the first image frames acquired in real time through the first camera into a region of interest identification model.
  • the electronic device 2000 may obtain the reliability of the region of interest, which indicates the accuracy of identifying the region of interest for each first image frame.
  • step S1620 the electronic device 2000 according to one embodiment applies the second image captured in real time using the second camera to the second AI model to obtain reliability of the three-dimensional shape type of the object.
  • the second camera may be a wide-angle camera or an ultra-wide-angle camera.
  • the electronic device 2000 may input each of the second image frames acquired in real time through the second camera into an object 3D shape estimation model.
  • the electronic device 2000 may obtain the reliability of the 3D shape type of the object, which indicates the accuracy of estimating the 3D shape of the object for each second image frame.
  • step S1630 the electronic device 2000 determines whether the reliability of the region of interest exceeds the first threshold.
  • the first threshold may be a preset threshold for the region of interest. If the reliability of the region of interest is below the first threshold, the electronic device 2000 may continue to perform step S1610 until reliability exceeding the first threshold is obtained.
  • step S1640 the electronic device 2000 determines whether the reliability of the 3D shape type of the object exceeds the second threshold.
  • the second threshold may be a preset threshold for the three-dimensional shape of the object. If the reliability of the 3D shape type of the object is less than or equal to the second threshold, the electronic device 2000 may continue to perform step S1620 until reliability exceeding the second threshold is obtained.
  • step S1650 the electronic device 2000 according to one embodiment captures a first image and a second image, respectively.
  • the condition under which step S1650 is performed is an AND condition in which the reliability of the region of interest exceeds a first threshold and the reliability of the 3D shape type exceeds a second threshold.
  • the electronic device 2000 may capture and store the first image and the second image, respectively, and perform step S1520 and subsequent steps.
  • the electronic device 2000 identifies the region of interest on the surface of the object by applying the first image to the region of interest identification model, and identifies the three-dimensional shape of the object by applying the second image to the object three-dimensional shape identification model. can do. Since the specific operations for this have been described above, the same description will be omitted.
  • FIG. 16B is a diagram for further supplementary explanation of FIG. 16A.
  • FIGS. 16B and 16C a case where a user wishes to recognize a wine label will be described as an example.
  • the electronic device 2000 may display a first screen 1600 for object recognition.
  • the first screen 1600 may include an interface that guides the user of the electronic device 2000 to perform object recognition.
  • the electronic device 2000 may include a rectangular box 1606 that guides the first screen 1600 to include the area of interest of the object (however, it is not limited to a rectangular shape and may have other shapes that can perform similar functions, such as a circle). (included), and guides such as ‘Search wine labels (1608)’ can be displayed.
  • the electronic device 2000 may display a guide such as 'Please point the product through the camera'.
  • the electronic device 2000 may display a second screen 1602 showing a preview image obtained from a camera. While viewing the second screen 1602, the user can adjust the camera's field of view so that the object is completely included in the image.
  • the electronic device 2000 may calculate the reliability of the region of interest and the reliability of the 3D shape type of the object while the second screen 1602, which is a preview image of the camera, is displayed. Since this has been described above, the same description will be omitted.
  • the electronic device 2000 selects at least one surface identified as the region of interest (e.g. , label), 3D parameter values related to the object can be obtained based on data about the area corresponding to the object and the 3D shape type of the object. And the electronic device 2000 estimates the curved shape of at least one surface (e.g., a label) using three-dimensional parameter values related to the object and performs perspective transformation to estimate the curved shape of at least one surface (e.g., a label). An image of a flat surface (eg, label) in which the curved shape of the label is flattened can be obtained.
  • a flat surface e.g, label
  • the electronic device 2000 detects 'wine'. A notification such as 'Information has been found (1610)' can be displayed on the preview image. Additionally, the electronic device 2000 may output information 1604 related to the object extracted from the flat surface (eg, label) image. For example, the electronic device 2000 may output a wine label image and detailed information about the wine.
  • FIG. 16C is a diagram for further supplementary explanation of FIG. 16A.
  • the electronic device 2000 may display a first screen 1600 for object recognition.
  • the first screen 1600 may include an interface that guides the user of the electronic device 2000 to perform object recognition.
  • the electronic device 2000 may include a rectangular box 1606 that guides the first screen 1600 to include the area of interest of the object (however, it is not limited to a rectangular shape and may have other shapes that can perform similar functions, such as a circle). (included), and guides such as ‘Search wine labels (1608)’ can be displayed.
  • the electronic device 2000 may display a guide such as 'Please point the product through the camera'.
  • the electronic device 2000 may calculate the reliability of the region of interest and the reliability of the 3D shape type of the object while the second screen 1602, which is a preview image of the camera, is displayed.
  • the electronic device 2000 performs subsequent operations to remove distortion from the image only when the reliability of the region of interest exceeds the first threshold and the reliability of the 3D shape type of the object exceeds the second threshold. Accordingly, when the reliability of the region of interest is less than or equal to the first threshold and/or the reliability of the three-dimensional shape type of the object is less than or equal to the second threshold, the electronic device 2000 sends a message to the user to obtain the first image and the second image.
  • a notification can be output to guide you in adjusting the camera field of view. For example, Electronic Device (2000) ‘cannot recognize wine labels. A notification such as ‘Please adjust the camera angle (1612)’ can be displayed on the screen or output as audio.
  • FIG. 17 is a diagram illustrating an operation in which an electronic device processes an image and provides extracted information according to an embodiment of the present disclosure.
  • the electronic device 2000 generates a flat surface (e.g., label) image that is an image without distortion, extracts information related to the object from the flat surface (e.g., label) image, and provides the information to the user. can do.
  • a flat surface e.g., label
  • the electronic device 2000 generates a flat surface (e.g., label) image that is an image without distortion, extracts information related to the object from the flat surface (e.g., label) image, and provides the information to the user. can do.
  • the electronic device 2000 may display a first screen 1700 to start object recognition.
  • the first screen 1700 may include a user interface such as 'wine label scan 1701'.
  • a user of the electronic device 2000 may start an object recognition operation through the user interface.
  • the electronic device 2000 may display a second screen 1702 for performing object recognition.
  • the second screen 1702 may include an interface that guides the user of the electronic device 2000 to perform object recognition.
  • the electronic device 2000 displays a guide area 1702-1 to guide the second screen 1702 to include the area of interest of the object, and guide phrases such as 'Take a photo of the front label of the wine' ( 1702-2) can be displayed.
  • the electronic device 2000 acquires a plurality of images (e.g., telephoto image, wide-angle image, ultra-wide-angle image, etc.) through a multi-camera and performs distortion removal operations based on 3D information according to the above-described embodiments. can do. That is, the electronic device 2000 extracts the wine label area from the image, performs correction to remove distortion, and generates a wine label image without distortion. Additionally, the electronic device 2000 can apply OCR to a wine label image without distortion and extract information related to wine. The electronic device 2000 may search wine information using text information identified in the wine label.
  • images e.g., telephoto image, wide-angle image, ultra-wide-angle image, etc.
  • the electronic device 2000 may search wine information using text information identified in the wine label.
  • the electronic device 2000 when the electronic device 2000 extracts/corrects the wine label area and searches for wine information using text information identified in the wine label, the electronic device 2000 recognizes the object and provides a product representing the search results.
  • 3 screen 1704 can be displayed.
  • a distortion-free image generated by the electronic device 2000 according to the above-described embodiments may be displayed on the third screen 1704.
  • the image without distortion may be a wine label image.
  • the wine label image may be an image of a flat surface (e.g., a label) in which a curved wine label attached to a wine bottle has been converted to a flat surface.
  • information related to the object acquired by the electronic device 2000 according to the above-described embodiments may be displayed.
  • information related to the object may be wine detailed information.
  • the wine name, country of origin, year of production, etc. which are the results of OCR from the wine label image, may be displayed.
  • additional information related to the object obtained from the server or from the database of the electronic device 2000 may be displayed on the third screen 1704.
  • the acidity, body, alcohol content, etc. of the wine that cannot be obtained from the wine label image may be displayed.
  • the third screen 1704 may further display information obtained from another electronic device and/or information obtained based on user input. For example, the wine's nickname, arrival date, storage location, etc. may be displayed.
  • the information that can be obtained from the wine label image and the information that is obtained and displayed from a route other than the wine label image are described as examples and are not limited to the above.
  • the electronic device 2000 may display a fourth screen 1706 containing object recognition and search results in a database.
  • the electronic device 2000 may display flat surface (eg, label) images that are undistorted images in a preview form 1708.
  • flat surface (eg, label) image When each flat surface (eg, label) image is selected, wine information corresponding to the selected flat surface (eg, label) image may be displayed again, as shown in the third screen 1704.
  • FIG. 18 is a diagram for explaining an example of a system related to an image processing operation by an electronic device according to an embodiment of the present disclosure.
  • the models used by the electronic device 2000 may be trained in another electronic device (eg, a local PC, etc.) suitable for performing neural network operations.
  • another electronic device eg, a local PC, etc.
  • an object 3D shape estimation model, a region of interest identification model, a distortion removal model, an information extraction model, etc. may be trained in another electronic device and stored in a fully trained state.
  • the electronic device 2000 may receive trained models stored in another electronic device.
  • the electronic device 2000 may perform the above-described image processing operations based on the received models.
  • the electronic device 2000 may execute the trained models to perform an inference operation and generate a flat surface (eg, label) image and surface (eg, label) information.
  • the generated flat surface (eg, label) image and surface (eg, label) information may be provided to the user through an application or the like.
  • a model is stored and used in a mobile phone as an example of the electronic device 2000, but the model is not limited thereto.
  • the electronic device 2000 may include any electronic device capable of running an application and equipped with a display and a camera, such as a TV, tablet PC, smart refrigerator, etc.
  • models used by the electronic device 2000 may be trained using computing resources of the electronic device 2000. Since the detailed explanation for this has been described above, it is omitted.
  • FIG. 19 is a diagram illustrating an example of a system related to an operation in which an electronic device processes an image using a server according to an embodiment of the present disclosure.
  • the models used by the electronic device 2000 may be trained in another electronic device (eg, a local PC, etc.) suitable for performing neural network operations.
  • another electronic device eg., a local PC, etc.
  • an object 3D shape estimation model, a region of interest identification model, a distortion removal model, an information extraction model, etc. may be trained in another electronic device and stored in a fully trained state.
  • models trained on another electronic device e.g., a local PC, etc.
  • the electronic device 2000 may perform image processing operations using a server.
  • the electronic device 2000 may capture object images (eg, telephoto images, wide-angle images, ultra-wide-angle images, etc.) using a camera and transmit the images to a server.
  • the server may execute trained models to perform inference operations and generate flat surface (e.g., label) images and surface (e.g., label) information.
  • the electronic device 2000 may receive a flat surface (eg, label) image and surface (eg, label) information from the server.
  • the received flat surface (eg, label) image and surface (eg, label) information may be provided to the user through an application or the like.
  • the electronic device 2000 may include any electronic device capable of running an application and equipped with a display and a camera, such as a TV, tablet PC, smart refrigerator, etc.
  • models used by the electronic device 2000 may be trained using computing resources of the electronic device 2000. Since the detailed explanation for this has been described above, it is omitted.
  • Figure 20 is a block diagram showing the configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 2000 may include a communication interface 2100, a camera(s) 2200, a memory 2300, and a processor 2400.
  • the communication interface 2100 may perform data communication with other electronic devices under the control of the processor 2400.
  • the communication interface 2100 may include a communication circuit.
  • the communication interface 2100 may include, for example, wired LAN, wireless LAN, Wi-Fi, Bluetooth, ZigBee, Wi-Fi Direct (WFD), and infrared communication (IrDA). infrared Data Association), BLE (Bluetooth Low Energy), NFC (Near Field Communication), Wibro (Wireless Broadband Internet, Wibro), WiMAX (World Interoperability for Microwave Access, WiMAX), SWAP (Shared Wireless Access Protocol), WiGig It may include a communication circuit capable of performing data communication between the electronic device 2000 and other devices using at least one of data communication methods including (Wireless Gigabit Alliances, WiGig) and RF communication.
  • the communication interface 2100 can transmit and receive data for performing an image processing operation of the electronic device 2000 with an external electronic device.
  • the communication interface 2100 may transmit and receive artificial intelligence models used by the electronic device 2000, or may transmit and receive training datasets of artificial intelligence models to a server, etc.
  • the electronic device 2000 may obtain an image from which distortion is to be removed from a server, etc.
  • the electronic device 2000 may transmit and receive data to a server, etc. in order to search for information related to an object.
  • Camera(s) 2200 may acquire video and/or images by photographing an object. There may be more than one camera(s) 2200.
  • the camera(s) 2200 may include, for example, an RGB camera, a telephoto camera, a wide-angle camera, an ultra-wide-angle camera, etc., but is not limited thereto.
  • Camera(s) 2200 may acquire video including a plurality of frames. Since the specific type and detailed functions of the camera(s) 2200 can be clearly deduced by a person skilled in the art, descriptions are omitted.
  • the memory 2300 may store instructions, data structures, and program codes that the processor 2400 can read. There may be more than one memory 2300. In the disclosed embodiments, operations performed by the processor 2400 may be implemented by executing instructions or codes of a program stored in the memory 2300.
  • the memory 2300 includes flash memory type, hard disk type, multimedia card micro type, and card type memory (for example, SD or XD memory, etc.)
  • Non-volatile memory that includes at least one of ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, magnetic disk, and optical disk. and volatile memory such as RAM (Random Access Memory) or SRAM (Static Random Access Memory).
  • Memory 2300 may store one or more instructions and/or programs that enable the electronic device 2000 to operate to remove distortion in an image.
  • the memory 2300 includes a region of interest identification module 2310, an object 3D shape identification module 2320, a 3D information acquisition module 2330, a distortion removal module 2340, and an information extraction module 2350. It can be saved.
  • the processor 2400 may control overall operations of the electronic device 2000.
  • the processor 2400 may control overall operations of the electronic device 2000 to remove distortion from an image by executing one or more instructions of a program stored in the memory 2300.
  • One or more processors 2400 include a Central Processing Unit (CPU), Graphics Processing Unit (GPU), Accelerated Processing Unit (APU), Many Integrated Core (MIC), Digital Signal Processor (DSP), and Neural Processing Unit (NPU). Processing Unit) may be included.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • APU Accelerated Processing Unit
  • MIC Many Integrated Core
  • DSP Digital Signal Processor
  • NPU Neural Processing Unit
  • processors 2400 may be implemented in the form of an integrated system-on-chip (SoC) including one or more electronic components.
  • SoC system-on-chip
  • Each of the one or more processors 2400 may be implemented as separate hardware (H/W).
  • the processor 2400 may execute the region-of-interest identification module 2310 to identify a region corresponding to at least one surface (eg, label) in the image as the region of interest.
  • the region of interest identification module 2310 may include a region of interest identification model. Since specific operations related to the region of interest identification module 2310 have been described in detail in previous drawings, the same description will be omitted.
  • the processor 2400 executes the object 3D shape identification module 2320 to obtain data about the 3D shape type of the object in the image.
  • the object 3D shape identification module 2320 may include an object 3D shape identification model. Since specific operations related to the object 3D shape identification module 2320 have been described in detail in previous drawings, the same description will be omitted.
  • the processor 2400 may execute the 3D information acquisition module 2330 to infer the 3D information of the object in the image.
  • Processor 2400 obtains three-dimensional parameter values associated with at least one of the object, at least one surface (e.g., a label), and a first camera, based on data regarding the region of interest and the three-dimensional shape type of the object.
  • acquiring 3D parameter values may mean finely adjusting the initial values of 3D parameters corresponding to the 3D shape of the object to represent 3D information of the object. Since specific operations related to the 3D information acquisition module 2330 have been described in detail in previous drawings, the same description will be omitted.
  • the processor 2400 may execute the distortion removal module 2340 to remove distortion of the image.
  • the distortion removal module 2340 may include a distortion removal model.
  • the processor 2400 may estimate the curved shape of at least one surface (eg, label) based on the 3D parameter.
  • Processor 2400 performs a perspective transformation on at least one surface (e.g., a label), thereby creating a flat surface (e.g., label) image in which the curved shape of the surface (e.g., label) is flattened. can be obtained. Since specific operations related to the distortion removal module 2340 have been described in detail in previous drawings, the same description will be omitted.
  • the processor 2400 may execute the information extraction module 2350 to extract information from an image without distortion.
  • the information extraction module 2350 may include an information extraction model.
  • the processor 2400 extracts information within the area of interest using the information extraction module 2350 and, for example, can identify logos, icons, texts, etc. within the area of interest. Since specific operations related to the information extraction module 2350 have been described in detail in previous drawings, the same description will be omitted.
  • modules stored in the above-described memory 2300 are for convenience of explanation and are not necessarily limited thereto. Other modules may be added to implement the above-described embodiments, and some of the above-described modules may be implemented as one module.
  • the plurality of operations may be performed by one processor or by a plurality of processors.
  • the first operation, the second operation, and the third operation may all be performed by the first processor.
  • the first operation and the second operation may be performed by a first processor (e.g., a general-purpose processor) and the third operation may be performed by a second processor (e.g., an artificial intelligence-specific processor).
  • the artificial intelligence dedicated processor which is an example of the second processor, may perform operations for training/inference of the artificial intelligence model.
  • embodiments of the present disclosure are not limited thereto.
  • One or more processors according to the present disclosure may be implemented as a single-core processor or as a multi-core processor.
  • the plurality of operations may be performed by one core or by a plurality of cores included in one or more processors.
  • the electronic device 2000 may further include a user interface.
  • the user interface may include an input interface that receives user input and an output interface that outputs information.
  • the output interface is for output of video signals or audio signals.
  • the output interface may include a display unit, an audio output unit, a vibration motor, etc.
  • the display unit and the touch pad form a layered structure to form a touch screen
  • the display unit can be used as an input interface in addition to an output interface.
  • the display unit includes a liquid crystal display, a thin film transistor-liquid crystal display, a light-emitting diode (LED), an organic light-emitting diode, and a flexible display. It may include at least one of a display, a 3D display, and an electrophoretic display. Additionally, depending on the implementation form of the electronic device 2000, the electronic device 2000 may include two or more display units.
  • the audio output unit may output an audio signal received from the communication interface 2100 or stored in the memory 2300. Additionally, the sound output unit may output sound signals related to functions performed in the electronic device 2000.
  • the sound output unit may include a speaker, buzzer, etc.
  • the input interface is for receiving input from the user.
  • the input interface is a key pad, dome switch, and touch pad (contact capacitance method, pressure resistance film method, infrared detection method, surface ultrasonic conduction method, integral tension measurement method, piezo effect) method, etc.), a jog wheel, or a jog switch, but is not limited thereto.
  • the input interface may include a voice recognition module.
  • the electronic device 2000 may receive a voice signal, which is an analog signal, through a microphone, and convert the voice portion into computer-readable text using an Automatic Speech Recognition (ASR) model.
  • ASR Automatic Speech Recognition
  • NLU Natural Language Understanding
  • the ASR model or NLU model may be an artificial intelligence model. Linguistic understanding is a technology that recognizes and applies/processes human language/characters, including Natural Language Processing, Machine Translation, Dialog System, Question Answering, and Voice Recognition. /Speech Recognition/Synthesis, etc.
  • Figure 21 is a block diagram showing the configuration of a server according to an embodiment of the present disclosure.
  • the operations of the electronic device 2000 described above may be performed in the server 3000.
  • the server 3000 may include a communication interface 3100, a memory 3200, and a processor 3300. Since the communication interface 3100, memory 3200, and processor 3300 of the server 3000 correspond to the communication interface 2100, memory 2300, and processor 2400 of the electronic device 2000 of FIG. 20, respectively, The same explanation is omitted.
  • the server 3000 may be a device that has higher computing performance than the electronic device 2000 so that it can perform operations requiring more calculations than the electronic device 2000 .
  • the server 3000 can perform training of an artificial intelligence model, which requires a relatively large amount of computation compared to inference.
  • the server 3000 may perform inference using an artificial intelligence model and transmit the inference result to the electronic device 2000.
  • the present disclosure relates to an image distortion removal method using 3D information, which involves inferring 3D information of an object using an algorithm and removing distortion within the image without hardware such as a sensor for acquiring 3D information. I would like to suggest a method.
  • a method for an electronic device 2000 to process an image may be provided.
  • the method may include acquiring a first image of an object including at least one surface (eg, a label) using a first camera.
  • the method may include identifying a region corresponding to the at least one surface (e.g., a label) within the first image as a region of interest by applying the first image to a first AI model. there is.
  • the method may include obtaining data regarding the three-dimensional shape type of the object by applying the first image to a second AI model.
  • the method further comprises, based on data regarding a three-dimensional shape type of the object and an area corresponding to the at least one surface (e.g., a label) identified as the region of interest, the object, the at least one surface ( For example, a label) and obtaining a set of 3D parameter values related to at least one of the first camera.
  • the method may include estimating a non-planar shape of the at least one surface (e.g., a label) based on the set of three-dimensional parameter values.
  • the method may be performed by performing a perspective transformation on the at least one surface (e.g., a label), so that the non-planar shape of the at least one surface (e.g., a label) is flattened (flat) flat) may include acquiring a surface (e.g., label) image.
  • the three-dimensional parameter values include horizontal, vertical, height, and radius values related to the three-dimensional shape of the object, angle values of the region of interest on the surface of the object, translation values for three-dimensional geometric transformation, and It may include at least one of a rotation value and a focal length value of the camera.
  • the first AI model may be an artificial intelligence model trained to infer a region corresponding to a surface (eg, label) within an image as a region of interest.
  • the second AI model may be an artificial intelligence model trained to infer the 3D shape type of an object in an image.
  • Obtaining data regarding the 3D shape type of the object may include receiving a user input related to the 3D shape type of the object from a user.
  • the step of acquiring data about the 3D shape type of the object includes identifying the 3D shape type of the object by applying a weight to the 3D shape type corresponding to the user input among a plurality of 3D shape types. More may be included.
  • Identifying a region corresponding to the at least one surface (e.g., a label) as the region of interest includes identifying first keypoints representing the region corresponding to the at least one surface (e.g., a label). May include steps.
  • Obtaining the set of 3D parameter values may include acquiring a virtual object corresponding to a 3D shape type of the object and a set of initial 3D parameter values of the virtual object.
  • Obtaining the set of 3D parameter values may further include adjusting the set of initial 3D parameter values of the virtual object based on the first keypoints.
  • Obtaining the set of 3D parameter values comprises obtaining the set of adjusted 3D parameter initial values as a set of 3D parameter values associated with at least one of the object, the at least one surface, and the camera. Additional steps may be included.
  • adjusting a set of initial values of three-dimensional parameters of the virtual object includes second keypoints representing a region corresponding to a virtual surface (e.g., label) of the virtual object. It may include setting steps.
  • the step of adjusting the initial values of the 3D parameters of the virtual object based on the first keypoints includes adjusting the second keypoints to match the first keypoints, thereby adjusting the initial values of the 3D parameters of the virtual object. It may further include adjusting the set to approximate the correct answer of the set of three-dimensional parameter values of the object.
  • Obtaining information related to the object from the flat surface (e.g., label) image includes applying optical character recognition (OCR) to the flat surface (e.g., label) image. It can be included.
  • OCR optical character recognition
  • the method may further include acquiring a second image of the object using a second camera that has a wider angle of view than the first camera.
  • Obtaining data regarding the three-dimensional shape type of the object may further include obtaining information related to the three-dimensional shape type of the object by further applying the second image to the second AI model. there is.
  • the method may further include obtaining reliability of the region of interest by applying the first image captured using the first camera to the first AI model.
  • the method may further include obtaining reliability of the three-dimensional shape type of the object by applying a second image captured using the second camera to the second AI model.
  • the method may further include capturing the first image and the second image, respectively, based on threshold values of the reliability of the 3D shape type of the object and the reliability of the region of interest.
  • the method may further include searching for matching data within a database based on the flat surface (e.g., label) image or information obtained from the flat surface (e.g., label) image. there is.
  • the method further includes displaying the search results, wherein the database contains information related to other objects and other flat surface (e.g., label) images previously acquired by the electronic device. It may be saved.
  • an electronic device that processes images.
  • the electronic device may include a first camera, a memory that stores one or more instructions, and at least one processor that executes the one or more instructions stored in the memory.
  • the at least one processor may acquire a first image of a three-dimensional object including at least one surface (eg, a label) using a first camera by executing the one or more instructions.
  • the at least one processor by executing the one or more instructions, applies the first image to a first AI model to determine a region corresponding to the at least one surface (e.g., label) in the first image. can be identified as an area of interest.
  • the at least one processor may acquire data about the three-dimensional shape type of the object by executing the one or more instructions and applying the first image to a second AI model.
  • the at least one processor by executing the one or more instructions, based on data regarding a three-dimensional shape type of the object and an area corresponding to the at least one surface (e.g., a label) identified as the region of interest.
  • a set of 3D parameter values related to at least one of the object, the at least one surface (eg, label), and the first camera may be obtained.
  • the at least one processor may estimate a non-planar shape of the at least one surface (eg, label) based on the set of 3D parameter values by executing the one or more instructions.
  • the at least one processor is configured to perform a perspective transformation on the at least one surface (e.g., a label) by executing the one or more instructions. ) can obtain an image of a flat surface (e.g., a label) in which the non-planar shape is flattened.
  • the at least one processor may receive user input related to the three-dimensional shape type of the object from the user by executing the one or more instructions. By executing the one or more instructions, the at least one processor may identify the 3D shape type of the object by applying a weight to the 3D shape type corresponding to the user input among a plurality of 3D shape types.
  • the at least one processor may identify first key points indicating a region corresponding to the at least one surface (eg, label) by executing the one or more instructions. By executing the one or more instructions, the at least one processor may obtain a virtual object corresponding to a 3D shape type of the object and a set of initial values of 3D parameters of the virtual object. The at least one processor may adjust a set of initial values of 3D parameters of the virtual object based on the first keypoints by executing the one or more instructions. The at least one processor, by executing the one or more instructions, converts a set of initial values of the adjusted three-dimensional parameters into a set of values of the three-dimensional parameters associated with at least one of the object, the at least one surface, and the camera. It can be obtained as a set.
  • the at least one processor may set second keypoints indicating an area corresponding to the virtual surface (eg, label) of the virtual object by executing the one or more instructions.
  • the at least one processor by executing the one or more instructions, adjusts the second keypoints to match the first keypoints, so that a set of initial values of the 3D parameters of the virtual object are 3D parameters of the object.
  • the set of values can be adjusted to approximate the correct answer.
  • the at least one processor may apply optical character recognition (OCR) to the flat surface (eg, label) image by executing the one or more instructions.
  • OCR optical character recognition
  • the electronic device further includes a second camera having a wider angle of view than the first camera, and the at least one processor generates a second image of the object using the second camera by executing the one or more instructions. It can be obtained.
  • the at least one processor may obtain information related to the three-dimensional shape type of the object by executing the one or more instructions and further applying the second image to the second AI model.
  • a method of processing an image by an electronic device may include acquiring a partial image of an object including a surface (eg, a label) of the object using a first camera.
  • the method may include identifying a region corresponding to the surface (e.g., label) of the object as a region of interest by applying a partial image of the object to a first AI model.
  • the method may include acquiring an entire image of the object using a second camera that has a wider angle of view than the first camera.
  • the method may include identifying the three-dimensional shape type of the object by applying the entire image of the object to the second AI model.
  • the method may include obtaining 3D parameters corresponding to the 3D shape type of the object.
  • the method performs a perspective transformation of the surface (e.g., label) based on information about the region of interest and three-dimensional parameters, so that the non-planar shape of the surface (e.g., label) is flat. It may include acquiring an image of the flat surface (e.g., label). The method may include obtaining information related to an object from the flat surface (eg, label) image.
  • Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and non-volatile media, removable and non-removable media. Additionally, computer-readable media may include computer storage media and communication media. Computer storage media includes both volatile and non-volatile, removable and non-removable media implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules, or other data. Communication media typically may include computer readable instructions, data structures, or other data, such as modulated data signals, or program modules.
  • computer-readable storage media may be provided in the form of non-transitory storage media.
  • 'non-transitory storage medium' simply means that it is a tangible device and does not contain signals (e.g. electromagnetic waves). This term refers to cases where data is semi-permanently stored in a storage medium and temporary storage media. It does not distinguish between cases where it is stored as .
  • a 'non-transitory storage medium' may include a buffer where data is temporarily stored.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • a computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or through an application store or between two user devices (e.g. smartphones). It may be distributed in person or online (e.g., downloaded or uploaded). In the case of online distribution, at least a portion of the computer program product (e.g., a downloadable app) is stored on a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.
  • a machine-readable storage medium such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

이미지를 처리하는 방법은, 카메라를 이용하여 표면을 포함하는 객체의 이미지를 획득하는 단계; 상기 이미지를 제1 AI 모델에 적용함으로써, 상기 표면에 대응하는 영역을 관심 영역으로 식별하는 단계; 상기 이미지를 제2 AI 모델에 적용함으로써, 상기 객체의 3차원 형상 타입에 관한 데이터를 획득하는 단계; 상기 관심 영역으로 식별된 상기 표면에 대응하는 영역 및 상기 객체의 3차원 형상 타입에 관한 데이터에 기초하여, 상기 객체, 상기 표면 및 상기 카메라 중 적어도 하나와 관련된 3차원 파라미터 값들의 집합을 획득하는 단계; 상기 3차원 파라미터 값들의 집합에 기초하여, 상기 표면의 비평면 형상을 추정하는 단계; 및 상기 표면에 대한 원근 변환(perspective transformation)을 수행함으로써, 상기 표면의 비평면 형상이 평평하게 된 플랫(flat) 표면 이미지를 획득하는 단계를 포함할 수 있다.

Description

이미지를 처리하는 전자 장치 및 그 동작 방법
이미지 내 관심 영역의 왜곡을 제거하는 알고리즘을 적용하는, 전자 장치 및 그 동작 방법이 제공된다.
3차원 객체를 촬영한 디지털 이미지에서는, 3차원 객체의 비평면 표면(예를 들어, 곡면 등)으로 인한 물리적인 왜곡, 촬영 관점(perspective)으로 인한 왜곡 등이 존재한다. 이러한 3차원 특성으로 인한 왜곡을 제거하기 위해 3차원 정보를 활용하는 다양한 기술이 개발되고 있다. 3차원 정보를 활용한 이미지 왜곡 제거 방법에 있어서, 3차원 정보 획득을 위한 센서 등의 하드웨어 없이, 알고리즘을 이용하여 객체의 3차원 정보를 추론하고, 이미지 내 왜곡을 제거하기 위한 알고리즘들이 최근 사용되고 있다.
본 개시의 일 측면에 따르면, 전자 장치가 이미지를 처리하는 방법이 제공될 수 있다. 상기 방법은, 제1 카메라를 이용하여 적어도 하나의 표면을 포함하는 3차원 객체의 제1 이미지를 획득하는 단계를 포함하되, 상기 적어도 하나의 표면은 비평면 형상인 것일 수 있다. 상기 방법은, 상기 제1 이미지를 제1 AI 모델에 적용함으로써, 상기 적어도 하나의 표면에 대응하는 영역을 관심 영역으로 식별하는 단계를 포함할 수 있다. 상기 방법은, 상기 제1 이미지를 제2 AI 모델에 적용함으로써, 상기 객체의 3차원 형상 타입에 관한 데이터를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 관심 영역으로 식별된 영역 및 상기 3차원 형상 타입에 관한 데이터에 기초하여, 상기 객체, 상기 적어도 하나의 표면 및 상기 제1 카메라 중 적어도 하나와 관련된 3차원 파라미터 값들의 집합을 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 3차원 파라미터 값들에 기초하여, 상기 적어도 하나의 표면의 비평면 형상을 추정하는 단계를 포함할 수 있다. 상기 방법은, 상기 적어도 하나의 표면에 대한 원근 변환(perspective transformation)을 수행함으로써, 상기 적어도 하나의 표면의 비평면 형상이 평평하게 된 플랫(flat) 표면 이미지를 획득하는 단계를 포함할 수 있다.
본 개시의 일 측면에 따르면, 이미지를 처리하는 전자 장치가 제공될 수 있다. 상기 전자 장치는, 제1 카메라, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 제1 카메라를 이용하여 적어도 하나의 표면을 포함하는 3차원의 객체의 제1 이미지를 획득하되, 상기 적어도 하나의 표면은 비평면 형상인 것일 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 이미지를 제1 AI 모델에 적용함으로써, 상기 적어도 하나의 표면에 대응하는 영역을 관심 영역으로 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 이미지를 제2 AI 모델에 적용함으로써, 상기 객체의 3차원 형상 타입에 관한 데이터를 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 관심 영역으로 식별된 영역 및 상기 객체의 3차원 형상 타입에 관한 데이터에 기초하여, 상기 객체, 상기 적어도 하나의 표면 및 상기 제1 카메라 중 적어도 하나와 관련된 3차원 파라미터 값들의 집합을 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 3차원 파라미터 값들의 집합에 기초하여, 상기 적어도 하나의 표면의 비평면 형상을 추정할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 적어도 하나의 표면에 대한 원근 변환(perspective transformation)을 수행함으로써, 상기 적어도 하나의 표면의 비평면 형상이 평평하게 된 플랫(flat) 표면 이미지를 획득할 수 있다.
본 개시의 일 측면에 따르면, 전자 장치가 이미지를 처리하는 방법이 제공될 수 있다. 상기 방법은, 제1 카메라를 이용하여 객체의 표면을 포함하는 상기 객체의 일부 이미지를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 객체의 일부 이미지를 제1 AI 모델에 적용함으로써 상기 객체의 상기 표면에 대응하는 영역을 관심 영역으로 식별하는 단계를 포함할 수 있다. 상기 방법은, 상기 제1 카메라보다 화각이 넓은 제2 카메라를 이용하여 상기 객체의 전체 이미지를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 객체의 전체 이미지를 제2 AI 모델에 적용함으로써 상기 객체의 3차원 형상 타입을 식별하는 단계를 포함할 수 있다. 상기 방법은, 상기 객체의 3차원 형상 타입에 대응하는 3차원 파라미터 값들의 집합을 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 관심 영역에 관한 정보 및 상기 3차원 파라미터 값들의 집합에 기초하여 상기 표면의 원근 변환(perspective transformation)을 수행함으로써, 상기 표면의 굴곡 형상이 평평하게 된 플랫 표면 이미지를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 플랫 표면 이미지로부터 상기 객체와 관련된 정보를 획득하는 단계를 포함할 수 있다.
본 개시의 일 측면에 따르면, 이미지를 처리하는 전자 장치가 제공될 수 있다. 상기 전자 장치는, 제1 카메라, 제2 카메라, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 카메라를 이용하여 객체의 표면을 포함하는 상기 객체의 일부 이미지를 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 객체의 일부 이미지를 제1 AI 모델에 적용함으로써 상기 객체의 상기 표면에 대응하는 영역을 관심 영역으로 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 카메라보다 화각이 넓은 상기 제2 카메라를 이용하여 상기 객체의 전체 이미지를 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 객체의 전체 이미지를 제2 AI 모델에 적용함으로써 상기 객체의 3차원 형상 타입을 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 객체의 3차원 형상 타입에 대응하는 3차원 파라미터 값들의 집합을 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 관심 영역에 관한 정보 및 상기 3차원 파라미터 값들의 집합에 기초하여 상기 표면의 원근 변환(perspective transformation)을 수행함으로써, 상기 표면의 굴곡 형상이 평평하게 된 플랫 표면 이미지를 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 플랫 표면 이미지로부터 상기 객체와 관련된 정보를 획득할 수 있다.
본 개시의 일 측면에 따르면, 전자 장치가 이미지를 처리하여 왜곡을 제거하는, 전술 및 후술하는 방법들 중 어느 하나를 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능 기록매체를 제공할 수 있다.
도 1은 본 개시의 일 실시예에 따른 전자 장치가 이미지의 왜곡을 제거하는 일 예시를 나타내는 도면이다.
도 2는 본 개시의 일 실시예에 따른 전자 장치가 이미지를 처리하는 방법을 설명하기 위한 흐름도이다.
도 3은 본 개시의 일 실시예에 따른 전자 장치가 이미지를 처리하는 동작을 전반적으로 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시예에 따른 전자 장치가 객체의 3차원 형상을 식별하는 동작을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시예에 따른 전자 장치가 객체의 표면의 관심 영역을 식별하는 동작을 설명하기 위한 도면이다.
도 6a는 본 개시의 일 실시예에 따른 전자 장치가 객체의 3차원 정보를 획득하는 동작을 설명하기 위한 도면이다.
도 6b는 본 개시의 일 실시예에 따른 전자 장치가 객체의 3차원 정보에 기초하여 관심 영역의 왜곡을 제거하는 동작을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 전자 장치가 관심 영역 내의 정보를 추출하는 동작을 설명하기 위한 도면이다.
도 8a는 본 개시의 일 실시예에 따른 전자 장치가 3차원 정보를 획득하여 왜곡 없는 이미지를 획득한 제1 예시를 설명하기 위한 도면이다.
도 8b는 본 개시의 일 실시예에 따른 전자 장치가 3차원 정보를 획득하여 왜곡 없는 이미지를 획득한 제2 예시를 설명하기 위한 도면이다.
도 8c는 본 개시의 일 실시예에 따른 전자 장치가 3차원 정보를 획득하여 왜곡 없는 이미지를 획득한 제3 예시를 설명하기 위한 도면이다.
도 9a는 본 개시의 일 실시예에 따른 전자 장치가 왜곡 없는 이미지로부터 정보를 추출한 제1 예시를 설명하기 위한 도면이다.
도 9b는 본 개시의 일 실시예에 따른 전자 장치가 왜곡 없는 이미지로부터 정보를 추출한 제2 예시를 설명하기 위한 도면이다.
도 10a는 본 개시의 일 실시예에 따른 전자 장치가 객체 3차원 형상 식별 모델을 훈련시키는 동작을 설명하기 위한 도면이다.
도 10b는 본 개시의 일 실시예에 따른 전자 장치가 객체 3차원 형상 식별 모델을 훈련시키는 다른 동작을 설명하기 위한 도면이다.
도 10c는 본 개시의 일 실시예에 따른 전자 장치가 객체의 3차원 형상을 식별하는 실시예를 설명하기 위한 도면이다.
도 10d는 본 개시의 일 실시예에 따른 전자 장치가 객체의 3차원 형상을 식별하는 실시예를 설명하기 위한 도면이다.
도 11은 본 개시의 일 실시예에 따른 전자 장치가 관심 영역 식별 모델을 훈련시키는 동작을 설명하기 위한 도면이다.
도 12는 본 개시의 일 실시예에 따른 전자 장치가 왜곡 제거 모델을 훈련시키는 동작을 설명하기 위한 도면이다.
도 13은 본 개시의 일 실시예에 따른 전자 장치에 포함되는 멀티 카메라를 설명하기 위한 도면이다.
도 14a는 본 개시의 일 실시예에 따른 전자 장치가 멀티 카메라를 이용하는 동작을 설명하기 위한 흐름도이다.
도 14b는 도 14a를 보충적으로 더 설명하기 위한 도면이다.
도 15a는 본 개시의 일 실시예에 따른 전자 장치가 멀티 카메라를 이용하는 동작을 설명하기 위한 흐름도이다.
도 15b는 도 15a를 보충적으로 더 설명하기 위한 도면이다.
도 16a는 본 개시의 일 실시예에 따른 전자 장치가 멀티 카메라를 이용하는 동작을 설명하기 위한 흐름도이다.
도 16b는 도 16a를 보충적으로 더 설명하기 위한 도면이다.
도 16c는 도 16a를 보충적으로 더 설명하기 위한 도면이다.
도 17은 본 개시의 일 실시예에 따른 전자 장치가 이미지를 처리하여 추출된 정보를 제공하는 동작을 설명하기 위한 도면이다.
도 18은 본 개시의 일 실시예에 따른 전자 장치가 이미지를 처리하는 동작에 관련된 시스템의 일 예시를 설명하기 위한 도면이다.
도 19는 본 개시의 일 실시예에 따른 전자 장치가 서버를 이용하여 이미지를 처리하는 동작에 관련된 시스템의 일 예시를 설명하기 위한 도면이다.
도 20은 본 개시의 일 실시예에 따른 전자 장치의 구성을 도시한 블록도이다.
도 21은 본 개시의 일 실시예에 따른 서버의 구성을 도시한 블록도이다.
본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 또한, 본 명세서에서 사용되는 '제1' 또는 '제2' 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용할 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한, 각각의 도면에서 사용된 도면 부호는 각각의 도면을 설명하기 위한 것일 뿐, 상이한 도면들 각각에서 사용된 상이한 도면 부호가 상이한 요소를 나타내기 위한 것은 아니다. 이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 본 개시의 일 실시예에 따른 전자 장치가 이미지의 왜곡을 제거하는 일 예시를 나타내는 도면이다.
도 1을 참조하면, 일 실시예에 따른 전자 장치(2000)는 카메라 및 디스플레이를 포함하는 장치일 수 있다. 전자 장치(2000)는 카메라를 통해 이미지(정지 이미지 및/또는 비디오)를 촬영하고, 디스플레이를 통해 이미지를 출력하는 장치일 수 있다. 예를 들어, 전자 장치(2000)는 스마트 TV, 스마트 폰, 태블릿 PC, 랩탑 PC, 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 전자 장치(2000)는 카메라 및 디스플레이를 포함하는 다양한 종류 및 형태의 전자 장치로 구현될 수 있다. 또한, 전자 장치(2000)는 오디오를 출력하기 위한 스피커를 포함할 수도 있다.
일 실시예에서, 전자 장치(2000)의 사용자는 전자 장치(2000)의 카메라를 이용하여 객체(100)를 촬영할 수 있다. 전자 장치(2000)는 객체(100)의 적어도 일부를 포함하는 이미지(110)를 획득할 수 있다.
본 개시에서, 이미지 내의 객체(100)의 표면에 인식되어야 할 정보가 있는 경우, 이를 '관심 영역(120)'이라 지칭한다. 예를 들어, 객체(100)의 표면 영역(예를 들어, 객체(100)의 표면에 부착된 라벨 영역)이 관심 영역이 될 수 있다. 일 실시예에서, 전자 장치(2000)는 객체(100)의 관심 영역(120)으로부터, 객체(100)와 관련된 정보를 추출할 수 있다.
본 개시에서는, 관심 영역(120)의 일 예시로, 상품의 '표면(예를 들어, 라벨)'에 대한 왜곡을 제거하는 것을 설명한다. 여기서 라벨이란, 종이, 스티커, 천 등으로 제작되어 상품에 부착되는 것으로, 라벨에는 상품의 상표나 상품명 등이 인쇄되어 있을 수 있다. 상품의 표면(예를 들어, 라벨)은 상품과 관련된 다양한 정보, 예를 들어, 상품의 성분, 사용법, 사용량, 취급상의 주의 사항, 상품의 가격, 부피, 용량 등이 포함될 수 있다. 본 개시에서, 표면(예를 들어, 라벨)은 객체(100)의 표면 상의 영역의 일 예시일 뿐이다. 예를 들어, 텍스트, 이미지, 로고 및 기타 텍스트/시각족 요소들이 라벨을 사용하지 않고 객체(100)의 표면에 인쇄, 각인 또는 새겨질 수 있다. 예를 들어, 본 개시의 실시예는 객체(100)의 표면 상의 임의의 텍스트, 이미지, 로고 및 기타 텍스트/시각적 요소에 적용될 수 있다.
본 개시에서 전자 장치(2000)는 객체(100)에 포함된 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역(120)으로 식별하고, 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역으로부터 객체(100)와 관련된 정보를 획득할 수 있다. 객체(100)가 3차원 형상인 경우, 2차원적인 이미지(110) 내에서 객체(100)의 표면(예를 들어, 라벨)의 형상이 왜곡될 수 있다. 이에 따라, 전자 장치(200)가 객체(100)의 표면(예를 들어, 라벨)으로부터 획득한 정보(예를 들어, 로고, 아이콘, 텍스트 등)의 정확도가 저하될 수 있다. 일 실시예에 따른 전자 장치(2000)는, 관심 영역(120)(예를 들어, 적어도 하나의 표면, 라벨)으로부터 정확한 정보를 추출하기 위해, 객체(100)의 이미지(110)를 이용하여 왜곡 없는 이미지(130)를 획득할 수 있다. 여기서, 왜곡 없는 이미지(130)는 객체(100)의 관심 영역(120)의 왜곡을 감소시키거나 및/또는 제거한 이미지를 말한다. 예를 들어, 왜곡 없는 이미지(130)는 표면(예를 들어, 라벨) 영역의 굴곡 왜곡이 감소되거나 제거되어 평평하게 된 이미지일 수 있다. 본 개시에서, 왜곡 없는 이미지(130)는 플랫 표면(예를 들어, 라벨) 이미지로도 지칭될 수 있다.
일 실시예에 따른 전자 장치(2000)는 왜곡 없는 이미지(130)를 생성하기 위해, 객체(100)의 3차원 정보를 추정할 수 있다. 전자 장치(2000)는 객체(100)의 3차원 정보에 기초하여 관심 영역(120)을 평면으로 변환함으로써, 왜곡 없는 이미지(130)를 획득한다. 객체(100)의 3차원 정보는, 객체(100)의 3차원 형상과 관련된 3차원 파라미터 또는 객체를 촬영하는 카메라와 관련된 3차원 파라미터를 포함할 수 있다. 또한, 3차원 형상은 구, 정육면체, 실린더 등을 포함할 수 있으나 이에 한정되는 것은 아니다.
본 개시에서, '3차원 파라미터'란, 객체(100)의 3차원 형상과 관련된 기하학적 특징을 나타내는 요소들을 말한다. 3차원 파라미터는 예를 들어, 객체(100)의 높이 및 반지름 정보(또는, 가로, 세로 정보), 객체(100)의 3차원 공간 상에서의 3차원 기하학적 변환을 위한 이동(translation) 및 회전(rotation) 정보, 객체(100)를 촬영한 전자 장치(2000)의 카메라의 초점 거리 정보 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 3차원 파라미터는 변수이며, 3차원 파라미터 중 어느 하나의 값이 변경됨에 따라 3차원 형상 또한 변경될 수 있다. 3차원 파라미터 요소들이 모여 3차원 파라미터 셋을 구성할 수 있다. 이러한 3차원 파라미터 셋에 따라 결정되는, 객체(100)의 3차원 형상을 나타낼 수 있는 정보를 본 개시에서는 '3차원 정보'로 지칭한다.
본 개시에서, '객체(100)의 3차원 정보'란 이미지(110)에 포함되는 객체(100)의 3차원 형상을 나타내기 위한 3차원 파라미터 값들의 집합(예를 들어, 가로 값, 세로 값, 높이 값, 반지름 값 등)을 말한다. 객체(100)의 3차원 정보는 반드시 객체(100)의 절대적인 가로, 세로, 높이, 반지름 등의 값을 나타내는 3차원 파라미터들로 구성될 필요는 없으며, 객체(100)의 3차원 비율을 나타내는 상대적인 값을 나타내는 3차원 파라미터들로 구성될 수 있다. 즉, 전자 장치(2000)는 객체(100)의 3차원 정보가 있으면, 객체(100)와 동일한 비율을 갖는 3차원 형상의 객체(100)를 렌더링할 수 있다.
일 실시예에 따른 전자 장치(2000)는, 관심 영역(120)의 왜곡을 제거하는 이미지 처리 동작을 수행하기 위해, 객체(100)의 적어도 일부를 포함하는 이미지(110)로부터 관심 영역(120)을 식별하고, 객체(100)의 3차원 형상 타입을 식별하며, 객체(100)의 관심 영역(120) 및 객체(100)의 3차원 형상 타입에 기초하여, 객체(100)의 3차원 정보를 추정할 수 있다. 그리고 전자 장치(2000)는 객체(100)의 3차원 정보에 기초하여 왜곡 없는 이미지(130)를 생성할 수 있다.
일 실시예에 의하면, 전자 장치(2000)는 왜곡 없는 이미지(130)로부터 객체 정보(140)를 추출하고, 왜곡 없는 이미지(130) 및/또는 왜곡 없는 이미지(130)로부터 추출된 객체 정보(140)를 사용자에게 제공할 수도 있다.
전자 장치(2000)가 이미지 처리 동작들을 통해 관심 영역(120)의 왜곡을 제거하거나 왜곡 없는 이미지(130)로부터 정보를 추출하는 구체적인 동작들에 대해서는, 후술하는 도면들과 그에 대한 설명에서 더 상세하게 서술하기로 한다.
도 2는 본 개시의 일 실시예에 따른 전자 장치가 이미지를 처리하는 방법을 설명하기 위한 흐름도이다.
단계 S210에서, 일 실시예에 전자 장치(2000)는 제1 카메라를 이용하여 적어도 하나의 표면(예를 들어, 라벨)을 포함하는 객체의 제1 이미지를 획득한다. 전자 장치(2000)는 사용자의 조작을 통해 제1 카메라를 활성화할 수 있다. 예를 들어, 사용자는 객체에 관한 정보를 얻기 위해 전자 장치(2000)의 카메라를 활성화하여 객체를 촬영할 수 있다. 사용자는 카메라를 실행하기 위한 하드웨어 버튼 또는 아이콘을 터치하여 카메라를 활성화할 수도 있고, 음성 명령(예: 하이 빅스비 카메라 켜줘, 하이 빅스비 사진 찍어서 표면(예를 들어, 라벨) 정보 보여줘)을 통해 카메라를 활성화할 수도 있다.
일 실시예에서, 제1 카메라는 망원 카메라, 광각 카메라, 초광각 카메라 중 하나일 수 있으며, 제1 이미지는, 망원 카메라로 촬영된 이미지, 광각 카메라로 촬영된 이미지, 초광각 카메라로 촬영된 이미지 중 하나일 수 있다.
일 실시예에서, 전자 장치(2000)는 하나 이상의 카메라를 포함할 수 있다. 예를 들어, 전자 장치(2000)는 제1 카메라, 제2 카메라 등으로 구성되는 멀티카메라를 포함할 수 있다. 전자 장치(2000)에 카메라가 복수 개 포함되는 경우, 각각의 카메라의 사양은 상이할 수 있다. 예를 들어 복수의 카메라는, 서로 다른 초점 거리 및 화각을 갖는, 망원 카메라, 광각 카메라, 초광각 카메라 등을 포함할 수 있다.
다만, 전자 장치(2000)에 포함되는 카메라의 종류는 전술한 예시에 한정되는 것은 아니다. 전자 장치(2000)에 카메라가 복수 개 포함된 경우, 제1 이미지는, 복수의 카메라를 통해 획득된 이미지들을 합성한 이미지일 수도 있다. 제1 이미지는 전자 장치(2000)의 화면에서 표시되는 프리뷰 이미지를 캡쳐하여 저장한 것일 수 있고, 이미 촬영되어 전자 장치(2000)에 저장된 것일 수 있으며, 전자 장치(2000)의 외부로부터 획득된 이미지일 수 있다. 제1 이미지는 적어도 하나의 표면(예를 들어, 라벨)을 포함하는 객체의 일부를 촬영한 이미지일 수 있으며, 또는, 객체의 전체를 촬영한 이미지일 수 있다. 한편, 일 실시예에 의하면, 제1 이미지는, 제1 카메라에 의해 연속적으로 촬영된 파노라마 이미지일 수도 있다.
단계 S220에서, 일 실시예에 따른 전자 장치(2000)는 제1 이미지를 제1 AI 모델에 적용함으로써, 제1 이미지 내에서 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 식별한다. 예를 들어, 전자 장치(2000)는 제1 카메라를 통해 제1 이미지가 획득된 경우, 제1 이미지를 제1 AI 모델에 적용할 수 있다. 이때, 제1 AI 모델은 제1 이미지 내에서 관심 영역을 추론하고, 관심 영역에 관련된 데이터를 출력할 수 있다. 한편, 본 개시에서 제1 이미지를 제1 AI 모델에 적용한다는 것은, 제1 이미지 자체를 제1 AI 모델에 적용하는 것뿐만 아니라, 제1 이미지를 전처리하여 제1 AI 모델에 적용하는 것도 포함할 수도 있다.
예를 들어, 전자 장치(2000)는 제1 이미지에서 일부 영역을 잘라낸 이미지(cropped image), 제1 이미지를 리사이즈한 이미지, 또는 제1 이미지에서 일부를 잘라내고 리사이즈한 이미지를 제1 AI 모델에 적용할 수도 있다.
본 개시에서, 제1 AI 모델은 관심 영역 식별 모델로 지칭될 수 있다. 관심 영역 식별 모델은, 이미지를 입력 받아 이미지 내 객체의 관심 영역에 관련된 데이터를 출력하도록 훈련된 인공지능 모델일 수 있다. 예를 들어, 관심 영역 식별 모델은 이미지 내에서 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 추론하도록 훈련된 인공지능 모델일 수 있다. 일부 실시예에서, 전자 장치(2000)는 관심 영역 식별 모델을 이용하여, 객체의 표면의 관심 영역(예를 들어, 상품에 부착된 라벨 등)을 식별할 수 있다. 일부 실시예에서, 전자 장치(2000)는 관심 영역 식별 모델을 이용하여 객체의 관심 영역을 나타내는 키포인트들(본 개시에서, 제1 키포인트들로도 지칭됨)을 식별할 수 있다. 예를 들어, 제1 AI 모델은 제1 이미지 내에서 적어도 하나의 표면(예를 들어, 라벨)의 가장자리(edge)를 나타내는 키포인트들 (또는 좌표 값)에 관한 정보를 출력할 수 있다. 제1 AI 모델이 제1 이미지 내에서 관심 영역을 추정하는 동작에 대해서는 도 5를 참조하여 더 자세히 살펴보기로 한다.
한편, 본 개시에서는 객체의 관심 영역으로 표면(예를 들어, 라벨) 영역을 예시로 설명하나, 관심 영역은 이에 한정되지 않는다. 전자 장치(2000)에 의해, 객체로부터 추출하고자 하는 정보가 있는 또다른 영역들도 관심 영역으로 설정될 수 있으며, 본 개시의 실시예들이 동일/유사하게 적용될 수 있다.
단계 S230에서, 일 실시예에 따른 전자 장치(2000)는 제1 이미지를 제2 AI 모델에 적용함으로써 객체의 3차원 형상 타입에 관한 데이터를 획득한다. 예를 들어, 전자 장치(2000)는 제1 카메라를 통해 제1 이미지가 획득된 경우, 제1 이미지를 제2 AI 모델에 적용할 수 있다. 이때, 제2 AI 모델은 제1 이미지에 포함된 객체의 3차원 형상 타입을 추론하고, 객체의 3차원 형상 타입에 관련된 데이터를 출력할 수 있다. 본 개시에서, 제2 AI 모델은 객체 3차원 형상 식별 모델로 지칭될 수 있다. 객체 3차원 형상 식별 모델은, 이미지를 입력 받아 이미지 내 객체의 3차원 형상 타입에 관련된 데이터를 출력하도록 훈련된 인공지능 모델일 수 있다. 예를 들어, 객체 3차원 형상 식별 모델은, 이미지 내 객체의 3차원 형상 타입을 추론하도록 훈련된 인공지능 모델일 수 있다. 일부 실시예에서, 전자 장치(2000)는 3차원 객체 형상 식별 모델을 이용하여, 제1 이미지 내에 포함된 객체의 3차원 형상 타입(예를 들어, 구, 정육면체, 실린더 등)을 식별할 수 있다. 전자 장치(2000)가 3차원 객체 형상 식별 모델을 이용하여 객체의 3차원 형상 타입을 식별하는 동작에 대해서는 도 4를 참조하여 후에 더 살펴보기로 한다.
이미지 내의 객체가 3차원 형상인 경우, 2차원적인 이미지 내에서 3차원 객체의 표면에 부착되어있는 관심 영역이 왜곡됨으로 인해 관심 영역 내의 정보(예를 들어, 로고, 아이콘, 텍스트 등)의 식별의 정확도가 저하될 수 있다. 예를 들어, 객체가 실린더 타입의 상품인 경우, 실린더 표면에 달라붙는 상품의 라벨은 객체의 곡면 표면에 부착되어 있으므로, 실린더 타입의 상품을 촬영한 이미지 내에서 관심 영역인 상품의 라벨은 왜곡되어 있다. 일 실시예에 따른 전자 장치(2000)는 객체의 3차원 형상을 식별하고, 관심 영역의 왜곡을 제거하기 위하여, 식별된 객체의 3차원 형상 타입에 관한 데이터를 이용할 수 있다. 본 개시에서, 실린더 타입의 상품은 객체의 예시일 뿐이다. 본 개시에서, 물체는 비평면 표면을 갖는 임의의 제품 또는 물질일 수 있다. 따라서, 곡면 표면은 본 개시에서 논의되는 비평면 표면의 일 예시에 불과하다.
일 실시예에 의하면, 제1 이미지를 제1 AI 모델에 적용하여 제1 이미지 내에서 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 식별하는 단계 S220과 제1 이미지를 제2 모델에 적용하여 제1 이미지에 포함된 객체의 3차원 형상 타입에 관한 데이터를 획득하는 단계 S230은 병렬적으로 수행될 수 있다. 예를 들어, 전자 장치(2000)는, 제1 카메라를 통해 제1 이미지를 획득하는 경우, 제1 이미지를 제1 AI 모델과 제2 AI 모델에 각각 입력할 수 있다. 이때, 제1 AI 모델이 제1 이미지 내에서 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 추론하는 동작과 제2 AI 모델이 제1 이미지에 포함된 객체의 3차원 형상 타입을 추론하는 동작은 병렬적으로 이루어질 수 있다.
일 실시예에 의하면, 단계 S220과 단계 S230 중 어느 하나의 단계가 먼저 수행될 수도 있다. 예를 들어, 전자 장치(2000)는, 제1 이미지를 제1 AI 모델에 먼저 입력하여 제1 AI 모델이 관심 영역을 추론한 결과를 확인한 후에 제1 이미지를 제2 AI 모델에 입력할 수도 있다. 반대로, 전자 장치(2000)는, 제1 이미지를 제2 AI 모델에 먼저 입력하여 제2 AI 모델이 제1 이미지 내에 포함된 객체의 3차원 형상 타입을 추론한 결과를 확인한 후에 제1 이미지를 제1 AI 모델에 입력할 수도 있다.
단계 S240에서, 일 실시예에 따른 전자 장치(2000)는 관심 영역으로 식별된 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역 및 객체의 3차원 형상 타입에 관한 데이터에 기초하여, 객체, 적어도 하나의 표면(예를 들어, 라벨) 및 제1 카메라 중 적어도 하나와 관련된 3차원 파라미터 값들의 집합을 획득한다. 일부 실시예에서, 3차원 파라미터의 요소들은 객체의 3차원 형상과 관련된 가로, 세로, 높이, 반지름 정보 등을 포함할 수 있다.
일부 실시예에서, 3차원 파라미터의 요소들은 객체의 3차원 공간 상에서의 3차원 기하학적 변환을 위한 이동(translation) 및 회전(rotation) 정보를 포함할 수 있다. 이동 및 회전 정보는 전자 장치(2000)의 카메라가 객체를 어떤 위치에서 어떤 각도로 바라보고 촬영한 것인지를 나타내는 정보일 수 있다.
일부 실시예에서, 3차원 파라미터의 요소들은 객체를 촬영한 전자 장치(2000)의 카메라의 초점 거리 정보를 포함할 수 있다. 다만, 3차원 파라미터는 전술한 예시에 한정되는 것은 아니며, 전자 장치(2000)가 객체의 3차원 기하학적 특징을 식별하고 관심 영역의 왜곡을 제거하기 위한 다른 정보들을 더 포함할 수 있다.
일 실시예에서, 3차원 파라미터는 객체의 3차원 형상에 대응하도록 결정된다. 즉, 각각의 3차원 형상의 타입(이하, 3차원 형상 타입)마다 이에 대응하는 3차원 파라미터의 요소는 상이할 수 있다.
예를 들어, 3차원 형상이 실린더 타입인 경우, 실린더 타입에 대응하는 3차원 파라미터는 반지름을 포함할 수 있으나, 3차원 형상이 정육면체 타입인 경우, 정육면체 타입에 3차원 파라미터는 반지름을 포함하지 않을 수 있다. 단계 S230에서 획득되는 객체의 3차원 형상 타입에 대응하는 3차원 파라미터란, 객체의 정확한 3차원 정보를 획득하기 위해 사용되는 초기값들로 설정되어 있을 수 있다. 전자 장치(2000)는 초기값을 갖는 3차원 파라미터를 객체의 3차원 정보를 나타내도록 파라미터 값들을 미세 조정하여, 객체의 3차원 정보를 나타내는 3차원 파라미터를 획득할 수 있다.
일 실시예에서, 객체의 3차원 형상 타입이 실린더(또는, 병(bottle))인 경우, 3차원 파라미터의 요소는 객체의 가로, 세로, 높이, 반지름 정보, 객체의 3차원 공간 상에서의 이동 및 회전 정보, 객체를 촬영한 전자 장치(2000)의 카메라의 초점 거리 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 전술한 것과 같이, 객체의 3차원 형상 타입이 직육면체인 경우, 직육면체 타입에 대응하는 3차원 파라미터의 요소는 실린더 타입에 대응하는 3차원 파라미터의 요소와 상이할 수 있다.
일 실시예에서, 전자 장치(2000)는 적어도 하나의 라벨의 굴곡 형상을 나타내는 3차원 정보를 획득할 수 있다. 전자 장치(2000)는 3차원 파라미터의 초기값이 객체의 3차원 파라미터의 정답 값에 근사 또는 정합하도록 미세 조정함으로써, 조정된 3차원 파라미터의 최종 값이 객체의 3차원 정보를 나타내도록 만들 수 있다. 전술한 예시인, 3차원 형상 타입이 실린더(또는, 병)인 경우를 계속하여 설명하면, 전자 장치(2000)는 3차원 파라미터의 값들 중 가로, 세로, 높이, 반지름이 객체의 가로, 세로, 높이의 상대적인 비율 또는 절대적인 값을 나타내도록 조정할 수 있다.
또한, 전자 장치(2000)는 3차원 파라미터의 값들 중 이동 및 회전 값이, 객체의 3차원 공간 상에서의 이동 정도 및 회전 정도를 나타내는 값이 되도록 조정할 수 있다. 또한, 전자 장치(2000)는 3차원 파라미터의 값들 중 초점 거리 값이, 객체를 촬영한 전자 장치(2000)의 카메라의 초점 거리를 나타내는 값이 되도록 조정할 수 있다.
일 실시예에서, 전자 장치(2000)는 객체의 3차원 정보를 추정하기 위해 임의의 가상 객체를 설정할 수 있다. 가상 객체는, 단계 S230에서 식별된 객체의 3차원 형상 타입과 동일한 형상 타입을 가지며, 초기 파라미터 값들을 갖는 3차원 파라미터를 이용하여 렌더링 가능한 객체일 수 있다. 전자 장치(2000)는 3차원 가상 객체를 2차원으로 투영하고, 3차원 가상 객체의 키포인트들(본 개시에서, 제2 키포인트들로도 지칭됨)을 설정할 수 있다.
전자 장치(2000)는 가상 객체의 키포인트들이 단계 S220에서 획득된 객체의 키포인트들(제1 키포인트들)에 정합하도록 3차원 파라미터 값들을 미세 조정할 수 있다. 3차원 파라미터의 미세 조정 작업이 반복 수행됨에 따라, 3차원 파라미터의 최종 값들이 결정되고, 3차원 파라미터의 최종 값들이 객체의 3차원 정보를 나타내게 되면, 가상 객체로부터 획득된 제2 키포인트들이 객체의 제1 키포인트들에 정합된다. 전자 장치(2000)가 미세 조정 작업을 통해 객체의 3차원 정보를 나타내도록 3차원 파라미터의 값들을 변경하는 동작은, 도 6a에 대한 설명에서 더 기술한다.
단계 S240에서 서술한, 전자 장치(2000)가 3차원 파라미터 값들을 획득한다고 하는 것은, 전술한 조정 작업을 통해 획득된 3차원 파라미터의 최종 값을 획득하는 것을 말한다.
단계 S250에서, 일 실시예에 따른 전자 장치(2000)는 3차원 파라미터 값들에 기초하여, 적어도 하나의 표면(예를 들어, 라벨)의 비평면 형상을 추정한다.
전술한 단계들을 통해 값이 조정된 3차원 파라미터는, 이미지 내 객체의 3차원 정보(예를 들어, 객체의 가로, 세로, 높이, 반지름, 객체의 표면에 부착된 라벨의 굴곡 정도(각도) 또는 표면의 굴곡 정도(각도) 등)를 나타낸다. 전자 장치(2000)는 3차원 파라미터를 이용하여 객체의 표면의 관심 영역인, 표면(예를 들어, 라벨)을 나타내는 2차원 메시(mesh)를 생성할 수 있다. 여기서 2차원 메시(mesh) 데이터는 3차원 파라미터 값들을 이용하여, 3차원 공간 상의 표면(예를 들어, 라벨) 좌표를 2차원으로 투영한 결과로서, 제1 이미지 내의 표면(예를 들어, 라벨) 왜곡 정보를 의미할 수 있다.
단계 S260에서, 일 실시예에 따른 전자 장치(2000)는 적어도 하나의 표면(예를 들어, 라벨)에 대한 원근 변환을 수행함으로써, 표면(예를 들어, 라벨)의 비평면 형상(예를 들어, 굴곡 형상)이 평평하게 된, 플랫 표면(예를 들어, 라벨) 이미지를 획득한다.
전자 장치(2000)는 원근 변환(perspective transform)을 이용하여, 표면(예를 들어, 라벨)의 비평면 형상(예를 들어, 굴곡 형상)을 평평하게 변환할 수 있다. 평평하게 변환된 표면(예를 들어, 라벨)의 이미지는, 객체의 3차원 형상으로 인한 촬영 시 왜곡 등이 제거 및/또는 감소된 이미지이므로, 본 개시에서는 왜곡 없는 이미지, 또는 플랫 표면(예를 들어, 라벨) 이미지로 지칭될 수 있다.
한편, 단계 S240 내지 단계 S260의 동작에는 왜곡 제거 모델이 이용될 수 있다. 왜곡 제거 모델은, 객체 내의 관심 영역 정보 및 객체와 관련된 3차원 파라미터 값들을 입력 받아 왜곡 없는 이미지를 출력하도록 훈련된 인공지능 모델일 수 있다. 관심 영역 정보는 관심 영역의 이미지 및 관심 영역의 키포인트들의 좌표를 포함할 수 있다. 예를 들어, 왜곡 제거 모델은, 곡면을 포함하는 3차원 객체의 표면에 부착되어 굴곡이 있는 채로 촬영된 라벨을 포함하는 이미지를 입력 받아, 라벨이 평평하게 된 플랫 라벨 이미지를 획득할 수 있다.
일 실시예에서, 전자 장치(2000)는 플랫 표면(예를 들어, 라벨) 이미지로부터 객체와 관련된 정보를 획득할 수 있다. 전자 장치(2000)는 관심 영역 내 정보를 추출하기 위한 정보 검출 모델을 이용하여 관심 영역 내의 로고, 아이콘, 텍스트 등을 식별할 수 있다. 정보 검출 모델은 전자 장치(2000)의 메모리에 저장될 수도 있고, 외부 서버에 저장될 수도 있다.
전자 장치(2000)는 전술한 단계들을 통해, 이미지 내 객체의 3차원 정보를 추론하고, 추론된 객체의 3차원 정보를 이용하여 정밀한 원근 변환을 수행함으로써 관심 영역의 왜곡을 제거하므로, 향상된 정확도로 관심 영역 내의 정보를 추출할 수 있다. 전자 장치(2000)가 정보 검출 모델을 이용하여 플랫 표면(예를 들어, 라벨) 이미지로부터 객체와 관련된 정보를 획득하는 동작에 대해서는 도 7을 참조하여 후에 조금 더 살펴보기로 한다.
이하에서는, 도 3을 참조하여, 전자 장치(2000)가 제1 AI 모델(관심 영역 식별 모델) 및 제2 AI 모델(객체 3차원 형상 식별 모델)을 이용하여, 기하학적 왜곡이 포함된 제1 이미지로부터 왜곡이 제거된 플랫 표면(예를 들어, 라벨) 이미지를 획득하는 동작에 대해서 더 살펴보기로 한다.
도 3은 본 개시의 일 실시예에 따른 전자 장치가 이미지를 처리하는 동작을 전반적으로 설명하기 위한 도면이다.
도 3을 참조하면, 일 실시예에 따른 전자 장치(2000)는 객체(300)의 이미지 이하, 객체 이미지(304)를 획득할 수 있다. 객체(300)는 적어도 하나의 라벨을 포함할 수 있다.
일 실시예에서, 전자 장치(2000)는 사용자의 카메라 제어에 의해 객체(300)를 캡쳐함으로써 객체(300)의 이미지를 획득할 수 있다. 또는, 전자 장치(2000)는 이미 캡쳐된 객체(300)의 이미지를 다른 전자 장치(예를 들어, 서버, 다른 사용자의 전자 장치 등)로부터 수신할 수 있다.
일 실시예에서, 전자 장치(2000)는 관심 영역 식별 모델(310)을 이용하여 관심 영역(312)을 식별할 수 있다. 관심 영역 식별 모델(310)은 이미지를 입력 받아 이미지 내 객체(300)의 관심 영역(312)에 관련된 데이터를 출력하도록 훈련된 인공지능 모델일 수 있다. 관심 영역(312)에 관련된 데이터는 예를 들어, 관심 영역(312)의 키포인트들 및/또는 이들의 좌표 등일 수 있으나, 이에 한정되는 것은 아니다. 이하에서, 관심 영역(312)에 관련된 데이터는 설명의 편의를 위해 관심 영역(312)으로 지칭된다. 도 3의 예시에서, 관심 영역(312)은 객체(300)의 표면에 부착된 라벨이지만, 관심 영역(312)의 종류는 이에 한정되는 것은 아니다.
일 실시예에서, 전자 장치(2000)는 객체 이미지(304)를 관심 영역 식별 모델(310)의 입력 데이터로 사용할 수 있다. 또한, 전자 장치(2000)는 객체 이미지(304)에 소정의 전처리 알고리즘을 적용하여 관심 영역(312)을 식별하기에 보다 적합하도록 처리할 수 있다. 예를 들어, 전자 장치(2000)는 객체 이미지(304)의 일부를 잘라내고 리사이즈하여 획득된, 잘라낸 객체 이미지(302)를 관심 영역 식별 모델(310)의 입력 데이터로 사용할 수 있다. 이 경우, 객체 이미지(304)에서 잘라내어진 영역은, 관심 영역 이외의 영역일 수 있다. 또한, 잘라낸 객체 이미지(302)에는 객체(300)의 적어도 일부가 포함될 수 있으며, 객체(300)의 관심 영역(312)이 포함될 수 있다.
일 실시예에서, 전자 장치(2000)는 객체 3차원 형상 식별 모델(320)을 이용하여 객체의 3차원 형상 타입(322)을 식별할 수 있다. 객체 3차원 형상 식별 모델(320)은 이미지를 입력 받아 이미지 내 객체(300)의 3차원 형상 타입(322)에 관한 데이터를 출력하도록 훈련된 인공지능 모델일 수 있다. 도 3의 예시에서, 3차원 형상 타입(322)은 예시적으로 실린더로 도시되었지만, 이에 한정되는 것은 아니다. 예를 들어, 3차원 형상 타입(322)은 구, 정육면체 등일 수 있다. 이하에서, 3차원 형상 타입(322)에 관련된 데이터는 설명의 편의를 위해 3차원 형상 타입(322)으로 지칭된다.
전자 장치(2000)는 3차원 형상 타입(322)에 기초하여 3차원 파라미터(324)의 초기 값들을 획득할 수 있다. 3차원 파라미터(324)는 3차원 형상 타입(322)에 기초하여 결정할 수 있다. 예를 들어, 3차원 형상 타입(322)이 실린더 타입인 경우, 실린더 타입에 대응하는 3차원 파라미터(324)의 요소들은 높이, 반지름, 객체 표면의 관심 영역의 각도, 3차원 공간 상의 이동 좌표 및 화전 좌표, 카메라의 초점 거리 중 적어도 하나를 포함할 수 있다.
일 실시예에서, 전자 장치(2000)는 왜곡 제거 모델(330)을 이용하여 왜곡 없는 이미지(332)를 획득할 수 있다. 왜곡 제거 모델(330)은, 관심 영역(312), 3차원 파라미터(324), 객체 이미지(304)(또는, 잘라낸 객체 이미지(302))를 입력 받아, 왜곡 없는 이미지(332)를 출력하도록 훈련된 인공지능 모델일 수 있다. 도 3의 예시에서는, 관심 영역(312)이 라벨이고, 객체(300)는 병이므로, 왜곡 없는 이미지(332)는 병 표면에 부착된 라벨의 왜곡을 제거한, 플랫 라벨 이미지일 수 있다. 다만, 왜곡 없는 이미지(332)는 플랫 라벨 이미지에 한정되는 것은 아니다. 왜곡 없는 이미지(332)는, 관심 영역(312)의 타입, 3차원 형상 타입(322)에 따라 획득 가능한 모든 유형의 이미지를 포함할 수 있다.
일 실시예에서, 왜곡 제거 모델(330)은 3차원 파라미터(324)의 초기 값들을 튜닝하여, 3차원 파라미터(324)의 최종 값들이 객체(300)의 3차원 정보를 나타내도록 할 수 있다. 예를 들어, 왜곡 제거 모델(330)에 의해, 객체(300)의 가로, 세로, 높이, 반지름, 객체(300)의 표면에 부착된 라벨의 굴곡 정도(각도) 등의 상대적 또는 절대적인 값들이 획득될 수 있다. 왜곡 제거 모델(330)은, 객체(300)의 3차원 정보를 나타내는 3차원 파라미터(324)의 최종 값들에 기초하여, 왜곡 없는 이미지(332)를 생성할 수 있다.
예를 들어, 왜곡 제거 모델(330)은 3차원 파라미터(324)의 최종 값들에 기초하여, (굴곡진) 객체(300)의 표면에 부착된 라벨의 굴곡이 평평하게 되도록 변환함으로써, 라벨의 왜곡이 제거된 플랫 라벨 이미지를 왜곡 없는 이미지(332)로 획득할 수 있다.
일 실시예에서, 전자 장치(2000)는 왜곡 제거 모델(330)의 동작은 일련의 데이터 처리/연산으로 대체될 수 있다. 전자 장치(2000)는 왜곡 제거 모델(330)을 이용하지 않고, 일련의 데이터 처리/연산을 수행하여 왜곡 없는 이미지(332)를 획득할 수 있다. 예를 들어, 전자 장치(2000)는 객체의 3차원 정보를 추정하기 위해 임의의 가상 객체를 설정할 수 있다. 임의의 가상 객체는 3차원 파라미터(324)의 초기 값들에 기초하여 생성될 수 있다. 전자 장치(2000)는 임의의 가상 객체로부터 임의의 관심 영역을 설정하고, 임의의 가상 객체의 임의의 관심 영역과 객체(300)의 관심 영역(312)이 매칭되도록 3차원 파라미터의 값들을 조정함으로써, 3차원 파라미터(324)의 최종 값들을 획득할 수 있다. 전자 장치(2000)는 3차원 파라미터(324)의 최종 값들에 기초하여, 왜곡 없는 이미지(332)를 생성할 수 있다.
전자 장치(2000)가 객체의 3차원 정보를 추정하기 위해 임의의 가상 객체를 설정하는 동작에 대해서는 도 6a를 참조하여 후에 더 살펴보기로 한다.
도 4는 본 개시의 일 실시예에 따른 전자 장치가 객체의 3차원 형상을 식별하는 동작을 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)는 객체 3차원 형상 식별 모델(410)을 이용하여 객체의 3차원 형상 타입(420)을 식별할 수 있다. 전자 장치(2000)는 객체의 이미지(400)를 입력 받아 피쳐들을 추출하는 객체 3차원 형상 식별 모델(410)의 신경망 연산을 통해 객체의 3차원 형상 타입(420)을 식별할 수 있다.
객체 3차원 형상 식별 모델(410)은, 3차원 객체를 포함하는 다양한 이미지들로 구성되는 트레이닝 데이터셋에 기초하여 훈련된 것일 수 있다. 객체 3차원 형상 식별 모델(410)의 트레이닝 데이터셋의 객체 이미지들에는, 객체의 3차원 형상 타입(420)이 레이블링 되어 있을 수 있다. 객체의 3차원 형상 타입(420)은 예를 들어, 구, 정육면체, 각뿔, 원뿔, 잘린 원뿔, 반구, 직육면체 등이 포함될 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 전자 장치(2000)는 식별된 3차원 형상 타입(420)에 기초하여 객체의 3차원 형상 타입(420)에 대응하는 3차원 파라미터(430)를 획득할 수 있다. '3차원 파라미터(430)'란, 객체의 3차원 형상과 관련된 기하학적 특징을 나타내는 요소들을 말한다.
예를 들어, 3차원 형상 타입(420)이 '구'인 경우, '구'의 3차원 파라미터(430)가 획득되고, 3차원 형상 타입(420)이 '정육면체'인 경우, '정육면체'의 3차원 파라미터(430)가 획득될 수 있다. 3차원 파라미터(430)를 구성하는 요소들은 3차원 형상 타입(420) 마다 상이할 수 있다. 예를 들어, '구'의 3차원 파라미터(430)에는 반지름 및/또는 직경 등의 요소가 포함될 수 있으며, '정육면체'의 3차원 파라미터(430)에는 가로, 세로, 높이 등의 요소가 포함될 수 있다.
한편, 도 4에 도시된 3차원 파라미터(430)는 설명의 편의를 위해 기하학적 특징인 가로, 세로, 반지름, 깊이 등의 요소들만 도시되었으나, 3차원 파라미터(430)는 이에 한정되는 것은 아니다. 3차원 파라미터(430)는 공간 상에서 객체의 회전 좌표 정보, 공간 상에서 객체의 이동 좌표 정보, 객체를 촬영한 카메라의 초점 거리 정보 및 객체의 관심 영역에 관한 3차원 정보(예를 들어, 관심 영역의 가로, 세로, 곡률 등) 등을 더 포함할 수 있다. 즉, 도시된 3차원 파라미터(430)는 시각적 이해를 돕기 위한 예시일 뿐이며, 3차원 파라미터(430),는 전술한 예시들 외에 이미지 내 객체의 3차원 정보를 추정하기 위해 활용 가능한 어떠한 유형의 요소든지 더 포함될 수 있고, 전술한 예시들 중에서 일부 요소들이 제외될 수도 있다.
다시 구체적인 예를 들면, 일 실시예에 따른 전자 장치(2000)는 이미지(400)를 객체 3차원 형상 식별 모델(410)에 적용하여, 이미지(400) 내의 객체의 3차원 형상 타입(420)인 실린더 타입(422)을 식별할 수 있다. 전자 장치(2000)는 실린더 타입(422)에 대응하는, 실린더의 3차원 파라미터(432)를 획득할 수 있다. 실린더의 3차원 파라미터(432)는 예를 들어, 실린더의 직경 D, 실린더의 반지름 r, 3차원 공간상에서의 실린더의 회전 정보 R, 3차원 공간상에서의 실린더의 이동 정보 T, 실린더의 높이 h, 실린더 표면의 관심 영역의 높이 h', 실린더 표면에서 관심 영역(예를 들어, 상품의 라벨 등)이 차지하는 각도 θ, 카메라의 초점거리 정보 F 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 3차원 파라미터(430)에 포함되는 각각의 요소들은, 임의의 객체의 3차원 정보를 나타내는 초기 값이 설정되어 있을 수 있다. 일 실시예에 따른 전자 장치(2000)는, 3차원 파라미터(430)가 객체의 3차원 정보를 나타내도록 매칭할 수 있다. 예를 들어, 전자 장치(2000)는 실린더의 3차원 파라미터(432) 값들을 조정하여, 실린더의 3차원 파라미터(432) 값들이 이미지(400) 내의 객체의 3차원 정보를 나타내도록 할 수 있다. 즉, 전자 장치(2000)는 이미지(400) 내 객체의 3차원 정보를 나타내는 3차원 파라미터(430) 값들을 획득할 수 있다. 이에 대하여는 도 6a에 대한 설명에서 더 기술한다.
한편, 본 개시의 도면들에서는 이미지(400) 내 객체가 '와인' 이고 관심 영역이 '와인 라벨'인 것을 예시로 설명하지만, 본 개시는 이에 한정되는 것은 아니다.
예를 들어, 본 개시에서 와인 병의 3차원 형상 타입(420)은 실린더 타입(422)로 식별되는 것을 설명하지만, 객체 3차원 형상 식별 모델(410)의 훈련 및 튜닝에 따라서는 와인 병이 병(bottle) 타입으로 식별될 수도 있고, 이에 따라 획득되는 3차원 파라미터도 병 타입에 대응하는 3차원 파라미터일 수 있다.
또다른 예를 들면, 이미지 내 객체가 다른 타입의 3차원 형상인 '구, 원뿔, 직육면체' 등의 객체일 수도 있다. 이 경우, 전자 장치(2000)는 각각의 객체 별로 3차원 형상 타입(420)을 식별하고, 3차원 파라미터(430)를 획득할 수 있다.
또다른 예를 들면, 이미지 내 관심 영역은 상품의 라벨이 아닌, 상품의 성분, 사용법, 사용량 등 상품(객체)에 관련된 정보를 나타내는 영역일 수도 있다. 이 경우, 전자 장치(2000)는 객체의 관심 영역에 포함되는 정보를 정확하게 식별하기 위해, 본 개시의 실시예들에 따른 왜곡 제거 동작들을 수행하고, 왜곡 없는 이미지로부터 객체와 관련된 정보를 획득할 수 있다.
도 5는 본 개시의 일 실시예에 따른 전자 장치가 객체의 표면의 관심 영역을 식별하는 동작을 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)는 관심 영역 식별 모델(510)을 이용하여 관심 영역(520)을 식별할 수 있다. 전자 장치(2000)는 객체 이미지(500)를 입력 받아 피쳐들을 추출하는 관심 영역 식별 모델(510)의 신경망 연산을 통해 관심 영역(520)을 식별할 수 있다.
일 실시예에서, 전자 장치(2000)는 관심 영역 식별 모델(510)에 입력될 객체 이미지(500)를 전처리할 수 있다. 전자 장치(2000)는 객체 이미지(500)의 일부를 잘라내고 리사이즈하여 획득된, 입력 이미지(502)를 관심 영역 식별 모델(510)의 입력 데이터로 사용할 수 있다. 일 실시예에서, 전자 장치(2000)는 관심 영역 식별 모델(510)에 입력될 이미지를 다른 카메라를 이용하여 획득할 수 있다.
예를 들어, 전자 장치(2000)는 사용자가 객체를 촬영할 때, 다른 고해상도 카메라를 이용하여 관심 영역의 고해상도 이미지를 획득할 수 있다. 이 경우, 사용자가 촬영하는 이미지는 객체 이미지(500)와 같은 포맷일 수 있고, 전자 장치(2000)가 관심 영역 식별을 위해 별도로 저장하는 이미지는 입력 이미지(502)와 같은 포맷일 수 있다.
관심 영역 식별 모델(510)은, 관심 영역을 포함하는 다양한 이미지들로 구성되는 트레이닝 데이터셋에 기초하여 훈련된 것일 수 있다. 관심 영역 식별 모델(510)의 트레이닝 데이터셋의 관심 영역 이미지들에는, 관심 영역을 나타내는 키포인트들이 레이블링 되어 있을 수 있다. 전자 장치(2000)가 관심 영역 식별 모델(510)을 이용하여 식별하는 관심 영역(520)은, 검출된 관심 영역(520)이 표시된 이미지, 관심 영역을 나타내는 키포인트들 및/또는 이미지 내에서 키포인트들의 좌표 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
관심 영역 식별 모델(510)은, 백본(backbone) 네트워크 및 회귀 모듈을 포함할 수 있다. 백본 네트워크는 입력 이미지(502)로부터 다양한 피쳐들을 추출하기 위한 알려진 신경망(예를 들어, CNN 등) 알고리즘들이 사용될 수 있다. 예를 들어, 백본 네트워크는 미리-훈련된(pre-trained) 네트워크 모델일 수 있으며, 관심 영역 식별 모델(510)의 성능 개선을 위해 다른 타입의 신경망으로 변경될 수 있다. 회귀 모듈은 관심 영역(520)을 검출하는 태스크를 수행한다. 예를 들어, 회귀 모듈은 관심 영역을 나타내는 경계 박스, 키포인트들 등이 정답 값에 수렴하도록 학습하기 위한 회귀 알고리즘을 포함할 수 있다. 회귀 모듈은 관심 영역(520)을 검출하기 위한 신경망 레이어 및 가중치들을 포함할 수 있다. 예를 들어, 회귀 모듈은 관심 영역을 검출하기 위한 R-CNN(Regions with Convolutional Neuron Networks features) 등으로 구성될 수 있으나, 이에 한정되는 것은 아니다. 전자 장치(2000)는 관심 영역 식별 모델(510)의 트레이닝 데이터셋을 이용하여 회귀 모듈의 레이어들을 훈련시킬 수 있다.
도 6a는 본 개시의 일 실시예에 따른 전자 장치가 객체의 3차원 정보를 획득하는 동작을 설명하기 위한 도면이다.
도 6a를 설명함에 있어서, 설명의 편의를 위해 객체의 3차원 형상 타입은 실린더로 식별된 경우를 예시로 들어 설명한다. 다만, 객체의 3차원 형상 타입은 실린더에 한정되는 것은 아니며, 전술한 예시를 포함하여 기하학적 특징을 3차원 파라미터로 나타낼 수 있는 어떠한 3차원 형상 타입에 대해서도 적용될 수 있다.
일 실시예에 따른 전자 장치(2000)는, 객체의 3차원 정보를 획득하기 위해 후술되는 동작들을 수행할 수 있다. 전자 장치(2000)는 객체의 3차원 정보에 기초하여 원근 변환을 수행하므로, 객체의 3차원 정보 없이 일반적으로 원근 변환을 수행하는 것보다 정밀하게 이미지 내 왜곡을 제거할 수 있다. 이미지 내의 왜곡은 3차원 객체 표면의 곡선면으로 인한 관심 영역의 왜곡 등을 포함할 수 있다. 예를 들어, 객체의 3차원 형상의 곡선면으로 인해, 객체 표면에 부착된 라벨이 2차원의 이미지 내에서 왜곡된 것을 예로 들 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 전자 장치(2000)는 기 저장된 다양한 3차원 형상 타입(예를 들어, 실린더, 구, 정육면체 등)에 대응하는 3차원 파라미터 중에서, 식별된 3차원 형상 타입인 '실린더'에 대응하는 3차원 파라미터(610)를 획득할 수 있다. 실린더 타입에 대응하는 3차원 파라미터(610)는 예를 들어, 실린더의 반지름 r, 3차원 공간상에서의 실린더의 회전 정보 R, 3차원 공간상에서의 실린더의 이동 정보 T, 관심 영역의 높이 h, 실린더 표면에서 관심 영역(예를 들어, 상품의 라벨 등)이 차지하는 각도 θ, 카메라의 초점거리 정보 F 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 3차원 파라미터(610)에 포함되는 각각의 요소들은, 초기값이 설정되어 있을 수 있다.
일 실시예에서, 전자 장치(2000)는 이미지 내 객체의 3차원 정보를 추정하기 위해, 가상 객체(620)를 설정할 수 있다. 가상 객체(620)는, 이미지 내 객체의 3차원 형상 타입과 동일한 형상 타입으로 설정되며, 3차원 파라미터(610)의 초기 값으로 렌더링되는 객체일 수 있다. 즉, 도 6a의 예시에서는, 가상 객체(620)는 실린더 타입이고, 3차원 파라미터(610)의 초기값(r, R, T, h, θ, F)을 3차원 정보로 하는 객체이다. 또한, 가상 객체(620)는 가상 객체에 대하여 임의로 설정된 초기 관심 영역(622)을 포함할 수 있다.
전자 장치(2000)는 가상 객체(620)의 3차원 정보를 나타내는 3차원 파라미터(610) 값들이 이미지 내 객체의 3차원 정보를 나타내도록, 3차원 파라미터(610) 값들을 미세 조정할 수 있다.
전자 장치(2000)는 가상 객체(620)를 2차원으로 투영하고, 가상 객체(620)의 관심 영역(예를 들어, 라벨)을 나타내는 키포인트들(또한, 제2 키포인트들로도 지칭됨)(630)을 설정할 수 있다. 전자 장치(2000)는 제2 키포인트들(630)이 이미지 내 객체의 관심 영역을 나타내는 키포인트들(또한, 제1 키포인트들로도 지칭됨)(640)에 정합하도록 3차원 파라미터(610) 값들을 미세 조정할 수 있다. 전자 장치(2000)가 이미지 내 객체의 관심 영역을 나타내는 제1 키포인트들(640)을 획득하는 동작은 전술하였으므로, 동일한 설명은 생략한다.
전자 장치(2000)는 손실 함수에 기초하여 제2 키포인트들(630)이 제1 키포인트들(640)에 정합하도록 조정할 수 있다. 함수 f는 실린더의 3차원 파라미터(610)인 r, R, T, h, θ, F 를 변수로 포함하는 함수일 수 있다. 전자 장치(2000)는 함수 f를 이용하여 가상 객체(620)의 제2 키포인트들(630)을 추정할 수 있으며, 손실 함수를 이용하여 제2 키포인트들(630)과 제1 키포인트들(640)의 오차가 최소화 되도록 제2 키포인트들(630)을 조정할 수 있다. 전자 장치(2000)는 제2 키포인트들(630)이 제1 키포인트들에 정합하도록 3차원 파라미터(610)의 값들을 변경할 수 있다. 전자 장치(2000)는 변경된 3차원 파라미터(610)의 값들에 기초하여 가상 객체(620)를 재생성(업데이트)하고, 전술한 동작을 반복할 수 있다.
즉, 전자 장치(2000)는, 3차원 파라미터(610)의 값을 조정하고, 3차원 파라미터(610)의 조정된 값들의 3차원 정보를 갖는 가상 객체의 생성을 반복하면서, 가상 객체(620)를 2차원으로 투영하여 획득된 제2 키포인트들(630)과 이미지 내 객체의 관심 영역을 나타내는 제1 키포인트들(640)의 차이가 최소가 되는 3차원 파라미터(610)의 값들을 획득할 수 있다. 위 조정 작업이 반복됨에 따라, 가상 객체에 대하여 설정된 3차원 파라미터(610)의 초기값들은, 객체의 3차원 파라미터(610)의 정답 값에 근사하도록 조정될 수 있다. 제2 키포인트들(630)이 제1 키포인트들(640)에 정합되면, 이 때의 가상 객체(620)에 대응되는 3차원 파라미터(610)의 값들은 이미지 내 객체의 3차원 정보를 나타낸다. 전자 장치(2000)는 최종적으로 이미지 내 객체의 3차원 정보를 나타내는 3차원 파라미터(610)를 획득할 수 있다.
도 6b는 본 개시의 일 실시예에 따른 전자 장치가 객체의 3차원 정보에 기초하여 관심 영역의 왜곡을 제거하는 동작을 설명하기 위한 도면이다.
도 6b를 설명함에 있어서, 도 6a에서 예시로 설명한 내용을 계속하여 설명한다. 도 6b를 참조하면, 일 실시예에 따른 전자 장치(2000)는 3차원 파라미터(610)의 값들의 미세 조정 과정을 통해, 이미지 내 객체의 3차원 정보를 나타내는 3차원 파라미터(610) 값들을 획득할 수 있다.
전자 장치(2000)는 3차원 파라미터(610) 값들을 이용하여 이미지 내 객체의 표면의 관심 영역을 나타내는 2차원 메시(mesh) 데이터(650)를 생성할 수 있다. 2차원 메시 데이터(650)는, 획득된 3차원 파라미터(610) 값들에 기초하여, 3차원 공간 상에서 객체의 관심 영역 좌표를 2차원으로 투영하여 생성된 데이터를 말하며, 객체의 관심 영역의 왜곡 정보를 포함한다.
예를 들어, 굴곡 형상을 갖는 3차원 객체인 '와인 병'의 표면에 부착된 관심 영역은 '와인 라벨'일 수 있다. 이 경우, 2차원 메시 데이터(650)는 와인 병의 표면에 부착된 와인 라벨의 3차원 공간상 좌표를 2차원으로 투영한 것으로, 와인 병을 포함하는 이미지 내에서 관심 영역인 와인 라벨의 왜곡 정보를 나타낼 수 있다.
전자 장치(2000)는 굴곡 왜곡이 반영된 2차원 메시 데이터(650)를 평면(flat) 데이터(660)로 변환할 수 있다. 이 경우, 데이터 변환을 위한 다양한 알고리즘이 적용될 수 있다. 예를 들어, 전자 장치(2000)는 원근 변환 알고리즘을 이용할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에 따른 전자 장치(2000)는 평면 데이터(660)를 생성함으로써, 평면 데이터(660)에 대응하는, 왜곡 없는 이미지(670)를 획득할 수 있다. 예를 들어, 왜곡 없는 이미지(670)는, 와인 병의 곡선 면에 부착되어 있는, 굴곡 형상을 갖는 와인의 라벨을 평평하게 편 이미지일 수 있으나, 이에 한정되는 것은 아니다. 일부 실시예에서, 전자 장치(2000)는 왜곡 없는 이미지(670)를 획득할 때, 픽셀 간 보간을 수행하여 이미지 품질을 개선할 수 있다.
전자 장치(2000)는 관심 영역의 왜곡 없는 이미지(670)를 이용하여, 관심 영역 내 정보를 추출할 수 있다. 왜곡 없는 이미지(670)는 객체의 정확한 3차원 정보를 추론한 결과에 기초하여 생성된 것이므로, 이미지 내 정보를 추출하기 위한 일반적인 정보 검출 모델(예: OCR 모델)을 이용하더라도 관심 영역 내의 로고, 아이콘, 텍스트 등이 보다 더 정확하게 검출될 수 있다.
즉, 왜곡된 이미지 내에서 정보를 추출하기 위해 이미지 내의 왜곡을 반영하여 별도로 정보 검출 모델을 훈련시키지 않더라도, 일반적인 정보 검출 모델을 통해서도 정확한 정보 추출이 가능할 수 있다. 다만, 전술한 일반적인 정보 검출 모델은 예시일 뿐이며, 전자 장치(2000)는 로고, 아이콘, 텍스트 등에 왜곡이 있는 훈련 데이터를 포함하여 훈련된 검출 모델 또한 이용할 수 있다.
도 7은 본 개시의 일 실시예에 따른 전자 장치가 관심 영역 내의 정보를 추출하는 동작을 설명하기 위한 도면이다.
도 7을 설명함에 있어서, 전자 장치(2000)가 전술한 실시예들에 따라, 이미지 내에 객체가 있고, 객체의 전체 영역 중 적어도 일부의 영역이 관심 영역이며, 관심 영역의 왜곡 없는 이미지(700)를 획득한 것을 전제로 설명한다. 구체적으로, 왜곡 없는 이미지(700)는 상품의 라벨의 왜곡(예를 들어, 굴곡으로 인한 왜곡 등)을 제거한 플랫 라벨 이미지일 수 있다.
일 실시예에서, 전자 장치(2000)는 정보 검출 모델(710)을 이용하여 관심 영역의 왜곡 없는 이미지(700)로부터 관심 영역 내 정보(720)를 추출할 수 있다. 관심 영역 내 정보(720)는 객체와 관련된 정보일 수 있다. 예를 들어, 전자 장치(2000)는 정보 검출 모델(710)을 이용하여, 객체에 포함된 상품 라벨의 왜곡 없는 이미지(700)를 획득하고, 상품 라벨에 포함되는 객체와 관련된, 관심 영역 내 정보(720)를 획득할 수 있다.
일 실시예에서, 정보 검출 모델(710)은 왜곡 없는 이미지(700)를 이용하여 정보를 추출하므로, 정보 추출을 위해 사용되는 알려진 검출 모델들이 이용될 수 있다. 예를 들어, 정보 검출 모델(710)은 OCR 모델일 수 있다. 전자 장치(2000)는 OCR 모델을 이용하여 관심 영역 내의 텍스트들을 검출할 수 있다. OCR 모델은, 일반 문자, 특수 문자(special character) 및 기호(symbol) 등을 인식할 수 있다.
다만, 관심 영역 내 정보(720)는 이에 한정되는 것은 아니며, 관심 영역 내의 로고, 아이콘, 이미지 등을 검출하기 위한 다양한 검출 모델들이 이용될 수 있다. 구체적으로, 로고 검출 모델, 아이콘 검출 모델, 이미지 검출 모델, 객체 검출 모델 등이 포함될 수 있다.
일 실시예에서, 정보 검출 모델(710)은 왜곡 없는 이미지(700)에 기초하여 훈련된 인공지능 모델일 수 있다. 전술한 실시예들에 따라 획득되는 왜곡 없는 이미지(700)로부터 정보 추출의 정밀성을 확보하기 위해, 전자 장치(2000) 왜곡 없는 이미지(700) 및 관심 영역 내 정보(720)를 트레이닝 데이터셋에 포함시켜 정보 검출 모델(710)을 더 훈련시킬 수 있다.
이 경우, 전자 장치(2000)는 알려진 검출 모델들을 미리-훈련된 모델로 하여, 관심 영역 내 정보(720)가 보다 정밀하게 추출되도록 정보 검출 모델(710)을 훈련시킬 수 있다. 일부 실시예에서, 전자 장치(2000)는 하나 이상의 정보 검출 모델(710)을 이용할 수 있다. 예를 들어, 전자 장치(2000)는 둘 이상의 정보 검출 모델(710) 각각으로부터 획득된 정보를 독립적으로 표시/제공하거나, 둘 이상의 정보 검출 모델(710) 각각으로부터 획득된 정보를 조합 및/또는 가공하여, 새로운 2차 정보를 생성하고, 생성된 2차 정보를 표시/제공할 수 있다.
도 8a는 본 개시의 일 실시예에 따른 전자 장치가 3차원 정보를 획득하여 왜곡 없는 이미지를 획득한 제1 예시를 설명하기 위한 도면이다.
도 8a 내지 도 8c에서, 시점이란, 전자 장치(2000)의 카메라가 객체(800)를 바라본 방향 및/또는 각도를 나타내기 위해 임의로 선정된 용어이다.
도 8a를 참조하면, 일 실시예에 따른 전자 장치(2000)는 제1 시점에서 객체(800)를 촬영한 객체 이미지(810)로부터 관심 영역(812)을 식별하고, 왜곡 없는 이미지(814)(예를 들어, 플랫 라벨 이미지)를 획득할 수 있다.
일 실시예에서, 제1 시점은 전자 장치(2000)의 카메라가 객체(800)를 정면에서 바라본 것일 수 있다. 이 경우, 전자 장치(2000)가 객체(800)를 정면에서 촬영하더라도, 3차원 형상의 객체를 촬영한 이미지는 2차원이기 때문에, 객체(800)의 표면 또는 객체(800)에 부착된 라벨에는, 객체(800) 자체에 존재하는 곡면으로 인한 왜곡이 있을 수 있다.
일 실시예에 따른 전자 장치(2000)는, 객체 이미지(810)로부터 관심 영역(812)을 잘라내고, 관심 영역(812)을 포함하는 왜곡 없는 이미지(814)를 획득할 수 있다. 전자 장치(2000)는 왜곡 없는 이미지(814)를 획득하기 위해, 객체(800)의 3차원 정보를 이용할 수 있다. 3차원 정보는 객체(800)에 대하여 튜닝된 3차원 파라미터 값들로 구성될 수 있다.
예를 들어, 3차원 정보는 실린더 형상의 객체(800)의 반지름, 3차원 공간 상에서의 객체(800)의 회전 좌표, 3차원 공간상에서의 객체(800)의 이동 좌표, 객체(800)의 표면에서 관심 영역(812)이 차지하는 각도(즉, 객체(800)의 3차원 형상인 실린더의 중심 축으로부터 관심 영역 양 끝단 사이의 각도), 전자 장치(2000)가 객체 이미지(810)를 촬영하였을 때 카메라의 초점 거리 등을 포함할 수 있다.
전자 장치(2000)는 3차원 정보에 기초하여, 관심 영역(812)이 2차원 평면에서 왜곡 없이 표현될 수 있도록 원근 변환을 수행할 수 있다. 이에 대한 구체적인 동작들은 전술하였으므로, 동일한 설명은 생략한다.
한편, 전자 장치(2000)가 객체(800)를 바라보는 시점이 변경됨에 따라 관심 영역(812)에 발생하는 왜곡의 정도가 상이해질 수 있다. 일 실시예에 따른 전자 장치(2000)는 3차원 정보를 활용함으로써 왜곡의 정도에 관계 없이 강건한 왜곡 제거를 수행할 수 있다. 이를 도 8b 및 도 8c를 참조하여 더 설명하기로 한다.
도 8b는 본 개시의 일 실시예에 따른 전자 장치가 3차원 정보를 획득하여 왜곡 없는 이미지를 획득한 제2 예시를 설명하기 위한 도면이다.
도 8b를 참조하면, 일 실시예에 따른 전자 장치(2000)는 제2 시점에서 객체(800)를 촬영한 객체 이미지(820)로부터 관심 영역(822)을 식별하고, 왜곡 없는 이미지(826)(예를 들어, 플랫 라벨 이미지)를 획득할 수 있다.
일 실시예에서, 제2 시점은 전자 장치(2000)의 카메라가 객체(800)를 수직 위 방향으로 기울여서 바라본 것일 수 있다. 이 경우, 객체 이미지(820)에 포함되는 관심 영역(822)에는, 객체(800)의 3차원 형상으로 인한 왜곡 외에도, 전자 장치(2000)의 카메라의 시점으로 인한 왜곡 또한 존재할 수 있다. 전자 장치(2000)는 객체(800)의 3차원 정보를 이용함으로써, 객체(800)의 3차원 형상으로 인한 왜곡 및 전자 장치(2000)의 카메라의 시점으로 인한 왜곡을 제거한, 왜곡 없는 이미지(826)를 획득할 수 있다.
예를 들어, 변환 이미지(824)는 관심 영역(822)을 평평하게 원근 변환하여 생성된 이미지이다. 원근 변환은 알려진 원근 변환 알고리즘이 이용될 수 있으므로, 구체적인 설명은 생략한다. 변환 이미지(824)를 참조하면, 관심 영역(822)을 평평하게 변환하더라도 객체(800)의 3차원 형상으로 인한 왜곡 및/또는 카메라의 시점으로 인한 왜곡(824-1, 824-2) 등이 잔존할 수 있다. (도 8b의 왜곡(824-1, 824-2)은, 기준 직선 대비 글자가 곡선으로 휘어진 왜곡을 예시적으로 나타낸다.)
일 실시예에서, 3차원 정보는 객체(800)의 3차원 정보를 나타내도록 튜닝된 3차원 파라미터 값들로 구성될 수 있다. 예를 들어, 3차원 정보는 객체(800)의 반지름, 3차원 공간 상에서의 객체(800)의 회전 좌표, 3차원 공간상에서의 객체(800)의 이동 좌표, 객체(800)의 표면에서 관심 영역(812)이 차지하는 각도(즉, 객체(800)의 3차원 형상인 실린더의 중심 축으로부터 관심 영역 양 끝단 사이의 각도), 전자 장치(2000)가 객체 이미지(820)를 촬영하였을 때 카메라의 초점 거리 등을 포함할 수 있다. 일 실시예에 따른 전자 장치(2000)는 3차원 정보를 이용하여 정밀하게 원근 변환을 수행함으로써, 객체의 3차원 형상 및 카메라의 촬영 시점으로 인해 발생하는 왜곡을 제거한, 왜곡 없는 이미지(826)를 획득할 수 있다.
도 8c는 본 개시의 일 실시예에 따른 전자 장치가 3차원 정보를 획득하여 왜곡 없는 이미지를 획득한 제3 예시를 설명하기 위한 도면이다.
도 8c를 참조하면, 일 실시예에 따른 전자 장치(2000)는 제3 시점에서 객체(800)를 촬영한 객체 이미지(830)로부터 관심 영역(832)을 식별하고, 왜곡 없는 이미지(836)(예를 들어, 플랫 라벨 이미지)를 획득할 수 있다.
일 실시예에서, 제3 시점은 전자 장치(2000)의 카메라가 객체(800)를 수직 아래 방향으로 기울여서 바라본 것일 수 있다. 이 경우, 객체(800)의 이미지에 포함되는 관심 영역(832)에는, 객체(800)의 3차원 형상으로 인한 왜곡 외에도, 전자 장치(2000)의 카메라의 시점으로 인한 왜곡 또한 존재할 수 있다.
예를 들어, 변환 이미지(834)는 관심 영역(832)을 평평하게 원근 변환하여 생성된 이미지이다. 변환 이미지(834)를 참조하면, 관심 영역(832)을 평평하게 변환하더라도 객체(800)의 3차원 형상으로 인한 왜곡 및/또는 카메라의 시점으로 인한 왜곡(834-1, 834-2) 등이 잔존할 수 있다. (도 8c의 왜곡(834-1, 834-2)은, 기준 직선 대비 글자가 곡선으로 휘어진 왜곡을 예시적으로 나타낸다.)
전자 장치(2000)는 객체(800)의 3차원 정보를 이용함으로써, 왜곡이 정밀하게 제거된 왜곡 없는 이미지(836)를 획득할 수 있다. 이에 대하여는 도 8b에서 이미 기술하였으므로, 동일한 설명은 생략한다.
일 실시예에서, 3차원 정보에 포함되는 3차원 파라미터는, 3차원 공간 상에서의 객체(800)의 회전 좌표, 3차원 공간상에서의 객체(800)의 이동 좌표 등이 포함될 수 있다. 이에 따라, 전자 장치(2000)는 왜곡 없는 이미지(836)를 생성할 때, 관심 영역(832)을 이동 및 회전시키고, 원근 변환을 수행할 수 있다.
일 실시예에서, 3차원 정보에 포함되는 3차원 파라미터는, 전자 장치(2000)가 객체 이미지(830)를 촬영하였을 때 카메라의 초점 거리를 포함할 수 있다. 이에 따라, 전자 장치(2000)는 왜곡 없는 이미지(836)를 생성할 때, 초점 거리에 기초하여 관심 영역(832)을 포함하는 이미지를 전처리하고, 원근 변환을 수행할 수 있다.
즉, 전자 장치(2000)는 왜곡 없는 이미지(836)를 생성할 때, 3차원 정보를 이용함으로써, 객체(800)의 3차원 형상으로 인한 왜곡 및/또는 카메라의 시점으로 인한 왜곡 등을 제거한다. 이에 따라, 전자 장치(2000)는 이미지 내 관심 영역(832)의 왜곡의 정도에 관계 없이 강건한 왜곡 제거를 수행할 수 있다.
도 9a는 본 개시의 일 실시예에 따른 전자 장치가 왜곡 없는 이미지로부터 정보를 추출한 제1 예시를 설명하기 위한 도면이다.
도 9a를 참조하면, 원본 이미지(910), 잘라낸 이미지(920), 및 왜곡 없는 이미지(930)가 도시되어 있다.
일 실시예에서, 전자 장치(2000)는 정보 검출 모델을 이용하여 이미지 내 존재하는 정보를 추출할 수 있다. 전자 장치(2000)는 왜곡 없는 이미지(930)를 획득하면, 일반적인 정보 검출 모델을 이용하여 관심 영역 내 정보를 검출할 수 있다. 즉, 전자 장치(2000)는 왜곡된 이미지 내에서 정보를 추출하기 위해 이미지 내의 왜곡을 반영하여 별도로 검출 모델을 훈련시키지 않더라도, 왜곡 없는 이미지(930)를 생성하고, 왜곡 없는 이미지(930)에 일반적인 검출 모델을 적용할 수 있다. 이에 따라, 전자 장치(2000)는 별도로 정보 검출 모델을 훈련/업데이트하기 위한 컴퓨팅 자원을 절약할 수 있다.
예를 들어, 전자 장치(2000)는 OCR 모델을 이용하여, 이미지 내 존재하는 텍스트들을 검출할 수 있다. 이하에서, 전자 장치(2000)가 OCR 모델을 이용하여 이미지로부터 텍스트를 추출하는 것을 예시로 설명한다.
일 실시예에서, 원본 이미지(910)는 전자 장치(2000)가 카메라를 이용하여 획득한 원시 이미지(raw image)이다. 원본 이미지(910)는 객체의 3차원 형상으로 인한 관심 영역의 왜곡이 포함될 수 있으며, 이미지 내에 관심 영역 외에 다른 여백 공간들이 더 포함될 수 있다. 즉, 관심 영역 외 노이즈 픽셀들이 포함될 수 있다. 전자 장치(2000)가 원본 이미지(910)에 대하여 OCR을 적용한다면, 전술한 원본 이미지(910)의 특징들로 인하여, 관심 영역 내 텍스트들 중 적어도 일부가 미인식되거나, 오인식 될 수 있다. 예를 들어, 원본 이미지(910) 내에서, 텍스트의 검출 영역은 사각 박스로 표시되어 있으며, 텍스트가 검출된 영역들 중에서 검출 영역 내 검출 텍스트가 오인식된 것은 빗금친 화살표로 표시(오인식된 경우)되어 있다.
또한, 텍스트가 있으나 검출 영역으로 식별되지 않은 것은 검은 화살표로 표시(미인식된 경우)되어 있다. 보다 구체적인 예시로, 관심 영역 내에서 검출해야하는 텍스트 블록의 수가 14개일 때, 원본 이미지(910)에 대하여 OCR을 적용한 결과(즉, 원본 이미지(910)로부터 검출된 텍스트(911)를 참조하면), 검출된 텍스트 블록은 8개이며, 이 중 적어도 일부는 텍스트 검출 결과가 정확하지 않을 수 있다.
보다 명확한 이해를 돕기 위해, 원본 이미지(910)로부터 검출된 텍스트(911)를 참조하여, 본 개시에서 예시적으로 설명하는 미인식된 경우 및 오인식된 경우를 더 설명하고, 잘라낸 이미지(920) 및 왜곡 없는 이미지(930)로부터 정보를 추출한 예시적인 결과를 설명한다.
일 실시예에서, OCR 모델은 이미지 내에서 텍스트를 검출하고, 검출된 텍스트를 인식하며, 인식한 결과를 신뢰도가 소정 임계값(예를 들어, 0.5) 이상인 것에 기초하여 인식 결과를 출력할 수 있다.
본 개시의 예시들에서 '미인식된 경우'란 이미지에 대하여 텍스트 검출 및 인식을 수행하였음에도 불구하고, 이미지로부터 텍스트 검출 및 인식 결과가 출력되지 않은 것을 의미할 수 있다. 예를 들어, '미인식된 경우'란, 1)텍스트가 검출되지 않은 경우, 2) 텍스트가 검출되고 텍스트 인식이 수행되었으나, 인식 결과의 신뢰도가 소정 임계값(예를 들어, 0.5) 미만이어서 인식 결과가 출력되지 않은 경우를 포함할 수 있다.
본 개시의 예시들에서, '인식된 경우'란 텍스트가 검출되고 텍스트 인식이 수행되었으며, 인식 결과의 신뢰도가 소정 임계값(예를 들어, 0.5) 이상이어서 인식 결과가 출력된 것을 포함할 수 있다. 여기서, '인식된 경우'는 '잘 인식된 경우'와 '오인식된 경우'로 구별될 수 있다. 본 개시의 예시들에서 '잘 인식된 경우'와 '오인식된 경우'는 상대적인 개념으로써 사용될 수 있다.
예를 들어, '오인식된 경우'란, 인식된 결과의 신뢰도가 낮은 경우(예를 들어, 신뢰도 0.5 이상 0.8 미만)를 의미할 수 있으며, '잘 인식된 경우'란, 인식된 결과의 신뢰도가 '오인식된 경우'보다 상대적으로 높은 경우(예를 들어, 신뢰도 0.8 이상)를 의미할 수 있다. 이에 따라, '오인식된 경우'에 해당하는 텍스트 인식 결과들은, 인식 결과가 출력되었으나 실제 텍스트의 정확한 인식 결과가 아닐 수 있다. 예를 들어, 원본 이미지(910)로부터 검출된 텍스트(911)의 인식 결과들 중에서 두번째 인식 텍스트를 나타내는, '2: "A *^"mfr~ y*D' 는 인식 결과의 신뢰도가 0.598 이므로 상대적으로 낮은 값이고, 인식 결과 또한 부정확한 텍스트이므로, '오인식된 경우'로 지칭될 수 있다.
마찬가지의 예시로, 원본 이미지(910)로부터 검출된 텍스트(911)의 인식 결과들 중에서 첫번째 인식 텍스트를 나타내는 '1: ELEVE'는 인식 결과의 신뢰도가 0.888이므로 상대적으로 높은 값이고, 인식 결과 또한 정확한 텍스트이므로 '잘 인식된 경우'로 지칭될 수 있다.
한편, OCR 모델에 의해 텍스트를 검출/인식한 결과의 신뢰도가 높더라도, 이미지 자체의 왜곡으로 인해 텍스트 검출/인식의 결과가 정확하지 않을 수 있다. 예를 들어, 원본 이미지(910)로부터 검출된 텍스트(911)의 인식 결과들 중에서 세번째 인식 텍스트를 나타내는 '3: pour cette cuv6e'는 인식 결과의 신뢰도가 0.960이지만, 실제 정확한 텍스트는 'pour cette cuvee'이다. 이는, 원본 이미지(910) 자체에 존재하는 곡면 왜곡으로 인해 발생하는 것으로, 별도로 왜곡에 관련된 특징들을 학습한 것이 아닌 일반적인 OCR 모델을 이용함으로 인한 것일 수 있다. 일 실시예에 따른 전자 장치(2000)는 왜곡 없는 이미지(930)을 생성하고, 왜곡 없는 이미지(930)에 대하여 OCR을 수행하므로, 일반적인 OCR 모델을 이용하더라도 정확한 텍스트가 검출되도록 할 수 있다.
이하에서, 서로 다른 특징을 갖는 이미지들인 잘라낸 이미지(920) 및 왜곡 없는 이미지(930)에 대하여, 일반적인 OCR 모델을 이용하여 텍스트를 검출하는 예시를 더 설명할 것이다.
전술한 미인식/오인식에 관련된 설명은, 후술되는 잘라낸 이미지(920)로부터 검출된 텍스트(921) 왜곡 없는 이미지(930)로부터 검출된 텍스트(931)에도 동일하게 적용될 수 있다. 또한, 도 9b에서 설명되는 원본 이미지(912)로부터 검출된 텍스트(913), 잘라낸 이미지(922)로부터 검출된 텍스트(923) 및 왜곡 없는 이미지(930)로부터 검출된 텍스트(933)에도 동일하게 적용될 수 있다.
일 실시예에서, 잘라낸 이미지(920)는 원본 이미지(910)로부터 관심 영역을 검출하고, 관심 영역만을 잘라낸 이미지이다. 잘라낸 이미지(920)는 객체의 3차원 형상으로 인한 관심 영역의 왜곡이 포함될 수 있다. 전자 장치(2000)가 잘라낸 이미지(920)에 대하여 OCR을 적용한다면, 전술한 잘라낸 이미지(920)의 특징으로 인하여, 관심 영역 내 텍스트들 중 적어도 일부가 미인식되거나, 오인식될 수 있다. 구체적인 예시로, 관심 영역 내에서 검출해야하는 텍스트 블록의 수가 14개일 때, 잘라낸 이미지(920)에 대하여 OCR을 적용한 결과(즉, 잘라낸 이미지(920)로부터 검출된 텍스트(921)를 참조하면), 검출된 텍스트 블록은 9개이며, 이 중 적어도 일부는 텍스트 검출 결과가 정확하지 않을 수 있다.
일 실시예에서, 왜곡 없는 이미지(930)는 전자 장치(2000)가 전술한 실시예들에 따라, 객체의 3차원 형상을 식별하고, 관심 영역을 식별하며, 객체의 3차원 정보를 나타내는 3차원 파라미터 값들을 획득하고, 3차원 파라미터 값들에 기초하여 원근 변환을 수행한 이미지이다. 왜곡 없는 이미지(930)는 3차원 정보에 기초하여 정밀하게 2차원으로 원근 변환된 이미지이므로, 전자 장치(2000)는 보다 정확한 텍스트 검출 결과를 획득할 수 있다. 전자 장치(2000)가 왜곡 없는 이미지(930)에 대하여 OCR을 적용한다면, 관심 영역 내 텍스트들이 정확하게 검출될 수 있다. 구체적인 예시로, 관심 영역 내에서 검출해야 하는 텍스트 블록의 수가 14개일 때, 왜곡 없는 이미지(930)에 대하여 OCR을 적용한 결과(즉, 왜곡 없는 이미지(930)로부터 검출된 텍스트(931)를 참조하면), 검출된 텍스트 블록은 14개이며, 정확한 텍스트 검출 결과가 획득될 수 있다.
한편, 전술한 검출해야 하는 텍스트 블록의 수, 미인식된 텍스트 블록들, 오인식된 텍스트 블록들은 설명의 편의를 위한 예시일 뿐, 텍스트 인식 결과를 단정하기 위한 것은 아니다. 즉, 원본 이미지(910) 및 잘라낸 이미지(920)에 대하여 텍스트를 검출한 결과보다, 왜곡 없는 이미지(930)에 대하여 텍스트를 검출한 결과가 상대적으로 정확도가 높다는 것을 설명하고자 하는 것임이 이해되어야 할 것이다.
도 9b는 본 개시의 일 실시예에 따른 전자 장치가 왜곡 없는 이미지로부터 정보를 추출한 제2 예시를 설명하기 위한 도면이다.
도 9b를 참조하면, 원본 이미지(912), 잘라낸 이미지(922), 및 왜곡 없는 이미지(932)가 도시되어 있다.
일 실시예에서, 원본 이미지(912) 및 잘라낸 이미지(922)는, 객체의 3차원 형상으로 인한 왜곡 외에도, 전자 장치(2000)가 객체를 촬영한 시점(거리, 각도 등)으로 인한 왜곡이 존재할 수 있다.
전자 장치(2000)는 객체의 3차원 형상을 식별하고, 관심 영역을 식별하며, 객체의 3차원 정보를 나타내는 3차원 파라미터 값들을 획득하고, 3차원 파라미터 값들에 기초하여 원근 변환을 수행함으로써 왜곡 없는 이미지(932)를 획득할 수 있다. 여기서, 3차원 파라미터에는 3차원 공간 상에서의 객체의 회전 좌표, 3차원 공간상에서의 객체의 이동 좌표, 카메라의 초점거리 등이 포함될 수 있으므로, 전자 장치(2000)는 관심 영역을 이동 및/또는 회전시키고, 원근 변환을 수행할 수 있다.
구체적으로, 전자 장치(2000)는 원본 이미지(912)에서, 3차원 공간을 촬영한 이미지의 중심부에 객체가 있지 않은 경우, 3차원 파라미터에 포함되는 공간상에서의 객체의 이동 정보에 기초하여 객체를 중심으로 이동시킬 수 있다. 또한, 전자 장치(2000)는 원본 이미지(912)에서 객체가 3차원 공간을 촬영한 이미지 내에서 회전되어 있는 경우, 3차원 파라미터에 포함되는 공간상에서의 객체의 회전 정보에 기초하여, 객체가 수평/수직 정렬되도록 회전시킬 수 있다. 또한, 전자 장치(2000)는 원본 이미지(912)를 촬영한 카메라의 초점 거리를 이용하여, 객체의 이동/회전 정도를 보완할 수 있다. 일 실시예에서, 객체의 이동/회전 등은, 전술한 실시예들에서 객체의 3차원 정보를 나타내는 3차원 파라미터 값들을 획득하는 동작에 포함될 수 있다. 즉, 전자 장치(2000)가 객체의 3차원 정보를 나타내는 3차원 파라미터 값들을 획득하기 위한 미세 조정 작업을 수행함에 따라, 이동 정보, 회전 정보 및 초점거리 정보 등이 활용될 수 있다.
이에 따라, 도 9b에 도시된 것과 같이, 원본 이미지(912) 내에 객체가 비스듬하게 촬영되어 있을 지라도, 왜곡 없는 이미지(932)는 관심 영역의 수평/수직 정렬이 된 상태로 획득될 수 있다.
일 실시예에서, 원본 이미지(912) 및 잘라낸 이미지(922)에 대하여 텍스트를 검출한 결과보다, 왜곡 없는 이미지(932)에 대하여 텍스트를 검출한 결과가 상대적으로 정확도가 높을 수 있다. 즉, 원본 이미지(912)로부터 검출된 텍스트(913), 잘라낸 이미지(922)로부터 검출된 텍스트(923) 및 왜곡 없는 이미지(930)로부터 검출된 텍스트(933)를 참조하면, 왜곡 없는 이미지(930)로부터 검출된 텍스트(933)가 가장 정확하게 식별됨을 알 수 있다.
한편, 미인식된 텍스트 블록들, 오인식된 텍스트 블록들은 설명의 편의를 위한 예시일 뿐, 텍스트 인식 결과를 단정하기 위한 것은 아니다. 즉, 원본 이미지(910) 및 잘라낸 이미지(920)에 대하여 텍스트를 검출한 결과보다, 왜곡 없는 이미지(930)에 대하여 텍스트를 검출한 결과가 상대적으로 정확도가 높다는 것을 설명하고자 하는 것임이 이해되어야 할 것이다.
도 10a는 본 개시의 일 실시예에 따른 전자 장치가 객체 3차원 형상 식별 모델을 훈련시키는 동작을 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)는 객체 3차원 형상 식별 모델(1000)을 훈련시킬 수 있다. 전자 장치(2000)는 3차원 객체를 포함하는 다양한 이미지들로 구성되는 트레이닝 데이터셋을 이용하여, 객체 3차원 형상 식별 모델(1000)을 훈련시킬 수 있다. 트레이닝 데이터셋에는 객체의 3차원 형상 전체를 포함하는 트레이닝 이미지(들)(1010)가 포함될 수 있다.
일 실시예에서, 전자 장치(2000)는 객체 3차원 형상 식별 모델(1000)의 추론 성능을 향상시키기 위하여 객체의 3차원 형상 일부를 포함하는 트레이닝 이미지들(1012)을 이용할 수 있다. 객체의 3차원 형상 일부를 포함하는 트레이닝 이미지들(1012)은, 다양한 각도, 거리에서 객체의 전체 또는 일부를 촬영함으로써 획득된 것일 수 있다. 예를 들어, 제1 방향(1012-1)에서 객체의 전체 또는 일부를 촬영한 이미지가 획득될 수 있으며, 제2 방향(1012-2)에서 객체의 전체 또는 일부를 촬영한 이미지가 획득될 수 있다. 전술한 예시와 같이, 객체를 촬영 가능한 모든 방향에 대하여, 객체의 전체 도는 일부를 촬영한 이미지가 트레이닝 이미지들(1012)에 포함되어, 트레이닝 데이터로 사용될 수 있다.
일부 실시예에서, 객체의 3차원 형상 일부를 포함하는 트레이닝 이미지들(1012)은 트레이닝 데이터셋에 이미 포함되어 있을 수 있다. 일부 실시예에서, 전자 장치(2000)는 객체의 3차원 형상 일부를 포함하는 트레이닝 이미지들(1012)을 외부 장치(예를 들어, 서버 등)로부터 수신할 수 있다. 일부 실시예에서, 전자 장치(2000)는 카메라를 이용하여 객체의 3차원 형상 일부를 포함하는 트레이닝 이미지들(1012)을 획득할 수 있다. 예를 들어, 전자 장치(2000)는 사용자에게 객체의 일부를 촬영하도록 가이드하는 인터페이스를 제공할 수 있다.
일 실시예에 따른 전자 장치(2000)는, 객체의 3차원 형상 전체를 포함하는 트레이닝 이미지(들)(1010) 및 객체의 3차원 형상 일부를 포함하는 트레이닝 이미지들(1012)을 이용하여 훈련된 객체 3차원 형상 식별 모델을 이용하여, 객체의 3차원 형상을 추론할 수 있다. 예를 들어, 객체의 일부만이 촬영된 입력 이미지(1020)만이 입력되더라도, 전자 장치(2000)는 입력 이미지(1020) 내 객체의 3차원 형상 타입이 실린더(1030)임을 추론할 수 있다.
도 10b는 본 개시의 일 실시예에 따른 전자 장치가 객체 3차원 형상 식별 모델을 훈련시키는 다른 동작을 설명하기 위한 도면이다.
도 10b를 참조하면, 전자 장치(2000)는 객체 3차원 형상 모델(1000)을 훈련시키기 위한 트레이닝 데이터들을 생성할 수 있다.
일 실시예에서, 트레이닝 데이터셋에는 객체의 3차원 형상 전체를 포함하는 트레이닝 이미지(들)(1010)가 포함될 수 있다. 전자 장치(2000)는 트레이닝 데이터셋에 포함되는 이미지들에 대하여 소정의 데이터 증강 작업을 수행함으로써, 트레이닝 데이터들을 생성할 수 있다.
예를 들어, 전자 장치(2000)는 객체의 3차원 형상 전체를 포함하는 트레이닝 이미지(들)(1010)를 크롭하여, 객체의 3차원 형상 일부를 포함하는 트레이닝 이미지들(1014)을 생성할 수 있다. 구체적인 예를 들면, 전자 장치(2000)는 트레이닝 이미지(1010)을 6분할함으로써, 1개의 트레이닝 데이터가 6개의 트레이닝 데이터가 되도록 데이터를 증강할 수 있다. 예를 들어, 트레이닝 이미지(1010)의 제1 영역(1014-1)이 분할 영역으로 결정되면, 잘라낸 제1 이미지(1014-2)가 훈련 데이터로 사용될 수 있다. 한편, 도 10b에는 크롭만이 예시로 도시되어 있으나, 로테이션, 플립 등 다양한 다른 데이터 증강 방식이 적용될 수도 있다.
일 실시예에 따른 전자 장치(2000)는, 객체의 3차원 형상 전체를 포함하는 트레이닝 이미지(들)(1010) 및 객체의 3차원 형상 일부를 포함하는 트레이닝 이미지들(1014)을 이용하여 훈련된 객체 3차원 형상 식별 모델을 이용하여, 객체의 3차원 형상을 추론할 수 있다. 예를 들어, 객체의 일부만이 촬영된 입력 이미지(1020)만이 입력되더라도, 전자 장치(2000)는 입력 이미지(1020) 내 객체의 3차원 형상 타입이 실린더(1030)임을 추론할 수 있다.
한편, 전자 장치(2000)는 전술한 트레이닝 데이터들에 대하여도, 소정의 데이터 증강 작업을 수행하고, 증강된 데이터를 더 이용하여 객체 3차원 형상 식별 모델(1000)을 훈련시킴으로써, 객체 3차원 형상 식별 모델(1000)의 추론 성능을 향상시킬 수 있다. 예를 들어, 전자 장치(2000)는 객체의 3차원 형상 전체를 포함하는 트레이닝 이미지(들)(1010), 3차원 형상 일부를 포함하는 트레이닝 이미지들(1012, 1014)에 대하여, 크롭, 로테이션, 플립 등의 다양한 데이터 증강 방식을 적용하고, 증강된 데이터를 훈련 데이터셋에 포함시킬 수 있다.
도 10c는 본 개시의 일 실시예에 따른 전자 장치가 객체의 3차원 형상을 식별하는 실시예를 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)는 객체의 일부만이 촬영된 입력 이미지(1020)(이하에서, 입력 이미지)를 객체 3차원 형상 식별 모델(1000)에 입력하고, 객체 3차원 형상 추론 결과(1026)를 획득할 수 있다. 이 경우, 입력 이미지(1020)가 객체의 전체 형상을 포함하지 않기 때문에, 객체 3차원 형상 추론 결과(1026)의 보완이 필요할 수 있다. 예를 들어, 객체 3차원 형상 추론 결과(1026)는 실린더 타입일 확률 50%, 잘린 원뿔 타입일 확률 50% 일 수 있으며, 객체 3차원 형상 식별 모델(1000)이 객체 3차원 형상을 확정하기 위한 임계 값은 확률 값: 80% 이상일 수 있다. 이 경우, 실린더 타입일 확률(50%)과 원뿔 타입일 확률(50%) 모두 객체 3차원 형상을 확정하기 위한 임계 값(80%)을 초과하지 않으므로, 전자 장치(2000)는 객체 3차원 형상 추론 결과(1026)를 보완하기 위한 동작을 수행할 수 있다.
일 실시예에서, 전자 장치(2000)는 객체 3차원 형상 추론 결과(1026) 값이 기 설정된 임계 값 미만인 것에 기초하여, 객체 3차원 형상 추론 결과(1026)를 보완하기 위한 정보 검출 동작을 수행할 수 있다. 정보 검출 동작은 예를 들어, 로고, 아이콘, 텍스트 등을 검출하는 것일 수 있으나, 이에 한정되는 것은 아니다.
보다 구체적 예를 들면, 전자 장치(2000)는 입력 이미지(1020)에 대하여 OCR을 수행하여, 입력 이미지(1020) 내에서 텍스트를 검출할 수 있다. 이 경우, 검출된 텍스트는 상품명인 'ABCDE'일 수 있다. 전자 장치(2000)는 검출된 텍스트에 기초하여, 데이터베이스 내에서 또는 외부 서버를 통해서 상품을 검색할 수 있다. 예를 들어, 전자 장치(2000)는 'ABCDE'의 상품을 데이터베이스에서 검색할 수 있다. 전자 장치(2000)는 상품 검색 결과에 기초하여, 3차원 형상 타입의 가중치를 결정할 수 있다. 예를 들어, 'ABCDE' 상품의 검색 결과, 시중에서 유통되는 'ABCDE' 상품의 95% 이상이 실린더 타입임을 식별할 수 있다. 이 경우, 전자 장치(2000)는 실린더 타입에 가중치를 적용할 것으로 결정할 수 있다. 전자 장치(2000)는 객체 3차원 형상 추론 결과(1026)에 결정된 가중치를 적용할 수 있다. 가중치 적용 결과, 최종적으로 결정된 객체의 3차원 형상 타입이 실린더(1030)인 것으로 결정될 수 있다.
일 실시예에서, 전자 장치(2000)는 객체 3차원 형상 식별 모델(1000)에 입력 이미지(1020)를 입력하는 것과 병렬적으로, 정보 검출 동작을 수행할 수 있다 예를 들어, 전자 장치(2000)는 입력 이미지(1020)에 대하여 OCR을 수행할 수 있다. 전자 장치(2000)는 병렬적으로 수행한 OCR 결과에 기초하여, 객체 3차원 형상 추론 결과(1026)에 적용될 가중치를 결정할 수 있다.
도 10d는 본 개시의 일 실시예에 따른 전자 장치가 객체의 3차원 형상을 식별하는 실시예를 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)는 입력 이미지(1024)를 객체 3차원 형상 식별 모델(1000)에 입력하고, 객체 3차원 형상 추론 결과(1026)를 획득할 수 있다.
전자 장치(2000)는 입력 이미지(1024)를 객체 3차원 형상 식별 모델(1000)에 적용하기 이전에, 객체 검색 도메인 선택을 위한 사용자 인터페이스를 표시할 수 있다. 예를 들어, 전자 장치(2000)는 유제품, 와인, 통조림 등의 선택 가능한 도메인을 표시하고, 도메인을 선택하는 사용자 입력을 수신할 수 있다.
전자 장치(2000)는 검색 도메인을 선택하는 사용자 입력에 기초하여, 3차원 형상 타입의 가중치를 결정할 수 있다. 예를 들어, 사용자가 와인 라벨 검색을 선택한 경우, 시중에서 유통되는 와인 상품의 95% 이상이 실린더 타입임을 식별할 수 있다. 이 경우, 전자 장치(2000)는 실린더 타입에 가중치를 적용할 것으로 결정할 수 있다. 전자 장치(2000)는 객체 3차원 형상 추론 결과(1026)에 결정된 가중치를 적용할 수 있다. 가중치 적용 결과, 최종적으로 결정된 객체의 3차원 형상 타입이 실린더(1030)인 것으로 결정될 수 있다.
도 11은 본 개시의 일 실시예에 따른 전자 장치가 관심 영역 식별 모델을 훈련시키는 동작을 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)는 관심 영역 식별 모델(1120)을 훈련시킬 수 있다. 전자 장치(2000)는 관심 영역을 포함하는 다양한 이미지들로 구성되는 트레이닝 데이터셋(1110)에 기초하여 관심 영역 식별 모델(1120)을 훈련시킬 수 있다. 트레이닝 데이터셋(1110)의 관심 영역 이미지들에는, 관심 영역을 나타내는 키포인트들이 레이블링 되어 있을 수 있다. 전자 장치(2000)가 관심 영역 식별 모델(1120)을 이용하여 식별하는 관심 영역은, 검출된 관심 영역이 표시된 이미지, 관심 영역을 나타내는 키포인트들 및/또는 이미지 내에서 키포인트들의 좌표 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 전자 장치(2000)는 훈련된 관심 영역 식별 모델(1120)을 전자 장치(2000)에 저장할 수 있다. 전자 장치(2000)는 전술한 실시예들에 따라 전자 장치(2000)가 이미지 내 왜곡을 제거하는 동작들을 수행할 때, 훈련된 관심 영역 식별 모델(1120)을 실행시킬 수 있다. 일 실시예에 의하면, 전자 장치(2000)는 훈련된 관심 영역 식별 모델(1120)을 외부 서버에 업로드할 수도 있다.
도 12는 본 개시의 일 실시예에 따른 전자 장치가 왜곡 제거 모델을 훈련시키는 동작을 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)는 왜곡 제거 모델(1220)을 훈련시킬 수 있다. 왜곡 제거 모델(1220)을 훈련시키기 위한 훈련 데이터셋(1210)은, 관심 영역 데이터 및 3차원 파라미터 데이터가 포함될 수 있다. 관심 영역 데이터는 예를 들어, 관심 영역을 포함하는 이미지, 관심 영역을 나타내는 키포인트들이 포함될 수 있으나, 이에 한정되는 것은 아니다. 3차원 파라미터 데이터는 예를 들어, 객체의 가로, 세로, 높이 및 반지름 정보, 객체의 3차원 공간 상에서의 3차원 기하학적 변환을 위한 이동(translation) 및 회전(rotation) 정보, 객체를 촬영한 전자 장치(2000)의 카메라의 초점 거리 정보 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 왜곡 제거 모델(1210)은 관심 영역 데이터 및 3차원 파라미터 데이터를 입력 받아, 왜곡 없는 이미지를 출력할 수 있다. 따라서, 왜곡 제거 모델(1220)은, 특정 3차원 형상을 갖는 객체에 대하여, 해당 객체의 관심 영역이 어느 부분이고, 이에 대응하는 객체의 3차원 정보는 어떤 값들인지를 학습하기 위한 신경망이 이용될 수 있다.
일 실시예에서, 전자 장치(2000)는 훈련된 왜곡 제거 모델(1220)을 전자 장치(2000)에 저장할 수 있다. 전자 장치(2000)는 전술한 실시예들에 따라 전자 장치(2000)가 이미지 내 왜곡을 제거하는 동작들을 수행할 때, 훈련된 왜곡 제거 모델(1220)을 실행시킬 수 있다. 일 실시예에 의하면, 전자 장치(2000)는 훈련된 왜곡 제거 모델(1220)을 외부 서버에 업로드할 수도 있다.
도 13은 본 개시의 일 실시예에 따른 전자 장치에 멀티 카메라를 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)는 멀티 카메라를 포함할 수 있다. 예를 들어, 전자 장치(2000)는 제1 카메라(1310), 제2 카메라(1320) 및 제3 카메라(1330)를 포함할 수 있다. 다만, 도 13에서 설명의 편의를 위해 카메라를 3개 도시하였으나, 이에 한정되는 것은 아니며 멀티 카메라는 2개 이상의 카메라를 의미한다.
멀티 카메라에 포함되는 각각의 카메라의 사양은 상이할 수 있다. 예를 들어, 제1 카메라(1310)는 망원 카메라, 제2 카메라(1320)는 광각 카메라, 제3 카메라(1330)는 초광각 카메라로 구성될 수 있다. 다만, 카메라의 종류는 이에 한정되는 것은 아니며, 표준 카메라 등이 포함될 수 있다.
각각의 카메라는 서로 다른 특징의 이미지를 획득할 수 있다. 예를 들어, 제1 카메라(1310)에 의해 획득된 제1 이미지(1312)는, 객체를 확대하여 촬영하여 객체의 일부가 포함되는 이미지일 수 있다. 제2 카메라(1320)에 의해 획득된 제2 이미지(1322)는, 제1 카메라(1310)보다 넓은 화각으로 객체를 촬영하여 객체의 전체가 포함되는 이미지일 수 있다. 제3 카메라(1330)에 의해 획득된 제3 이미지(1332)는, 제1 카메라(1310), 제2 카메라(1320)보다 더 넓은 화각으로 객체를 촬영하여 객체의 전체 및 장면의 넓은 영역이 포함되는 이미지일 수 있다.
일 실시예에서, 전자 장치(2000)에 포함되는 멀티 카메라의 각각으로부터 획득되는 이미지의 특징이 상이하므로, 어떠한 카메라를 이용하여 획득된 이미지가 이용되는지에 따라, 전술한 동작들에 따른 전자 장치(2000)가 이미지 내 객체로부터 정보를 추출하는 결과 또한 상이할 수 있다. 이미지에 포함되는 객체를 인식하고 객체의 관심 영역으로부터 정보를 추출하기 위해, 전자 장치(2000)는 멀티 카메라 중 어느 카메라를 활성화할지 여부를 결정할 수 있다.
일 실시예에서, 전자 장치(2000)는 제1 카메라(1310)를 활성화하고 객체를 촬영하여 제1 이미지(1312)를 획득할 수 있다. 전자 장치(2000)는 제1 이미지(1312)를 이용하여 이미지 내의 객체의 3차원 형상 타입 및 객체의 관심 영역을 식별할 수 있다. 일부 실시예에서, 전술한 예시에 따르면 제1 이미지(1312)는 망원 카메라인 제1 카메라(1310)를 이용하여 획득된 이미지일 수 있다.
이 경우, 제1 이미지(1312)에는 객체의 일부만이 포함되어, 제1 이미지(1312) 내의 객체의 관심 영역은 충분한 신뢰도(예를 들어, 소정의 값 이상)로 식별되나, 제1 이미지(1312) 내의 객체의 3차원 형상 타입은 불충분한 신뢰도로 식별될 수 있다. 전자 장치(2000)는 객체의 3차원 형상 타입을 식별하기 위해, 제2 카메라(1320) 및/또는 제3 카메라(1330)를 활성화함으로써, 객체의 전체를 포함하는 제2 이미지(1322) 및/또는 제3 이미지(1332)를 획득하고, 제2 이미지(1322) 및/또는 제3 이미지(1332)를 이용하여 객체의 3차원 형상 타입을 식별할 수 있다. 즉, 전자 장치(2000)는 객체의 관심 영역과 3차원 형상 타입을 식별하기에 적합한 이미지를 선택적으로 이용할 수 있다.
일 실시예에서, 전자 장치(2000)는 제1 카메라(1310) 및 제2 카메라(1322)를 활성화하고 객체를 촬영하여 제1 이미지(1312) 및 제2 이미지(1322)를 획득할 수 있다. 전자 장치(2000)는 객체의 일부를 포함하는 제1 이미지(1312)를 이용하여 객체의 관심 영역을 식별하고, 객체의 전체를 포함하는 제2 이미지(1322) 및/또는 제3 이미지(1332)를 이용하여 객체의 3차원 형상 타입을 식별할 수 있다.
일 실시예에 따른 전자 장치(2000)가 카메라를 활성화하는 동작은, 전술한 예시에 한정되지 않는다. 전자 장치(2000)는 멀티 카메라에 포함되는 카메라의 가능한 모든 조합을 이용할 수 있다. 예를 들어, 전자 장치(2000)는 제2 카메라(1320) 및 제3 카메라(1330)만을 활성화하거나, 제1 카메라(1310), 제2 카메라(1320) 및 제3 카메라(1330) 모두를 활성화할 수 있다.
한편, 일 실시예에 따른 전자 장치(2000)가 객체의 관심 영역을 식별하는 동작, 객체의 3차원 형상 타입을 식별하는 동작, 및 관심 영역의 왜곡을 제거하는 동작에는, 전술한 인공지능 모델들(예를 들어, 객체 3차원 형상 식별 모델, 관심 영역 식별 모델, 왜곡 제거 모델 등)이 이용될 수 있다. 이에 대한 동일한 설명은 생략한다.
전자 장치(2000)가 멀티 카메라를 이용하여 이미지를 처리하고 왜곡을 제거하는 구체적인 동작들은, 후술하는 도면들 및 그에 대한 설명에서 더 기술하기로 한다.
도 14a는 본 개시의 일 실시예에 따른 전자 장치가 멀티 카메라를 이용하는 동작을 설명하기 위한 흐름도이다.
도 2의 단계 S210에서와 같이, 일 실시예에 따른 전자 장치(2000)는 제1 카메라를 이용하여 적어도 하나의 표면(예를 들어, 라벨)을 포함하는 객체의 제1 이미지를 획득할 수 있다. 전자 장치(2000)가 객체의 제1 이미지를 획득하는 동작에 대해서는 자세하게 전술하였으므로, 중복되는 설명은 생략하기로 한다. 단계 S210 이후에 단계 S230이 수행될 수 있으며, 그 이후에 단계 S1410이 수행될 수 있다.
단계 S1410에서, 일 실시예에 따른 전자 장치(2000)는 제1 카메라를 이용하여 획득된 객체의 제1 이미지로부터 객체의 3차원 형상 타입이 식별되었는지 여부를 체크한다. 예를 들어, 제1 카메라를 이용하여 획득한 제1 이미지가 객체의 일부만을 포함하고 있는 경우, 전자 장치(2000)가 제1 이미지를 제2 AI 모델에 입력하더라도 제2 AI 모델은 객체의 3차원 형상 타입을 정확히 추론할 수 없다. 이때, 제2 AI 모델은 객체의 3차원 형상 타입을 추론할 수 없다는 결과를 출력하거나, 3차원 형상 타입 추론에 대한 낮은 신뢰도 값을 출력할 수 있다. 전자 장치(2000)는 제2 AI 모델로부터 임계값 이하의 신뢰도 값을 갖는 결과가 출력되는 경우, 제1 이미지로부터 객체의 3차원 형상 타입이 식별되지 않았다고 판단할 수 있다.
일 실시예에서, 전자 장치(2000)는 제1 이미지로부터 객체의 3차원 형상 타입이 식별되지 않는 경우, 단계 S1420을 수행할 수 있다. 한편, 단계 S1420는 전자 장치(2000)는 도 10c 및 도 10d에서 전술한, 3차원 형상 타입에 가중치를 결정하고, 가중치를 적용하여 3차원 형상을 식별하는 동작과 선택적 또는 중복적으로 적용될 수 있다. 전자 장치(2000)는 객체의 3차원 형상 타입이 식별되는 경우, 왜곡 제거 동작을 계속하기 위해 단계 S1450의 동작을 수행할 수 있다.
단계 S1420에서, 일 실시예에 따른 전자 장치(2000)는 제2 카메라를 활성화한다. 제2 카메라는 제1 카메라보다 넓은 화각을 갖는 카메라일 수 있다. 제2 카메라는 예를 들어, 광각 카메라, 초광각 카메라 등일 수 있으나, 이에 한정되는 것은 아니다.
단계 S1430에서, 일 실시예에 따른 전자 장치(2000)는 제2 카메라를 이용하여 제2 이미지를 획득한다. 제2 카메라는 제1 카메라보다 화각이 넓으므로, 제1 카메라를 이용하여 획득한 제1 이미지에는 객체의 일부 3차원 형상만이 포함되더라도, 제2 카메라를 이용하여 획득한 제2 이미지는 객체의 전체 3차원 형상이 포함될 수 있다.
단계 S1440에서, 일 실시예에 따른 전자 장치(2000)는 제2 이미지를 제2 AI 모델에 적용함으로써 객체의 3차원 형상 타입에 관한 데이터를 획득한다. 제2 이미지에는 객체의 전체 3차원 형상이 포함될 수 있다. 단계 S1440의 동작은 도 2의 단계 S230의 동작과 동일하므로, 구체적인 설명은 생략한다.
단계 S1450에서, 일 실시예에 따른 전자 장치(2000)는 제1 이미지 및 제2 이미지 중 적어도 하나를 제1 AI 모델에 적용함으로써 객체의 3차원 형상을 식별한다.
일 실시예에서, 제1 이미지에는 객체의 일부 3차원 형상만이 포함되더라도, 관심 영역은 온전히 포함될 수 있다. 전자 장치(2000)는 제1 이미지를 제1 AI 모델(관심 영역 식별 모델)에 적용함으로써, 제1 이미지 내에서 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 식별할 수 있다.
일 실시예에서, 제2 이미지에는 객체의 전체 3차원 형상이 포함되므로, 관심 영역 또한 전부 포함될 수 있다. 전자 장치(2000)는 제2 이미지를 제1 AI 모델(관심 영역 식별 모델)에 적용함으로써, 제2 이미지 내에서 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 식별할 수 있다.
일 실시예에서, 전자 장치(2000)는 제1 이미지 및 제2 이미지를 각각 제1 AI 모델(관심 영역 식별 모델)에 적용하고, 각각의 이미지로부터 획득된 관심 영역 식별 결과를 선택하거나, 조합함으로써 관심 영역을 식별할 수 있다. 전자 장치(2000)는 단계 S1450을 수행한 후, 도 2의 단계 S240을 수행할 수 있다. 이 경우, 도 2의 단계 S240 내지 단계 S270에서 제1 카메라와 관련된 동작/데이터 등은, 제2 카메라에도 동일하게 적용될 수 있다.
도 14b는 도 14a를 보충적으로 더 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)가 제1 카메라를 이용하여 획득한 제1 이미지(1410)는, 객체의 일부만이 포함될 수 있다. 이때, 객체 3차원 형상 식별 모델(1400)은 제1 이미지(1410)로부터 객체의 3차원 형상 타입을 식별하지 못할 수 있다. 이 경우, 전자 장치(2000)는 단계 S1420을 수행하여, 제1 카메라보다 화각이 넓은 제2 카메라를 활성화하고, 활성화된 제2 카메라를 이용하여 제2 이미지(1420)를 획득할 수 있다. 전자 장치(2000)는 제2 이미지(1420)를 객체 3차원 형상 식별 모델(1400)에 입력함으로써, 객체의 3차원 형상 타입을 식별할 수 있다.
한편, 전자 장치(2000)가 제2 이미지를 이용하여 객체의 3차원 형상 타입을 식별하는 동작은, 도 10c 및 도 10d에서 전술한, 전자 장치(2000)가 3차원 형상 타입에 가중치를 결정하고, 가중치를 적용하여 3차원 형상을 식별하는 동작과 선택적 또는 중복적으로 적용될 수 있다.
도 15a는 본 개시의 일 실시예에 따른 전자 장치가 멀티 카메라를 이용하는 동작을 설명하기 위한 흐름도이다.
단계 S1510에서, 일 실시예에 따른 전자 장치(2000)는 제1 카메라를 이용하여 객체의 일부(예를 들어, 표면 또는 라벨)를 포함하는 제1 이미지를 획득하고, 제2 카메라를 이용하여 객체의 전체를 포함하는 제2 이미지를 획득한다. 제2 카메라는, 제1 카메라보다 화각이 넓은 카메라일 수 있다. 예를 들어, 제1 카메라는 망원 카메라이고, 제2 카메라는 광각 카메라, 초광각 카메라 등일 수 있으나, 이에 한정되는 것은 아니다. 일 실시예에서, 전자 장치(2000)의 카메라를 활성화하여 객체를 촬영할 수 있다. 사용자는 카메라를 실행하기 위한 하드웨어 버튼 또는 아이콘을 터치하여 카메라를 활성화할 수도 있고, 음성 명령을 통해 카메라를 활성화할 수도 있다
사용자가 객체의 표면(예를 들어, 라벨)로부터 정보를 추출하기 위해, 제1 카메라에 대응하는 프리뷰 영역에 표면(예를 들어, 라벨)이 전반적으로 나타나도록 전자 장치(2000)의 위치를 조정하는 경우, 전자 장치(2000)가 제1 카메라를 이용하여 획득한 제1 이미지에는 객체의 표면(예를 들어, 라벨)은 명확히 나타날 수 있으나, 객체의 전체 형상은 나타나지 않을 수 있다. 하지만, 제1 카메라보다 화각이 넓은 제2 카메라를 이용하여 획득된 제2 이미지에는 객체의 전체 형상이 나타날 수 있다.
단계 S1520에서, 일 실시예에 따른 전자 장치(2000)는 제1 이미지를 제1 AI 모델(관심 영역 식별 모델)에 적용함으로써 객체의 표면의 관심 영역(예를 들어, 적어도 하나의 라벨에 대응하는 영역)을 식별한다. 제1 이미지는 관심 영역이 포커싱된 이미지이므로, 제1 이미지를 제1 AI 모델에 적용함으로써, 관심 영역을 정확히 식별할 수 있다. 단계 S1520은, 도 2의 단계 S220에 대응하므로, 동일한 설명은 생략한다.
단계 S1530에서, 일 실시예에 따른 전자 장치(2000)는 제2 이미지를 제2 AI 모델에 적용함으로써 객체의 3차원 형상 타입을 식별한다. 단계 S1530은, 제2 이미지를 이용한다는 것만 차이가 있을 뿐 도 2의 단계 S230에 대응하므로, 동일한 설명은 생략한다.
단계 S1540에서, 일 실시예에 따른 전자 장치(2000)는 객체의 3차원 형상 타입에 대응하는 3차원 파라미터 값들을 획득한다. 단계 S1540은, 도 2의 단계 S240에 대응하므로, 동일한 설명은 생략한다.
도 15b는 도 15a를 보충적으로 더 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)가 제1 카메라를 이용하여 획득한 제1 이미지(1502)는, 망원 카메라를 이용하여 획득된 이미지일 수 있다. 제1 이미지(1502)는 객체의 전체 3차원 형상을 포함하지 않고 관심 영역을 확대하여 포함하고 있으므로, 관심 영역을 식별하기에 적합한 이미지일 수 있다. 이 경우, 전자 장치(2000)는 제1 이미지(1502)를 관심 영역 식별 모델(1510)에 입력함으로써, 제1 이미지 내에서 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 식별할 수 있다.
일 실시예에서, 전자 장치(2000)가 제2 카메라를 이용하여 획득한 제2 이미지(1504)는, 광각 카메라 및/또는 초광각 카메라를 이용하여 획득된 이미지일 수 있다. 제2 이미지(1504)는 객체의 전체 3차원 형상을 포함하고 있으므로, 객체의 3차원 형상을 식별하기에 적합한 이미지일 수 있다. 이 경우, 전자 장치(2000)는 제2 이미지(1504)를 객체 3차원 형상 식별 모델(1520)에 입력함으로써, 제2 이미지 내의 객체의 3차원 형상 타입을 식별할 수 있다.
도 16a는 본 개시의 일 실시예에 따른 전자 장치가 멀티 카메라를 이용하는 동작을 설명하기 위한 흐름도이다.
단계 S1610에서, 일 실시예에 따른 전자 장치(2000)는 제1 카메라를 이용하여 실시간으로 촬영되는 제1 이미지를 제1 AI 모델(관심 영역 식별 모델)에 적용하여 관심 영역의 신뢰도를 획득한다. 제1 카메라는 망원 카메라일 수 있다.
일 실시예에서, 전자 장치(2000)의 사용자가 객체를 인식하고자 하는 경우(예를 들어, 상품의 라벨을 검색하고자 하는 경우 등), 사용자는 카메라 애플리케이션을 활성화할 수 있다. 사용자는 전자 장치(2000)의 화면에 표시되는 프리뷰 이미지 등을 보면서 카메라가 객체를 응시하도록 카메라의 시야를 계속하여 조정할 수 있다. 전자 장치(2000)는 제1 카메라를 통해 실시간으로 획득되는 제1 이미지 프레임들에 대하여, 각각의 제1 이미지 프레임들을 관심 영역 식별 모델에 입력할 수 있다. 전자 장치(2000)는 각각의 제1 이미지 프레임들에 대한 관심 영역 식별의 정확도를 나타내는, 관심 영역의 신뢰도를 획득할 수 있다.
단계 S1620에서, 일 실시예에 따른 전자 장치(2000)는 제2 카메라를 이용하여 실시간으로 촬영되는 제2 이미지를 제2 AI 모델에 적용하여 객체의 3차원 형상 타입의 신뢰도를 획득한다. 제2 카메라는, 광각 카메라 또는 초광각 카메라일 수 있다.
일 실시예에서, 전자 장치(2000)는 제2 카메라를 통해 실시간으로 획득되는 제2 이미지 프레임들에 대하여, 각각의 제2 이미지 프레임들을 객체 3차원 형상 추정 모델에 입력할 수 있다. 전자 장치(2000)는 각각의 제2 이미지 프레임들에 대한 객체 3차원 형상 추정의 정확도를 나타내는, 객체의 3차원 형상 타입의 신뢰도를 획득할 수 있다.
단계 S1630에서, 일 실시예에 따른 전자 장치(2000)는 관심 영역의 신뢰도가 제1 임계 값을 초과하는지 여부를 판단한다. 제1 임계 값은 관심 영역에 대하여 기 설정된 임계 값일 수 있다. 전자 장치(2000)는 관심 영역의 신뢰도가 제1 임계 값 이하인 경우, 제1 임계 값을 초과하는 신뢰도가 획득될 때까지 단계 S1610을 계속하여 수행할 수 있다.
단계 S1640에서, 일 실시예에 따른 전자 장치(2000)는 객체의 3차원 형상 타입의 신뢰도가 제2 임계 값을 초과하는지 여부를 판단한다. 제2 임계 값은 객체의 3차원 형상에 대하여 기 설정된 임계 값일 수 있다. 전자 장치(2000)는 객체의 3차원 형상 타입의 신뢰도가 제2 임계 값 이하인 경우, 제2 임계 값을 초과하는 신뢰도가 획득될 때까지 단계 S1620을 계속하여 수행할 수 있다.
단계 S1650에서, 일 실시예에 따른 전자 장치(2000)는 제1 이미지 및 제2 이미지를 각각 캡쳐한다.
일 실시예에서, 단계 S1650이 수행되는 조건은 관심 영역의 신뢰도가 제1 임계 값을 초과하고, 3차원 형상 타입의 신뢰도가 제2 임계 값을 초과하는 AND 조건이다. 전자 장치(2000)는 제1 이미지 및 제2 이미지를 각각 캡쳐하여 저장하고, 단계 S1520 및 그 이후의 단계들을 수행할 수 있다. 이 경우, 전자 장치(2000)는 제1 이미지를 관심 영역 식별 모델에 적용함으로써 객체의 표면의 관심 영역을 식별하고, 제2 이미지를 객체 3차원 형상 식별 모델에 적용함으로써 객체의 3차원 형상을 식별할 수 있다. 이에 대한 구체적인 동작들은 전술하였으므로, 동일한 설명은 생략한다.
도 16b는 도 16a를 보충적으로 더 설명하기 위한 도면이다.
도 16b 및 도 16c를 설명함에 있어서, 사용자가 와인의 라벨을 인식하고자 하는 경우를 예시로 설명한다.
도 16b를 참조하면, 일 실시예에 따른 전자 장치(2000)는 객체 인식을 위한 제1 화면(1600)을 표시할 수 있다. 제1 화면(1600)은 전자 장치(2000)의 사용자가 객체 인식을 수행할 수 있도록 가이드하는 인터페이스를 포함할 수 있다. 예를 들어, 전자 장치(2000)는 제1 화면(1600)에 객체의 관심 영역이 포함되도록 가이드하는 사각 박스(1606)(다만, 사각형에 한정되지 않으며 원형 등 유사한 기능을 할 수 있는 다른 형태를 포함함)를 표시하고, '와인 라벨을 검색합니다(1608)' 등의 가이드를 표시할 수 있다. 일부 실시예에서, 전자 장치(2000)는 제1 화면(1600)에 표시되는 이미지로부터 객체가 인식되지 않는 경우, '카메라를 통해 상품을 비춰 주세요' 등의 가이드를 표시할 수 있다.
일 실시예에서, 전자 장치(2000)는 카메라로부터 획득되는 프리뷰 이미지를 나타내는 제2 화면(1602)을 표시할 수 있다. 사용자는 제2 화면(1602)을 보면서, 객체가 이미지 내에 완전히 포함되도록 카메라의 시야를 조정할 수 있다. 전자 장치(2000)는 카메라의 프리뷰 이미지인 제2 화면(1602)이 표시되는 동안, 관심 영역의 신뢰도 및 객체의 3차원 형상 타입의 신뢰도를 계산할 수 있다. 이는, 전술하였으므로 동일한 설명은 생략한다.
관심 영역의 신뢰도가 제1 임계값을 초과하고, 객체의 3차원 형상 타입의 신뢰도가 제2 임계값을 초과하는 경우, 전자 장치(2000)는 관심 영역으로 식별된 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역 및 객체의 3차원 형상 타입에 관한 데이터에 기초하여, 객체와 관련된 3차원 파라미터 값들을 획득할 수 있다. 그리고 전자 장치(2000)는 객체와 관련된 3차원 파라미터 값들을 이용하여 적어도 하나의 표면(예를 들어, 라벨)의 굴곡 형상을 추정하고, 원근 변환을 수행함으로써, 적어도 하나의 표면(예를 들어, 라벨)의 굴곡 형상이 평평하게 된 플랫 표면(예를 들어, 라벨) 이미지를 획득할 수 있다. 전자 장치(2000)는 플랫 표면(예를 들어, 라벨) 이미지가 획득되고 플랫 표면(예를 들어, 라벨) 이미지로부터 객체에 관련된 정보가 추출되는 경우(즉, 상품이 인식되는 경우), '와인 정보가 검색되었습니다(1610)'와 같은 알림을 프리뷰 이미지 상에 출력할 수 있다. 그리고 전자 장치(2000)는 플랫 표면(예를 들어, 라벨) 이미지로부터 추출된 객체에 관련된 정보(1604)를 출력할 수 있다. 예를 들어, 전자 장치(2000)는 와인 라벨 이미지 및 와인에 관한 상세 정보를 출력할 수 있다.
도 16c는 도 16a를 보충적으로 더 설명하기 위한 도면이다.
도 16c를 참조하면, 일 실시예에 따른 전자 장치(2000)는 객체 인식을 위한 제1 화면(1600)을 표시할 수 있다. 제1 화면(1600)은 전자 장치(2000)의 사용자가 객체 인식을 수행할 수 있도록 가이드하는 인터페이스를 포함할 수 있다. 예를 들어, 전자 장치(2000)는 제1 화면(1600)에 객체의 관심 영역이 포함되도록 가이드하는 사각 박스(1606)(다만, 사각형에 한정되지 않으며 원형 등 유사한 기능을 할 수 있는 다른 형태를 포함함)를 표시하고, '와인 라벨을 검색합니다(1608)' 등의 가이드를 표시할 수 있다. 일부 실시예에서, 전자 장치(2000)는 제1 화면(1600)에 표시되는 이미지로부터 객체가 인식되지 않는 경우, '카메라를 통해 상품을 비춰 주세요' 등의 가이드를 표시할 수 있다.
일 실시예에서, 전자 장치(2000)는 카메라의 프리뷰 이미지인 제2 화면(1602)이 표시되는 동안, 관심 영역의 신뢰도 및 객체의 3차원 형상 타입의 신뢰도를 계산할 수 있다. 전자 장치(2000)는 관심 영역의 신뢰도가 제1 임계 값을 초과하고, 객체의 3차원 형상 타입의 신뢰도가 제2 임계 값을 초과하여야 이미지로부터 왜곡을 제거하기 위한 이후의 동작들을 수행한다. 따라서, 관심 영역의 신뢰도가 제1 임계 값 이하 및/또는 객체의 3차원 형상 타입의 신뢰도가 제2 임계 값 이하인 경우, 전자 장치(2000)는 제1 이미지 및 제2 이미지를 획득하기 위해 사용자에게 카메라 시야를 조정할 수 있도록 가이드하는 알림을 출력할 수 있다. 예를 들어, 전자 장치(2000)는 '와인 라벨을 인식할 수 없습니다. 카메라 각도를 조정해 주세요(1612)'와 같은 알림을 화면에 표시하거나, 오디오로 출력할 수 있다.
도 17은 본 개시의 일 실시예에 따른 전자 장치가 이미지를 처리하여 추출된 정보를 제공하는 동작을 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)는 왜곡 없는 이미지인 플랫 표면(예를 들어, 라벨) 이미지를 생성하고, 플랫 표면(예를 들어, 라벨) 이미지로부터 객체와 관련된 정보를 추출하여 사용자에게 제공할 수 있다.
일 실시예에서, 전자 장치(2000)는 객체 인식을 시작하기 위한 제1 화면(1700)을 표시할 수 있다. 제1 화면(1700)에는 '와인 라벨 스캔(1701)'과 같은 사용자 인터페이스가 포함될 수 있다. 전자 장치(2000)의 사용자는 사용자 인터페이스를 통해 객체 인식 동작을 시작할 수 있다.
일 실시예에서, 전자 장치(2000)는 객체 인식을 수행하기 위한 제2 화면(1702)을 표시할 수 있다. 제2 화면(1702)은 전자 장치(2000)의 사용자가 객체 인식을 수행할 수 있도록 가이드하는 인터페이스를 포함할 수 있다. 예를 들어, 전자 장치(2000)는 제2 화면(1702)에 객체의 관심 영역이 포함되도록 가이드하는 가이드 영역(1702-1)를 표시하고, '와인 전면 라벨을 촬영하세요' 등의 가이드 문구(1702-2)를 표시할 수 있다.
전자 장치(2000)는 멀티 카메라를 통해 복수의 이미지들(예를 들어, 망원 이미지, 광각 이미지, 초광각 이미지 등)을 획득하고, 전술한 실시예들에 따른 3차원 정보에 기초한 왜곡 제거 동작들을 수행할 수 있다. 즉, 전자 장치(2000)는 이미지 내에서 와인 라벨 영역을 추출하고, 왜곡을 제거하는 보정을 수행하여 왜곡 없는 와인 라벨 이미지를 생성한다. 또한, 전자 장치(2000)는 왜곡 없는 와인 라벨 이미지에 OCR을 적용하여, 와인과 관련된 정보들을 추출할 수 있다. 전자 장치(2000)는 와인 라벨에서 식별된 텍스트 정보를 이용하여, 와인 정보를 검색할 수 있다.
일 실시예에서, 전자 장치(2000)가 와인 라벨 영역을 추출/보정하고, 와인 라벨에서 식별된 텍스트 정보를 이용하여 와인 정보를 검색 하면, 전자 장치(2000)는 객체 인식 및 검색 결과를 나타내는 제3 화면(1704)을 표시할 수 있다. 제3 화면(1704)에는 전자 장치(2000)가 전술한 실시예들에 따라 생성한 왜곡 없는 이미지가 표시될 수 있다. 도 17의 예시에서 왜곡 없는 이미지는, 와인 라벨 이미지일 수 있다. 와인 라벨 이미지는 와인 병에 곡선형으로 부착된 와인 라벨이 평평하게 변환된, 플랫 표면(예를 들어, 라벨) 이미지일 수 있다.
제3 화면(1704)에는, 전자 장치(2000)가 전술한 실시예들에 따라 획득한 객체와 관련된 정보가 표시될 수 있다. 도 17의 예시에서 객체와 관련된 정보는, 와인 상세 정보일 수 있다. 이 경우, 와인 라벨 이미지로부터 OCR을 수행한 결과인, 와인 이름, 원산지, 생산 년도 등이 표시될 수 있다.
일 실시예에서, 제3 화면(1704)에는, 와인 라벨 이미지로부터 획득된 객체와 관련된 정보 외에도, 서버로부터 획득되거나 전자 장치(2000)의 데이터베이스로부터 획득된, 객체에 관련된 추가 정보가 더 표시될 수 있다. 예를 들어, 와인 라벨 이미지로부터 획득될 수 없는 와인의 산도, 바디감, 알코올 도수 등이 표시될 수 있다.
일 실시예에서, 제3 화면(1704)에는 다른 전자 장치로부터 획득되는 정보 및/또는 사용자 입력에 기초하여 획득되는 정보가 더 표시될 수 있다. 예를 들어, 와인의 별명, 입고일, 보관 위치, 등이 표시될 수 있다.
다만, 와인 라벨 이미지로부터 획득 가능한 정보 및 와인 라벨 이미지 외 다른 경로로부터 획득 되어 표시되는 정보는 예시적으로 설명한 것이며, 전술한 것으로 한정되는 것은 아니다.
일 실시예에서, 전자 장치(2000)는 객체 인식 및 검색 결과를 데이터베이스화한 제4 화면(1706)을 표시할 수 있다. 이 경우, 전자 장치(2000)는 왜곡 없는 이미지인 플랫 표면(예를 들어, 라벨) 이미지들을 미리보기 형태(1708)로 표시할 수 있다. 각각의 플랫 표면(예를 들어, 라벨) 이미지들을 선택하면, 제 3화면(1704)과 같이, 선택된 플랫 표면(예를 들어, 라벨) 이미지에 대응하는 와인 정보들이 다시 표시될 수 있다.
도 18은 본 개시의 일 실시예에 따른 전자 장치가 이미지를 처리하는 동작에 관련된 시스템의 일 예시를 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)가 사용하는 모델들은, 신경망 연산을 수행하기에 적합한 다른 전자 장치(예를 들어, 로컬 PC 등)에서 훈련된 것일 수 있다. 예를 들어, 객체 3차원 형상 추정 모델, 관심 영역 식별 모델, 왜곡 제거 모델, 정보 추출 모델 등이 다른 전자 장치에서 훈련되어 학습 완료된 상태로 저장되어 있을 수 있다.
일 실시예에서, 전자 장치(2000)는 다른 전자 장치에 저장된, 훈련된 모델들을 수신할 수 있다. 전자 장치(2000)는 수신된 모델들에 기초하여, 전술한 이미지 처리 동작들을 수행할 수 있다. 이 경우, 전자 장치(2000)는 훈련된 모델들을 실행하여 추론 동작을 수행하고, 플랫 표면(예를 들어, 라벨) 이미지와 표면(예를 들어, 라벨) 정보를 생성할 수 있다. 생성된 플랫 표면(예를 들어, 라벨) 이미지 및 표면(예를 들어, 라벨) 정보는, 애플리케이션 등을 통해 사용자에게 제공될 수 있다. 도 18에서는, 전자 장치(2000)의 예시로 모바일 폰에 모델이 저장되어 사용되는 것을 예시로 설명하였으나, 이에 한정되는 것은 아니다. 전자 장치(2000)는 TV, 태블릿 PC, 스마트 냉장고 등등, 애플리케이션을 실행 가능하고 디스플레이 및 카메라가 탑재된 모든 전자 장치를 포함할 수 있다.
한편, 이전 도면들의 설명에서 기술한 것처럼, 전자 장치(2000)가 사용하는 모델들은, 전자 장치(2000)의 컴퓨팅 자원을 이용하여 훈련될 수 있다. 이에 대한 구체적인 설명은 전술하였으므로, 생략한다.
도 19는 본 개시의 일 실시예에 따른 전자 장치가 서버를 이용하여 이미지를 처리하는 동작에 관련된 시스템의 일 예시를 설명하기 위한 도면이다.
일 실시예에서, 전자 장치(2000)가 사용하는 모델들은, 신경망 연산을 수행하기에 적합한 다른 전자 장치(예를 들어, 로컬 PC 등)에서 훈련된 것일 수 있다. 예를 들어, 객체 3차원 형상 추정 모델, 관심 영역 식별 모델, 왜곡 제거 모델, 정보 추출 모델 등이 다른 전자 장치에서 훈련되어 학습 완료된 상태로 저장되어 있을 수 있다. 또한, 다른 전자 장치(예를 들어, 로컬 PC 등)에서 훈련된 모델들은, 또다른 전자 장치(예를 들어, 서버 등)로 전송되어 저장될 수 있다.
일 실시예에서, 전자 장치(2000)는 서버를 이용하여 이미지 처리 동작들을 수행할 수 있다. 전자 장치(2000)는 카메라를 이용하여 객체 이미지들(예를 들어, 망원 이미지, 광각 이미지, 초광각 이미지 등)을 촬영하고, 이미지들을 서버로 전송할 수 있다. 이 경우, 서버는 훈련된 모델들을 실행하여 추론 동작을 수행하고, 플랫 표면(예를 들어, 라벨) 이미지와 표면(예를 들어, 라벨) 정보를 생성할 수 있다. 전자 장치(2000)는 서버로부터 플랫 표면(예를 들어, 라벨) 이미지와 표면(예를 들어, 라벨) 정보를 수신할 수 있다. 수신된 플랫 표면(예를 들어, 라벨) 이미지 및 표면(예를 들어, 라벨) 정보는, 애플리케이션 등을 통해 사용자에게 제공될 수 있다. 도 19에서는, 전자 장치(2000)의 예시로 모바일 폰에 모델이 저장되어 사용되는 것을 예시로 설명하였으나, 이에 한정되는 것은 아니다. 전자 장치(2000)는 TV, 태블릿 PC, 스마트 냉장고 등등, 애플리케이션을 실행 가능하고 디스플레이 및 카메라가 탑재된 모든 전자 장치를 포함할 수 있다.
한편, 이전 도면들의 설명에서 기술한 것처럼, 전자 장치(2000)가 사용하는 모델들은, 전자 장치(2000)의 컴퓨팅 자원을 이용하여 훈련될 수 있다. 이에 대한 구체적인 설명은 전술하였으므로, 생략한다.
도 20은 본 개시의 일 실시예에 따른 전자 장치의 구성을 도시한 블록도이다.
일 실시예에 따른 전자 장치(2000)는 통신 인터페이스(2100), 카메라(들)(2200), 메모리(2300) 및 프로세서(2400)를 포함할 수 있다.
통신 인터페이스(2100)는 프로세서(2400)의 제어에 의해 다른 전자 장치들과 데이터 통신을 수행할 수 있다.
통신 인터페이스(2100)는 통신 회로를 포함할 수 있다. 통신 인터페이스(2100)는 예를 들어, 유선 랜, 무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스(Bluetooth), 지그비(ZigBee), WFD(Wi-Fi Direct), 적외선 통신(IrDA, infrared Data Association), BLE (Bluetooth Low Energy), NFC(Near Field Communication), 와이브로(Wireless Broadband Internet, Wibro), 와이맥스(World Interoperability for Microwave Access, WiMAX), SWAP(Shared Wireless Access Protocol), 와이기그(Wireless Gigabit Alliances, WiGig) 및 RF 통신을 포함하는 데이터 통신 방식 중 적어도 하나를 이용하여, 전자 장치(2000)와 다른 디바이스들 간의 데이터 통신을 수행할 수 있는, 통신 회로를 포함할 수 있다.
통신 인터페이스(2100)는 전자 장치(2000)의 이미지 처리 동작을 수행하기 위한 데이터를 외부 전자 장치와 송수신할 수 있다. 예를 들어, 통신 인터페이스(2100)는 전자 장치(2000)가 이용하는 인공지능 모델들을 송수신하거나, 인공지능 모델들의 훈련 데이터셋을 서버 등과 송수신할 수 있다. 또한, 전자 장치(2000)는 왜곡이 제거되어야 할 이미지를 서버 등으로부터 획득할 수 있다. 또한, 전자 장치(2000)는 객체와 관련된 정보를 검색하기 위해 서버 등과 데이터를 송수신할 수 있다.
카메라(들)(2200)는 객체를 촬영하여 비디오 및/또는 이미지를 획득할 수 있다. 카메라(들)(2200)는 하나 이상일 수 있다. 카메라(들)(2200)는 예를 들어, RGB 카메라, 망원 카메라, 광각 카메라, 초광각 카메라 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 카메라(들)(2200)는 복수의 프레임들을 포함하는 비디오를 획득할 수 있다. 카메라(들)(2200)의 구체적인 종류 및 세부 기능은 통상의 기술자가 명확하게 추론할 수 있으므로, 설명을 생략한다.
메모리(2300)는 프로세서(2400)가 판독할 수 있는 명령어들, 데이터 구조, 및 프로그램 코드(program code)가 저장될 수 있다. 메모리(2300)는 하나 이상일 수 있다. 개시된 실시예들에서, 프로세서(2400)가 수행하는 동작들은 메모리(2300)에 저장된 프로그램의 명령어들 또는 코드들을 실행함으로써 구현될 수 있다.
메모리(2300)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등)를 포함할 수 있으며, 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나를 포함하는 비 휘발성 메모리 및 램(RAM, Random Access Memory) 또는 SRAM(Static Random Access Memory)과 같은 휘발성 메모리를 포함할 수 있다.
일 실시예에 따른 메모리(2300)는 전자 장치(2000)가 이미지 내 왜곡을 제거하기 위해 동작하도록 하는 하나 이상의 인스트럭션 및/또는 프로그램을 저장할 수 있다. 예를 들어, 메모리(2300)에는 관심 영역 식별 모듈(2310), 객체 3차원 형상 식별 모듈(2320), 3차원 정보 획득 모듈(2330), 왜곡 제거 모듈(2340) 및 정보 추출 모듈(2350)이 저장될 수 있다.
프로세서(2400)는 전자 장치(2000)의 전반적인 동작들을 제어할 수 있다. 예를 들어, 프로세서(2400)는 메모리(2300)에 저장된 프로그램의 하나 이상의 명령어들(instructions)을 실행함으로써, 전자 장치(2000)가 이미지에서 왜곡을 제거하기 위한 전반적인 동작들을 제어할 수 있다. 프로세서(2400)는 하나 이상일 수 있다.
본 개시에 따른 하나 이상의 프로세서(2400)는 CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerated Processing Unit), MIC (Many Integrated Core), DSP (Digital Signal Processor), 및 NPU (Neural Processing Unit) 중 적어도 하나를 포함할 수 있다. 하나 이상의 프로세서(2400)는, 하나 이상의 전자부품을 포함하는 집적된 시스템 온 칩(SoC) 형태로 구현될 수 있다. 하나 이상의 프로세서(2400) 각각은 별개의 하드웨어(H/W)로 구현될 수도 있다.
프로세서(2400)는 관심 영역 식별 모듈(2310)을 실행하여, 이미지 내에서 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 식별할 수 있다. 관심 영역 식별 모듈(2310)은 관심 영역 식별 모델을 포함할 수 있다. 관심 영역 식별 모듈(2310)에 관련된 구체적인 동작들은, 이전의 도면들에서 상세하게 설명하였으므로, 동일한 설명은 생략한다.
프로세서(2400)는 객체 3차원 형상 식별 모듈(2320)을 실행하여, 이미지 내의 객체의 3차원 형상 타입에 관한 데이터를 획득한다. 객체 3차원 형상 식별 모듈(2320)은 객체 3차원 형상 식별 모델을 포함할 수 있다. 객체 3차원 형상 식별 모듈(2320)에 관련된 구체적인 동작들은, 이전의 도면들에서 상세하게 설명하였으므로, 동일한 설명은 생략한다.
프로세서(2400)는 3차원 정보 획득 모듈(2330)을 실행하여, 이미지 내의 객체의 3차원 정보를 추론할 수 있다. 프로세서(2400)는 관심 영역 및 객체의 3차원 형상 타입에 관한 데이터에 기초하여, 객체, 적어도 하나의 표면(예를 들어, 라벨) 및 제1 카메라 중 적어도 하나와 관련된 3차원 파라미터 값들을 획득한다. 여기서, 3차원 파라미터 값들을 획득한다고 하는 것은, 객체의 3차원 형상에 대응하는 3차원 파라미터의 초기값들을 미세 조정하여, 객체의 3차원 정보를 나타내도록 한 것일 수 있다. 3차원 정보 획득 모듈(2330)에 관련된 구체적인 동작들은, 이전의 도면들에서 상세하게 설명하였으므로, 동일한 설명은 생략한다.
프로세서(2400)는 왜곡 제거 모듈(2340)을 실행하여, 이미지의 왜곡을 제거할 수 있다. 왜곡 제거 모듈(2340)은 왜곡 제거 모델을 포함할 수 있다. 프로세서(2400)는 3차원 파라미터에 기초하여, 적어도 하나의 표면(예를 들어, 라벨)의 굴곡 형상을 추정할 수 있다. 프로세서(2400)는 적어도 하나의 표면(예를 들어, 라벨)에 대한 원근 변환을 수행함으로써, 표면(예를 들어, 라벨)의 굴곡 형상이 평평하게 된, 플랫 표면(예를 들어, 라벨) 이미지를 획득할 수 있다. 왜곡 제거 모듈(2340)에 관련된 구체적인 동작들은, 이전의 도면들에서 상세하게 설명하였으므로, 동일한 설명은 생략한다.
프로세서(2400)는 정보 추출 모듈(2350)을 실행하여, 왜곡 없는 이미지로부터 정보를 추출할 수 있다. 정보 추출 모듈(2350)은 정보 추출 모델을 포함할 수 있다. 프로세서(2400)는 정보 추출 모듈(2350)을 이용하여 관심 영역 내 정보를 추출하며, 예를 들어, 관심 영역 내의 로고, 아이콘, 텍스트 등을 식별할 수 있다. 정보 추출 모듈(2350)에 관련된 구체적인 동작들은, 이전의 도면들에서 상세하게 설명하였으므로, 동일한 설명은 생략한다.
한편, 전술한 메모리(2300)에 저장된 모듈들은, 설명의 편의를 위한 것이며 반드시 이에 한정되는 것은 아니다. 전술한 실시예들을 구현하기 위해 다른 모듈이 추가될 수 있으며, 전술한 모듈들 중 일부의 모듈들은 하나의 모듈로 구현될 수도 있다.
본 개시의 일 실시예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 프로세서에 의해 수행될 수도 있고, 복수의 프로세서에 의해 수행될 수도 있다. 예를 들어, 일 실시예에 따른 방법에 의해 제1 동작, 제2 동작, 제3 동작이 수행될 때, 제1 동작, 제2 동작, 및 제3 동작 모두 제1 프로세서에 의해 수행될 수도 있고, 제1 동작 및 제2 동작은 제1 프로세서(예를 들어, 범용 프로세서)에 의해 수행되고 제3 동작은 제2 프로세서(예를 들어, 인공지능 전용 프로세서)에 의해 수행될 수도 있다. 여기서, 제2 프로세서의 예시인 인공지능 전용 프로세서는, 인공지능 모델의 훈련/추론을 위한 연산들이 수행될 수도 있다. 그러나, 본 개시의 실시예들이 이에 한정되는 것은 아니다.
본 개시에 따른 하나 이상의 프로세서는 싱글 코어 프로세서(single-core processor)로 구현될 수도 있고, 멀티 코어 프로세서(multi-core processor)로 구현될 수도 있다.
본 개시의 일 실시예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 코어에 의해 수행될 수도 있고, 하나 이상의 프로세서에 포함된 복수의 코어에 의해 수행될 수도 있다.
도 20에 도시 되지는 않았지만, 전자 장치(2000)는 사용자 인터페이스를 더 포함할 수 있다. 사용자 인터페이스는 사용자의 입력을 수신하는 입력 인터페이스와 정보를 출력하는 출력 인터페이스를 포함할 수 있다.
출력 인터페이스는 비디오 신호 또는 오디오 신호의 출력을 위한 것이다. 출력 인터페이스는 디스플레이부, 음향 출력부, 진동 모터 등을 포함할 수 있다. 디스플레이부와 터치패드가 레이어 구조를 이루어 터치스크린으로 구성되는 경우, 디스플레이부는 출력 인터페이스 이외에 입력 인터페이스로도 사용될 수 있다. 디스플레이부는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 발광 다이오드(LED, light-emitting diode), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 전자 장치(2000)의 구현 형태에 따라 전자 장치(2000)는 디스플레이부를 2개 이상 포함할 수도 있다.
음향 출력부는 통신 인터페이스(2100)로부터 수신되거나 메모리(2300)에 저장된 오디오 신호를 출력할 수 있다. 또한, 음향 출력부는 전자 장치(2000)에서 수행되는 기능과 관련된 음향 신호를 출력할 수 있다. 음향 출력부는 스피커(speaker), 부저(Buzzer) 등을 포함할 수 있다.
입력 인터페이스는, 사용자로부터의 입력을 수신하기 위한 것이다. 입력 인터페이스는, 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 중 적어도 하나일 수 있으나, 이에 한정되는 것은 아니다.
입력 인터페이스는, 음성 인식 모듈을 포함할 수 있다. 예를 들어, 전자 장치(2000)는 마이크로폰을 통해 아날로그 신호인 음성 신호를 수신하고, ASR(Automatic Speech Recognition) 모델을 이용하여 음성 부분을 컴퓨터로 판독 가능한 텍스트로 변환할 수 있다. 전자 장치(2000)는 자연어 이해(Natural Language Understanding, NLU) 모델을 이용하여 변환된 텍스트를 해석하여, 사용자의 발화 의도를 획득할 수 있다. 여기서 ASR 모델 또는 NLU 모델은 인공지능 모델일 수 있다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리(Natural Language Processing), 기계 번역(Machine Translation), 대화 시스템(Dialog System), 질의 응답(Question Answering), 음성 인식/합성(Speech Recognition/Synthesis) 등을 포함한다.
도 21은 본 개시의 일 실시예에 따른 서버의 구성을 도시한 블록도이다.
일 실시예에서, 전술한 전자 장치(2000)의 동작들은, 서버(3000)에서 수행될 수 있다.
일 실시예에 따른 서버(3000)는 통신 인터페이스(3100), 메모리(3200) 및 프로세서(3300)를 포함할 수 있다. 서버(3000)의 통신 인터페이스(3100), 메모리(3200) 및 프로세서(3300)는 도 20의 전자 장치(2000)의 통신 인터페이스(2100), 메모리(2300) 및 프로세서(2400)에 각각 대응되므로, 동일한 설명은 생략한다.
일 실시예에 따른 서버(3000)는, 전자 장치(2000) 보다 연산량이 많은 연산을 수행 가능하도록, 컴퓨팅 성능이 전자 장치(2000)보다 높은 장치일 수 있다. 서버(3000)는 추론에 비해 상대적으로 많은 연산량이 요구되는, 인공지능 모델의 훈련을 수행할 수 있다. 서버(3000)는 인공지능 모델을 이용하여 추론을 수행하고, 추론 결과를 전자 장치(2000)로 전송할 수 있다.
본 개시는, 3차원 정보를 활용한 이미지 왜곡 제거 방법에 있어서, 3차원 정보 획득을 위한 센서 등의 하드웨어 없이, 알고리즘을 이용하여 객체의 3차원 정보를 추론하고, 이미지 내 왜곡을 제거하는 이미지 처리 방법을 제시하고자 한다.
본 개시에서 이루고자 하는 기술적 과제는, 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 측면에 따르면, 전자 장치(2000)가 이미지를 처리하는 방법이 제공될 수 있다. 상기 방법은, 제1 카메라를 이용하여 적어도 하나의 표면(예를 들어, 라벨)을 포함하는 객체의 제1 이미지를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 제1 이미지를 제1 AI 모델에 적용함으로써, 상기 제1 이미지 내에서 상기 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 식별하는 단계를 포함할 수 있다. 상기 방법은, 상기 제1 이미지를 제2 AI 모델에 적용함으로써, 상기 객체의 3차원 형상 타입에 관한 데이터를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 관심 영역으로 식별된 상기 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역 및 상기 객체의 3차원 형상 타입에 관한 데이터에 기초하여, 상기 객체, 상기 적어도 하나의 표면(예를 들어, 라벨) 및 상기 제1 카메라 중 적어도 하나와 관련된 3차원 파라미터 값들의 집합을 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 3차원 파라미터 값들의 집합에 기초하여, 상기 적어도 하나의 표면(예를 들어, 라벨)의 비평면 형상을 추정하는 단계를 포함할 수 있다. 상기 방법은, 상기 적어도 하나의 표면(예를 들어, 라벨)에 대한 원근 변환(perspective transformation)을 수행함으로써, 상기 적어도 하나의 표면(예를 들어, 라벨)의 비평면 형상이 평평하게 된 플랫(flat) 표면(예를 들어, 라벨) 이미지를 획득하는 단계를 포함할 수 있다.
상기 3차원 파라미터 값들은, 상기 객체의 3차원 형상과 관련된 가로, 값 세로 값, 높이 값 및 반지름 값, 상기 객체의 표면의 관심 영역의 각도 값, 3차원 기하학적 변환을 위한 이동(translation) 값 및 회전(rotation) 값, 및 상기 카메라의 초점 거리 값 중 적어도 하나를 포함할 수 있다.
상기 제1 AI 모델은, 이미지 내에서 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 추론하도록 훈련된 인공지능 모델일 수 있다. 상기 제2 AI 모델은, 이미지 내 객체의 3차원 형상 타입을 추론하도록 훈련된 인공지능 모델일 수 있다.
상기 객체의 3차원 형상 타입에 관한 데이터를 획득하는 단계는, 사용자로부터 상기 객체의 3차원 형상 타입에 관련된 사용자 입력을 수신하는 단계를 포함할 수 있다. 상기 객체의 3차원 형상 타입에 관한 데이터를 획득하는 단계는, 복수의 3차원 형상 타입 중에서 상기 사용자 입력에 대응하는 3차원 형상 타입에 가중치를 적용하여 상기 객체의 3차원 형상 타입을 식별하는 단계를 더 포함할 수 있다.
상기 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 상기 관심 영역으로 식별하는 단계는, 상기 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 나타내는 제1 키포인트들을 식별하는 단계를 포함할 수 있다. 상기 3차원 파라미터 값들의 집합을 획득하는 단계는, 상기 객체의 3차원 형상 타입에 대응하는 가상 객체 및 상기 가상 객체의 3차원 파라미터 초기값들의 집합을 획득하는 단계를 포함할 수 있다. 상기 3차원 파라미터 값들의 집합을 획득하는 단계는, 상기 제1 키포인트들에 기초하여, 상기 가상 객체의 3차원 파라미터 초기값들의 집합을 조정하는 단계를 더 포함할 수 있다. 상기 3차원 파라미터 값들의 집합을 획득하는 단계는, 상기 조정된 3차원 파라미터 초기 값들의 집합을 상기 객체, 상기 적어도 하나의 표면 및 상기 카메라 중 적어도 하나와 관련된 상기 3차원 파라미터 값들의 집합으로 획득하는 단계를 더 포함할 수 있다.
상기 제1 키포인트들에 기초하여, 상기 가상 객체의 3차원 파라미터의 초기값들의 집합을 조정하는 단계는, 상기 가상 객체의 가상 표면(예를 들어, 라벨)에 대응하는 영역을 나타내는 제2 키포인트들을 설정하는 단계를 포함할 수 있다. 상기 제1 키포인트들에 기초하여, 상기 가상 객체의 3차원 파라미터의 초기값들을 조정하는 단계는, 상기 제2 키포인트들이 상기 제1 키포인트들에 정합하도록 조정함으로써, 상기 가상 객체의 3차원 파라미터 초기값들의 집합이 상기 객체의 3차원 파라미타 값들의 집합의 정답에 근사하도록 조정하는 단계를 더 포함할 수 있다.
상기 플랫 표면(예를 들어, 라벨) 이미지로부터 상기 객체와 관련된 정보를 획득하는 단계는, 상기 플랫 표면(예를 들어, 라벨)이미지에 광학 문자 인식(Optical character recognition; OCR)을 적용하는 단계를 포함할 수 있다.
상기 방법은, 상기 제1 카메라보다 화각이 넓은 제2 카메라를 이용하여 상기 객체의 제2 이미지를 획득하는 단계를 더 포함할 수 있다.
상기 객체의 3차원 형상 타입에 관한 데이터를 획득하는 단계는, 상기 제2 이미지를 상기 제2 AI 모델에 더 적용함으로써, 상기 객체의 3차원 형상 타입에 관련된 정보를 획득하는 단계를 더 포함할 수 있다.
상기 방법은, 상기 제1 카메라를 이용하여 촬영되는 상기 제1 이미지를 상기 제1 AI 모델에 적용하여 상기 관심 영역의 신뢰도를 획득하는 단계를 더 포함할 수 있다. 상기 방법은, 상기 제2 카메라를 이용하여 촬영되는 제2 이미지를 상기 제2 AI 모델에 적용하여 상기 객체의 3차원 형상 타입의 신뢰도를 획득하는 단계를 더 포함할 수 있다. 상기 방법은, 상기 객체의 3차원 형상 타입의 신뢰도 및 상기 관심 영역의 신뢰도 각각의 임계 값에 기초하여, 상기 제1 이미지 및 상기 제2 이미지를 각각 캡쳐하는 단계를 더 포함할 수 있다.
상기 방법은, 상기 플랫 표면(예를 들어, 라벨) 이미지 또는 상기 플랫 표면(예를 들어, 라벨) 이미지로부터 획득된 정보에 기초하여, 데이터베이스 내에서 일치하는 데이터를 검색하는 단계를 더 포함할 수 있다. 상기 방법은, 상기 검색 결과를 표시하는 단계를 더 포함하되, 상기 데이터베이스는, 상기 전자 장치가 이전에 획득한 또다른 플랫 표면(예를 들어, 라벨) 이미지들 및 또다른 객체들과 관련된 정보가 저장된 것일 수 있다.
본 개시의 일 측면에 따르면, 이미지를 처리하는 전자 장치가 제공될 수 있다. 상기 전자 장치는, 제1 카메라, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 제1 카메라를 이용하여 적어도 하나의 표면(예를 들어, 라벨)을 포함하는 3차원의 객체의 제1 이미지를 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 이미지를 제1 AI 모델에 적용함으로써, 상기 제1 이미지 내에서 상기 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 이미지를 제2 AI 모델에 적용함으로써, 상기 객체의 3차원 형상 타입에 관한 데이터를 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 관심 영역으로 식별된 상기 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역 및 상기 객체의 3차원 형상 타입에 관한 데이터에 기초하여, 상기 객체, 상기 적어도 하나의 표면(예를 들어, 라벨) 및 상기 제1 카메라 중 적어도 하나와 관련된 3차원 파라미터 값들의 집합을 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 3차원 파라미터 값들의 집합에 기초하여, 상기 적어도 하나의 표면(예를 들어, 라벨)의 비평면 형상을 추정할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 적어도 하나의 표면(예를 들어, 라벨)에 대한 원근 변환(perspective transformation)을 수행함으로써, 상기 적어도 하나의 표면(예를 들어, 라벨)의 비평면 형상이 평평하게 된 플랫(flat) 표면(예를 들어, 라벨) 이미지를 획득할 수 있다.
상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 사용자로부터 상기 객체의 3차원 형상 타입에 관련된 사용자 입력을 수신할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 복수의 3차원 형상 타입 중에서 상기 사용자 입력에 대응하는 3차원 형상 타입에 가중치를 적용하여 상기 객체의 3차원 형상 타입을 식별할 수 있다.
상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 적어도 하나의 표면(예를 들어, 라벨)에 대응하는 영역을 나타내는 제1 키포인트들을 식별할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 객체의 3차원 형상 타입에 대응하는 가상 객체 및 상기 가상 객체의 3차원 파라미터의 초기값들의 집합을 획득할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 키포인트들에 기초하여, 상기 가상 객체의 3차원 파라미터의 초기값들의 집합을 조정할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 조정된 3차원 파라미터의 초기값들의 집합을 상기 객체, 상기 적어도 하나의 표면 및 상기 카메라 중 적어도 하나와 관련된 상기 3차원 파라미터의 값들의 집합으로 획득할 수 있다.
상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 가상 객체의 가상 표면(예를 들어, 라벨)에 대응하는 영역을 나타내는 제2 키포인트들을 설정할 수 있다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제2 키포인트들이 상기 제1 키포인트들에 정합하도록 조정함으로써, 상기 가상 객체의 3차원 파라미터의 초기값들의 집합이 상기 객체의 3차원 파라미터의 값들의 집합의 정답 근사하도록 조정할 수 있다.
상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 플랫 표면(예를 들어, 라벨) 이미지에 광학 문자 인식(Optical character recognition; OCR)을 적용할 수 있다.
상기 전자 장치는, 상기 제1 카메라보다 화각이 넓은 제2 카메라를 더 포함하고, 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제2 카메라를 이용하여 상기 객체의 제2 이미지를 획득할 수 있다.
상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제2 이미지를 상기 제2 AI 모델에 더 적용함으로써, 상기 객체의 3차원 형상 타입에 관련된 정보를 획득할 수 있다.
일 실시예에 따른 전자 장치가 이미지를 처리하는 방법은, 제1 카메라를 이용하여 객체의 표면(예를 들어, 라벨)을 포함하는 객체의 일부 이미지를 획득하는 단계를 포함할 수 있다. 상기 방법은, 객체의 일부 이미지를 제1 AI 모델에 적용함으로써 객체의 상기 표면(예를 들어, 라벨)에 대응하는 영역을 관심 영역으로 식별하는 단계를 포함할 수 있다. 상기 방법은, 제1 카메라보다 화각이 넓은 제2 카메라를 이용하여 객체의 전체 이미지를 획득하는 단계를 포함할 수 있다. 상기 방법은, 객체의 전체 이미지를 제2 AI 모델에 적용함으로써 객체의 3차원 형상 타입을 식별하는 단계를 포함할 수 있다. 상기 방법은, 객체의 3차원 형상 타입에 대응하는 3차원 파라미터를 획득하는 단계를 포함할 수 있다. 상기 방법은, 관심 영역에 관한 정보 및 3차원 파라미터에 기초하여 상기 표면(예를 들어, 라벨)의 원근 변환(perspective transformation)을 수행함으로써, 표면(예를 들어, 라벨)의 비평면 형상이 평평하게 된 플랫 표면(예를 들어, 라벨) 이미지를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 플랫 표면(예를 들어, 라벨) 이미지로부터 객체와 관련된 정보를 획득하는 단계를 포함할 수 있다.
한편, 본 개시의 실시예들은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 또는 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터를 포함할 수 있다.
또한, 컴퓨터에 의해 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 전자 장치가 이미지를 처리하는 방법에 있어서,
    제1 카메라를 이용하여 적어도 하나의 표면을 포함하는 3차원 객체의 제1 이미지를 획득하되, 상기 적어도 하나의 표면은 비평면 형상인 것인, 단계(S210);
    상기 제1 이미지를 제1 AI 모델에 적용함으로써, 상기 적어도 하나의 표면에 대응하는 영역을 관심 영역으로 식별하는 단계(S220);
    상기 제1 이미지를 제2 AI 모델에 적용함으로써, 상기 객체의 3차원 형상 타입에 관한 데이터를 획득하는 단계(S230);
    상기 관심 영역으로 식별된 영역 및 상기 3차원 형상 타입에 관한 데이터에 기초하여, 상기 객체, 상기 적어도 하나의 표면 및 상기 제1 카메라 중 적어도 하나와 관련된 3차원 파라미터 값들의 집합을 획득하는 단계(S240);
    상기 3차원 파라미터 값들의 집합에 기초하여, 상기 적어도 하나의 표면의 비평면 형상을 추정하는 단계(S250); 및
    상기 적어도 하나의 표면에 대한 원근 변환(perspective transformation)을 수행함으로써, 상기 적어도 하나의 표면의 비평면 형상이 평평하게 된 플랫(flat) 표면 이미지를 획득하는 단계(S260)를 포함하는, 방법.
  2. 제1항에 있어서, 상기 3차원 파라미터 값들의 집합은,
    상기 객체의 3차원 형상과 관련된 높이 값,
    상기 객체의 3차원 형상과 관련된 반지름 값,
    상기 객체의 상기 적어도 하나의 표면의 관심 영역의 각도 값,
    3차원 기하학적 변환을 위한 이동(translation) 값,
    3차원 기하학적 변환을 위한 회전(rotation) 값, 및
    상기 제1 카메라의 초점 거리 값 중 적어도 하나를 포함하는 것인, 방법.
  3. 제1항 내지 제2항 중 어느 한 항에 있어서,
    상기 제1 AI 모델은, 이미지 내에서 표면에 대응하는 영역을 관심 영역으로 추론하도록 훈련된 모델이고,
    상기 제2 AI 모델은, 이미지 내 객체의 3차원 형상 타입을 추론하도록 훈련된 모델인 것인, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 객체의 3차원 형상 타입에 관한 데이터를 획득하는 단계는,
    사용자로부터 상기 객체의 3차원 형상 타입에 관련된 사용자 입력을 수신하는 단계; 및
    복수의 3차원 형상 타입 중에서 상기 사용자 입력에 대응하는 3차원 형상 타입에 가중치를 적용하여 상기 객체의 3차원 형상 타입을 식별하는 단계를 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 적어도 하나의 표면에 대응하는 영역을 상기 관심 영역으로 식별하는 단계는,
    상기 적어도 하나의 표면에 대응하는 영역을 나타내는 제1 키포인트들을 식별하는 단계를 포함하고,
    상기 3차원 파라미터 값들을 획득하는 단계는,
    상기 객체의 3차원 형상 타입에 대응하는 가상 객체 및 상기 가상 객체의 3차원 파라미터 초기값들의 집합을 획득하는 단계;
    상기 제1 키포인트들에 기초하여, 상기 가상 객체의 3차원 파라미터 초기값들의 집합을 조정하는 단계; 및
    상기 조정된 3차원 파라미터 초기 값들의 집합을 상기 객체, 상기 적어도 하나의 표면 및 상기 제1 카메라 중 적어도 하나와 관련된 상기 3차원 파라미터 값들의 집합으로 획득하는 단계를 포함하는, 방법.
  6. 제5항에 있어서,
    상기 제1 키포인트들에 기초하여, 상기 가상 객체의 3차원 파라미터의 초기값들의 집합을 조정하는 단계는,
    상기 가상 객체의 가상 표면에 대응하는 영역을 나타내는 제2 키포인트들을 설정하는 단계; 및
    상기 제2 키포인트들이 상기 제1 키포인트들에 정합하도록 조정함으로써, 상기 가상 객체의 상기 3차원 파라미터 초기값들의 집합이 상기 객체의 3차원 파라미터 값들의 집합의 정답에 근사하도록 조정하는 단계를 포함하는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 플랫 표면 이미지로부터 상기 객체와 관련된 정보를 획득하는 단계는,
    상기 플랫 표면 이미지에 광학 문자 인식(Optical character recognition; OCR)을 적용하는 단계를 포함하는, 방법.
  8. 이미지를 처리하는 전자 장치에 있어서,
    제1 카메라(2200);
    하나 이상의 인스트럭션을 저장하는 메모리(2300); 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서(2400)를 포함하고,
    상기 적어도 하나의 프로세서(2400)는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    제1 카메라(2200)를 이용하여 적어도 하나의 표면을 포함하는 3차원 객체의 제1 이미지를 획득하되, 상기 적어도 하나의 표면은 비평명 형상인 것이고,
    상기 제1 이미지를 제1 AI 모델에 적용함으로써, 상기 적어도 하나의 표면에 대응하는 영역을 관심 영역으로 식별하고,
    상기 제1 이미지를 제2 AI 모델에 적용함으로써, 상기 객체의 3차원 형상 타입에 관한 데이터를 획득하고,
    상기 관심 영역으로 식별된 영역 및 상기 3차원 형상 타입에 관한 데이터에 기초하여, 상기 객체, 상기 적어도 하나의 표면 및 상기 제1 카메라(2200) 중 적어도 하나와 관련된 3차원 파라미터 값들의 집합을 획득하고,
    상기 3차원 파라미터 값들의 집합에 기초하여, 상기 적어도 하나의 표면의 비평면 형상을 추정하고,
    상기 적어도 하나의 표면에 대한 원근 변환(perspective transformation)을 수행함으로써, 상기 적어도 하나의 표면의 비평면 형상이 평평하게 된 플랫(flat) 표면 이미지를 획득하는, 전자 장치.
  9. 제8항에 있어서, 상기 3차원 파라미터 값들의 집합은,
    상기 객체의 3차원 형상과 관련된 높이 값,
    상기 객체의 3차원 형상과 관련된 반지름 값,
    상기 객체의 상기 적어도 하나의 표면의 관심 영역의 각도 값,
    3차원 기하학적 변환을 위한 이동(translation) 값,
    3차원 기하학적 변환을 위한 회전(rotation) 값, 및
    상기 제1 카메라의 초점 거리 값 중 적어도 하나를 포함하는 것인, 전자 장치.
  10. 제8항 내지 제9항 중 어느 한 항에 있어서,
    상기 제1 AI 모델은, 이미지 내에서 표면에 대응하는 영역을 관심 영역으로 추론하도록 훈련된 모델이고,
    상기 제2 AI 모델은, 이미지 내 객체의 3차원 형상 타입을 추론하도록 훈련된 모델인 것인, 전자 장치.
  11. 제8항 내지 제10항 중 어느 한 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    사용자로부터 상기 객체의 3차원 형상 타입에 관련된 사용자 입력을 수신하고,
    복수의 3차원 형상 타입 중에서 상기 사용자 입력에 대응하는 3차원 형상 타입에 가중치를 적용하여 상기 객체의 3차원 형상 타입을 식별하는, 전자 장치.
  12. 제8항 내지 제11항 중 어느 한 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 적어도 하나의 표면에 대응하는 영역을 나타내는 제1 키포인트들을 식별하고,
    상기 객체의 3차원 형상 타입에 대응하는 가상 객체 및 상기 가상 객체의 3차원 파라미터의 초기값들의 집합을 획득하고,
    상기 제1 키포인트들에 기초하여, 상기 가상 객체의 3차원 파라미터의 초기값들의 집합을 조정하고,
    상기 조정된 3차원 파라미터의 초기 값들의 집합을 상기 객체, 상기 적어도 하나의 표면 및 상기 제1 카메라 중 적어도 하나와 관련된 상기 3차원 파라미터의 값들의 집합으로 획득하는, 전자 장치.
  13. 제12항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 가상 객체의 가상 표면에 대응하는 영역을 나타내는 제2 키포인트들을 설정하고,
    상기 제2 키포인트들이 상기 제1 키포인트들에 정합하도록 조정함으로써, 상기 가상 객체의 3차원 파라미터의 초기값들의 집합이 상기 객체의 3차원 파라미터 값들의 집합의 정답에 근사하도록 조정하는, 전자 장치.
  14. 제8항 내지 제13항 중 어느 한 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 플랫 표면 이미지에 광학 문자 인식(Optical character recognition; OCR)을 적용하는, 전자 장치.
  15. 제1항 내지 제7항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2023/005164 2022-04-20 2023-04-17 이미지를 처리하는 전자 장치 및 그 동작 방법 WO2023204548A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/137,266 US20230343061A1 (en) 2022-04-20 2023-04-20 Electronic device for processing image, and operation method of electronic device

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220049149 2022-04-20
KR10-2022-0049149 2022-04-20
KR1020220133618A KR20230149705A (ko) 2022-04-20 2022-10-17 이미지를 처리하는 전자 장치 및 그 동작 방법
KR10-2022-0133618 2022-10-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/137,266 Continuation US20230343061A1 (en) 2022-04-20 2023-04-20 Electronic device for processing image, and operation method of electronic device

Publications (1)

Publication Number Publication Date
WO2023204548A1 true WO2023204548A1 (ko) 2023-10-26

Family

ID=88420380

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/005164 WO2023204548A1 (ko) 2022-04-20 2023-04-17 이미지를 처리하는 전자 장치 및 그 동작 방법

Country Status (1)

Country Link
WO (1) WO2023204548A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070206877A1 (en) * 2006-03-02 2007-09-06 Minghui Wu Model-based dewarping method and apparatus
US20120133779A1 (en) * 2010-11-29 2012-05-31 Microsoft Corporation Robust recovery of transform invariant low-rank textures
KR20190106853A (ko) * 2019-08-27 2019-09-18 엘지전자 주식회사 텍스트 인식 장치 및 방법
US20190384964A1 (en) * 2017-02-20 2019-12-19 Omron Corporation Shape estimating apparatus
KR20200080378A (ko) * 2018-12-17 2020-07-07 한림대학교 산학협력단 차량의 번호판 인식을 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070206877A1 (en) * 2006-03-02 2007-09-06 Minghui Wu Model-based dewarping method and apparatus
US20120133779A1 (en) * 2010-11-29 2012-05-31 Microsoft Corporation Robust recovery of transform invariant low-rank textures
US20190384964A1 (en) * 2017-02-20 2019-12-19 Omron Corporation Shape estimating apparatus
KR20200080378A (ko) * 2018-12-17 2020-07-07 한림대학교 산학협력단 차량의 번호판 인식을 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR20190106853A (ko) * 2019-08-27 2019-09-18 엘지전자 주식회사 텍스트 인식 장치 및 방법

Similar Documents

Publication Publication Date Title
WO2020190112A1 (en) Method, apparatus, device and medium for generating captioning information of multimedia data
WO2019216593A1 (en) Method and apparatus for pose processing
WO2017090837A1 (en) Digital photographing apparatus and method of operating the same
WO2016017987A1 (en) Method and device for providing image
WO2018088794A2 (ko) 디바이스가 이미지를 보정하는 방법 및 그 디바이스
WO2016018004A1 (en) Method, apparatus, and system for providing translated content
WO2017039348A1 (en) Image capturing apparatus and operating method thereof
WO2016117836A1 (en) Apparatus and method for editing content
EP3740936A1 (en) Method and apparatus for pose processing
WO2016018062A1 (en) Method and device for providing content
WO2016085173A1 (en) Device and method of providing handwritten content in the same
WO2020235852A1 (ko) 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법
WO2019135621A1 (ko) 영상 재생 장치 및 그의 제어 방법
WO2021261830A1 (en) Video quality assessment method and apparatus
EP3931826A1 (en) Server that supports speech recognition of device, and operation method of the server
WO2017090833A1 (en) Photographing device and method of controlling the same
WO2022154457A1 (en) Action localization method, device, electronic equipment, and computer-readable storage medium
WO2022010122A1 (ko) 영상을 제공하는 방법 및 이를 지원하는 전자 장치
WO2020209624A1 (en) Head mounted display device and operating method thereof
WO2022050785A1 (ko) 디스플레이 기기 및 그의 동작 방법
WO2021158058A1 (en) Method for providing filter and electronic device supporting the same
WO2020017936A1 (ko) 전자 장치 및 이미지의 전송 상태에 기반하여 이미지를 보정하는 방법
WO2023204548A1 (ko) 이미지를 처리하는 전자 장치 및 그 동작 방법
WO2021137629A1 (en) Display device, mobile device, video calling method performed by the display device, and video calling method performed by the mobile device
WO2023163489A1 (ko) 사용자의 음성 입력을 처리하는 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23792124

Country of ref document: EP

Kind code of ref document: A1