WO2023146228A1 - 전자 장치 및 전자 장치의 제어 방법 - Google Patents

전자 장치 및 전자 장치의 제어 방법 Download PDF

Info

Publication number
WO2023146228A1
WO2023146228A1 PCT/KR2023/001019 KR2023001019W WO2023146228A1 WO 2023146228 A1 WO2023146228 A1 WO 2023146228A1 KR 2023001019 W KR2023001019 W KR 2023001019W WO 2023146228 A1 WO2023146228 A1 WO 2023146228A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
coordinate value
camera
bounding box
processor
Prior art date
Application number
PCT/KR2023/001019
Other languages
English (en)
French (fr)
Inventor
투안 팜트룽
훙 호응옥
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2023146228A1 publication Critical patent/WO2023146228A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/57Mechanical or electrical details of cameras or camera modules specially adapted for being embedded in other devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming

Definitions

  • the present disclosure relates to an electronic device and a control method of the electronic device. More specifically, it relates to an electronic device and a control method for acquiring location information and object recognition information about an object using a plurality of cameras included in the electronic device and displaying the same on a display.
  • most recently released smartphones include a camera with a wide-angle lens, a camera with a standard lens, and a telephoto lens depending on the angle of view. It includes a plurality of cameras, such as a camera that does.
  • an electronic device obtains a first image through a display, a first camera, a second camera, and the first camera operating in a zoom mode, and controls the display to display the first image. and acquires a second image through a second camera operating in a normal mode, and a third image of the first camera in the normal mode corresponding to the first image based on a zoom-in ratio in the zoom mode.
  • the location information includes a first coordinate value and a second coordinate value of a first bounding box including an object detected in the second image, and the first coordinate value is the coordinate value of the upper left corner of the first bounding box, and the second coordinate value is the coordinate value of the lower right corner of the first bounding box.
  • the processor may determine, based on a relative position between the second image and the third image, the third image corresponding to the first coordinate value and the second coordinate value. identifying the third coordinate value and the fourth coordinate value for the object in, and identifying the size and position of the frame corresponding to the first image in the second image based on the zoom-in ratio in the zoom mode. and, when at least one of the third and fourth coordinate values is included in the frame, a first image acquired through the first camera operating in the zoom mode based on the third and fourth coordinate values. Detects the object in
  • the processor may determine a fifth coordinate value in the first image corresponding to the third coordinate value and the fourth coordinate value based on the size and position of the frame; and A sixth coordinate value is identified, a second bounding box including the object detected in the first image is generated and displayed based on the fifth coordinate value and the sixth coordinate value, and the fifth coordinate value is identified. is the coordinate value of the upper left corner of the second bounding box, and the sixth coordinate value is the coordinate value of the lower right corner of the second bounding box.
  • the processor identifies an area of a second bounding box including the object detected in the first image based on the fifth coordinate value and the sixth coordinate value. and displaying the second bounding box if the identified second bounding box has a width greater than or equal to a preset value.
  • the processor extracts feature points of the object included in the second image, and obtains object recognition information about the object based on the extracted feature points. , a second bounding box including the object detected in the first image and object recognition information about the object are displayed.
  • a memory for storing location information of the detected object in the second image is further included, and the processor determines that a new object other than the object in the third image is If detected, location information about the detected new object in the third image is acquired, and location information stored in the memory is updated based on the location information.
  • the processor may include a distance between the first camera and the second camera disposed in the electronic device, a field of view angle of the first camera, and a field of view angle of the second camera. Based on, identifying a relative position between the second image and the third image, and based on the identified relative position, of the object in the third image corresponding to the positional information obtained from the second image. Acquire location information.
  • a first image is acquired through the first camera operating in a zoom mode, and the first image is Obtaining a second image through a second camera operating in a normal mode, the first camera in the normal mode corresponding to the first image based on a zoom-in ratio in the zoom mode.
  • the location information includes a first coordinate value and a second coordinate value of a first bounding box including an object detected in the second image, and the first coordinate value is , is the coordinate value of the upper left corner of the first bounding box, and the second coordinate value is the coordinate value of the lower right corner of the first bounding box.
  • the obtaining of the position information of the object in the third image may include the first coordinate value and the first coordinate value based on the relative position between the second image and the third image. Identifying a third coordinate value and a fourth coordinate value of the object in the third image corresponding to the second coordinate value, respectively, and based on the zoom-in ratio in the zoom mode, in the second image and identifying a size and position of a frame corresponding to the first image, wherein the detecting of the object in the first image includes at least one of the third and fourth coordinate values in the frame. , and detecting the object from a first image obtained through the first camera operating in the zoom mode, based on the third and fourth coordinate values.
  • a fifth coordinate value and a sixth coordinate value in the first image corresponding to the third coordinate value and the fourth coordinate value are determined based on the size and position of the frame. and generating and displaying a second bounding box including the object detected in the first image based on the fifth coordinate value and the sixth coordinate value, respectively, and displaying the fifth coordinate value.
  • the sixth coordinate value is the coordinate value of the lower right corner of the second bounding box.
  • the generating and displaying the second bounding box includes the object detected in the first image based on the fifth coordinate value and the sixth coordinate value.
  • the method may include identifying an area of the second bounding box and displaying the second bounding box if the area of the identified second bounding box is greater than or equal to a preset value.
  • the obtaining of location information on the detected object in the second image may include extracting a feature point of the object included in the second image, and extracting the extracted feature. Further comprising obtaining object recognition information about the object based on a point, and generating and displaying a second bounding box includes: a second bounding box including the object detected in the first image; and and displaying object recognition information about the object.
  • the acquiring of the location information of the detected object in the second image may further include storing the location information of the detected object in the second image in a memory. and, when a new object other than the object in the third image is detected, obtaining location information about the detected new object in the third image, and based on the location information, the location stored in the memory. Updating the information is further included.
  • the obtaining of the location information of the object in the third image may include a distance between the first camera and the second camera arranged in the electronic device, a field of view angle of the first camera, and the second camera. Based on the viewing angle of , the method further includes identifying a relative position between the second image and the third image.
  • FIG. 1 is a diagram for explaining an electronic device according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram of an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a flowchart schematically illustrating a method of detecting an object in a first image obtained from a zoom board of a first camera based on a second image obtained using a second camera according to an embodiment of the present disclosure. am.
  • FIG. 4 is an exemplary diagram illustrating identification of a third image of the first camera in a normal mode corresponding to a first image based on a zoom-in ratio in a zoom mode according to an embodiment of the present disclosure.
  • FIG. 5 is an exemplary diagram illustrating obtaining location information of an object by detecting an object in a second image acquired using a second camera according to an embodiment of the present disclosure.
  • FIG. 6 is an exemplary view illustrating stacking a second image on a third image after identifying relative positions of a second image and a third image according to an embodiment of the present disclosure.
  • FIG. 7 is a flowchart schematically illustrating a method of identifying a location of an object in a third image based on relative locations of a second image and a third image, according to an embodiment of the present disclosure.
  • FIG. 8 is an exemplary diagram illustrating identification of a location of an object in a third image based on a relative location of a second image and a third image, according to an embodiment of the present disclosure.
  • FIG. 9 is an exemplary diagram illustrating identification of a size and position of a frame corresponding to a first image in a third image according to an embodiment of the present disclosure.
  • FIG. 10 is an exemplary view illustrating identifying an object based on third and fourth coordinate values included in a frame corresponding to a first image, according to an embodiment of the present disclosure.
  • 11 is an exemplary view illustrating not detecting an object in a first image based on location information of an object in a third image, according to an embodiment of the present disclosure.
  • FIG. 12 is a flowchart schematically illustrating a method of detecting and displaying an object in a first image based on location information of an object in a third image, according to an embodiment of the present disclosure.
  • FIG. 13 is an exemplary view illustrating detecting and displaying an object in a first image based on location information of the object in a third image, according to an embodiment of the present disclosure.
  • FIG. 14 is an exemplary diagram of an electronic device that detects and displays an object on a first image according to an embodiment of the present disclosure.
  • 15 is an exemplary view illustrating not detecting an object in a first image based on a second bounding box identified based on a fifth coordinate value and a sixth coordinate value according to an embodiment of the present disclosure.
  • 16 is a flowchart schematically illustrating displaying object recognition information of an object acquired based on a second image on a first image according to an embodiment of the present disclosure.
  • 17 is an exemplary diagram schematically illustrating displaying object recognition information of an object acquired based on a second image on a first image according to an embodiment of the present disclosure.
  • FIG. 18 illustrates a second image based on a distance between a first camera and a second camera arranged in an electronic device, a field of view angle of the first camera, and a field of view angle of the second camera, according to an embodiment of the present disclosure. And it is an exemplary view showing identifying the relative position between the third image.
  • FIG. 19 illustrates a second image based on a distance between a first camera and a second camera arranged in an electronic device, a field of view angle of the first camera, and a field of view angle of the second camera, according to another embodiment of the present disclosure. And it is an exemplary view showing identifying the relative position between the third image.
  • 20 is a detailed configuration diagram of an electronic device according to an embodiment of the present disclosure.
  • expressions such as “has,” “can have,” “includes,” or “can include” indicate the presence of a corresponding feature (eg, numerical value, function, operation, or component such as a part). , which does not preclude the existence of additional features.
  • a component e.g., a first component
  • another component e.g., a second component
  • connection to it should be understood that an element may be directly connected to another element, or may be connected through another element (eg, a third element).
  • a “module” or “unit” performs at least one function or operation, and may be implemented in hardware or software or a combination of hardware and software.
  • a plurality of “modules” or a plurality of “units” are integrated into at least one module and implemented by at least one processor (not shown), except for “modules” or “units” that need to be implemented with specific hardware. It can be.
  • FIG. 1 is a diagram for explaining an electronic device according to an embodiment of the present disclosure.
  • an electronic device 100 includes a plurality of cameras 120 and 130 . At this time, the electronic device 100 obtains an image of the object using a specific camera selected by the user among the plurality of cameras 120 and 130 .
  • the electronic device 100 executes a program (or application) for driving a camera
  • the electronic device 100 uses a specific camera set according to the driving sequence of the plurality of cameras 120 and 130 set in the program (or application) to obtain information about an object. Acquire an image.
  • the electronic device 100 displays an image of an object obtained through a specific camera on the display 110 of the electronic device 100 .
  • the electronic device 100 adjusts the focal length of the camera based on a user's input (eg, motion input using a user's finger) for adjusting the focal length of the camera. Specifically, the electronic device zooms in or zooms out the camera by adjusting the focal length of the camera that captures the object.
  • the electronic device 100 may provide a function of zooming in or out of a camera by cropping and displaying an image obtained through a camera based on a user input without adjusting the focal length of the actual camera. do. For example, digital zoom corresponds to this.
  • the electronic device 100 may provide the user with an enlarged image of the object.
  • the user can obtain more detailed information about the object.
  • the user cannot obtain information about the portion of the object.
  • the first object 210 acquires dog-related information in its entirety through a zoomed-in camera, while the second object 220 acquires cat-related information by partially missing it. .
  • the electronic device 100 performs object recognition of an object in an image based on an image acquired of the object.
  • the electronic device 100 performs object recognition on the first object 210 in the image. can be done accurately.
  • the first object 210 in the image may be detected, all feature points of the first object 210 may be extracted, and based on this, object recognition of the first object 210 in the image may be accurately performed.
  • the type of the first object may be identified.
  • the electronic device may Object recognition of the second object 220 cannot be accurately performed.
  • the electronic device 100 cannot detect the second object 220 in the image, or a part of the object missing from the image among all feature points of the second object 220. It is also not possible to identify a feature point corresponding to . Therefore, the electronic device 100 cannot detect the second object 220 and therefore cannot perform object recognition itself, or even if the electronic device 100 detects the second object 220, it cannot produce an accurate object recognition result.
  • the present disclosure acquires an image of an object through a second camera 130 other than the first camera 120 when a zoom-in input to the first camera 120 being operated is received.
  • the electronic device 100 drives the second camera 130 in a normal mode.
  • the electronic device 100 detects an object based on the image of the object obtained through the second camera 130 in the normal mode, performs object recognition on the object, and obtains a result of detecting the object and recognizing the object. get the result
  • the electronic device 100 detects an object within the first camera (ie, the first camera being operated in a zoom-in mode) 120 based on the acquired object detection result and object recognition result, and Perform object recognition for .
  • the electronic device 100 can accurately detect the object 200 even if the entire shape of the object is not included in the image acquired through the first camera 120, and the object for the detected object 200 Recognition can be performed accurately.
  • FIGS. 2 and 16 an embodiment of the present disclosure related to this will be described in detail.
  • FIG. 2 is a block diagram of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes various electronic devices including a display and a plurality of cameras, such as a mobile phone, a smart phone, a tablet PC, and a notebook PC.
  • a display such as a computer, a smart TV, etc.
  • the electronic device 100 may be a variety of electronic devices that have a display, such as a computer, a smart TV, etc., include a plurality of cameras, or are driven by being connected to a plurality of separate camera devices.
  • an electronic device 100 includes a display 110 , a first camera 120 , a second camera 130 and a processor 140 .
  • the display 110 displays one or more images, for example, images acquired through the cameras 130 and 140 according to the control of the processor 140 .
  • the display 110 may be implemented as a liquid crystal display (LCD), a plasma display panel (PDP), organic light emitting diodes (OLED), or a transparent OLED (TOLED).
  • the display 110 may also include a driving circuit and a backlight unit that may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, or an organic TFT (OTFT).
  • the display 110 may be implemented as a flexible display or a foldable display.
  • the display 110 may be implemented with a material having flexible characteristics, such as a plastic substrate (eg, polymer film) that can be deformed by external pressure, thin glass, or metal foil. there is.
  • a plastic substrate eg, polymer film
  • the first camera 120 and the second camera 130 are components for generating a captured image by capturing an object 200, wherein the captured image includes both a moving image and a still image. do.
  • the first camera 120 refers to a camera executed by a user among a plurality of cameras. Specifically, the first camera 120 refers to a camera selected by a user through an interface to capture an object among a plurality of cameras included in the electronic device 1000 and then acquiring a captured image of the object in real time. Alternatively, referring to the above example, it may mean a camera with a first priority among preset priorities related to a driving sequence of a plurality of cameras. However, it is not limited thereto.
  • the second camera 130 means at least one camera among the remaining cameras other than the first camera 120 among the plurality of cameras. That is, if the first camera 120 corresponds to a camera selected by the user through the interface among a plurality of cameras, the second camera 130 corresponds to a camera not selected by the user.
  • the processor 140 may perform an operation of obtaining an image of the external object 200 through the second camera 130 on the background of the electronic device 100. . Accordingly, the processor 140 displays the image of the external object 200 obtained by the first camera 120 on the display 110 while displaying the image of the external object 200 obtained by the second camera 130. The image for ) may not be displayed on the display 110.
  • the first camera 120 and the second camera 130 may obtain an image of at least one external object 200, and use a camera, lens, infrared sensor, or the like. can be implemented
  • the first camera 120 and the second camera 130 may be operated in a normal mode and a zoom mode.
  • the normal mode refers to a mode for obtaining an image based on the initially set focal length of the first camera 120 .
  • this means a mode for obtaining an image of an object at a basic focal distance set for the first camera 120 .
  • a digital zoom (Digital Zoo) method it means a mode in which the original image obtained by the first camera 120 is displayed without enlarging or reducing the image obtained through the first camera 120 .
  • the zoom mode refers to a camera operating mode in which an initially set focal length of a camera in a normal mode is changed and an image of an external object is obtained based on the changed focal length.
  • it means a mode for displaying an enlarged or reduced image of an original image acquired by the first camera 120 .
  • the normal mode and the zoom mode are distinguished, but according to an embodiment of the present disclosure, the normal mode and the zoom mode are not clearly distinguished, and the processor 140 is used by the user.
  • a zoom-in or zoom-out input is received and the processor 140 adjusts and displays the camera or an image obtained from the camera in response to the user's zoom-in or zoom-out input, this may be referred to as a zoom mode. there is.
  • each of the first camera 120 and the second camera 130 may include an image sensor and a lens.
  • the field of view (FOV) of the lenses may be different from each other.
  • the first camera 120 and the second camera 130 may include at least one of a telephoto lens, a wide angle lens, and a super wide angle lens. there is.
  • the second camera 130 may include either a wide-angle lens or an ultra-wide-angle lens different from the first camera 120 . That is, the first camera 120 and the second camera 130 may each include lenses having different angles of view that do not overlap.
  • the first camera 120 and the second camera 130 are disposed on the back of the electronic device 100, however, in an embodiment of the present disclosure, the electronic device 100 Although it has been described that the first camera 120 and the second camera 130, that is, two cameras are included, the number and type of the cameras are not particularly limited.
  • the processor 140 may control overall operations of the electronic device 100 .
  • the processor 140 may include a random access memory (RAM), a read only memory (ROM), a central processing unit (CPU), a graphic processing unit (GPU), a system bus, and the like, and the electronic device 100 Operation or data processing related to the control of one or more components included in may be executed.
  • the processor 140 controls one or more components included in the electronic device 100 by executing one or more instructions stored in the storage, controls one or more components as a hardware circuit or chip, or a combination of software and hardware. can control one or more components.
  • FIG. 3 is a flowchart schematically illustrating a method of detecting an object in a first image obtained in a zoom mode of a first camera based on a second image acquired using a second camera according to an embodiment of the present disclosure. am.
  • FIG. 4 is an exemplary diagram illustrating identification of a third image of a first camera in a normal mode corresponding to a first image based on a zoom-in ratio in a zoom mode according to an embodiment of the present disclosure.
  • FIG. 5 is an exemplary diagram illustrating obtaining location information of an object by detecting an object in a second image acquired using a second camera according to an embodiment of the present disclosure.
  • the processor 140 acquires a first image 1 through the first camera 120 operating in a zoom mode, and displays the first image 1 on the display 110. (S310).
  • the processor 140 acquires an image of the external object 200 using the first camera 120, and sets it in relation to the zoom mode (or inputs from the user in relation to driving the camera in the zoom mode). )
  • the first image 1 is acquired by enlarging the acquired image based on the zoom-in ratio and cropping the enlarged image based on the size, ratio, resolution, etc. of the display 110 .
  • the processor 140 controls the display 110 to display the obtained first image.
  • the present invention is not limited thereto, and the processor 140 may obtain the first image 1 of the object 200 by adjusting the focal length of the lens included in the first camera 120 .
  • the processor 140 acquires images (eg, first and second images) using the cameras 120 and 130 based on a digital zoom method. let me explain
  • the processor 140 may receive a user command for changing the mode of the first camera operating in the normal mode to the zoom mode prior to operating in the zoom mode.
  • the processor 140 receives a user command for changing the mode of the first camera 120 operating in the normal mode to the zoom mode through the display 110 having a display panel or an input interface.
  • the processor 140 may detect a touch input or a motion input for changing the mode of the first camera to a zoom-in mode using a user's finger through the display 110 . More specifically, the processor 140 detects a first touch input and a second touch input through the display 110, calculates a distance between the first touch input location and the second touch input location, and then the first touch input location.
  • a user command for changing to a zoom mode may include information about a zoom-in ratio (or magnification) and a zoom-out ratio (or magnification).
  • the processor 140 may change the position of at least one of the position of the first touch input and the position of the second touch input so that the distance between the first touch input and the second touch input is increased.
  • the zoom-in magnification of the first camera 120 may be increased corresponding to the increased distance. That is, the processor 140 may simultaneously receive an input for changing the mode of the first camera 120 to the zoom mode from the user, as well as information on a zoom-in ratio or zoom-out ratio related to the zoom mode.
  • the processor 140 acquires a second image through the second camera 130 operating in a normal mode after displaying the first image (S310).
  • the processor 140 drives the second camera 130 other than the driven first camera 120 to acquire the first image displayed on the display, and the object 200 is captured through the second camera 130.
  • the processor 140 may obtain a second image of the object 200 in the normal mode of the second camera 130 .
  • the normal mode refers to a mode in which an original image obtained for an object is displayed without changing (eg, enlarging or reducing) an image acquired through the second camera 130 .
  • it refers to a mode in which an image of the object 200 is obtained without changing the focal length of the second camera 130 or at a preset basic focal distance of the second camera 130 .
  • O/I (Object & Imager Distance) values for the first camera 120 and the object 200 in the normal mode and the second camera 130 in the normal mode ) and the object 200, O/I (Object & Imager Distance) values may be the same. However, it is not limited thereto.
  • the processor 140 controls the first camera 120 in the normal mode corresponding to the first image 1 based on the zoom-in ratio in the zoom mode.
  • the third image 3 of is identified (S330).
  • the third image 3 means an original image or image frame of an object obtainable by using the first camera 120 . Alternatively, it refers to an image or image frame that can be obtained for an object without adjusting the focal length of the first camera 120 .
  • the third image 3 is not obtained by actually photographing an object by the first camera 120, and based on the zoom-in ratio of the first camera 120 operating in the zoom mode and the second image 2, It is different from the first image 1 in that it corresponds to an image identified to be obtained for an object in the normal mode of the first camera 120 . That is, information about an object may not be included in the third image 3 .
  • the processor 140 uses a first camera in a normal mode corresponding to a first image obtained of the object 200 based on a zoom-in ratio in the zoom mode.
  • a third image 3 of 120 can be identified.
  • the processor 140 receives a user command for changing to a zoom mode and a user command for a zoom-in ratio (X2).
  • the processor 140 may display a 2-fold magnified image of the object 200 on the display 110 through the first camera 120 .
  • the processor 140 identifies the third image 3 of the first camera in the normal mode corresponding to the first image 1 displayed on the display 110 based on the zoom-in ratio X2. can do.
  • the processor 140 may set a virtual coordinate system and identify a third image 3 on the set virtual coordinate system. For example, referring to FIG. 4 , the processor 140 may identify the third image 3 after disposing the lower left corner of the third image 3 at the origin on the xy plane. At this time, the coordinate values on the xy plane of the corners other than the bottom left corner (eg, the top left corner, the bottom right corner, and the top right corner) of the third image 3 are the resolution of the first camera, It may be set based on the size and ratio of an image acquired through 1 camera 120, the size of a display, and the like.
  • the ratio of an image (eg, a first image 1 and a third image 3 corresponding to the first image) acquired through the first camera 120 is Assume 16:12.
  • the processor 140 sets the coordinate value of the lower left corner of the third image to (0, 0), the coordinate value of the upper left corner to (0, 12), and the lower right corner of the third image.
  • the coordinate value of is identified as (16, 0)
  • the coordinate value of the upper right corner is identified as (16, 12).
  • the processor 140 detects the object 200 included in the second image 2 and provides location information about the object detected in the second image. Obtain (S340).
  • the processor 140 may detect the object by identifying feature points on the second image 2 and clustering a set of feature points or a plurality of feature points. And the processor 140 identifies the location of the detected object in the second image.
  • the second image may be arranged on an xy coordinate plane, and a position of the detected object, that is, a coordinate value may be identified.
  • the location of the object may be identified based on the location of a pixel of the detected object in the second image 2 .
  • the processor 140 may use an artificial intelligence-based object detection model stored in the memory of the electronic device 100 .
  • the object detection model may include a Convolutional Neural Network (CNN) model.
  • CNN Convolutional Neural Network
  • the processor inputs the second image 2 to a CNN model, extracts features of the object 200 from at least one frame constituting the second image 2, and generates a feature map. generate Based on the generated feature map, the processor 140 detects the object 200 in the second image 2 and identifies the location of the object 200 .
  • CNN Convolutional Neural Network
  • the location information on the object 200 may include the first bounding box 10 including the object detected in the second image 2 It includes a first coordinate value and a second coordinate value of , the first coordinate value is the coordinate value of the upper left corner of the first bounding box 10, and the second coordinate value is the lower right corner of the first bounding box 10. It may be a coordinate value of a corner.
  • the processor 140 may identify a rectangular bounding box that corresponds to the position of the detected object in the second image 2 and includes the detected object.
  • the first bounding box 10 means a bounding box for the object 200 detected in the second image acquired through the second camera.
  • the processor 140 may detect an object included in the second image 2 and identify the first bounding box 10 including the detected object. For example, the processor 140 determines the upper surface of the bounding box based on a feature point having the largest y coordinate value among a plurality of feature points (eg, a feature point group or a plurality of clustered feature points) of the object. The left side of the bounding box is identified based on the feature point having the smallest x coordinate value among the feature points of the object, and the right side of the bounding box is identified based on the feature point having the largest x coordinate value among the feature points of the object. and the lower surface of the bounding box is identified based on a feature point having the smallest y coordinate value among feature points of the object.
  • a feature point having the largest y coordinate value among a plurality of feature points e.g, a feature point group or a plurality of clustered feature points
  • the processor 140 may identify the location of the object in the second image 2 based on the bounding box. Specifically, the processor 140 converts a first coordinate value that is the coordinate value of the upper left corner of the first bounding box 10 and a second coordinate value that is the coordinate value of the lower right corner of the first bounding box 10 into the second image. The location of the object 200 detected in may be identified.
  • the processor 140 detects a first object 210 and a second object 220 in the second image 2 . Further, the processor 140 generates the first bounding boxes 10 (the 1-1 bounding boxes 11 and 1-2) corresponding to the first object 210 and the second object 220 in the second image. bounding box 12).
  • the size and ratio of the second image 2 acquired through the second camera 130 may be set based on the resolution, display size, and the like of the second camera.
  • an image acquired through the second camera 130 eg, the second image
  • an image acquired through the first camera 120 eg, the first image
  • the image 1 and the third image 3 corresponding to the first image may have different sizes and ratios.
  • the sizes and ratios of images obtained from the plurality of cameras 110 and 120 included in the electronic device 100 may be set to be the same.
  • an image obtained from the first camera 120 eg, a first image and a third image corresponding to the first image
  • a second camera 130 It will be described that the size and ratio of the acquired image (eg, the second image) are different.
  • the processor 140 determines the location of the first object 210 in the second image as the first coordinate of the 1-1 bounding box 11 corresponding to the first object 210. It is identified as the value (4, 7) and the second coordinate value (8, 3) of the 1-1 bounding box 11.
  • the processor 140 determines the position of the second object 220 in the second image by (9, 6), which is the first coordinate value of the 1st-2nd bounding box 12 corresponding to the second object 220. and (12, 1), which is the second coordinate value of the 1-2nd bounding box 12.
  • the processor 140 based on the relative position between the second image 2 and the third image 3, the position obtained from the second image The location information of the object in the third image 3 corresponding to the information is acquired (S350).
  • the processor 140 stacks the second image obtained through the second camera 130 on the third image 3 of the first camera 120 corresponding to the first image 1, or
  • the position of the object 200 in the third image 3 may be identified by matching the image 3 with the second image 2 .
  • the processor 140 is configured to identify the location of the object 200 in the third image 3 based on the location information of the object 200 obtained in the second image 2.
  • Location information of objects obtained from the second image 2 may be synchronized on the third image 3 .
  • the processor 140 may precede a process of identifying a relative positional difference between the second image 2 and the third image 3 .
  • the processor 140 stacks the second image 3 on the third image 3 or obtains information from the second image (eg, location information of the object 200 in the third image).
  • the relative positional difference between the second image (2) and the third image (3) must be corrected. This is because the second image (the second image obtained through the second camera) and the third image (the second image) Even if the third image identified to be acquired through camera 1) is obtained in the same normal mode, the position of the object in each image may be different. This is also due to the viewing angles of the first camera 120 and the second camera 130 .
  • the processor 140 should identify the position of the second image 2 and the third image 3 and the difference in position.
  • the processor 140 considers a positional difference between the second image 2 and the third image 3 based on the third image 3, and the second image 2 on the xy plane. ) to identify More specifically, referring to the above example, the processor 140 identifies that the coordinate value of the lower left corner of the third image on the xy plane corresponds to the origin (0, 0) of the xy coordinate system. Then, the processor 140 sets the coordinate value of the upper left corner of the third image to (0, 12), the coordinate value of the lower right corner to (16, 0), and the coordinate value of the upper right corner to (16, 0). 12).
  • the processor 140 identifies the relative position of the second image 2 with respect to the third image 3 . For example, the processor 140 identifies a first displacement value (or first correction value) and a second displacement value (or second correction value) in the x-axis direction of the second image based on the third image, The third displacement value (or third correction value) in the y-axis direction and the fourth displacement value (or fourth correction value) are identified, and the second image (2) based on the third image (3) on the xy plane ) to identify the location.
  • the processor 140 sets the coordinate value of the lower left corner of the second image 2 to (1, 1) on the xy plane and the coordinate value of the upper left corner of the second image 2. is identified as (1, 10), the coordinate value of the lower right corner is identified as (17, 1), and the coordinate value of the upper right corner is identified as (17, 10). Accordingly, the processor 140 may identify the relative position of the second image 2 with respect to the third image 3 on the xy plane.
  • the processor 140 is an object in the third image 3 corresponding to the location information of the object 200 in the second image 2, obtained from the second image 2. Acquire location information of (200).
  • the processor 140 identifies the first displacement value and the second displacement value in the x-axis direction of the second image 2 based on the third image 3, and in the y-axis direction A third displacement value and a fourth displacement value of are identified, and based on the identified first displacement value, second displacement value, third displacement value, and fourth displacement value, an object 200 in the identified second image Location information of can be synchronized with the third image. This will be described in detail with reference to FIGS. 8 and 9 .
  • step S350 the processor 140 identified coordinate information of the object 200 in the third image.
  • the processor 140 identifies the first image 1 corresponding to the third image based on the zoom-in ratio, and based on the coordinate information of the object 200 in the identified third image 3 , identifies the location of the object 200 in the first image. Also, the processor 140 may detect the object 200 at the identified location.
  • the processor 140 determines the relative position between the first and third images. You may not perform the reconciliation process.
  • FIG. 7 is a flowchart schematically illustrating a method of identifying a location of an object in a third image based on relative locations of a second image and a third image, according to an embodiment of the present disclosure.
  • FIG. 8 is an exemplary view illustrating identifying a location of an object in a third image based on a relative location of a second image and a third image, according to an embodiment of the present disclosure.
  • FIG. 9 is an exemplary diagram illustrating identification of a size and position of a frame corresponding to a first image in a third image according to an embodiment of the present disclosure.
  • the processor 140 determines a first coordinate value and a second coordinate value based on a relative position difference between the second image 2 and the third image 3.
  • the third coordinate value and the fourth coordinate value of the object in the third image 3 corresponding to are respectively identified (S351).
  • the processor 140 is configured to combine the second image and the third image. Differences in the relative position of the liver were identified. Then, based on the identified position difference, the position of the second image on the xy plane was identified based on the third image on the xy plane. At this time, the processor 140 converts the first coordinate value and the second coordinate value, which are the location information of the object 200 obtained from the second image, into the third coordinate value and the fourth coordinate value (the first coordinate value is the third coordinate value). By converting the second coordinate value into a fourth coordinate value), the location information of the object 200 in the second image 2 may be synchronized with the third image 3 .
  • the processor 140 adjusts the position of the bounding box with respect to the object based on the relative position between the second image 2 and the third image 3, and accordingly, the coordinate value of the upper left corner of the bounding box
  • the third coordinate value and the fourth coordinate value which is the coordinate value of the lower right corner of the bounding box, are identified.
  • the processor 140 determines the upper left corner of the 1-1 bounding box 11 corresponding to the first object 210 in the second image, based on the relative position between the second image and the third image.
  • the coordinate value of the corner ie, the first coordinate value
  • the coordinate value of the lower right corner of the 1-2 bounding box 12 ie, the second coordinate value
  • (9, 4) to identify it by converting it to That is, the processor 140 identifies the position of the first object 210 in the third image as the third coordinate value, (5, 8), and the fourth coordinate value, (9, 4).
  • the processor 140 identifies the location of the second object 220 in the second image 2 based on the third and fourth coordinate values. Specifically, the processor 140 identifies the third coordinate value of the 1-2nd bounding box 12 corresponding to the second object 220 as (10, 7), and the 1-2nd bounding box 12 The fourth coordinate value of ) is identified as (13, 2).
  • the processor 140 estimates the position of the object 200 on the third image 3 of the first camera 120 based on the second image 2 obtained through the second camera 130. can do. That is, as described above, the third image 3 is an image of the first camera 120 corresponding to the first image 1 and can be acquired by the first camera 120 . Therefore, in the third image 3, unlike the first image 1 and the second image 2, information about the object is not included. However, the processor 140, based on the second image 2 and the information on the object acquired based on the second image 2, the information of the object in the third image 3, for example, the object location can be identified.
  • the processor 140 determines a first image 1 in a third image 3 based on a zoom-in ratio in a zoom mode.
  • the size and location of the frame are identified (S352).
  • the first image obtained in the zoom mode is a magnified image of the object 2 times compared to the image obtained in the normal mode.
  • the processor 140 identifies the size and position of the frame corresponding to the first image 1 in the third image 3 based on the zoom-in ratio of 2x. Based on the third image identified as acquired in the normal mode, the size of the frame corresponding to the first image is 0.5 times that of the third image. Then, the processor 140 identifies the position of the frame 4 corresponding to the first image 1 on the xy plane based on the third image 3 . In this case, the processor 140 may identify the position of the frame 4 corresponding to the first image by the position on the xy plane using the coordinate values of the corners of the frame 4 corresponding to the first image.
  • the processor 140 sets the coordinate value of the upper left corner of the frame 4 corresponding to the first image to (4, 9), the coordinate value of the lower left corner to (4, 3), the upper right corner Frame (4) corresponding to the first image (1) in the third image (3) by identifying the coordinate value of the corner as (12, 9) and the coordinate value of the lower right corner as (12, 3) identify the location of
  • the processor 140 may, when at least one of the third and fourth coordinate values are included in the frame 4 corresponding to the first image, the first image. Based on the third and fourth coordinate values, an object is detected in the first image 1 acquired through the first camera 1 operating in the zoom mode (S361).
  • FIG. 10 is an exemplary view illustrating identifying an object based on third and fourth coordinate values included in a frame corresponding to a first image, according to an embodiment of the present disclosure.
  • the object 200 is included in the first image 1 acquired by the processor 140 through the first camera 120 according to a zoom-in ratio or an enlarged viewing angle of the first camera 120 . It may not be.
  • the processor 140 prior to detecting the object 200 in the first image or prior to image processing of the first image for detecting the object 200, third and fourth coordinate values Based on this, it may be identified that the object 200 is not included in the first image.
  • the processor 140 identifies that the third and fourth coordinate values of the 1-1 bounding box 11 are included in the frame 4 corresponding to the first image. can Through this, the processor 140 identifies that the first object corresponding to the 1-1 bounding box 11 is included in the first image. Meanwhile, the processor 140 may identify that the third coordinate value among the third and fourth coordinate values of the 1-2 bounding box 12 is included in the frame corresponding to the first image. Through this, the processor 140 identifies that the second object corresponding to the 1-2 bounding box 12 is included in the first image. However, in this case, the processor 140 determines that the partial shape of the second object is not included in the first image 1 based on the fourth coordinate value not included in the frame 4 corresponding to the first image 1. can identify that it is not.
  • 11 is an exemplary view illustrating not detecting an object in a first image based on location information of an object in a third image, according to an embodiment of the present disclosure.
  • the processor 140 determines the third coordinate value and the fourth coordinate value of the 1-3 bounding box 13 and the coordinate value and the fourth coordinate value of the 1-4 bounding box 14 . It is identified that it is not included in the frame 4 corresponding to 1 image. At this time, the processor 140 identifies that the object 200 included in the first image 1 acquired in the zoom mode does not exist, and does not perform an object detection or object recognition process in the first image 1. may not be
  • FIG. 12 is a flowchart schematically illustrating a method of detecting and displaying an object in a first image based on location information of an object in a third image, according to an embodiment of the present disclosure.
  • FIG. 13 is an exemplary view illustrating detecting and displaying an object in a first image based on location information of an object in a third image, according to an embodiment of the present disclosure.
  • the processor 140 determines third coordinate values and fourth coordinate values based on the size and position of the frame 4 corresponding to the first image. , and identify the fifth coordinate value and the sixth coordinate value in the first image (S361_a).
  • the fifth coordinate value is the coordinate value of the upper left corner of the second bounding box 20 including the object detected in the first image
  • the sixth coordinate value is the second bounding box. This is the coordinate value of the lower right corner of the box 20.
  • the second bounding box 20 means a bounding box for the object 200 detected in the first image.
  • the second bounding box 20 may be generated by converting the first bounding box 10 based on the zoom-in ratio.
  • the processor 140 displays the second bounding box 20 including the object included in the first image 1 in correspondence with the position of the object in the first image 1 . To this end, the processor 140 converts the third coordinate value and the fourth coordinate value into a fifth coordinate value and a sixth coordinate value, respectively, based on the zoom-in ratio and the position and size of the frame corresponding to the first image.
  • the processor 140 identifies the first image 1 on the xy plane based on the frame corresponding to the first image, and sets the third coordinate value to the fifth coordinate value in the first image.
  • the 4 coordinate values identify a sixth coordinate value in the first image.
  • the processor 140 converts (5, 8), the third coordinate value of the 1-1 bounding box 11, based on the zoom-in ratio (x2) and the position and size of the frame. to the fifth coordinate value, (2, 10) ((specifically, (5-4) * 2), (8-3) * 2)). And (9, 4), the fourth coordinate value of the 1-1 bounding box, is converted to the sixth coordinate value, (10, 2) (specifically, (( 9-4)*2, (4-3)*2)).
  • the processor 140 moves the frame corresponding to the first image identified in the third image 3 so that the lower left corner of the frame is located at the origin of the xy coordinate system on the xy plane, and zooms in Based on the ratio, the positions of the upper left corner, upper right corner, and lower right corner of the frame are respectively transformed. That is, the location of the first image 1 on the xy plane is identified.
  • the third coordinate value and the fourth coordinate value are converted into a fifth coordinate value and a sixth coordinate value, respectively.
  • the processor 140 in the case of (10, 7), which is the third coordinate value of the 1-2nd bounding box 12, the third coordinate value of the 1-1st bounding box 11 And in the same manner as the conversion method of the fourth coordinate value, the fourth coordinate value is identified as (12, 8) (specifically, ((10-4) * 2, (7-3) * 2)).
  • (13, 2) which is the fourth coordinate value of the 1-2nd bounding box 12, is identified as (16, 0), not (18, -2). This is because the fourth coordinate value of the 1-2 bounding box 12 is not included in the frame corresponding to the first image.
  • the processor 140 converts the fourth coordinate value not included in the frame corresponding to the first image into the coordinate value of the lower right corner of the first image or the transformed frame. That is, the processor 140 converts the fourth coordinate value of the 1-2nd bounding box into the sixth coordinate value of (16, 0).
  • the processor 140 identifies the x coordinate value and the y coordinate value constituting the fifth coordinate value corresponding to the third coordinate value, and the x coordinate value of the fifth coordinate value If the value is smaller than the x-coordinate value of the lower-left corner of the first image (or the frame corresponding to the converted first image), the x-coordinate value of the lower-left corner is identified as the x-coordinate value of the fifth coordinate value.
  • the processor 140 identifies the x coordinate value and the y coordinate value constituting the sixth coordinate value corresponding to the fourth coordinate value, and the x coordinate value of the sixth coordinate value is the first image (or converted When the x coordinate value of the lower right corner of the frame corresponding to the first image is greater than the x coordinate value of the lower right corner, the x coordinate value of the lower right corner is identified as the x coordinate value of the sixth coordinate value.
  • the y-coordinate value of the sixth coordinate value is smaller than the y-coordinate value of the corner of the upper right corner of the first image (or the frame corresponding to the converted first image), the y-coordinate value of the right-back part is y of the sixth coordinate value Identifies by coordinate value.
  • the processor 140 includes a second bounding box including the object detected in the first image based on the fifth coordinate value and the sixth coordinate value. (20) is generated and displayed (S361_b).
  • the processor 140 converts the third and fourth coordinate values of the 1-1 bounding box into a fifth and sixth coordinate values in the first image 1.
  • a 2-1 bounding box 21 for the first object of is identified. Further, the processor 140 generates the first image based on the fifth coordinate value obtained by converting the third coordinate value of the 1-2 bounding box and the sixth coordinate value obtained by converting the fourth coordinate value of the 1-2 bounding box.
  • a 2-2 bounding box 22 for the second object in (1) is identified. Accordingly, the processor 140 may estimate and detect an object in the first image 1 without a process of detecting the object in the first image 1 obtained in the zoom mode, and may identify the location of the object. .
  • FIG. 14 is an exemplary diagram of an electronic device that detects and displays an object on a first image according to an embodiment of the present disclosure.
  • the processor 140 detects objects in the first image based on the location information of the objects obtained from the second image 2, and displays recognition information for each object on the display 110. display Accordingly, the user may be provided with accurate object location information within the first image 1 acquired through the first camera 120 .
  • 15 is an exemplary view illustrating not detecting an object in a first image based on a second bounding box identified based on a fifth coordinate value and a sixth coordinate value according to an embodiment of the present disclosure.
  • the processor 140 determines the second bounding box 20 including the object detected in the first image based on the fifth coordinate value and the sixth coordinate value.
  • the area is identified, and if the area of the identified second bounding box 20 is greater than or equal to a preset value (hereinafter referred to as a preset first value), the second bounding box 20 may be displayed.
  • a preset first value hereinafter referred to as a preset first value
  • the processor 140 estimates the location of the object included in the first image 1 based on the fifth coordinate value and the sixth coordinate value, and the second bounding box corresponding to the estimated location of the object. (20) is displayed.
  • the fifth coordinate value and the sixth coordinate value are coordinate values of the bounding box including the object, not the object itself detected in the second image. Therefore, an object may not always be included in the second bounding box 20 generated based on the fifth coordinate value and the sixth coordinate value obtained by converting the third coordinate value and the fourth coordinate value, respectively.
  • the object or part of the object is not included in the second bounding box 20 generated based on the fifth and sixth coordinate values.
  • the processor 140 calculates the area of the second bounding box 20 based on the fifth coordinate value and the sixth coordinate value.
  • the area of the second bounding box 20 generated based on the fifth and sixth coordinate values shown in FIG. 15 is identified as 4.
  • the processor 140 does not display the second bounding box 20 corresponding to the object on the first image. That is, the processor 140 estimates that no object exists on the first image.
  • the processor may detect an object in the first image by using an image of the object in the second image. That is, when only a part of the object is included in the first image, it may be difficult for the processor 140 to accurately detect the object in the first image. Accordingly, the processor 140 may detect the object in the first image by using the second image and the image of the object included in the second image.
  • the processor 140 may detect the object in the first image by using the second image and the image of the object included in the second image.
  • the processor 140 identifies the area of the second bounding box 20 including the object detected in the first image based on the fifth coordinate value and the sixth coordinate value. And, it is identified whether the area of the second bounding box 20 is less than a preset value (hereinafter, a preset second value). As described above, the processor 140 estimates the location of the object included in the first image 1 based on the fifth coordinate value and the sixth coordinate value, and the second bounding box corresponding to the estimated location of the object. (20) is displayed. At this time, the processor 140 calculates the area of the second bounding box 20, and when it is identified that the calculated area of the second bounding box 20 is less than the preset second value, information about the object in the first image is identified as not being fully included. That is, the processor 140 identifies that only a part of the object is included in the first image. This causes a problem in that the processor 140 cannot accurately detect the object in the first image, and the user also cannot accurately identify the object in the first image.
  • a preset second value hereinafter,
  • the processor 140 identifies an object image in the second image based on the first bounding box 10 and matches the identified object image to the first image to detect the object in the first image. Specifically, the processor 140 obtains an object image in the second image based on the second bounding box 20 of the second image. For example, the processor 140 may acquire an image of an object by cropping an object image in the second image based on the second bounding box 20 .
  • the processor 140 matches the obtained object image to the second bounding box 20 of the first image and then detects the object in the first image. For example, the processor 140 may adjust the size of the acquired object image and display the adjusted object image in the second bounding box 20 . In order to adjust the size of the object image, the processor 140 may use resolutions of the first camera and the second camera, size information of the first image and the second image, and the like. Alternatively, the processor 140 may display the acquired object image together with the first image. For example, the processor 140 may overlap and display the acquired object image corresponding to the second bounding box 20 on the first image displayed on the display 110 .
  • the preset second value may be set to the same value as the above-described first value.
  • 16 is a flowchart schematically illustrating displaying object recognition information of an object acquired based on a second image on a first image according to an embodiment of the present disclosure.
  • 17 is an exemplary diagram schematically illustrating displaying object recognition information of an object acquired based on a second image on a first image according to an embodiment of the present disclosure.
  • a processor extracts feature points of the object included in a second image, obtains object recognition information about the object based on the extracted feature points, and (S341), the second bounding box 20 including the object detected in the first image and object recognition information for the object may be displayed (S362).
  • the processor 140 performs an object recognition process for identifying the type of object detected in the second image based on the second image.
  • an artificial intelligence-based object recognition model may be stored in the memory of the electronic device 100 .
  • the object recognition model may be pre-learned based on a data set including images of a plurality of types of objects.
  • an artificial intelligence-based object recognition model may include a convolutional neural network (CNN) model and a recurrent neural network model.
  • CNN convolutional neural network
  • a 'CCN model' convolutional neural network
  • a 'RNN model' recurrent neural network model'.
  • the CNN model extracts features that are invariant to changes in position or rotation by spatially integrating feature maps with a convolution layer that creates feature maps by applying multiple filters to each region of an image. It can be formed in a structure in which the pooling layer is alternately repeated several times.
  • the processor 140 converts complex and meaningful high-level features from low-level features such as points, lines, and planes within the images (first images and second images) acquired from the first camera and the second camera. Features of various levels can be extracted.
  • the convolution layer can obtain a feature map by taking a nonlinear activation function from the dot product of the filter and the local receptive field for each patch of the input image.
  • CNN models can have the characteristics of using filters with sparse connectivity and shared weights. This connection structure reduces the number of parameters to be learned and makes learning through the backpropagation algorithm efficient, resulting in improved prediction performance.
  • An integration layer may generate a new feature map by utilizing local information of a feature map obtained from a previous convolutional layer.
  • the feature map newly created by the integration layer is reduced to a smaller size than the original feature map.
  • Representative integration methods include Max Pooling, which selects the maximum value of the corresponding area in the feature map, and corresponding corresponding area in the feature map. There may be average pooling, which obtains the average value of a region.
  • the feature map of the integration layer may be less affected by the position of an arbitrary structure or pattern existing in the input image than the feature map of the previous layer.
  • the integrated layer can extract features that are more robust to regional changes such as noise or distortion in the input image or previous feature map, and these features can play an important role in classification performance.
  • Another role of the integration layer is to reflect the features of a wider area as the higher learning layer goes up in the deep structure. Features reflecting increasingly more abstract features of the entire image can be created.
  • a classification model such as a multi-layer perceptron (MLP) or a support vector machine (SVM). -connected Layer) and can be used for classification model learning and prediction.
  • MLP multi-layer perceptron
  • SVM support vector machine
  • the RNN model is an effective deep learning technique for learning the sequence through a structure in which certain parts are repeated. This is because it is necessary to recognize words, letters, and frames in front of you when you need to refer to them).
  • the object recognition model according to the present disclosure is not limited to the CNN model and the RNN model, and may be formed of neural networks having various structures.
  • the processor 140 recognized the first object as a puppy and the second object as a cat based on the second image. Further, the processor 140 displays information indicating that the first object corresponding to the 2-1 bounding box in the third image corresponds to a puppy, based on the recognition result information acquired based on the second image. Similarly, the processor 140 displays information indicating that the second object corresponding to the 2-2 bounding box in the third image corresponds to a cat, based on the recognition result information acquired based on the second image. In particular, although only a part of the second object is included in the first image, the processor 140 may perform the second object corresponding to the 2-2 bounding box based on the recognition result information obtained based on the second image. It is possible to accurately provide the user with information that corresponds to a cat.
  • the electronic device 100 may further include a memory for storing location information about an object obtained based on the second image.
  • the processor 140 obtains location information about the new object detected in the third image, and based on the location information, the location information stored in the memory. can be updated
  • the processor 140 may detect an object included in the second image, obtain location information on the object detected in the second image, and store the location information on the related object in a memory. As described above, this is location information of an object obtained based on the second image obtained in the normal mode.
  • the processor 140 may identify a new object detected or not detected in the normal mode. At this time, the processor 140 identifies the location of the new object in the first image. Then, a position of the identified new object, for example, a seventh coordinate value and an eighth coordinate value for the new object are identified, and based on the zoom-in ratio, the seventh coordinate value and the eighth coordinate value are converted to the first camera.
  • the ninth coordinate value and the tenth coordinate value corresponding to the third image of are respectively transformed. Further, the processor 140 may update the location information by merging location information of the object acquired based on the pre-stored second image with location information of a new object based on the ninth coordinate value and the tenth coordinate value. .
  • FIG. 18 illustrates a second image based on a distance between a first camera and a second camera arranged in an electronic device, a field of view angle of the first camera, and a field of view angle of the second camera, according to an embodiment of the present disclosure. And it is an exemplary view showing identifying the relative position between the third image.
  • the processor 140 determines the distance between the first camera 120 and the second camera 130 arranged in the electronic device 100, the first camera 120 Based on the viewing angle and the viewing angle of the second camera 130, relative positions between the second image and the third image may be identified.
  • the processor 140 identifies a distance dC between the first camera 120 and the second camera 130 . Meanwhile, information about the distance dC between the first camera 120 and the second camera 130 may be stored in the memory of the electronic device 100 .
  • the processor 140 identifies distances between the first camera 120 and the second camera 130 and the object 200 .
  • the processor 140 may identify an object & imager distance (O/I) of the first camera 120 and an object & imager distance (O/I) of the second camera 130 , respectively.
  • the electronic device 140 further includes a sensor (eg, Time of Flight (ToF)) capable of identifying a distance between a camera (eg, a first camera and a second camera) and an object. can do.
  • a sensor eg, Time of Flight (ToF)
  • the processor 140 includes the identified separation distance between the first camera and the second camera, the distance between the first camera and the object, the distance between the second camera and the object, and the Field of View angle of the first camera 120. ) and the viewing angle of the second camera 130, a relative position between the second image and the third image may be identified.
  • the processor 140 identifies the first displacement value and the second displacement value in the x-axis direction of the second image based on the third image, and the third displacement value in the y-axis direction, A fourth displacement value can be identified.
  • the processor 140 may identify the first displacement value using Equation 1 below.
  • dW is the distance between the first camera and the second camera and the object
  • ⁇ 1 is 1/2 of the horizontal viewing angle of the first camera
  • ⁇ 1 is 1/2 of the horizontal viewing angle of the second camera
  • dc1 Is the horizontal separation distance between the first camera and the second camera.
  • the processor 140 may identify the second displacement value using Equation 2 below.
  • the processor 140 may identify the third displacement value using Equation 3 below.
  • dW is the distance between the first camera and the second camera and the object
  • ⁇ 2 is 1/2 of the vertical viewing angle of the first camera
  • ⁇ 2 is 1/2 of the vertical viewing angle of the second camera
  • dC2 is 1/2 of the vertical viewing angle of the second camera. Is the vertical separation distance between the first camera and the second camera.
  • the processor 140 may identify the fourth displacement value using Equation 4 below.
  • the processor 140 may identify each displacement value based on the viewing angles of the first camera and the second camera. For example, the processor 140 calculates a horizontal viewing angle distance of the first camera based on the viewing angle information of the first camera, and calculates a horizontal viewing angle distance of the second camera based on the viewing angle information of the first camera. . Further, the processor 140 may calculate the first displacement value, w1, by subtracting the horizontal viewing angle distance of the second camera from the horizontal viewing angle distance of the first camera and the horizontal separation distance between the first camera and the second camera. However, this will be possible when the line identifying the distance between the first camera and the second camera and the object passes through the center of the FOV of each camera.
  • FIG. 19 illustrates a second image based on a distance between a first camera and a second camera arranged in an electronic device, a field of view angle of the first camera, and a field of view angle of the second camera, according to another embodiment of the present disclosure. And it is an exemplary view showing identifying the relative position between the third image.
  • a line identifying a distance between the first camera and the second camera and the object may not pass through the center of the FOV of each camera.
  • the processor may identify each displacement value (eg, the first displacement value to the fourth displacement value) based on Equations 1 to 4 described above. More specifically, the processor 140 may identify the first displacement value using Equation 1 below.
  • dW is the distance between the first camera and the second camera and the object
  • ⁇ 1 is 1/2 of the horizontal viewing angle of the first camera
  • ⁇ 1 is 1/2 of the horizontal viewing angle of the second camera
  • dC1 Is the horizontal separation distance between the first camera and the second camera.
  • the distance between the first camera 120 and the second camera 130 to the object may be different according to an embodiment of the present disclosure. That is, the distance between the first camera and the object may be different from the distance between the second camera and the object.
  • the processor 140 arranges the third image obtained from the first camera and the second image obtained from the second camera on the same plane based on the distance between each camera and the object, and then the above-described method. It will be possible to identify the first to fourth displacement values based on.
  • 20 is a detailed configuration diagram of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a display 110, a first camera 120, a second camera 130, a processor 140, a memory 150, and a sensor. 160, an input/output interface 170 and a communication unit 180.
  • the memory 150 may store software programs and applications for the electronic device 100 to operate, and may store various information such as various data input, set, or generated while executing the program or application.
  • the memory 150 may be implemented in the form of a Field Programmable Gate Array (FPGA) according to an embodiment of the present disclosure.
  • location information of an object obtained based on the second image may be stored in the memory 150 .
  • the memory 150 may store separation distance information between the first camera and the second camera, field angle information of the first camera, and field angle information of the second camera.
  • the electronic device 100 obtains various information about the electronic device 100 using the sensor 160 .
  • the electronic device 100 may identify distance values between the first camera and the object 200 and the distance values between the second camera and the object 200 through the sensor 160 .
  • the sensor 160 may be implemented as a ToF sensor included in each camera (eg, the first camera and the second camera).
  • the electronic device 100 may receive various information related to control of the electronic device 100 from the user through the input/output interface 170 .
  • the electronic device 100 may receive a command for adjusting the viewing angle or focal length of the first camera or the second camera through the input/output interface 170 .
  • the electronic device 100 receives a user's input for changing the first camera from the normal mode to the zoom mode through the input/output interface 170 .
  • the input/output interface 170 may be implemented as a device such as a button, a touch pad, a mouse, or a keyboard, or may be implemented as a touch screen, a remote control transmitting and receiving unit, etc. capable of simultaneously performing the above-described display function and manipulation input function.
  • the electronic device 100 may communicate with various external devices using wireless communication technology or mobile communication technology through the communication unit 180 to transmit/receive various information related to objects and electronic devices.
  • wireless communication technologies include, for example, Bluetooth, Bluetooth Low Energy, CAN communication, Wi-Fi, Wi-Fi Direct, ultra-wideband Communication (UWB, ultrawide band), Zigbee, infrared communication (IrDA, Infrared Data Association), or NFC (Near Field Communication) may be included.
  • 3GPP, Wi-Max ), LTE (Long Term Evolution), 5G, etc. may be included.
  • embodiments described above may be implemented in a recording medium readable by a computer or a similar device using software, hardware, or a combination thereof.
  • the embodiments described herein may be implemented in a processor itself.
  • embodiments such as procedures and functions described in this specification may be implemented as separate software modules. Each of the software modules may perform one or more functions and operations described herein.
  • computer instructions for performing the processing operation of the electronic device according to various embodiments of the present disclosure described above may be stored in a non-transitory computer-readable medium.
  • the processing operation in the electronic device according to various embodiments described above is performed by the specific device.
  • a non-transitory computer-readable medium is not a medium that stores data for a short moment, such as a register, cache, or memory, but a medium that stores data semi-permanently and can be read by a device.
  • Specific examples of the non-transitory computer readable media may include CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

Abstract

본 개시는 전자 장치 및 전자 장치의 제어 방법을 제공한다. 상기 전자 장치는, 디스플레이, 제1 카메라, 제2 카메라 및 일반 모드로 동작하는 상기 제1 카메라의 모드를 줌 모드로 변경하기 위한 사용자 명령이 수신되면, 상기 일반 모드로 동작하는 제2 카메라를 통해 제2 이미지를 획득하고, 상기 제2 이미지에 포함된 객체를 검출하여, 상기 제2 이미지에서 상기 검출된 객체에 대한 위치 정보를 획득하고, 상기 줌 모드에서의 줌 인 비율 및 상기 객체의 위치 정보에 기초하여, 상기 줌 모드로 동작하는 상기 제1 카메라를 통해 획득된 제1 이미지에서 상기 객체를 검출하는 프로세서를 포함한다.

Description

전자 장치 및 전자 장치의 제어 방법
본 개시는 전자 장치 및 전자 장치의 제어 방법에 관한 것이다. 더욱 상세하게는, 전자 장치에 포함된 복수의 카메라를 이용하여, 객체에 관한 위치 정보 및 객체 인식 정보를 획득하고, 이를 디스플레이에 표시하는 전자 장치 및 그 제어 방법에 관한 것이다.
모바일 산업과 함께 모바일 기기에 내장되는 카메라 모듈에 관한 기술 또한 끊임없이 발전해왔다. 특히, 전 세계적으로 스마트폰이 본격적으로 보급된 2010년 이후부터 스마트폰 시장의 성장세가 점점 둔화되고 있으나, 카메라에 관한 기술은 지속적으로 발전하고 있다. 이러한 이유로 스마트폰을 생산하는 각 기업에서도 스마트 폰 스펙의 차별화를 위한 마지막 단계로 스마트 폰의 카메라의 기술 개발과 이를 통한 고스펙의 카메라를 생산함으로써, 스마트 폰 시장에서의 경쟁력을 강화하고 있다.
예를 들어, 기존의 스마트 폰이 전면과 후면에 각각 하나의 카메라 만을 포함했다면, 최근 출시되는 대다수의 스마트 폰은 화각에 따라 광각 렌즈를 포함하는 카메라, 표준 렌즈를 포함하는 카메라 및 망원 렌즈를 포함하는 카메라 등의 복수의 카메라를 포함하고 있다.
한편, 카메라의 발전과 함께 카메라를 통해 획득하는 이미지를 분석하는 기술 또한 발전하였다. 예를 들어, 이미지에 포함된 객체를 감지하고, 객체 인식을 수행하여 객체의 유형을 판단하는 것이 이에 해당한다. 다만, 이러한 기술 발전에도 불구하고, 여전히 이미지에 포함된 객체에 관한 정보가 불충분한 경우(예를 들어, 이미지 내 객체의 전체 형상이 온전히 포함되지 않은 경우)에는, 이미지에 관한 정확한 분석이 어려우며, 궁극적으로 이미지에 포함된 객체의 유형을 정확히 식별하는 것이 불가능하다. 따라서, 이를 해결할 적절한 방안이 요구되는 실정이다.
본 개시의 일 실시 예에 전자 장치는, 디스플레이, 제1 카메라, 제2 카메라 및 줌 모드로 동작하는 상기 제1 카메라를 통해 제1 이미지를 획득하고, 상기 제1 이미지를 표시하도록 상기 디스플레이를 제어하고, 일반 모드로 동작하는 제2 카메라를 통해 제2 이미지를 획득하고, 상기 줌 모드에서의 줌 인 비율에 기초하여 상기 제1 이미지에 대응되는 상기 일반 모드에서의 상기 제1 카메라의 제3 이미지를 식별하고, 상기 제2 이미지에 포함된 객체를 검출하여, 상기 제2 이미지에서 상기 검출된 객체에 대한 위치 정보를 획득하고, 상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치에 기초하여, 상기 제2 이미지로부터 획득된 위치 정보에 대응되는 상기 제3 이미지에서의 상기 객체의 위치 정보를 획득하고, 상기 객체의 위치 정보에 기초하여, 제1 이미지에서 상기 객체를 검출하는 프로세서를 포함한다.
또한, 본 개시의 일 실시 예에 따라, 상기 위치 정보는, 상기 제2 이미지에서 검출된 객체를 포함하는 제1 바운딩 박스의 제1 좌표 값 및 제2 좌표 값을 포함하고, 상기 제1 좌표 값은, 상기 제1 바운딩 박스의 좌상단 모서리의 좌표 값이고, 상기 제2 좌표 값은 상기 제1 바운딩 박스의 우하단 모서리의 좌표 값이다.
또한, 본 개시의 일 실시 예에 따라, 상기 프로세서는, 상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치에 기초하여, 상기 제1 좌표 값 및 상기 제2 좌표 값과 대응하는, 상기 제3 이미지에서의 상기 객체에 대한 제3 좌표 값 및 제4 좌표 값을 각각 식별하고, 상기 줌 모드에서의 줌 인 비율 기초하여, 상기 제2 이미지 내에 상기 제1 이미지에 대응되는 프레임의 크기 및 위치를 식별하고, 상기 프레임 내 상기 제3 및 제4 좌표 값 중 적어도 하나가 포함되는 경우, 상기 제3 및 제4 좌표 값에 기초하여, 상기 줌 모드로 동작하는 상기 제1 카메라를 통해 획득된 제1 이미지에서 상기 객체를 검출한다.
또한, 본 개시의 일 실시 예에 따라, 상기 프로세서는, 상기 프레임의 크기 및 위치에 기초하여, 상기 제3 좌표 값 및 제4 좌표 값과 대응하는, 상기 제1 이미지에서의 제5 좌표 값 및 제6 좌표 값을 각각 식별하고, 상기 제5 좌표 값 및 제6 좌표 값을 기초로, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스를 생성하여 표시하고, 상기 제5 좌표 값은, 상기 제2 바운딩 박스의 좌상단 모서리의 좌표 값이고, 상기 제6 좌표 값은 상기 제2 바운딩 박스의 우하단 모서리의 좌표 값이다.
또한, 본 개시의 일 실시 예에 따라, 상기 프로세서는, 상기 제5 좌표 값 및 상기 제6 좌표 값에 기초하여, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스의 넓이를 식별하고, 상기 식별된 제2 바운딩 박스의 넓이가 기 설정된 값 이상이면, 상기 제2 바운딩 박스를 표시한다.
또한, 본 개시의 일 실시 예에 따라, 상기 프로세서는, 상기 제2 이미지에 포함된 상기 객체에 대한 특징 점을 추출하고, 상기 추출된 특징 점에 기초로 상기 객체에 대한 객체 인식 정보를 획득하고, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스 및 상기 객체에 대한 객체 인식 정보를 표시한다.
또한, 본 개시의 일 실시 예에 따라, 상기 제2 이미지에서 상기 검출된 객체에 대한 위치 정보를 저장하는 메모리를 더 포함하고, 상기 프로세서는, 상기 제3 이미지에서의 상기 객체 이외의 새로운 객체가 검출되면, 상기 제3 이미지에서 상기 검출된 상기 새로운 객체에 대한 위치 정보를 획득하고, 상기 위치 정보를 기초로, 상기 메모리에 저장된 위치 정보를 업데이트 한다.
또한, 본 개시의 일 실시 예에 따라, 상기 프로세서는, 상기 제1 카메라와 상기 제2 카메라의 상기 전자 장치에서의 배치된 이격 거리, 상기 제1 카메라의 시야 각 및 상기 제2 카메라의 시야 각에 기초하여, 상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치를 식별하고, 상기 식별된 상대적인 위치에 기초하여, 상기 제2 이미지로부터 획득된 위치 정보에 대응되는 상기 제3 이미지에서의 상기 객체의 위치 정보를 획득한다.
본 개시의 다른 실시 예에 따른, 제1 카메라 및 제2 카메라를 포함하는, 전자 장치의 제어 방법에 있어서, 줌 모드로 동작하는 상기 제1 카메라를 통해 제1 이미지를 획득하고, 상기 제1 이미지를 표시하는 단계, 일반 모드로 동작하는 제2 카메라를 통해 제2 이미지를 획득하는 단계, 상기 줌 모드에서의 줌 인 비율에 기초하여 상기 제1 이미지에 대응되는 상기 일반 모드에서의 상기 제1 카메라의 제3 이미지를 식별하는 단계, 상기 제2 이미지에 포함된 객체를 검출하여, 상기 제2 이미지에서 상기 검출된 객체에 대한 위치 정보를 획득하는 단계, 상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치에 기초하여, 상기 제2 이미지로부터 획득된 위치 정보에 대응되는 상기 제3 이미지에서의 상기 객체의 위치 정보를 획득하는 단계 및 상기 객체의 위치 정보에 기초하여, 상기 제1 이미지에서 상기 객체를 검출하는 단계를 포함한다.
또한 본 개시의 일 실시 예에 따라, 상기 위치 정보는, 상기 제2 이미지에서 검출된 객체를 포함하는 제1 바운딩 박스의 제1 좌표 값 및 제2 좌표 값을 포함하고, 상기 제1 좌표 값은, 상기 제1 바운딩 박스의 좌상단 모서리의 좌표 값이고, 상기 제2 좌표 값은 상기 제1 바운딩 박스의 우하단 모서리의 좌표 값이다.
또한, 본 개시의 일 실시 예에 따라, 상기 제3 이미지에서의 상기 객체의 위치 정보를 획득하는 단계는, 상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치에 기초하여, 상기 제1 좌표 값 및 상기 제2 좌표 값과 대응하는, 상기 제3 이미지에서의 상기 객체에 대한 제3 좌표 값 및 제4 좌표 값을 각각 식별하는 단계 및 상기 줌 모드에서의 줌 인 비율 기초하여, 상기 제2 이미지 내에 상기 제1 이미지에 대응되는 프레임의 크기 및 위치를 식별하는 단계를 포함하고, 제1 이미지에서 상기 객체를 검출하는 단계는, 상기 프레임 내 상기 제3 및 제4 좌표 값 중 적어도 하나가 포함되는 경우, 상기 제3 및 제4 좌표 값에 기초하여, 상기 줌 모드로 동작하는 상기 제1 카메라를 통해 획득된 제1 이미지에서 상기 객체를 검출하는 단계를 포함한다.
또한 본 개시의 일 실시 예에 따라, 상기 프레임의 크기 및 위치에 기초하여, 상기 제3 좌표 값 및 제4 좌표 값과 대응하는, 상기 제1 이미지에서의 제5 좌표 값 및 제6 좌표 값을 각각 식별하는 단계 및 상기 제5 좌표 값 및 제6 좌표 값을 기초로, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스를 생성하여 표시하는 단계를 포함하고, 상기 제5 좌표 값은, 상기 제2 바운딩 박스의 좌상단 모서리의 좌표 값이고, 상기 제6 좌표 값은 상기 제2 바운딩 박스의 우하단 모서리의 좌표 값이다.
또한 본 개시의 일 실시 예에 따라, 상기 제2 바운딩 박스를 생성하여 표시하는 단계는, 상기 제5 좌표 값 및 상기 제6 좌표 값에 기초하여, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스의 넓이를 식별하는 단계 및 상기 식별된 제2 바운딩 박스의 넓이가 기 설정된 값 이상이면, 상기 제2 바운딩 박스를 표시하는 단계를 포함한다.
또한 본 개시의 일 실시 예에 따라, 상기 제2 이미지에서 상기 검출된 객체에 대한 위치 정보를 획득하는 단계는, 상기 제2 이미지에 포함된 상기 객체에 대한 특징 점을 추출하고, 상기 추출된 특징 점에 기초로 상기 객체에 대한 객체 인식 정보를 획득하는 단계를 더 포함하고, 상기 제2 바운딩 박스를 생성하여 표시하는 단계는, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스 및 상기 객체에 대한 객체 인식 정보를 표시하는 단계를 포함한다.
또한 본 개시의 일 실시 예에 따라, 상기 제2 이미지에서 상기 검출된 객체에 대한 위치 정보를 획득하는 단계는, 상기 제2 이미지에서 상기 검출된 객체에 대한 위치 정보를 메모리에 저장하는 단계를 더 포함하고, 상기 제3 이미지에서의 상기 객체 이외의 새로운 객체가 검출되면, 상기 제3 이미지에서 상기 검출된 상기 새로운 객체에 대한 위치 정보를 획득하고, 상기 위치 정보를 기초로, 상기 메모리에 저장된 위치 정보를 업데이트 하는 단계를 더 포함한다.
또한 상기 제3 이미지에서의 상기 객체의 위치 정보를 획득하는 단계는, 상기 제1 카메라와 상기 제2 카메라의 상기 전자 장치에서의 배치된 이격 거리, 상기 제1 카메라의 시야 각 및 상기 제2 카메라의 시야 각에 기초하여, 상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치를 식별하는 단계를 더 포함한다.
도 1은, 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면이다.
도 2는, 본 개시의 일 실시 예에 따른 전자 장치의 블록도이다.
도 3은, 본 개시의 일 실시 예에 따른 제2 카메라를 이용하여 획득한 제2 이미지를 기초로, 제1 카메라의 줌 보드에서 획득한 제1 이미지 내 객체를 검출하는 방법을 개략적으로 나타낸 순서도이다.
도 4는, 본 개시의 일 실시 예에 따른 줌 모드에서의 줌 인 비율에 기초하여 제1 이미지에 대응되는 일반 모드에서의 상기 제1 카메라의 제3 이미지를 식별하는 것을 나타낸 예시도이다.
도 5는, 본 개시의 일 실시 예에 따른 제2 카메라를 이용하여 획득한 제2 이미지에서 객체를 검출하여, 객체의 위치 정보를 획득하는 것을 나타낸 예시도이다.
도 6은, 본 개시의 일 실시 예에 따른 제2 이미지와 제3 이미지의 상대적인 위치를 식별한 후 제3 이미지에 제2 이미지를 적층시키는 것을 나타낸 예시도이다.
도 7은, 본 개시의 일 실시 예에 따른, 제 2 이미지와 제3 이미지의 상대적인 위치를 기초로, 제3 이미지에서의 객체의 위치를 식별하는 방법을 개략적으로 나타낸 순서도이다.
도 8은, 본 개시의 일 실시 예에 따른, 제 2 이미지와 제3 이미지의 상대적인 위치를 기초로, 제3 이미지에서의 객체의 위치를 식별하는 것을 나타낸 예시도이다.
도 9는, 본 개시의 일 실시 예에 따른, 제3 이미지에서의 제1 이미지에 대응되는 프레임의 크기 및 위치를 식별하는 것을 나타낸 예시도이다.
도 10은, 본 개시의 일 실시 예에 따른, 제1 이미지에 대응되는 프레임 포함된, 제3 및 제4 좌표 값을 기초로 객체를 식별하는 것을 나타낸 예시도이다.
도 11은, 본 개시의 일 실시 예에 따른, 제3 이미지에서의 객체의 위치 정보에 기초하여, 제1 이미지에서 객체를 검출하지 않는 것을 나타낸 예시도이다.
도 12는, 본 개시의 일 실시 예에 따른, 제3 이미지에서의 객체의 위치 정보에 기초하여, 제1 이미지에서 객체를 검출하여 표시하는 방법을 개략적으로 나타낸 순서도이다.
도 13은, 본 개시의 일 실시 예에 따른, 제3 이미지에서의 상기 객체의 위치 정보에 기초하여, 제1 이미지에서 객체를 검출하여 표시하는 것을 나타낸 예시도이다.
도 14는 본 개시의 일 실시 예에 따른, 제1 이미지 상에 객체를 검출하여 표시하는 전자 장치의 예시도이다.
도 15는 본 개시의 일 실시 예에 따른, 제5 좌표 값 및 제6 좌표 값을 기초로 식별된 제2 바운딩 박스에 기초하여 제1 이미지에서 객체를 검출하지 않는 것을 나타낸 예시도이다.
도 16은, 본 개시의 일 실시 예에 따른, 제2 이미지를 기초로 획득된 객체의 객체 인식 정보를 제1 이미지에 표시하는 것을 개략적으로 나타낸 순서도이다.
도 17은, 본 개시의 일 실시 예에 따른, 제2 이미지를 기초로 획득된 객체의 객체 인식 정보를 제1 이미지에 표시하는 것을 개략적으로 나타낸 예시도이다.
도 18은, 본 개시의 일 실시 예에 따른, 제1 카메라와 제2 카메라의 전자 장치에서의 배치된 이격 거리, 제1 카메라의 시야 각 및 제2 카메라의 시야 각에 기초하여, 제2 이미지 및 제3 이미지 간의 상대적인 위치를 식별하는 것을 나타낸 예시도이다.
도 19는, 본 개시의 다른 실시 예에 따른, 제1 카메라와 제2 카메라의 전자 장치에서의 배치된 이격 거리, 제1 카메라의 시야 각 및 제2 카메라의 시야 각에 기초하여, 제2 이미지 및 제3 이미지 간의 상대적인 위치를 식별하는 것을 나타낸 예시도이다.
도 20은 본 개시의 일 실시 예에 따른 전자 장치의 세부 구성도이다.
이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 개시를 상세히 설명한다.
도 1은, 본 개시의 일 실시 예에 따른 전자 장치를 설명하기 위한 도면이다.
도 1을 참조하면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 복수의 카메라(120, 130)를 포함한다. 이때, 전자 장치(100)는 복수의 카메라(120, 130) 중 사용자에 의해 선택된 특정 카메라를 이용하여 객체에 대한 이미지를 획득한다. 또는 전자 장치(100)는 카메라를 구동하는 프로그램(또는 어플리케이션)을 실행하는데 있어서, 프로그램(또는 어플리케이션)에 설정된 복수의 카메라(120, 130)의 구동 순서에 따라 설정된 특정 카메라를 이용하여 객체에 대한 이미지를 획득한다. 그리고, 전자 장치(100)는 전자 장치(100)의 디스플레이(110)에 특정 카메라를 통해 획득된 객체에 대한 이미지를 표시한다.
한편, 전자 장치(100)는 카메라를 구동하는 동안, 카메라의 초점 거리를 조정하는 사용자의 입력(예를 들어, 사용자의 손가락을 이용한 모션 입력 등)에 기초하여, 카메라의 초점 거리를 조정한다. 구체적으로, 전자 장치는 객체를 촬영하는 카메라의 초점 거리를 조정함으로써, 카메라를 줌 인(Zoom In)하거나 줌 아웃(Zoom Out)한다. 전자 장치(100)는, 실제 카메라의 초점 거리의 조정 없이, 사용자 입력에 기초하여, 카메라를 통해 획득된 이미지를 크롭핑(Cropping)하여 표시함으로써, 카메라를 줌 인하거나 줌 아웃하는 기능을 제공하기도 한다. 예를 들어, 디지털 줌(Digital Zoom)이 이에 해당한다.
이때, 객체를 촬영하는 카메라를 줌 인하는 경우, 전자 장치(100)는 객체에 대한 확대된 이미지를 사용자에게 제공할 수 있다. 따라서, 사용자는 객체에 대한 보다 상세한 정보를 획득할 수 있다. 다만, 카메라의 줌 인으로, 객체의 일 부분이 카메라의 앵글 또는 시야(Field of View)를 벗어나는 경우에는, 사용자는 객체의 일 부분에 대한 정보는 획득하지 못한다. 도 1을 참조하면, 줌 인 된 카메라를 통해 제1 객체(210)이 개에 관한 정보는 온전히 획득할 수 있는 반면에, 제2 객체(220)이 고양이에 관한 정보는 일부 누락하여 획득하게 된다.
이는, 전자 장치(100) 또한 마찬가지이다. 예를 들어, 전자 장치(100)가 객체에 대하여 획득한 이미지를 기초로, 이미지 내 객체의 객체 인식을 수행하는 경우를 가정한다. 이때, 제1 객체(210)인 개와 같이, 카메라를 통해 획득한 이미지 내 객체의 전체 형상이 온전하게 포함되는 경우에는, 전자 장치(100)는 이미지 내 제1 객체(210)에 대한 객체 인식을 정확히 수행할 수 있다. 구체적으로, 이미지 내 제1 객체(210)를 검출하고, 제1 객체(210)에 대한 전체 특징 점을 추출할 수 있으며, 이에 기초하여 이미지 내 제1 객체(210)에 대한 객체 인식을 정확히 수행하여 제1 객체의 유형을 식별할 수 있다.
다만, 카메라를 줌 인함으로써, 전자 장치가 객체(200)에 대하여 획득한 이미지 내 제2 객체(220)와 같이, 제2 객체(220)의 일 부분이 누락된 경우에는, 전자 장치는 이미지 내 제2 객체(220)에 대한 객체 인식을 정확히 수행할 수 없다. 상술한 예를 들어 다시 설명하면, 전자 장치(100)는 이미지 내 제2 객체(220)를 검출할 수 없거나, 또는 제2 객체(220)에 대한 전체 특징 점 중 이미지에서 누락된 객체의 일 부분에 대응하는 특징 점을 식별할 수도 없다. 따라서, 전자 장치(100)는 제2 객체(220)를 검출하지 못하여, 객체 인식 자체를 수행할 수 없거나, 또는 제2 객체(220)를 검출하더라도, 정확한 객체 인식 결과를 산출하지 못한다.
본 개시는 이러한 문제점을 해결하기 위하여, 구동 중인 제1 카메라(120)에 대한 줌 인 입력을 수신하면, 제1 카메라(120) 이외의 제2 카메라(130)를 통해 객체의 이미지를 획득한다. 이때, 전자 장치(100)는 제2 카메라(130)를 일반 모드로 구동한다. 그리고 전자 장치(100)는 일반 모드에서 제2 카메라(130)를 통해 획득된 객체에 대한 이미지를 기초로, 객체를 검출하고, 객체에 대한 객체 인식을 수행하여, 객체에 대한 검출 결과 및 객체 인식 결과를 획득한다.
그리고 전자 장치(100)는, 획득한 객체의 검출 결과 및 객체 인식 결과에 기초하여, 제1 카메라(즉, 줌 인 모드로 구동 중인 제1 카메라)(120) 내에서의 객체를 검출하고, 객체에 대한 객체 인식을 수행한다. 이로써, 전자 장치(100)는 제1 카메라(120)를 통해 획득한 이미지 내 객체에 대한 전체 형상이 포함되지 않더라도, 객체(200)를 정확히 검출할 수 있으며, 검출된 객체(200)에 대한 객체 인식을 정확히 수행할 수 있다. 이하, 도2 및 도 16을 참조하여, 이와 관련한 본 개시의 일 실시 예에 대하여 상세히 설명하도록 한다.
도 2는, 본 개시의 일 실시 예에 따른 전자 장치의 블록도이다.
본 개시의 일 실시 예에 따라, 전자 장치(100)는 휴대폰, 스마트폰, 태블릿 PC, 노트북 PC 등의 디스플레이 및 복수의 카메라를 포함하는 다양한 전자 장치를 포함한다. 그러나 이에 제한되는 것은 아니며, 전자 장치(100)는 컴퓨터, 스마트 TV 등과 같이 디스플레이를 구비하고, 복수의 카메라를 포함하거나 또는 별도의 복수의 카메라 장치와 연결되어 구동되는 다양한 전자 장치가 될 수 있다.
도 2를 참조하면, 본 개시의 일 실시 예에 따라, 전자 장치(100)는 디스플레이(110), 제1 카메라(120), 제2 카메라(130) 및 프로세서(140)를 포함한다.
디스플레이(110)는, 프로세서(140)의 제어에 따라 하나 이상의 이미지, 예를 들어 카메라(130, 140)를 통해 획득된 이미지를 표시한다. 이를 위해, 디스플레이(110)는 LCD(Liquid CrystalDisplay), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diodes), TOLED(Transparent OLED) 등으로 구현될 수 있다. LCD로 구성되는 경우, 디스플레이(110) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로와 백라이트 유닛 등도 함께 포함될 수 있다.
또한 디스플레이(110)는 플렉서블(Flexible) 디스플레이 또는 폴더블(Foldable) 디스플레이로 구현될 수도 있다. 이를 위해, 디스플레이(110)는 외부 압력에 의해 변형될 수 있는 플라스틱 기판(가령, 고분자 필름)이나 유리 박막(thin glass) 또는 금속 박막(metal foil) 등과 같이 플렉서블한 특성을 갖는 소재로 구현될 수도 있다.
본 개시의 일 실시 예에 따라, 제1 카메라(120)와 제2 카메라(130)는 객체(200)를 촬영하여 촬영 이미지를 생성하기 위한 구성이며, 여기서 촬영 이미지는 동영상과 정지 영상 모두를 포함한다.
제1 카메라(120)는 복수의 카메라 중 사용자에 의해 실행되는 카메라를 의미한다. 구체적으로, 제1 카메라(120)는 전자 장치(1000)에 포함된 복수의 카메라 중 오브젝트의 촬영을 위하여 인터페이스를 통해 사용자에 의해 선택된 후 실시간으로 오브젝트에 대한 촬영 이미지를 획득하는 카메라를 의미한다. 또는 상술한 예를 들어 설명하면, 복수의 카메라의 구동 순서와 관련된 기 설정된 우선 순위 중 첫 번째 우선 순위의 카메라를 의미할 수도 있다. 다만, 이에 제한되는 것은 아니다.
한편, 제2 카메라(130)는 복수의 카메라 중 제1 카메라(120) 이외의 나머지 카메라 중 적어도 하나의 카메라를 의미한다. 즉, 제1 카메라(120)가 복수의 카메라 중 인터페이스를 통해 사용자에 의해 선택된 카메라에 해당한다면, 제2 카메라(130)는 사용자에 의해 선택되지 않은 카메라에 해당한다.
이때, 프로세서(140)는, 제1 카메라(120)와는 달리, 제2 카메라(130)를 통해 외부 객체(200)에 대한 이미지를 획득하는 동작을 전자 장치(100)의 백그라운드 상에서 수행할 수 있다. 따라서, 프로세서(140)는 제1 카메라(120)에 의해 획득된 외부 객체(200)에 대한 이미지는 디스플레이(110) 상에 표시하는 반면에 제2 카메라(130)에 의해 획득한 외부 객체(200)에 대한 이미지는 디스플레이(110) 상에 표시하지 않을 수 있다.
한편, 본 개시의 일 실시 예에 따라, 제1 카메라(120)와 제2 카메라(130)는 적어도 하나의 외부 객체(200)에 대한 이미지를 획득할 수 있으며, 카메라, 렌즈, 적외선 센서 등으로 구현될 수 있다.
제1 카메라(120)와 제2 카메라(130)는 일반 모드 및 줌 모드로 동작될 수 있다. 일반 모드는, 최초 설정된 제1 카메라(120)의 초점 거리에 기초하여, 이미지를 획득하는 모드를 의미한다. 예를 들어, 제1 카메라(120)에 대하여 설정된 기본 초점 거리에서 객체에 대하여 이미지를 획득하는 모드를 의미한다. 또는 디지털 줌(Digital Zoo) 방식의 경우에는, 제1 카메라(120)를 통해 획득한 이미지를 확대 또는 축소하지 않고, 제1 카메라(120)에 의해 획득된 원본 이미지를 표시하는 모드를 의미한다.
한편, 줌 모드는, 일반 모드에서의 최초 설정된 카메라의 초점 거리를 변경하고, 변경된 초점 거리에 기초하여 외부 객체에 대한 이미지를 획득하는 카메라의 동작 모드를 의미한다. 또한 디지털 중 방식의 경우에는, 제1 카메라(120)에 의해 획득된 원본 이미지를 확대 또는 축소한 이미지를 표시하는 모드를 의미한다. 예를 들어, 제1 카메라(120)에 의해 획득한 원본 이미지를 확대하고, 디스플레이의 크기 및 해상도에 기초하여 확대된 이미지로부터 크롭핑(Cropping) 된 이미지를 표시하는 모드를 의미한다.
한편, 본 개시의 설명을 위하여, 일반 모드 및 줌 모드가 구분되는 것과 같이 설명하였으나, 본 개시의 일 실시 예에 따라서는, 일반 모드와 줌 모드는 명확히 구분되는 것은 아니며, 프로세서(140)가 사용자의 줌 인, 또는 줌 아웃 입력을 수신하고, 사용자의 줌 인 또는 줌 아웃 입력에 대응하여 프로세서(140)가 카메라 또는 카메라로부터 획득되는 이미지를 조정하여 표시하는 경우에, 이를 줌 모드라고 지칭할 수 있다.
한편, 본 개시에 따른 제1 카메라(120)와 제2 카메라(130), 각각은 이미지 센서 및 렌즈를 포함할 수 있다. 여기에서, 렌즈들의 화각(Field of View, FOV)은 서로 상이할 수 있다. 예를 들어, 제1 카메라(120)와 제2 카메라(130)는, 망원 렌즈(telephoto lens), 광각 렌즈(wide angle lens) 및 초 광각 렌즈(super wide angle lens) 중 적어도 하나를 포함할 수 있다. 다만, 제1 카메라(120)가 망원 렌즈를 포함하는 경우, 제2 카메라(130)는 제1 카메라(120)와는 다른 광각 렌즈 또는 초 광각 렌즈 중 어느 하나를 포함할 수 있다. 즉, 제1 카메라(120)와 제2 카메라(130)는 중복되지 않는, 서로 다른 화각을 갖는 렌즈를 각각 포함할 수 있다.
한편, 도 1에 도시된 바와 같이, 제1 카메라(120) 및 제2 카메라(130)는 전자 장치(100)의 후면에 배치되어, 다만, 본 개시의 일 실시 예에서는, 전자 장치(100)에 제1 카메라(120) 및 제2 카메라(130), 즉 두개의 카메라가 포함된 것으로 설명되었으나, 카메라의 개수와 그 유형에 특별한 제한이 있는 것은 아니다.
프로세서(140)는 전자 장치(100)의 전반적인 동작을 제어할 수 있다. 이를 위해, 프로세서(140)는 RAM(Random Access Memory), ROM(Read Only Memory), CPU(central processing unit), GPU(Graphic processing unit) 및 시스템 버스 등을 포함할 수 있으며, 전자 장치(100)에 포함된 하나 이상의 구성요소들의 제어에 관한 연산이나 데이터 처리를 실행할 수 있다. 프로세서(140)는 스토리지에 저장된 하나 이상의 명령어를 실행시켜 전자 장치(100)에 포함된 하나 이상의 구성요소들을 제어하거나, 하드웨어적인 회로 내지는 칩으로서 하나 이상의 구성요소들을 제어하거나, 또는 소프트웨어 및 하드웨어의 결합으로서 하나 이상의 구성요소들을 제어할 수 있다.
도 3은, 본 개시의 일 실시 예에 따른 제2 카메라를 이용하여 획득한 제2 이미지를 기초로, 제1 카메라의 줌 모드에서 획득한 제1 이미지 내 객체를 검출하는 방법을 개략적으로 나타낸 순서도이다.
도 4는, 본 개시의 일 실시 예에 따른 줌 모드에서의 줌 인 비율에 기초하여 제1 이미지에 대응되는 일반 모드에서의 제1 카메라의 제3 이미지를 식별하는 것을 나타낸 예시도이다.
도 5는, 본 개시의 일 실시 예에 따른 제2 카메라를 이용하여 획득한 제2 이미지에서 객체를 검출하여, 객체의 위치 정보를 획득하는 것을 나타낸 예시도이다.
먼저, 도 3을 참조하면, 프로세서(140)는 줌 모드로 동작하는 제1 카메라(120)를 통해 제1 이미지(1)를 획득하고, 제1 이미지(1)를 디스플레이(110)에 표시한다(S310).
구체적으로, 프로세서(140)는 제1 카메라(120)를 이용하여 외부 객체(200)에 대한 이미지를 획득하고, 줌 모드와 관련되어 설정된(또는 줌 모드로의 카메라 구동과 관련하여 사용자로부터 입력된) 줌 인 비율에 기초하여 획득된 이미지를 확대하고, 디스플레이(110)의 크기, 비율, 해상도 등에 기초하여 확대된 이미지를 크롭핑 하여 제1 이미지(1)를 획득한다. 그리고, 프로세서(140)는 획득된 제1 이미지를 표시하도록 디스플레이(110)를 제어한다.
한편, 이에 제한되는 것은 아니며, 프로세서(140)는 제1 카메라(120)에 포함된 렌즈의 초점 거리를 조정하여, 객체(200)에 대한 제1 이미지(1)를 획득할 수도 있다. 그러나, 본 개시의 설명의 편의를 위하여, 이하에서는 디지털 줌 방식에 기초하여 프로세서(140)가 카메라(120, 130)를 이용하여 이미지(예를 들어, 제1 내지 제2 이미지)를 획득하는 것으로 설명하도록 한다.
한편, 프로세서(140)는 줌 모드로 동작하기에 앞서, 일반 모드로 동작하는 제1 카메라의 모드를 줌 모드로 변경하기 위한 사용자 명령을 수신할 수도 있다. 이때, 프로세서(140)는 디스플레이 패널을 구비한 디스플레이(110) 또는 입력 인터페이스를 통해 일반 모드로 동작하는 제1 카메라(120)의 모드를 줌 모드로 변경하기 위한 사용자 명령을 수신한다. 예를 들어, 프로세서(140)는 디스플레이(110)를 통해 사용자의 손가락을 이용한 제1 카메라의 모드를 줌 인 모드로 변경하는 터치 입력 또는 모션 입력을 감지할 수 있다. 보다 구체적으로, 프로세서(140)는 디스플레이(110)를 통해 제1 터치 입력과 제2 터치 입력을 감지하고, 제1 터치 입력 위치 및 제2 터치 입력 위치 간의 거리를 산출하고, 이후 제1 터치 입력의 위치 및 제2 터치 입력의 위치 중 적어도 하나의 위치가 변경되어, 제1 터치 입력 및 제2 터치 입력 간의 거리가 증가되면, 제1 카메라(120)의 모드를 줌 모드로 변경하기 위한 사용자 명령이 입력된 것으로 감지할 수 있다.
한편, 본 개시의 일 실시 예로, 줌 모드로 변경하기 위한 사용자 명령에는, 줌 인 비율(또는 배율) 및 줌 아웃 비율(또는 배율)에 관한 정보를 포함할 수도 있다. 상술한 예를 들어 다시 설명하면, 프로세서(140)는 제1 터치 입력의 위치 및 제2 터치 입력의 위치 중 적어도 하나의 위치가 변경되어, 제1 터치 입력 및 제2 터치 입력 간의 거리가 증가되면, 증가된 거리에 대응하여 제1 카메라(120)의 줌 인 배율을 증가시킬 수 있다. 즉, 프로세서(140)는 사용자로부터 제1 카메라(120)의 모드를 줌 모드로 변경하는 입력 뿐만 아니라, 줌 모드와 관련된 줌 인 비율 또는 줌 아웃 비율에 관한 정보도 동시에 입력 받을 수 있다.
다시 도 3을 참조하면, 프로세서(140)는 제1 이미지를 표시한(S310) 후 일반 모드로 동작하는 제2 카메라(130)를 통해 제2 이미지를 획득한다(S320).
구체적으로, 프로세서(140)는 디스플레이에 표시되는 제1 이미지를 획득하기 위하여 구동되는 제1 카메라(120) 이외의 제2 카메라(130)를 구동하고, 제2 카메라(130)를 통해 객체(200)에 대한 제2 이미지를 획득한다. 이때, 프로세서(140)는 제2 카메라(130)의 일반 모드에서, 객체(200)에 대한 제2 이미지를 획득할 수 있다. 앞서 설명한 바와 같이, 일반 모드는 제2 카메라(130)를 통해 획득되는 이미지의 변경(예를 들어, 확대 또는 축소) 없이 객체에 대하여 획득되는 원본 이미지를 표시하는 모드를 의미한다. 또는 제2 카메라(130)의 초점 거리 변경 없이, 또는 제2 카메라(130)에 대하여 기 설정된 기본 초점 거리에서 객체(200)에 대하여 이미지를 획득하는 모드를 의미한다.
한편, 본 개시의 일 실시 예에 따라서는, 일반 모드에서의 제1 카메라(120)와 객체(200)에 대한, O/I(Object & Imager Distance) 값과 일반 모드에서의 제2 카메라(130)와 객체(200)에 대한, O/I(Object & Imager Distance) 값은 동일할 수 있다. 그러나 이에 제한되는 것은 아니다.
다시 도 3을 참조하면, 본 개시의 일 실시 예에 따라, 프로세서(140)는 줌 모드에서의 줌 인 비율에 기초하여 제1 이미지(1)에 대응되는 일반 모드에서의 제1 카메라(120)의 제3 이미지(3)를 식별한다(S330).
제3 이미지(3)는, 제1 카메라(120)를 이용하여 획득 가능한 객체에 대한 원본 이미지 또는 이미지 프레임을 의미한다. 또는, 제1 카메라(120)의 초점 거리의 조정 없이 객체에 대하여 획득될 수 있는 이미지 또는 이미지 프레임을 의미한다. 제3 이미지(3)는 실제 제1 카메라(120)가 객체를 촬영하여 획득되는 것이 아니며, 줌 모드로 동작하는 제1 카메라(120)의 줌 인 비율과 제2 이미지(2)를 기초로, 제1 카메라(120)의 일반 모드에서 객체에 대하여 획득될 것으로 식별되는 이미지에 해당한다는 점에서 제1 이미지(1)와는 차이가 있다. 즉, 제3 이미지(3) 내에는 객체에 대한 정보가 포함되어 있지 않을 수 있다. 한편, 제3 이미지(3)를 식별하기 위하여, 프로세서(140)는 줌 모드에서의 줌 인 비율에 기초하여, 객체(200)에 대하여 획득된 제1 이미지에 대응되는 일반 모드에서의 제1 카메라(120)의 제3 이미지(3)를 식별할 수 있다. 예를 들어, 본 개시의 일 실시 예에 따라, 프로세서(140)가 줌 모드로 변경하기 위한 사용자 명령과 줌 인 비율(X2)에 관한 사용자 명령을 수신하였다고 가정한다. 이때, 프로세서(140)는 제1 카메라(120)를 통해 객체(200)에 대하여 2배 확대된 이미지를 디스플레이(110)에 표시할 수 있다. 그리고, 프로세서(140)는, 줌 인 비율(X2)에 기초하여, 디스플레이(110)에 표시되는 제1 이미지(1)에 대응되는 일반 모드에서의 제1 카메라의 제3 이미지(3)를 식별할 수 있다.
도 4를 참조하면, 본 개시의 일 실시 예에 따라서 프로세서(140)는 가상 좌표 계를 설정하고, 설정된 가상 좌표 계 상에서 제3 이미지(3)를 식별할 수도 있다. 예를 들어, 도 4를 참조하면, 프로세서(140)는 xy평면 상의 원점에 제3 이미지(3)의 좌하단의 모서리를 배치한 후 제3 이미지(3)를 식별할 수 있다. 이때, 제3 이미지(3)의 좌하단의 모서리 이외의 모서리(예를 들어, 좌상단의 모서리, 우하단의 모서리 및 우상단의 모서리)의 xy 평면 상에서의 좌표 값은, 제1 카메라의 해상도, 제1 카메라(120)를 통해 획득되는 이미지의 크기 및 비율, 디스플레이의 크기 등에 기초하여 설정될 수 있다.
이하, 본 개시의 설명의 편의를 위하여, 제1 카메라(120)를 통해 획득되는 이미지(예를 들어, 제1 이미지(1)와 제1 이미지에 대응되는 제3 이미지(3))의 비율은 16:12이라고 가정한다. 이때, 도 4를 참조하면, 프로세서(140)는 제3 이미지의 좌하단의 모서리의 좌표 값은 (0, 0)으로, 좌상단의 모서리의 좌표 값은 (0, 12)으로, 우하단의 모서리의 좌표 값은 (16, 0)으로, 우상단의 모서리의 좌표 값은 (16, 12)으로 식별한다.
다시 도 3을 참조하면, 본 개시의 일 실시 예에 따라, 프로세서(140)는 제2 이미지(2)에 포함된 객체(200)를 검출하여, 제2 이미지에서 검출된 객체에 대한 위치 정보를 획득한다(S340).
구체적으로, 프로세서(140)는 제2 이미지(2) 상에서 특징 점을 식별하고, 특징 점의 집합, 또는 복수의 특징 점을 클러스터링 하여, 객체를 검출할 수 있다. 그리고 프로세서(140)는 제2 이미지 에서의 검출된 객체의 위치를 식별한다. 예를 들어, 제2 이미지를 xy 좌표 평면 상에 배치하고, 검출된 객체에 대한 위치, 즉 좌표 값을 식별할 수 있다. 또는 제2 이미지(2) 내에서의 검출된 객체에 대한 픽셀의 위치 등을 기초로 객체의 위치를 식별할 수도 있다.
한편, 이를 위해, 프로세서(140)는 전자 장치(100)의 메모리에 저장된 인공지능 기반의 객체 감지 모델을 이용할 수 있다. 예를 들어, 객체 감지 모델은 CNN(Convolutional Neural Network) 모델을 포함할 수 있다. 프로세서는, 제2 이미지(2)를 CNN 모델에 입력하여, 제2 이미지(2)를 구성하는 적어도 하나의 프레임에서 객체(200)에 관한 특징(Feature)들을 추출하여, 특징 맵(Feature Map)을 생성한다. 그리고 생성된 특징 맵을 기초로, 프로세서(140)는 제2 이미지(2)에서의 객체(200)를 검출하고, 객체(200)의 위치를 식별한다.
한편, 본 개시의 일 실시 예에 따라, 본 개시의 일 실시 예에 따라, 객체(200)에 대한 위치 정보는, 제2 이미지(2)에서 검출된 객체를 포함하는 제1 바운딩 박스(10)의 제1 좌표 값 및 제2 좌표 값을 포함하고, 제1 좌표 값은, 제1 바운딩 박스(10)의 좌상단 모서리의 좌표 값이고, 제2 좌표 값은 제1 바운딩 박스(10)의 우하단 모서리의 좌표 값일 수 있다. 구체적으로, 프로세서(140)는, 제2 이미지(2)에서 검출된 객체의 위치와 대응하고, 검출된 객체를 포함하는 사각형 형태의 바운딩 박스(Bounding Box)를 식별할 수 있다. 이때, 제1 바운딩 박스(10)는, 제2 카메라를 통해 획득된 제2 이미지에서 검출된 객체(200)에 대한 바운딩 박스를 의미한다.
프로세서(140)는 제2 이미지(2)에 포함된 객체를 검출하고, 검출된 객체를 포함하는 제1 바운딩 박스(10)를 식별할 수 있다. 예를 들어, 프로세서(140)는 바운딩 박스의 상부 면은 객체에 대한 복수의 특징 점(예를 들어, 특징 점 그룹 또는 클러스터링 된 복수의 특징 점) 중 y 좌표 값이 가장 큰 특징 점에 기초하여 식별되고, 바운딩 박스의 좌측 면은 객체에 대한 특징 점 중 x 좌표 값이 가장 작은 특징 점에 기초하여 식별되고, 바운딩 박스의 우측 면은 객체에 대한 특징 점 중 x 좌표 값이 가장 큰 특징 점에 기초하여 식별되고, 바운딩 박스의 하부 면은 객체에 대한 특징 점 중 y 좌표 값이 가장 작은 특징 점에 기초하여 식별된다.
그리고, 프로세서(140)는 제2 이미지(2)에서의 객체의 위치를 바운딩 박스를 기초로 식별할 수 있다. 구체적으로, 프로세서(140)는 제1 바운딩 박스(10)의 좌상단 모서리의 좌표 값인 제1 좌표 값과, 제1 바운딩 박스(10)의 우하단 모서리의 좌표 값인 제2 좌표 값으로 제2 이미지 내에서 검출된 객체(200)의 위치를 식별할 수 있다.
도 5를 참조하면, 프로세서(140)는 제2 이미지(2)에서의 제1 객체(210)와 제2 객체(220)을 검출한다. 그리고, 프로세서(140)는 제2 이미지에서의 제1 객체(210)와 제2 객체(220)에 대응하는 제1 바운딩 박스(10)(제1-1 바운딩 박스(11)와 제1-2 바운딩 박스(12))를 식별한다.
이때, 본 개시의 일 실시 예에 따라, 제2 카메라(130)를 통해 획득된 제2 이미지(2)의 크기와 비율은, 제2 카메라의 해상도, 디스플레이 크기 등에 기초하여 설정될 수 있다.
또한, 본 개시의 일 실시 예에 따라, 제2 카메라(130)를 통해 획득된 이미지(예를 들어, 제2 이미지)와 제1 카메라(120)를 통해 획득된 이미지(예를 들어, 제1 이미지(1) 및 제1 이미지에 대응되는 제3 이미지(3))의 크기 및 비율을 상이할 수 있다. 그러나 이에 제한되는 것은 아니며, 전자 장치(100)에 포함된 복수의 카메라(110, 120)로부터 획득되는 이미지의 크기 및 비율은 동일하게 설정될 수 있다.
그러나, 본 개시의 설명의 편의를 위해, 이하에서는 제1 카메라(120)로부터 획득된 이미지(예를 들어, 제1 이미지 및 제1 이미지에 대응되는 제3 이미지)와 제2 카메라(130)로부터 획득된 이미지(예를 들어, 제2 이미지)의 크기 및 비율이 상이한 것으로 설명하도록 한다.
상술한 예를 들어, 다시 설명하면, 제1 카메라(120)를 통해 획득된 제1 이미지(1)와 제1 이미지(1)에 대응하는 제1 카메라(120)의 제3 이미지(3)의 크기가 16 : 12 비율의 이미지라고 가정한다면, 제2 카메라를 통해 획득된 제2 이미지(2)는 16 : 9의 비율의 이미지라고 가정한다. 이때, 도 5를 참조하면, 프로세서(140)는 제2 이미지 내에서, 제1 객체(210)의 위치를 제1 객체(210)에 대응하는 제1-1 바운딩 박스(11)의 제1 좌표 값인 (4, 7) 및 제1-1 바운딩 박스(11)의 제2 좌표 값인 (8, 3)로 식별한다. 그리고 프로세서(140)는 제2 이미지 내에서, 제2 객체(220)의 위치를, 제2 객체(220)에 대응하는 제1-2 바운딩 박스(12)의 제1 좌표 값인 (9, 6) 및 제1-2 바운딩 박스(12)의 제2 좌표 값인 (12, 1)로 식별한다.
한편, 다시 3을 참조하면, 본 개시의 일 실시 예에 따라, 프로세서(140)는, 제2 이미지(2) 및 제3 이미지(3) 간의 상대적인 위치에 기초하여, 제2 이미지로부터 획득된 위치 정보에 대응되는 제3 이미지(3)에서의 객체의 위치 정보를 획득한다(S350).
프로세서(140)는 제1 이미지(1)에 대응하는 제1 카메라(120)의 제3 이미지(3)에 제2 카메라(130)를 통해 획득된 제2 이미지를 적층(Stack)하거나 또는 제3 이미지(3)와 제2 이미지(2)를 정합하여 제3 이미지(3)에서의 객체(200)의 위치를 식별할 수 있다. 구체적으로, 프로세서(140)는, 제2 이미지(2)에서 획득된 객체(200)에 대한 위치 정보를 기초로, 제3 이미지(3)에서의 객체(200)의 위치를 식별하기 위하여, 제2 이미지(2)에서 획득된 객체의 위치 정보를 제3 이미지(3) 상에 동기화할 수 있다. 이를 위해, 프로세서(140)는 제2 이미지(2)와 제3 이미지(3) 간의 상대적인 위치 차이를 식별하는 과정을 선행할 수 있다.
구체적으로, 프로세서(140)는 제3 이미지(3)에 제2 이미지(3)를 적층하거나 또는 제2 이미지에서 획득된 정보(예를 들어, 제3 이미지에서의 객체(200)의 위치 정보)를 제3 이미지(3) 상에 동기화 시키기 위해서는, 제2 이미지(2)와 제3 이미지(3) 간의 상대적인 위치 차이를 보정해야만 한다. 왜냐하면, 전자 장치에서의 제1 카메라(120)와 제2 카메라(130)가 각각 배치된 위치의 차이로 인하여, 제2 이미지(제2 카메라를 통해 획득된 제2 이미지)와 제3 이미지(제1 카메라를 통해 획득될 것으로 식별된 제3 이미지)는 동일한 일반 모드에서 획득되더라도, 각각의 이미지 내 객체의 위치는 상이할 수 있다. 이는, 제1 카메라(120)와 제2 카메라(130)의 시야 각에 기인하기도 한다. 따라서, 각각의 카메라(예를 들어, 제1 카메라(120) 및 제2 카메라(130))를 통해 획득된 이미지(제2 이미지)와 획득 가능한 이미지(제3 이미지)를 정확히 동기화하기 위해서는, 프로세서(140)는 제2 이미지(2)와 제3 이미지(3)의 위치 및 위치의 차이를 식별해야 한다.
도 6을 참조하면, 프로세서(140)는 제3 이미지(3)를 기준으로 제2 이미지(2)의 제3 이미지(3)에 대한 위치 차이를 고려하여, xy 평면 상에서의 제2 이미지(2)를 식별한다. 보다 구체적으로, 상술한 예를 들어 다시 설명하면, 프로세서(140)는 xy 평면 상에서 제3 이미지의 좌하단의 모서리의 좌표 값이 xy 좌표 계의 원점(0, 0)에 해당하는 것으로 식별한다. 그리고, 프로세서(140)는 제3 이미지의 좌상단의 모서리의 좌표 값은 (0, 12)으로, 우하단의 모서리의 좌표 값은 (16, 0)으로, 우상단의 모서리의 좌표 값은 (16, 12)으로 식별한다.
그리고, 프로세서(140)는 제2 이미지(2)의 제3 이미지(3)에 대한 상대적인 위치를 식별한다. 예를 들어, 프로세서(140)는 제3 이미지를 기준으로 제2 이미지의 x축 방향의 제1 변위 값(또는 제1 보정 값), 제2 변위 값(또는 제2 보정 값)을 식별하고, y축 방향의 제3 변위 값(또는 제3 보정 값), 제4 변위 값(또는 제4 보정 값)을 식별하고, xy 평면 상에서의 제3 이미지(3)를 기준으로 한 제2 이미지(2)의 위치를 식별한다.
다시 도 6을 참조하면, 프로세서(140)는 xy 평면 상에서 제2 이미지(2)의 좌하단의 모서리의 좌표 값을(1, 1)로, 제2 이미지(2)의 좌상단의 모서리의 좌표 값을 (1, 10)으로, 우하단의 모서리의 좌표 값은 (17, 1)으로, 우상단의 모서리의 좌표 값은 (17, 10)으로 식별한다. 이로써, 프로세서(140)는 xy 평면 상에서의 제3 이미지(3)를 기준으로, 제2 이미지(2)의 상대적인 위치를 식별할 수 있다.
한편, 상술하여 설명한 바와 같이, 프로세서(140)는 제2 이미지(2)로부터 획득된, 제2 이미지(2)에서의 객체(200)의 위치 정보에 대응되는 제3 이미지(3)에서의 객체(200)의 위치 정보를 획득한다. 상술한 예를 들어 다시 설명하면, 프로세서(140)는 제3 이미지(3)를 기준으로 제2 이미지(2)의 x축 방향의 제1 변위 값, 제2 변위 값을 식별하고, y축 방향의 제3 변위 값, 제4 변위 값을 식별하고, 식별된 제1 변위 값, 제2 변위 값, 제3 변위 값 및 제4 변위 값에 기초하여, 식별된 제2 이미지에서의 객체(200)의 위치 정보를 제3 이미지에 동기화 시킬 수 있다. 이에 관해서는 도 8 및 도 9을 참조하여 자세히 설명하도록 한다.
한편, 다시 3을 참조하면, 본 개시의 일 실시 예에 따라, 줌 모드에서의 줌 인 비율 및 제3 이미지에서의 객체의 위치 정보에 기초하여, 줌 모드로 동작하는 제1 카메라를 통해 획득된 제1 이미지에서 객체를 검출한다(S360).
구체적으로, S350 단계에서, 프로세서(140)는 제3 이미지에서의 객체(200)의 좌표 정보를 식별하였다. 이때, 프로세서(140)는 줌 인 비율을 기초로, 제3 이미지에 대응되는 제1 이미지(1)를 식별하고, 식별된 제3 이미지(3)에서의 객체(200)의 좌표 정보를 기초로, 제1 이미지에서의 객체(200)의 위치를 식별한다. 그리고, 프로세서(140)는 식별된 위치에서 객체(200)를 검출할 수 있다.
한편, 제1 카메라를 통해 획득되는 제1 이미지와 제1 이미지에 대응하는 제1 카메라의 제3 이미지는 동일한 제1 카메라에 관한 이미지이므로, 프로세서(140)는 제1 및 제3 이미지 간의 상대적인 위치 조정 과정을 수행하지 않을 수 있다.
이하에서는, 도 7 및 도 8을 참조하여, 제 2 이미지(2)와 제3 이미지(3)의 상대적인 위치를 기초로, 제3 이미지에서의 객체의 위치를 식별하는 본 개시의 일 실시 예에 대하여 상세히 설명하도록 한다.
도 7은 본 개시의 일 실시 예에 따른, 제 2 이미지와 제3 이미지의 상대적인 위치를 기초로, 제3 이미지에서의 객체의 위치를 식별하는 방법을 개략적으로 나타낸 순서도이다.
도 8은 본 개시의 일 실시 예에 따른, 제 2 이미지와 제3 이미지의 상대적인 위치를 기초로, 제3 이미지에서의 객체의 위치를 식별하는 것을 나타낸 예시도이다.
도 9는 본 개시의 일 실시 예에 따른, 제3 이미지에서의 제1 이미지에 대응되는 프레임의 크기 및 위치를 식별하는 것을 나타낸 예시도이다.
도 7을 참조하면, 본 개시의 일 실시 예에 따라, 프로세서(140)는 제2 이미지(2) 및 제3 이미지(3) 간의 상대적인 위치 차이에 기초하여, 제1 좌표 값 및 제2 좌표 값과 대응하는, 제3 이미지(3)에서의 객체에 대한 제3 좌표 값 및 제4 좌표 값을 각각 식별한다(S351).
구체적으로, 제2 카메라(130)를 통해 획득된 제2 이미지(2)를 제1 카메라(120)의 제3 이미지(3)에 적층시키기 위하여, 프로세서(140)는 제2 이미지와 제3 이미지 간의 상대적인 위치 차이를 식별하였다. 그리고, 식별된 위치 차이에 기초하여, xy 평면 상에서 제3 이미지를 기준으로, 제2 이미지의 xy 평면 상에서의 위치를 식별하였다. 이때, 프로세서(140)는 제2 이미지로부터 획득된 객체(200)의 위치 정보인, 제1 좌표 값 및 제2 좌표 값을 각각 제3 좌표 값과 제4 좌표 값(제1 좌표 값을 제3 좌표 값으로, 제2 좌표 값을 제4 좌표 값으로 변환)으로 변환함으로써, 제2 이미지(2)에서의 객체(200)의 위치 정보를 제3 이미지(3) 상에 동기화할 수 있다. 즉, 프로세서(140)는, 제2 이미지(2)와 제3 이미지(3) 간의 상대적인 위치에 기초하여, 객체에 관한 바운딩 박스의 위치를 조정하고, 이에 따라, 바운딩 박스의 좌상단 모서리의 좌표 값인 제3 좌표 값과 바운딩 박스의 우하단 모서리의 좌표 값인 제4 좌표 값을 식별한다.
도 8을 참조하면, 프로세서(140)는 제2 이미지 및 제3 이미지 간의 상대적인 위치에 기초하여, 제2 이미지 내에서 제1 객체(210)에 대응하는 제1-1 바운딩 박스(11)의 좌상단의 모서리의 좌표 값(즉, 제1 좌표 값)을 (5, 8)으로, 제1-2 바운딩 박스(12)의 우하단의 모서리의 좌표 값(즉, 제2 좌표 값)을 (9, 4)으로 변환하여 식별한다. 즉, 프로세서(140)는 제3 이미지에서의 제1 객체(210)의 위치를 제3 좌표 값인, (5, 8) 및 제4 좌표 값인, (9, 4)으로 식별한다. 그리고, 프로세서(140)는 제2 이미지(2) 내에서, 제2 객체(220)의 위치를 제3 좌표 값과 제4 좌표 값을 기초로 식별한다. 구체적으로, 프로세서(140)는 제2 객체(220)에 대응하는 제1-2 바운딩 박스(12)의 제3 좌표 값을 (10, 7)로, 식별하고, 제1-2 바운딩 박스(12)의 제4 좌표 값을 (13, 2)로 식별한다.
이로써, 프로세서(140)는 제2 카메라(130)를 통해 획득된 제2 이미지(2)에 기초하여, 제1 카메라(120)의 제3 이미지(3) 상에서의 객체(200)의 위치를 추정할 수 있다. 즉, 상술하여 설명한 바와 같이, 제3 이미지(3)는 제1 이미지(1)에 대응되는 제1 카메라(120)의 이미지로, 제1 카메라(120)에서 획득될 수 있는 이미지이다. 따라서, 제3 이미지(3) 내에는, 제1 이미지(1)와 제2 이미지(2)와는 달리 객체에 대한 정보가 포함되지 않는다. 그러나, 프로세서(140)는, 제2 이미지(2)와 제2 이미지(2)를 기초로 획득된 객체의 정보를 기초로, 제3 이미지(3)에서의 객체의 정보, 예를 들어, 객체의 위치를 식별할 수 있다.
그리고, 다시 도 7을 참조하면, 본 개시의 일 실시 예에 따라, 프로세서(140)는 줌 모드에서의 줌 인 비율에 기초하여, 제3 이미지(3) 내에 제1 이미지(1)에 대응되는 프레임의 크기 및 위치를 식별한다(S352).
구체적으로, 도 9를 참조하면, 줌 인 비율이 2배라고 가정하였을 때, 일반 모드에서 획득되는 이미지에 비해, 줌 모드에서는 획득되는 제1 이미지는 객체에 대하여 2배 확대된 이미지이다. 이때, 프로세서(140)는, 줌 인 비율인 2배에 기초하여 제3 이미지(3) 내에서의 제1 이미지(1)에 대응되는 프레임의 크기 및 위치를 식별한다. 일반 모드에서 획득되는 것으로 식별된 제3 이미지를 기준으로 할 때, 제1 이미지에 대응되는 프레임의 크기는, 제3 이미지의 0.5배에 해당한다. 그리고, 프로세서(140)는 제3 이미지(3)를 기준으로, xy 평면 상에서의 제1 이미지(1)에 대응되는 프레임(4)의 위치를 식별한다. 이때, 프로세서(140)는 제1 이미지에 대응되는 프레임(4)의 모서리의 좌표 값으로, xy 평면 상에서의 위치를 제1 이미지에 대응되는 프레임(4)의 위치를 식별할 수 있다.
도 9를 참조하면, 프로세서(140)는 제1 이미지에 대응되는 프레임(4)의 좌상단 모서리의 좌표 값을 (4, 9), 좌 하단의 모서리의 좌표 값을 (4, 3), 우상단의 모서리의 좌표 값을 (12, 9) 그리고 우하단의 모서리의 좌표 값을 (12, 3)으로 식별하여, 제3 이미지(3) 내에서의 제1 이미지(1)에 대응되는 프레임(4)의 위치를 식별한다.
한편, 다시 도 7을 참조하면, 본 개시의 일 실시 예에 따라, 프로세서(140)는 제1 이미지에 대응되는 프레임(4) 내 제3 및 제4 좌표 값 중 적어도 하나가 포함되는 경우, 제3 및 제4 좌표 값에 기초하여, 줌 모드로 동작하는 제1 카메라(1)를 통해 획득된 제1 이미지(1)에서 객체를 검출한다(S361).
도 10은, 본 개시의 일 실시 예에 따른, 제1 이미지에 대응되는 프레임 포함된, 제3 및 제4 좌표 값을 기초로 객체를 식별하는 것을 나타낸 예시도이다.
구체적으로, 줌 인 비율 또는 제1 카메라(120)의 확대된 시야 각에 따라서, 프로세서(140)가 제1 카메라(120)를 통해 획득한 제1 이미지(1) 내에는 객체(200)가 포함되지 않을 수 있다. 이때, 프로세서(140)는, 제1 이미지 내에서 객체(200)를 검출하기에 앞서 또는 객체(200)를 검출하기 위한 제1 이미지의 이미지 프로세싱(Processing)에 앞서, 제3 및 제4 좌표 값에 기초하여 제1 이미지 상에 객체(200)가 포함되지 않았음을 식별할 수 있다.
구체적으로, 도 10을 참조하면, 프로세서(140)는 제1-1 바운딩 박스(11)의 제3 좌표 값과 제4 좌표 값이 제1 이미지에 대응되는 프레임(4)에 포함된 것으로 식별할 수 있다. 이를 통해, 프로세서(140)는 제1 이미지 내에 제1-1 바운딩 박스(11)에 대응하는 제1 객체가 포함되어 있음을 식별한다. 한편, 프로세서(140)는 제1-2 바운딩 박스(12)의 제3 좌표 값 및 제4 좌표 값 중 제3 좌표 값이 제1 이미지에 대응되는 프레임에 포함된 것으로 식별할 수 있다. 이를 통해, 프로세서(140)는 제1 이미지 내에 제1-2 바운딩 박스(12)에 대응하는 제2 객체가 포함되어 있음을 식별한다. 다만, 이 경우 프로세서(140)는 제1 이미지(1)에 대응하는 프레임(4)에 포함되지 않은 제4 좌표 값에 기초하여, 제2 객체의 일부 형상이 제1 이미지(1)에 포함되지 않았음을 식별할 수 있다.
도 11은, 본 개시의 일 실시 예에 따른, 제3 이미지에서의 객체의 위치 정보에 기초하여, 제1 이미지에서 객체를 검출하지 않는 것을 나타낸 예시도이다.
도 11을 참조하면, 프로세서(140)는 제1-3 바운딩 박스(13)의 제3 좌표 값 및 제4 좌표 값과 제1-4 바운딩 박스(14)의 좌표 값 및 제4 좌표 값이 제1 이미지에 대응되는 프레임(4)에 포함되지 않았음을 식별한다. 이때, 프로세서(140)는 줌 모드에서 획득되는 제1 이미지(1)에 포함된 객체(200)가 존재하지 않음을 식별하고, 제1 이미지(1)에서의 객체 검출 또는 객체 인식 과정을 수행하지 않을 수 있다.
도 12는 본 개시의 일 실시 예에 따른, 제3 이미지에서의 객체의 위치 정보에 기초하여, 제1 이미지에서 객체를 검출하여 표시하는 방법을 개략적으로 나타낸 순서도이다.
도 13은 본 개시의 일 실시 예에 따른, 제3 이미지에서의 객체의 위치 정보에 기초하여, 제1 이미지에서 객체를 검출하여 표시하는 것을 나타낸 예시도이다.
도 12를 참조하면, 본 개시의 일 실시 예에 따라, 프로세서(140)는 제1 이미지에 대응되는 프레임(4)의 크기 및 위치에 기초하여, 제3 좌표 값 및 제4 좌표 값과 대응하는, 제1 이미지에서의 제5 좌표 값 및 제6 좌표 값을 각각 식별한다(S361_a).
이때, 본 개시의 일 실시 예에 따라, 제5 좌표 값은, 제1 이미지에서 검출된 객체를 포함하는 제2 바운딩 박스(20)의 좌상단 모서리의 좌표 값이고, 제6 좌표 값은 제2 바운딩 박스(20)의 우하단 모서리의 좌표 값이다.
한편, 제2 바운딩 박스(20)는, 제1 이미지에서 검출된 객체(200)에 대한 바운딩 박스를 의미한다. 이때, 제2 바운딩 박스(20)는 줌 인 비율에 기초하여 제1 바운딩 박스(10)가 변환되어 생성될 수 있다.
프로세서(140)는 제1 이미지(1)에 포함된 객체를 포함하는 제2 바운딩 박스(20)를 제1 이미지(1)에서의 객체의 위치에 대응하여 표시한다. 이를 위하여, 프로세서(140)는 줌 인 비율 및 제1 이미지에 대응하는 프레임의 위치 및 크기에 기초하여 제3 좌표 값과 제4 좌표 값을 각각 제5 좌표 값과 제6 좌표 값을 변환한다.
구체적으로, 프로세서(140)는 제1 이미지에 대응하는 프레임을 기초로, xy 평면상에서의 제1 이미지(1)를 식별하고, 제3 좌표 값을 제1 이미지에서의 제5 좌표 값으로, 제4 좌표 값을 제1 이미지에서의 제6 좌표 값을 식별한다.
예를 들어, 도 13을 참조하면, 프로세서(140)는 제1-1 바운딩 박스(11)의 제3 좌표 값인, (5, 8)을 줌 인 비율(x2) 및 프레임의 위치 및 크기에 기초하여 제5 좌표 값인, (2, 10)((구체적으로, (5-4)*2), (8-3)*2))으로 변환한다. 그리고 제1-1 바운딩 박스의 제4 좌표 값인, (9, 4)을 줌 인 비율(x2) 및 프레임의 위치 및 크기에 기초하여 제6 좌표 값인, (10, 2)(구체적으로, ((9-4)*2, (4-3)*2))으로 식별한다. 보다 구체적으로, 프로세서(140)는 제3 이미지(3) 내에서 식별된 제1 이미지에 대응되는 프레임을, xy 평면 상에서 프레임의 좌하부 모서리가 xy 좌표 계의 원점에 위치하도록 이동하고, 줌 인 비율에 기초하여 프레임의 좌상부 모서리, 우상부 모서리 및 우하부 모서리의 위치를 각각 변환한다. 즉, xy 평면 상에서의 제1 이미지(1)의 위치를 식별한다. 그리고 변환된 프레임의 크기 및 위치에 대응하여, 제3 좌표 값과 제4 좌표 값을 각각 제5 좌표 값과 제6 좌표 값을 변환한다.
한편, 도 13을 참조하면, 프로세서(140)는, 제1-2 바운딩 박스(12)의 제3 좌표 값인 (10, 7)의 경우, 제1-1 바운딩 박스(11)의 제3 좌표 값 및 제4 좌표 값의 변환 방식과 동일하게, 제4 좌표 값인, (12, 8)(구체적으로, ((10-4)*2, (7-3)*2))로 식별한다. 반면에, 제1-2 바운딩 박스(12)의 제4 좌표 값인 (13, 2)는 (18, -2)가 아닌, (16, 0)으로 식별하였다. 이는, 제1-2 바운딩 박스(12)의 제4 좌표 값의 경우 제1 이미지에 대응되는 프레임에 포함되지 않기 때문이다. 따라서, 프로세서(140)는 제1 이미지에 대응되는 프레임에 포함되지 않는 제4 좌표 값의 경우, 제1 이미지 또는 변환된 프레임의 우하부 모서리의 좌표 값으로 변환한다. 즉, 프로세서(140)는 제1-2 바운딩 박스의 제4 좌표 값을 (16, 0)의 제6 좌표 값으로 변환한다.
이와 관련하여, 본 개시의 일 실시 예에 따라, 프로세서(140)는 제3 좌표 값에 대응하는 제5 좌표 값을 구성하는 x 좌표 값 및 y 좌표 값을 식별하고, 제5 좌표 값의 x 좌표 값이 제1 이미지(또는 변환된 제1 이미지에 대응하는 프레임)의 좌하부의 모서리의 x 좌표 값보다 작은 경우에는, 좌하부의 모서리의 x 좌표 값을 제5 좌표 값의 x 좌표 값으로 식별한다. 그리고, 제5 좌표 값의 y 좌표 값이 제1 이미지(또는 변환된 제1 이미지에 대응하는 프레임)의 좌상부의 모서리의 y 좌표 값보다 큰 경우에는 좌상부의 y 좌표 값을 제5 좌표 값의 y 좌표 값으로 식별한다. 이와 유사하게, 프로세서(140)는 제4 좌표 값에 대응하는 제6 좌표 값을 구성하는 x 좌표 값 및 y 좌표 값을 식별하고, 제6 좌표 값의 x 좌표 값이 제1 이미지(또는 변환된 제1 이미지에 대응하는 프레임)의 우하부의 모서리의 x 좌표 값보다 큰 경우에는, 우하부의 모서리의 x 좌표 값을 제6 좌표 값의 x 좌표 값으로 식별한다. 그리고, 제6 좌표 값의 y 좌표 값이 제1 이미지(또는 변환된 제1 이미지에 대응하는 프레임)의 우상부의 모서리의 y 좌표 값보다 작은 경우에는 우후부의 y 좌표 값을 제6 좌표 값의 y 좌표 값으로 식별한다.
다시, 도 12를 참조하면, 본 개시의 일 실시 예에 따라, 프로세서(140)는 제5 좌표 값 및 제6 좌표 값을 기초로, 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스(20)를 생성하여 표시한다(S361_b).
도 13을 참조하면, 프로세서(140)는 제1-1 바운딩 박스의 제3 좌표 값 및 제4 좌표 값을 변환한 제5 좌표 값 및 제6 좌표 값에 기초하여, 제1 이미지(1)에서의 제1 객체에 대한 제2-1 바운딩 박스(21)를 식별한다. 그리고 프로세서(140)는 제1-2 바운딩 박스의 제3 좌표 값을 변환한 제5 좌표 값과 제1-2 바운딩 박스의 제4 좌표 값을 변환한 제6 좌표 값에 기초하여, 제1 이미지(1)에서의 제2 객체에 대한 제2-2 바운딩 박스(22)를 식별한다. 이로써, 프로세서(140)는 줌 모드에서 획득된 제1 이미지(1) 내에서 객체를 검출하는 과정 없이도 제1 이미지(1) 내에서의 객체를 추정하여 검출하고, 객체의 위치를 식별할 수 있다.
도 14는 본 개시의 일 실시 예에 따른, 제1 이미지 상에 객체를 검출하여 표시하는 전자 장치의 예시도이다.
도 14를 참조하면, 프로세서(140)는 제2 이미지(2)로부터 획득된 객체의 위치 정보를 기초로, 제1 이미지에서 객체를 검출하고, 각각의 객체에 대한 인식 정보를 디스플레이(110)에 표시한다. 이로써, 사용자는 제1 카메라(120)를 통해 획득한 제1 이미지(1) 내에서 정확한 객체의 위치 정보를 제공 받을 수 있을 것이다.
도 15는 본 개시의 일 실시 예에 따른, 제5 좌표 값 및 제6 좌표 값을 기초로 식별된 제2 바운딩 박스에 기초하여 제1 이미지에서 객체를 검출하지 않는 것을 나타낸 예시도이다.
한편, 본 개시의 일 실시 예에 따라, 프로세서(140)는, 제5 좌표 값 및 상기 제6 좌표 값에 기초하여, 상기 제1 이미지에서 검출된 객체를 포함하는 제2 바운딩 박스(20)의 넓이를 식별하고, 식별된 제2 바운딩 박스(20)의 넓이가 기 설정된 값(이하, 기 설정된 제1 값) 이상이면, 제2 바운딩 박스(20)를 표시할 수 있다.
상술한 바와 같이, 프로세서(140)는 제5 좌표 값 및 제6 좌표 값에 기초하여 제1 이미지(1)에 포함된 객체의 위치를 추정하고, 추정된 객체의 위치에 대응하는 제2 바운딩 박스(20)를 표시한다. 이때, 제5 좌표 값과 제6 좌표 값은, 제2 이미지에서 검출된 객체 자체가 아닌, 객체를 포함하는 바운딩 박스에 관한 좌표 값이다. 그렇기 때문에, 제3 좌표 값과 제4 좌표 값이 각각 변환된 제5 좌표 값과 제6 좌표 값에 기반하여 생성된 제2 바운딩 박스(20)에는 항상 객체가 포함되지 않을 수 있다. 구체적으로, 도 15를 참조하면, 제5 좌표 값 및 제6 좌표 값에 기초하여 생성된 제2 바운딩 박스(20)에 객체 또는 객체의 일 부분이 포함되지 않았다. 따라서, 이러한 경우에 프로세서(140)는 제5 좌표 값과 제6 좌표 값을 기초로, 제2 바운딩 박스(20)의 넓이를 산출한다. 도 15에서 도시된 제5 좌표 값 및 제6 좌표 값에 기초하여 생성된 제2 바운딩 박스(20)의 넓이는 4로 식별된다. 이때, 기 설정된 제1 값이 5라고 가정한다면, 프로세서(140)는 제1 이미지 상에 객체에 대응하는 제2 바운딩 박스(20)를 표시하지 않는다. 즉, 프로세서(140)는 제1 이미지 상에 객체가 존재하지 않는 것으로 추정한다.
한편, 본 개시의 일 실시 예에 따라, 프로세서는, 제2 이미지 내에서의 객체의 이미지를 이용하여 제1 이미지에서의 객체를 검출할 수도 있다. 즉, 제1 이미지에 객체의 일 부분 만이 포함된 경우, 프로세서(140)는 제1 이미지에서 객체를 정확히 검출하기 어려울 것이다. 따라서, 프로세서(140)는 제2 이미지 및 제2 이미지에 포함된 객체의 이미지를 이용하여 제1 이미지에서의 객체를 검출할 수 있다. 이하, 이와 관련된 본 개시의 실시 예에 대하여 설명하도록 한다.
먼저, 프로세서(140)는 먼저, 제5 좌표 값 및 제6 좌표 값에 기초하여, 제1 이미지에서 검출된 객체를 포함하는 제2 바운딩 박스(20)의 넓이를 식별한다. 그리고, 제2 바운딩 박스(20)의 넓이가 기 설정된 값(이하, 기 설정된 제2 값) 미만인지를 식별한다. 상술한 바와 같이, 프로세서(140)는 제5 좌표 값 및 제6 좌표 값에 기초하여 제1 이미지(1)에 포함된 객체의 위치를 추정하고, 추정된 객체의 위치에 대응하는 제2 바운딩 박스(20)를 표시한다. 이때, 프로세서(140)는 제2 바운딩 박스(20)의 넓이를 산출하고, 산출된 제2 바운딩 박스(20)의 넓이가 기 설정된 제2 값 미만인 것으로 식별되면, 제1 이미지에 객체에 대한 정보가 온전히 포함되지 않는 것으로 식별한다. 즉, 프로세서(140)는 제1 이미지에 객체의 일부 만이 포함된 것으로 식별한다. 이는, 프로세서(140)가 제1 이미지에서 객체를 정확히 검출할 수 없는 문제를 야기시키고, 사용자 또한 제1 이미지에서 객체를 정확히 식별할 수 없는 문제로 이어진다.
이를 위해, 프로세서(140)는 제1 바운딩 박스(10)를 기초로 제2 이미지 내 객체 이미지를 식별하고, 식별된 객체 이미지를 상기 제1 이미지에 매칭하여 제1 이미지에서 객체를 검출한다. 구체적으로, 프로세서(140)는 제2 이미지의 제2 바운딩 박스(20)를 기초로, 제2 이미지 내에서의 객체 이미지를 획득한다. 예를 들어, 프로세서(140)는 제2 바운딩 박스(20)를 기초로, 제2 이미지 내에서의 객체 이미지를 크로핑(Cropping)하여 객체에 대한 이미지를 획득할 수 있다.
그리고, 프로세서(140)는 획득한 객체 이미지를 제1 이미지의 제2 바운딩 박스(20)에 매칭한 후 제1 이미지에서의 객체를 검출한다. 예를 들어, 프로세서(140)는 획득한 객체 이미지의 크기를 조정하고, 제2 바운딩 박스(20)에 조정된 객체 이미지를 표시할 수 있다. 객체 이미지의 크기를 조정하기 위하여, 프로세서(140)는 제1 카메라 및 제2 카메라의 해상도, 제1 이미지와 제2 이미지의 크기 정보 등을 이용할 수 있을 것이다. 또는 프로세서(140)는 획득한 객체 이미지를 제1 이미지와 함께 표시할 수도 있다. 예를 들어, 프로세서(140)는 디스플레이(110)에 표시된 제1 이미지 상에, 제2 바운딩 박스(20)에 대응하는 획득한 객체 이미지를 오버 랩하여 표시할 수도 있다.
한편, 기 설정된 제2 값은, 상술하여 설명한 제1 값과 동일한 값을 설정될 수도 있을 것이다.
도 16은, 본 개시의 일 실시 예에 따른, 제2 이미지를 기초로 획득된 객체의 객체 인식 정보를 제1 이미지에 표시하는 것을 개략적으로 나타낸 순서도이다.
도 17은, 본 개시의 일 실시 예에 따른, 제2 이미지를 기초로 획득된 객체의 객체 인식 정보를 제1 이미지에 표시하는 것을 개략적으로 나타낸 예시도이다.
도 16을 참조하면, 본 개시의 일 실시 예에 따라, 프로세서는, 제2 이미지에 포함된 상기 객체에 대한 특징 점을 추출하고, 추출된 특징 점에 기초로 객체에 대한 객체 인식 정보를 획득하고(S341), 제1 이미지에서 검출된 객체를 포함하는 제2 바운딩 박스(20) 및 객체에 대한 객체 인식 정보를 표시할 수 있다(S362).
보다 구체적으로, 프로세서(140)는 제2 이미지를 기초로, 제2 이미지에서 감지된 객체의 유형을 식별하는 객체 인식 과정을 수행한다. 이를 위해, 전자 장치(100)의 메모리에는, 인공지능 기반의 객체 인식 모델이 저장될 수 있다. 이때, 객체 인식 모델은, 복수의 객체의 유형에 관한 이미지를 포함하는, 데이터 셋을 기초로 기 학습된 것일 수 있다.
본 개시의 일 실시 예에 따라, 인공지능 기반의 객체 인식 모델은, 콘볼루션 뉴럴 네트워크(CNN, convolutional neural network) 모델 및 순환 뉴럴 네트워크(recurrent neural network) 모델을 포함할 수 있다. 이하, 컨볼루션 뉴럴 네트워크는 'CCN 모델'이라 지칭하고, 순환 뉴럴 네트워크는 'RNN 모델'이라 지칭하겠다.
CNN 모델은 이미지의 각 영역에 대해 복수의 필터를 적용하여 특징 지도(Feature Map)를 만들어 내는 콘볼루션 층(Convolution Layer)과 특징 지도를 공간적으로 통합함으로써 위치나 회전의 변화에 불변하는 특징을 추출할 수 있도록 하는 통합층(Pooling Layer)을 번갈아 수차례 반복하는 구조로 형성될 수 있다. 이를 통해, 프로세서(140)는 제1 카메라와 제2 카메라로부터 획득한 이미지(제1 이미지 및 제2 이미지)내에서, 점, 선, 면 등의 낮은 수준의 특징에서부터 복잡하고 의미 있는 높은 수준의 특징까지 다양한 수준의 특징을 추출해낼 수 있다.
콘볼루션 층은 입력 영상의 각 패치에 대하여 필터와 국지 수용장(Local Receptive Field)의 내적에 비선형 활성 함수(Activation Function)를 취함으로 서 특징지도(Feature Map)를 구할 수 있다. 다른 네트워크 구조와 비교하여, CNN 모델은 희소한 연결성 (Sparse Connectivity)과 공유된 가중치(Shared Weights)를 가진 필터를 사용하는 특징을 가질 수 있다. 이러한 연결 구조는 학습할 모수의 개수를 줄여주고, 역전파 알고리즘을 통한 학습을 효율적으로 만들어 결과적으로 예측 성능을 향상시킬 수 있다.
통합 층(Pooling Layer 또는 Sub-sampling Layer)은 이전 콘볼루션 층에서 구해진 특징 지도의 지역 정보를 활용하여 새로운 특징 지도를 생성할 수 있다. 일반적으로 통합 층에 의해 새로 생성된 특징 지도는 원래의 특징 지도보다 작은 크기로 줄어드는데, 대표적인 통합 방법으로는 특징 지도 내 해당 영역의 최대값을 선택하는 최대 통합(Max Pooling)과 특징 지도 내 해당 영역의 평균값을 구하는 평균 통합(Average Pooling) 등이 있을 수 있다. 통합 층의 특징 지도는 일반적으로 이전 층의 특징 지도보다 입력 영상에 존재하는 임의의 구조나 패턴의 위치에 영향을 적게 받을 수 있다. 즉, 통합층은 입력 영상 혹은 이전 특징 지도에서의 노이즈나 왜곡과 같은 지역적 변화에 보다 강인한 특징을 추출할 수 있게 되고, 이러한 특징은 분류 성능에 중요한 역할을 할 수 있다. 또 다른 통합 층의 역할은, 깊은 구조상에서 상위의 학습 층으로 올라갈수록 더 넓은 영역의 특징을 반영할 수 있게 하는 것으로서, 특징 추출 층이 쌓이면서, 하위 층에서는 지역적인 특징을 반영하고 상위 층으로 올라 갈수록 보다 추상적인 전체 영상의 특징을 반영하는 특징 생성할 수 있다.
이와 같이, 콘볼루션 층과 통합 층의 반복을 통해 최종적으로 추출된 특징은 다중 신경망(MLP: Multi-Layer Perceptron)이나 서포트 벡터 머신(SVM: Support Vector Machine)과 같은 분류 모델이 완전 연결 층(Fully-connected Layer)의 형태로 결합되어 분류 모델 학습 및 예측에 사용될 수 있다.
RNN 모델은 어떤 특정 부분이 반복되는 구조를 통해 순서를 학습하기에 효과적인 딥러닝 기법으로 이전 상태의 상태 값이 다음 계산의 입력으로 들어가서 결과에 영향을 미칠 수 있다(단어, 문장, 이미지를 인식할 때 앞의 단어, 글자, 프레임을 참고하여 인식할 필요가 있기 때문).
다만, 본 개시에 따른 객체 인식 모델은 CNN 모델과 RNN 모델에 한정되지 아니하고, 다양한 구조의 신경망으로 형성될 수 있다.
도 17을 참조하면, 프로세서(140)는 제2 이미지를 기초로, 제1 객체를 강아지로 제2 객체를 고양이로 각각 인식하였다. 그리고, 프로세서(140)는 제2 이미지를 기초로 획득한 인식 결과 정보를 기초로, 제3 이미지에서의 제2-1 바운딩 박스에 대응되는 제1 객체가 강아지에 해당한다는 정보를 표시한다. 이와 마찬가지로, 프로세서(140)는 제2 이미지를 기초로 획득한 인식 결과 정보를 기초로, 제3 이미지에서의 제2-2 바운딩 박스에 대응되는 제2 객체가 고양이에 해당한다는 정보를 표시한다. 특히, 제1 이미지 내에는 제2 객체의 일 부분만이 포함되었지만, 프로세서(140)는 제2 이미지를 기초로 획득한 인식 결과 정보에 기초하여, 제2-2 바운딩 박스에 대응하는 제2 객체가 고양이에 해당한다는 정보를 사용자에게 정확히 제공할 수 있다.
한편, 본 개시의 일 실시 예에 따라서, 전자 장치(100)는 제2 이미지를 기초로 획득된 객체에 대한 위치 정보를 저장하는 메모리를 더 포함할 수 있다. 이때, 프로세서(140)는, 제3 이미지에서의 객체 이외의 새로운 객체가 검출되면, 제3 이미지에서 검출된 새로운 객체에 대한 위치 정보를 획득하고, 위치 정보를 기초로, 메모리에 저장된 위치 정보를 업데이트 할 수 있다.
구체적으로, 프로세서(140)는 제2 이미지에 포함된 객체를 검출하고, 제2 이미지에서 검출된 객체에 대한 위치 정보를 획득한 후 이와 관련된 객체에 대한 위치 정보를 메모리에 저장할 수 있다. 이는, 앞서 설명한 바와 같이 일반 모드에서 획득된 제2 이미지를 기초로 획득된 객체의 위치 정보이다. 이때, 프로세서(140)가 줌 모드의 제1 카메라를 이용하여 제1 이미지를 획득하는 경우에는, 프로세서(140)는 일반 모드에서 검출되거나 감지되지 않은 새로운 오브젝트를 식별할 수 있다. 이때, 프로세서(140)는 제1 이미지에서의 새로운 오브젝트의 위치를 식별한다. 그리고, 식별된 새로운 오브젝트의 위치, 예를 들어, 새로운 오브젝트에 대한 제7 좌표 값 및 제 8좌표 값을 식별하고, 줌 인 비율에 기초하여, 제7 좌표 값 및 제8 좌표 값을 제1 카메라의 제3 이미지에 대응하는 제9 좌표 값 및 제10 좌표 값을 각각 변환한다. 그리고, 프로세서(140)는 기 저장된 제2 이미지를 기초로 획득된 객체의 위치 정보와, 제9 좌표 값 및 제10 좌표 값을 기반한 새로운 오브젝트의 위치 정보를 병합시켜, 위치 정보를 업데이트할 수 있다.
도 18은, 본 개시의 일 실시 예에 따른, 제1 카메라와 제2 카메라의 전자 장치에서의 배치된 이격 거리, 제1 카메라의 시야 각 및 제2 카메라의 시야 각에 기초하여, 제2 이미지 및 제3 이미지 간의 상대적인 위치를 식별하는 것을 나타낸 예시도이다.
한편, 본 개시의 일 실시 예에 따라서, 프로세서(140)는, 제1 카메라(120)와 제2 카메라(130)의 전자 장치(100)에서의 배치된 이격 거리, 제1 카메라(120)의 시야 각 및 제2 카메라(130)의 시야 각에 기초하여, 제2 이미지 및 제3 이미지 간의 상대적인 위치를 식별할 수 있다.
구체적으로, 도 18을 참조하면, 프로세서(140)는 제1 카메라(120)와 제2 카메라(130) 간의 이격 거리(dC)를 식별한다. 한편, 제1 카메라(120)와 제2 카메라(130) 간의 이격 거리(dC)에 관한 정보는 전자 장치(100)의 메모리에 저장될 수 있다.
그리고, 프로세서(140)는 제1 카메라(120) 및 제2 카메라(130)의 객체(200)와의 거리를 식별한다. 예를 들어, 프로세서(140)는 제1 카메라(120)의 O/I(Object & Imager Distance) 및 제2 카메라(130)의 O/I(Object & Imager Distance)를 각각 식별할 수 있다. 한편 본 개시의 일 실시 예에 따라서는 전자 장치(100)의 후면에 제1 카메라(120) 및 제2 카메라(130)가 배치됨에 따라, 제1 카메라와 객체와의 거리 및 제2 카메라와 객체와의 거리는 동일할 수 있다. 한편, 이를 위해, 전자 장치(140)는 카메라(예를 들어, 제1 카메라 및 제2 카메라)와 객체와의 거리를 식별할 수 있는 센서(예를 들어, ToF(Time of Flight)를 더 포함할 수 있다.
그리고, 프로세서(140)는, 식별된 제1 카메라와 제2 카메라의 이격 거리, 제1 카메라와 객체 간의 거리, 제2 카메라와 객체 간의 거리, 제1 카메라(120)의 시야 각(Field of View) 및 제2 카메라(130)의 시야 각에 기초하여, 제2 이미지와 제3 이미지 간의 상대적인 위치를 식별할 수 있다. 상술한 예를 들어 다시 설명하면, 프로세서(140)는 제3 이미지를 기준으로 제2 이미지의 x축 방향의 제1 변위 값, 제2 변위 값을 식별하고, y축 방향의 제3 변위 값, 제4 변위 값을 식별할 수 있다.
도 18을 참조하면, 제1 변위 값이 w1이라고 가정한다. 이때, 프로세서(140)는 하기의 식 1을 이용하여 제1 변위 값을 식별할 수 있다.
[식 1] w1 = dW * tan(β1) - (dW * tan(α1) + dC1)
여기서, dW는 제1 카메라 및 제2 카메라와 객체 간의 거리이고, β1은 제1 카메라의 수평 시야 각의 1/2 값이고, α1은 제2 카메라의 수평 시야 각의 1/2 값이고, dc1는 제1 카메라 및 제2 카메라의 수평 이격 거리이다.
한편, 도 18을 참조하면, 제2 변위 값이 w2이라고 가정한다. 이때, 프로세서(140)는 하기의 식 2를 이용하여 제2 변위 값을 식별할 수 있다.
[식 2] w1 = dW * tan(β1) - (dW * tan(α1) - dC1)
한편, 도 18을 참조하면, 제3 변위 값이 h1이라고 가정한다. 이때, 프로세서(140)는 하기의 식 3을 이용하여 제3 변위 값을 식별할 수 있다.
[식 3] h1 = dW * tan(β2) - (dW * tan(α2) - dC2)
여기서, dW는 제1 카메라 및 제2 카메라와 객체 간의 거리이고, β2는 제1 카메라의 수직 시야 각의 1/2 값이고, α2은 제2 카메라의 수직 시야 각의 1/2 값이고, dC2는 제1 카메라 및 제2 카메라의 수직 이격 거리이다.
한편, 도 18을 참조하면, 제4 변위 값이 h2이라고 가정한다. 이때, 프로세서(140)는 하기의 식 4를 이용하여 제4 변위 값을 식별할 수 있다.
[식 4] h2 = dW * tan(β2) - (dW * tan(α2) - dC2)
한편, 본 개시의 다른 실시 예로, 프로세서(140)는 제1 카메라와 제2 카메라의 시야 각에 기초하여 각각의 변위 값을 식별할 수도 있다. 예를 들어, 프로세서(140)는 제1 카메라의 시야각 정보를 기초로, 제1 카메라의 수평 시야각 거리를 산출하고, 제1 카메라의 시야각 정보를 기초로, 제2 카메라의 수평 시야각 거리를 산출한다. 그리고 프로세서(140)는 제1 카메라의 수평 시야각 거리에서 제2 카메라의 수평 시야각 거리와 1 카메라 및 제2 카메라의 수평 이격 거리를 뺀 값으로, 제1 변위 값인, w1을 산출할 수도 있을 것이다. 다만, 이는 제1 카메라 및 제2 카메라와 객체 간의 거리를 식별하는 라인이 각각의 카메라의 FOV의 중심을 관통하는 경우에 가능할 것이다.
도 19는, 본 개시의 다른 실시 예에 따른, 제1 카메라와 제2 카메라의 전자 장치에서의 배치된 이격 거리, 제1 카메라의 시야 각 및 제2 카메라의 시야 각에 기초하여, 제2 이미지 및 제3 이미지 간의 상대적인 위치를 식별하는 것을 나타낸 예시도이다.
한편, 도 19를 참조하면, 제1 카메라 및 제2 카메라와 객체 간의 거리를 식별하는 라인이 각각의 카메라의 FOV의 중심을 관통하지 않을 수 있다. 다만, 이러한 경우에도, 프로세서는 상술하여 설명한 식 1 내지 식 4를 기초로, 각각의 변위 값(예를 들어, 제1 변위 값 내지 제4 변위 값)을 식별할 수 있다. 보다 구체적으로, 프로세서(140)는 하기의 식 1을 이용하여 제1 변위 값을 식별할 수 있다.
[식 1] w1 = dW * tan(β1) - (dW * tan(α1) + dC1)
여기서, dW는 제1 카메라 및 제2 카메라와 객체 간의 거리이고, β1은 제1 카메라의 수평 시야 각의 1/2 값이고, α1은 제2 카메라의 수평 시야 각의 1/2 값이고, dC1는 제1 카메라 및 제2 카메라의 수평 이격 거리이다. 이하, 제2 내지 제4 변위 값을 식별하는 방법에 대해서는, 도 18을 참조하여 설명한 방법과 일치하므로 생략하도록 한다. 다만, 제1 카메라 및 제2 카메라와 객체 간의 거리를 식별하는 라인이 각각의 카메라의 FOV의 중심을 관통하지 않는 경우에는 상술한 각각의 카메라의 시야 각을 이용하여 변위 값을 산출하는 방법은 적용되지 않는다.
한편, 도면에 명확히 도시되지는 않았으나, 본 개시의 실시 예에 따라 객체에 대한 제1 카메라(120)와 제2 카메라(130)의 거리가 상이할 수 있다. 즉, 제1 카메라와 객체 간의 거리와 제2 카메라와 객체 간의 거리가 상이할 수 있다. 이러한 경우, 프로세서(140)는 각각의 카메라의 객체와의 거리에 기초하여, 제1 카메라로부터 획득 가능한 제3 이미지와 제2 카메라로부터 획득한 제2 이미지를 동일한 평면 상에 배치한 후 상술한 방법에 기초하여 제1 내지 제4 변위 값을 식별할 수 있을 것이다.
도 20은 본 개시의 일 실시 예에 따른 전자 장치의 세부 구성도이다.
도 20을 참조하면, 본 개시의 일 실시 예에 따라 전자 장치(100)는 디스플레이(110), 제1 카메라(120), 제2 카메라(130), 프로세서(140), 메모리(150), 센서(160), 입출력 인터페이스(170) 및 통신부(180)를 포함한다.
전자 장치(100)의 디스플레이(110), 제1 카메라(120), 제2 카메라(130) 및 프로세서(140)에 대해서는 상술하여 설명한 바, 생략하도록 한다.
메모리(150)에는 전자 장치(100)가 동작하기 위한 소프트웨어 프로그램 및 어플리케이션이 저장될 수 있으며, 프로그램 또는 애플리케이션의 실행 중에 입력되거나 설정 또는 생성되는 각종 데이터 등과 같은 다양한 정보가 저장될 수 있다. 예를 들어, 메모리(150)는 본 개시의 일 실시 예에 따라, FPGA(Field Programmable gate array)의 형태로 구현될 수 있다. 또한, 메모리(150)에는 제2 이미지를 기초로 획득한 객체의 위치 정보가 저장될 수 있다. 또한 메모리(150)에는 제1 카메라와 제2 카메라의 이격 거리 정보, 제1 카메라의 시야 각 정보 및 제2 카메라의 시야 각 정보가 저장될 수 있다.
한편, 전자 장치(100)는 센서(160)를 이용하여, 전자 장치(100)에 관한 다양한 정보를 획득한다. 예를 들어, 전자 장치(100)는 센서(160)를 통해 제1 카메라와 객체(200) 간의 거리 및 제2 카메라와 객체(200) 간의 거리 값을 식별할 수 있다. 이를 위해 센서(160)는 각각의 카메라(예를 들어, 제1 카메라 및 제2 카메라)에 포함된 ToF 센서로 구현될 수 있다.
또한, 전자 장치(100)는 입출력 인터페이스(170)를 통해, 사용자로부터 전자 장치(100)의 제어와 관련된 다양한 정보를 입력 받을 수 있다. 예를 들어, 전자 장치(100)는 제1 카메라 또는 제2 카메라의 시야 각 또는 초점 거리를 조정하는 명령을 입출력 인터페이스(170)를 통해 입력 받을 수 있다. 보다 구체적으로, 전자 장치(100)는 일반 모드의 제1 카메라를 줌 모드로 변경하는, 사용자의 입력을 입출력 인터페이스(170)를 통해 입력 받는다. 이를 위해, 입출력 인터페이스(170)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린, 리모컨 송 수신부 등으로 구현될 수 있다.
또한, 전자 장치(100)는 통신부(180)를 통해, 무선 통신 기술이나 이동 통신 기술을 이용하여 각종 외부 장치와 통신을 수행하여 객체 및 전자 장치와 관련된 다양한 정보를 송수신할 수 있다. 한편, 무선 통신 기술로는, 예를 들어, 블루투스(Bluetooth), 저전력 블루투스(Bluetooth Low Energy), 캔(CAN) 통신, 와이 파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi Direct), 초광대역 통신(UWB, ultrawide band), 지그비(zigbee), 적외선 통신(IrDA, infrared Data Association) 또는 엔에프씨(NFC, Near Field Communication) 등이 포함될 수 있으며, 이동 통신 기술 로는, 3GPP, 와이맥스(Wi-Max), LTE(Long Term Evolution), 5G 등이 포함될 수 있다.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치에서의 처리 동작을 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해 되어져서는 안될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    디스플레이;
    제1 카메라;
    제2 카메라; 및
    줌 모드로 동작하는 상기 제1 카메라를 통해 제1 이미지를 획득하고, 상기 제1 이미지를 표시하도록 상기 디스플레이를 제어하고, 일반 모드로 동작하는 제2 카메라를 통해 제2 이미지를 획득하고, 상기 줌 모드에서의 줌 인 비율에 기초하여 상기 제1 이미지에 대응되는 상기 일반 모드에서의 상기 제1 카메라의 제3 이미지를 식별하고, 상기 제2 이미지에 포함된 객체를 검출하여, 상기 제2 이미지에서 상기 검출된 객체에 대한 위치 정보를 획득하고, 상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치에 기초하여, 상기 제2 이미지로부터 획득된 위치 정보에 대응되는 상기 제3 이미지에서의 상기 객체의 위치 정보를 획득하고, 상기 객체의 위치 정보에 기초하여, 상기 제1 이미지에서 상기 객체를 검출하는 프로세서;를 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 위치 정보는,
    상기 제2 이미지에서 검출된 객체를 포함하는 제1 바운딩 박스의 제1 좌표 값 및 제2 좌표 값을 포함하고,
    상기 제1 좌표 값은, 상기 제1 바운딩 박스의 좌상단 모서리의 좌표 값이고, 상기 제2 좌표 값은 상기 제1 바운딩 박스의 우하단 모서리의 좌표 값인, 전자 장치.
  3. 제2항에 있어서,
    상기 프로세서는,
    상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치에 기초하여, 상기 제1 좌표 값 및 상기 제2 좌표 값과 대응하는, 상기 제3 이미지에서의 상기 객체에 대한 제3 좌표 값 및 제4 좌표 값을 각각 식별하고, 상기 줌 모드에서의 줌 인 비율 기초하여, 상기 제3 이미지 내에 상기 제1 이미지에 대응되는 프레임의 크기 및 위치를 식별하고, 상기 프레임 내 상기 제3 좌표 값 및 제4 좌표 값 중 적어도 하나가 포함되는 경우, 상기 제3 및 제4 좌표 값에 기초하여, 상기 줌 모드로 동작하는 상기 제1 카메라를 통해 획득된 제1 이미지에서 상기 객체를 검출하는, 정자 장치.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 줌 인 비율 및 프레임의 크기 및 위치에 기초하여, 상기 제3 좌표 값 및 제4 좌표 값과 대응하는, 상기 제1 이미지에서의 제5 좌표 값 및 제6 좌표 값을 각각 식별하고, 상기 제5 좌표 값 및 제6 좌표 값을 기초로, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스를 생성하여 표시하고,
    상기 제5 좌표 값은, 상기 제2 바운딩 박스의 좌상단 모서리의 좌표 값이고, 상기 제6 좌표 값은 상기 제2 바운딩 박스의 우하단 모서리의 좌표 값인, 전자 장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 제5 좌표 값 및 상기 제6 좌표 값에 기초하여, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스의 넓이를 식별하고, 상기 식별된 제2 바운딩 박스의 넓이가 기 설정된 값 이상이면, 상기 제2 바운딩 박스를 표시하는, 전자 장치.
  6. 제4항에 있어서,
    상기 프로세서는,
    상기 제5 좌표 값 및 상기 제6 좌표 값에 기초하여, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스의 넓이를 식별하고, 제2 바운딩 박스의 넓이가 기 설정된 값 미만이면, 상기 제1 바운딩 박스를 기초로 상기 제2 이미지 내 객체 이미지를 식별하고, 상기 식별된 객체 이미지를 상기 제1 이미지에 매칭하여 상기 제1 이미지에서 상기 객체를 검출하는, 전자 장치.
  7. 제4항에 있어서,
    상기 프로세서는,
    상기 제2 이미지에 포함된 상기 객체에 대한 특징 점을 추출하고, 상기 추출된 특징 점에 기초로 상기 객체에 대한 객체 인식 정보를 획득하고, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스 및 상기 객체에 대한 객체 인식 정보를 표시하는, 전자 장치.
  8. 제1항에 있어서,
    상기 제2 이미지에서 상기 검출된 객체에 대한 위치 정보를 저장하는 메모리를 더 포함하고,
    상기 프로세서는,
    상기 제3 이미지에서의 상기 객체 이외의 새로운 객체가 검출되면, 상기 제3 이미지에서 상기 검출된 상기 새로운 객체에 대한 위치 정보를 획득하고, 상기 위치 정보를 기초로, 상기 메모리에 저장된 위치 정보를 업데이트 하는, 전자 장치.
  9. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 카메라와 상기 제2 카메라의 상기 전자 장치에서의 배치된 이격 거리, 상기 제1 카메라의 시야 각 및 상기 제2 카메라의 시야 각에 기초하여, 상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치를 식별하고, 상기 식별된 상대적인 위치에 기초하여, 상기 제2 이미지로부터 획득된 위치 정보에 대응되는 상기 제3 이미지에서의 상기 객체의 위치 정보를 획득하는, 전자 장치.
  10. 제1 카메라 및 제2 카메라를 포함하는, 전자 장치의 제어 방법에 있어서,
    줌 모드로 동작하는 상기 제1 카메라를 통해 제1 이미지를 획득하고, 상기 제1 이미지를 표시하는 단계;
    일반 모드로 동작하는 제2 카메라를 통해 제2 이미지를 획득하는 단계;
    상기 줌 모드에서의 줌 인 비율에 기초하여 상기 제1 이미지에 대응되는 상기 일반 모드에서의 상기 제1 카메라의 제3 이미지를 식별하는 단계;
    상기 제2 이미지에 포함된 객체를 검출하여, 상기 제2 이미지에서 상기 검출된 객체에 대한 위치 정보를 획득하는 단계;
    상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치에 기초하여, 상기 제2 이미지로부터 획득된 위치 정보에 대응되는 상기 제3 이미지에서의 상기 객체의 위치 정보를 획득하는 단계; 및
    상기 객체의 위치 정보에 기초하여, 상기 제1 이미지에서 상기 객체를 검출하는 단계를 포함하는, 방법.
  11. 제10항에 있어서,
    상기 위치 정보는,
    상기 제2 이미지에서 검출된 객체를 포함하는 제1 바운딩 박스의 제1 좌표 값 및 제2 좌표 값을 포함하고,
    상기 제1 좌표 값은, 상기 제1 바운딩 박스의 좌상단 모서리의 좌표 값이고, 상기 제2 좌표 값은 상기 제1 바운딩 박스의 우하단 모서리의 좌표 값인, 방법.
  12. 제11항에 있어서,
    상기 제3 이미지에서의 상기 객체의 위치 정보를 획득하는 단계는,
    상기 제2 이미지 및 상기 제3 이미지 간의 상대적인 위치에 기초하여, 상기 제1 좌표 값 및 상기 제2 좌표 값과 대응하는, 상기 제3 이미지에서의 상기 객체에 대한 제3 좌표 값 및 제4 좌표 값을 각각 식별하는 단계; 및
    상기 줌 모드에서의 줌 인 비율 기초하여, 상기 제3 이미지 내에 상기 제1 이미지에 대응되는 프레임의 크기 및 위치를 식별하는 단계;를 포함하고,
    제1 이미지에서 상기 객체를 검출하는 단계는,
    상기 프레임 내 상기 제3 좌표 값 및 제4 좌표 값 중 적어도 하나가 포함되는 경우, 상기 제3 및 제4 좌표 값에 기초하여, 상기 줌 모드로 동작하는 상기 제1 카메라를 통해 획득된 제1 이미지에서 상기 객체를 검출하는 단계를 포함하는, 방법.
  13. 제12항에 있어서,
    상기 프레임의 크기 및 위치에 기초하여, 상기 제3 좌표 값 및 제4 좌표 값과 대응하는, 상기 제1 이미지에서의 제5 좌표 값 및 제6 좌표 값을 각각 식별하는 단계; 및
    상기 제5 좌표 값 및 제6 좌표 값을 기초로, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스를 생성하여 표시하는 단계를 포함하고,
    상기 제5 좌표 값은, 상기 제2 바운딩 박스의 좌상단 모서리의 좌표 값이고, 상기 제6 좌표 값은 상기 제2 바운딩 박스의 우하단 모서리의 좌표 값인, 방법.
  14. 제13항에 있어서,
    상기 제2 바운딩 박스를 생성하여 표시하는 단계는,
    상기 제5 좌표 값 및 상기 제6 좌표 값에 기초하여, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스의 넓이를 식별하는 단계; 및
    상기 식별된 제2 바운딩 박스의 넓이가 기 설정된 값 이상이면, 상기 제2 바운딩 박스를 표시하는 단계를 포함하는, 방법.
  15. 제13항에 있어서,
    상기 제2 바운딩 박스를 생성하여 표시하는 단계는,
    상기 제5 좌표 값 및 상기 제6 좌표 값에 기초하여, 상기 제1 이미지에서 검출된 상기 객체를 포함하는 제2 바운딩 박스의 넓이를 식별하는 단계;
    제2 바운딩 박스의 넓이가 기 설정된 값 미만이면, 상기 제1 바운딩 박스를 기초로 상기 제2 이미지 내 객체 이미지를 식별하는 단계; 및
    상기 식별된 객체 이미지를 상기 제1 이미지에 매칭하여 상기 제1 이미지에서 상기 객체를 검출하는 단계를 포함하는, 방법.
PCT/KR2023/001019 2022-01-28 2023-01-20 전자 장치 및 전자 장치의 제어 방법 WO2023146228A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220013648A KR20230116565A (ko) 2022-01-28 2022-01-28 전자 장치 및 전자 장치의 제어 방법
KR10-2022-0013648 2022-01-28

Publications (1)

Publication Number Publication Date
WO2023146228A1 true WO2023146228A1 (ko) 2023-08-03

Family

ID=87471906

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/001019 WO2023146228A1 (ko) 2022-01-28 2023-01-20 전자 장치 및 전자 장치의 제어 방법

Country Status (2)

Country Link
KR (1) KR20230116565A (ko)
WO (1) WO2023146228A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170128779A (ko) * 2015-05-15 2017-11-23 후아웨이 테크놀러지 컴퍼니 리미티드 측정 방법 및 단말기
KR20190014638A (ko) * 2017-08-03 2019-02-13 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법
KR20190032061A (ko) * 2017-09-19 2019-03-27 삼성전자주식회사 이미지 보정을 수행하는 전자 장치 및 그 동작 방법
US20200042815A1 (en) * 2013-04-08 2020-02-06 C3D Augmented Reality Solutions Ltd Distance estimation using multi-camera device
KR20200138021A (ko) * 2019-05-31 2020-12-09 애플 인크. 미디어 캡처 및 보유를 위한 비디오 분석 및 관리 기술

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200042815A1 (en) * 2013-04-08 2020-02-06 C3D Augmented Reality Solutions Ltd Distance estimation using multi-camera device
KR20170128779A (ko) * 2015-05-15 2017-11-23 후아웨이 테크놀러지 컴퍼니 리미티드 측정 방법 및 단말기
KR20190014638A (ko) * 2017-08-03 2019-02-13 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법
KR20190032061A (ko) * 2017-09-19 2019-03-27 삼성전자주식회사 이미지 보정을 수행하는 전자 장치 및 그 동작 방법
KR20200138021A (ko) * 2019-05-31 2020-12-09 애플 인크. 미디어 캡처 및 보유를 위한 비디오 분석 및 관리 기술

Also Published As

Publication number Publication date
KR20230116565A (ko) 2023-08-04

Similar Documents

Publication Publication Date Title
WO2016209020A1 (en) Image processing apparatus and image processing method
AU2017244245B2 (en) Electronic device and operating method thereof
WO2017014415A1 (en) Image capturing apparatus and method of operating the same
WO2016208849A1 (ko) 디지털 촬영 장치 및 그 동작 방법
WO2016032292A1 (en) Photographing method and electronic device
WO2019143050A1 (en) Electronic device and method for controlling autofocus of camera
WO2020204277A1 (en) Image processing apparatus and image processing method thereof
WO2016126083A1 (ko) 주변 상황 정보를 통지하기 위한 방법, 전자 장치 및 저장 매체
WO2019039760A1 (ko) 전자 장치 및 그의 문자 인식 방법
WO2020171333A1 (ko) 이미지 내의 오브젝트 선택에 대응하는 서비스를 제공하기 위한 전자 장치 및 방법
WO2021133053A1 (ko) 전자 장치 및 그의 제어 방법
WO2021025509A1 (en) Apparatus and method for displaying graphic elements according to object
WO2016080653A1 (en) Method and apparatus for image processing
WO2014073939A1 (en) Method and apparatus for capturing and displaying an image
WO2023146228A1 (ko) 전자 장치 및 전자 장치의 제어 방법
WO2022260273A1 (ko) 전자 장치 및 그 제어 방법
WO2022092706A1 (ko) 복수의 카메라를 이용한 사진 촬영 방법 및 그 장치
WO2023277298A1 (ko) 이미지 안정화 방법 및 이를 위한 전자 장치
WO2022010193A1 (ko) 이미지 개선을 위한 전자장치 및 그 전자장치의 카메라 운용 방법
WO2022075605A1 (ko) 전자 장치 및 이의 제어 방법
WO2022119136A1 (ko) 스크린샷 이미지로부터 태그 정보를 추출하는 방법 및 시스템
WO2021172901A1 (ko) 카메라 프리뷰를 제공하는 전자 장치 및 그 동작 방법
WO2018070756A1 (en) Method, device and recording medium for processing image
WO2013022154A1 (en) Apparatus and method for detecting lane
WO2016043478A1 (ko) 디바이스에 객체를 표시하는 방법 및 그 디바이스

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23747270

Country of ref document: EP

Kind code of ref document: A1