WO2021060684A1 - 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치 - Google Patents

머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치 Download PDF

Info

Publication number
WO2021060684A1
WO2021060684A1 PCT/KR2020/009479 KR2020009479W WO2021060684A1 WO 2021060684 A1 WO2021060684 A1 WO 2021060684A1 KR 2020009479 W KR2020009479 W KR 2020009479W WO 2021060684 A1 WO2021060684 A1 WO 2021060684A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
related image
object recognition
display time
present
Prior art date
Application number
PCT/KR2020/009479
Other languages
English (en)
French (fr)
Inventor
김재현
Original Assignee
주식회사 작당모의
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200015042A external-priority patent/KR102539072B1/ko
Application filed by 주식회사 작당모의 filed Critical 주식회사 작당모의
Priority to JP2022519820A priority Critical patent/JP2022550548A/ja
Priority to US17/763,977 priority patent/US20220319176A1/en
Publication of WO2021060684A1 publication Critical patent/WO2021060684A1/ko
Priority to JP2023198484A priority patent/JP2024016283A/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Definitions

  • the present invention relates to a method and apparatus for recognizing an object in an image using machine learning, and more particularly, to a method and apparatus for recognizing an object and an object display time using superstitious learning.
  • the method of sharing personal know-how is moving from the TEXT center to the video center. If the objects used in these videos can be identified, various business models can be attached, and it can be the basis for rich processing of content. In order to realize this, the method of artificially substituting people takes a lot of time and capital labor, and it is difficult to maintain a certain quality control. If this is used, it will have a meaning as useful information for both the people who process the image and those who are provided with know-how through the image.
  • the present invention was created to solve the above-described problem, and an object thereof is to provide a method and apparatus for recognizing an object in an image using machine learning.
  • the present invention is to improve the conventional situation in which learning can be performed only when a large amount of human manual work is invested in order to find an object in an image by introducing artificial intelligence.
  • the present invention provides an apparatus and method for recognizing an object in an image due to the nature of the object in a short time by introducing a spiral learning model that can start product learning by starting with a small quantity of about several hundred first. There is a purpose.
  • an object recognition method includes the steps of: (a) obtaining an object-related image; And (b) recognizing the object and the object display time from the acquired object-related image using an object recognition deep learning model.
  • the step (a) includes: obtaining the object-related image; Dividing the object-related image into a plurality of frames; And determining a frame including the object from among the plurality of frames.
  • the step (b) includes: training the object recognition deep learning model from a training image of a pre-tagged object; And tagging an object included in the object-related image by using the learned object recognition deep learning model.
  • the learning may include determining a feature from a learning image of the pre-tagged object; And converting the determined feature into a vector value.
  • the object recognition method may further include displaying the object-related image based on the object and the object display time.
  • the object recognition method includes: obtaining an input for the object display time; And displaying a frame including the object corresponding to the object display time among the plurality of frames.
  • an object recognition apparatus includes: a communication unit that obtains an image related to an object; And a control unit for recognizing the object and the object display time from the acquired object-related image using an object recognition deep learning model.
  • the communication unit may obtain the object-related image, and the controller may divide the object-related image into a plurality of frames, and determine a frame including the object among the plurality of frames.
  • the controller may train the object recognition deep learning model from a training image of a pre-tagged object, and tag an object included in the object-related image using the learned object recognition deep learning model.
  • the controller may determine a feature from the learning image of the pre-tagged object and convert the determined feature into a vector value.
  • the object recognition apparatus may further include a display unit that displays the object-related image based on the object and the object display time.
  • the object recognition apparatus includes: an input unit for obtaining an input for the object display time; And a display unit for displaying a frame including the object corresponding to the object display time among the plurality of frames.
  • FIG. 1 is a diagram illustrating an object recognition method according to an embodiment of the present invention.
  • 2A is a diagram illustrating an example of image collection according to an embodiment of the present invention.
  • 2B is a diagram illustrating an example of learning an object recognition deep learning model according to an embodiment of the present invention.
  • 2C and 2D are diagrams illustrating an example of object recognition according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a preliminary preparation operation method for object recognition according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating a recognition extraction operation method for object recognition according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating a functional configuration of an object recognition apparatus according to an embodiment of the present invention.
  • FIG. 1 is a diagram illustrating an object recognition method according to an embodiment of the present invention.
  • 2A is a diagram illustrating an example of image collection according to an embodiment of the present invention.
  • 2B is a diagram illustrating an example of learning an object recognition deep learning model according to an embodiment of the present invention.
  • 2C and 2D are diagrams illustrating an example of object recognition according to an embodiment of the present invention.
  • step S101 is a step of obtaining an image related to an object.
  • an object-related image 201 is obtained, the object-related image 201 is divided into a plurality of frames, and a frame 203 including an object among the plurality of frames may be determined. have.
  • a plurality of frames may be generated by dividing the object-related image 201 in units of 1 second.
  • Step S103 is a step of recognizing an object and an object display time from an object-related image using an object recognition deep learning model.
  • the object recognition deep learning model 210 may be trained from a training image of a pre-tagged object. For example, a feature may be determined from a learning image of a pre-tagged object, and the determined feature may be converted into a vector value.
  • an object ID 220 and an object display time for a screen on which the object is displayed may be determined.
  • an object-related image may be displayed based on the object and the object display time.
  • an input for an object display time may be obtained, and a frame including an object corresponding to the object display time among a plurality of frames may be displayed.
  • a list of at least one object-related image including an object corresponding to the object display time may be displayed.
  • the number of time warps to the display time of the object is more than a certain number, it is determined that the user's preference for the object is high, and a list of various images related to the object is provided to the user, thereby utilizing the user's object search. You can increase your sex.
  • the object may include various products such as cosmetics, accessories, and fashion goods, but is not limited thereto.
  • FIG. 3 is a diagram illustrating a preliminary preparation operation method for object recognition according to an embodiment of the present invention.
  • step S301 is a step of collecting a learning image using an algorithm secured by itself.
  • the training image may include an image for learning an object recognition deep learning model.
  • a keyword existing in a learning image may be identified, and an image that can be used as an image and an image that cannot be used may be distinguished by using an algorithm obtained by the keywords themselves.
  • Step S303 is a step of extracting an object image from the learning image.
  • the learning image can be subdivided by extracting the object image every second.
  • Step S305 is a step of learning the object recognition deep learning model 210 from the object image.
  • the object image may include a learning image of the object.
  • the object of the training image may be tagged in advance by the user.
  • the object recognition deep learning model 210 includes a YOLO algorithm, a single shot multibox detector (SSD) algorithm, and a CNN algorithm, but the application of other algorithms is not excluded.
  • step S307 a learning file calculated according to the learning of the object recognition deep learning model 210 is stored.
  • the learning file can be moved to the server to be extracted and the appropriateness of the extraction can be measured.
  • Step S309 is a step of automatically tagging an object in an object-related image by using the learning file.
  • it is an automatic tagging step in which an object in a newly introduced object-related image can be automatically introduced into data that can be learned.
  • steps S305 to S309 may be repeated until a desired recognition rate is achieved by repetitive learning.
  • FIG. 4 is a diagram illustrating a recognition extraction operation method for object recognition according to an embodiment of the present invention.
  • step S401 is a step of obtaining an image related to an object. That is, a new image can be input.
  • a new image may be acquired in the same manner as in step S301 of FIG. 3.
  • an object image may be extracted from the object-related image. That is, a frame including an object may be extracted from an object-related image. For example, an image of an object can be extracted in units of 1 second so that an image of an object can be input.
  • step S405 it is determined whether the object image and the learning file generated by the object recognition deep learning model match.
  • the learning file may include an existing object DB (database).
  • step S407 when the object image and the learning file generated by the object recognition deep learning model match, the ID (identification) and object display time of the object corresponding to the object image are extracted.
  • step S409 when the object image and the learning file generated by the object recognition deep learning model do not match, the object image is stored so that a new object can be registered.
  • the data that cannot be matched can be manually tagged and used for learning the object recognition deep learning model, and the system can be configured to smoothly create a virtuous cycle so that it can be matched with the object DB in the next recognition extraction step. .
  • FIG. 5 is a diagram showing a functional configuration of an object recognition apparatus 500 according to an embodiment of the present invention.
  • the object recognition apparatus 500 may include a communication unit 510, a control unit 520, a display unit 530, an input unit 540, and a storage unit 550.
  • the communication unit 510 may acquire an object-related image.
  • the communication unit 510 may include at least one of a wired communication module and a wireless communication module. All or part of the communication unit 510 may be referred to as a'transmitter', a'receiver', or a'transceiver'.
  • the controller 520 may recognize an object and an object display time from an object-related image using an object recognition deep learning model.
  • control unit 520 includes an image collection unit 522 that collects beauty-related creators and related images, deep learning by collecting the collected images, and automatically creates new products using the previously learned learning data. It may include an object learning unit 524 for learning by tagging and an object extraction unit 526 for distinguishing what this product is from among products learned when a specific image is presented.
  • the controller 520 may include at least one processor or a micro processor, or may be a part of a processor. Also, the controller 520 may be referred to as a communication processor (CP). The controller 520 may control the operation of the object recognition apparatus 500 according to various embodiments of the present disclosure.
  • CP communication processor
  • the display unit 530 may display an object-related image based on the object and the object display time.
  • the display unit 530 may display a frame including an object corresponding to an object display time among a plurality of frames.
  • the display unit 530 may display information processed by the object recognition apparatus 500.
  • the display unit 530 may include a liquid crystal display (LCD), a light emitting diode (LED) display, an organic light emitting diode (OLED) display, and a microelectromechanical system (MEMS). Mechanical Systems) display and electronic paper display.
  • LCD liquid crystal display
  • LED light emitting diode
  • OLED organic light emitting diode
  • MEMS microelectromechanical system
  • the input unit 540 may obtain an input for the object display time. In an embodiment, the input unit 540 may obtain an input for an object display time by a user.
  • the storage unit 550 may store a training file of the object recognition deep learning model 210, an object-related image, an object ID, and an object display time.
  • the storage unit 550 may be formed of a volatile memory, a nonvolatile memory, or a combination of a volatile memory and a nonvolatile memory. In addition, the storage unit 550 may provide stored data according to the request of the control unit 520.
  • the object recognition apparatus 500 may include a communication unit 510, a control unit 520, a display unit 530, an input unit 540, and a storage unit 550.
  • the object recognition apparatus 500 may be implemented as having more or fewer configurations than the configurations described in FIG. 5 because the configurations described in FIG. 5 are not essential. have.
  • a system is constructed so that the first hundreds of images are manually learned and other images can be automatically extracted using the learned data.
  • things that can be automatically tagged when an object image is inserted can be automatically tagged, and a system is constructed to separately collect and tag those that are not automatically tagged, so that human manual work can be minimized. .
  • the initial data is learned using a small amount of data, and the shape of the image is automatically extracted using this learning data and used to create learning data. Learning data can be learned.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 객체 인식 방법은, (a) 객체 관련 영상을 획득하는 단계; 및 (b) 객체 인식 딥러닝 모델을 이용하여, 상기 획득된 객체 관련 영상으로부터 상기 객체 및 객체 표시 시간을 인식하는 단계;를 포함할 수 있다.

Description

머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치
본 발명은 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치에 관한 것으로, 더욱 상세하게는 미신 러닝을 이용하여 객체 및 객체 표시 시간을 인식하기 위한 방법 및 장치에 관한 것이다.
최근 개인의 노하우를 공유하는 방법이 TEXT 중심에서 영상중심으로 이동하고 있는 추세이다. 이러한 영상에서 사용한 사물을 판별해 낼 수 있다면 다양한 비즈니스 모델을 붙일 수 있으며, 컨텐츠를 풍성하게 가공할 수 있는 기본이 될 수 있다. 이를 구현하기 위해 사람이 인위적으로 대입하는 방식은 많은 시간과 자본노동이 소요되기도 하고 일정한 품질관리를 유지하기 어려운 단점이 있다. 이를 활용한다면, 영상을 가공하는 사람에게나, 영상을 통해 노하우를 제공 받는 사람들에게 모두 유익한 정보로서의 의미가 있을 것이다.
다만, 영상 속에서 객체를 인지할 수 있도록 하는 과정에서 다량의 이미지 학습데이터를 수집해서 태깅해야 하는 초기 데이터수집 노력이 너무 크다는 문제점이 있다.
본 발명은 전술한 문제점을 해결하기 위하여 창출된 것으로, 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은 인공지능을 도입하여 영상 속에서 객체를 찾아내기 위하여 사람의 수작업이 대량 투입되어야 학습할 수 있는 종래 상황을 개선하고자 한다.
또한, 본 발명은 최초 수 백개 정도의 적은 수량으로 시작하여 제품 학습을 시작할 수 있는 스파이럴 학습모델을 도입하여 빠른 시간안에 객체의 특성상 영상 속에서 객체를 인식할 수 있도록 하는 장치 및 방법을 제공함에 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상기한 목적들을 달성하기 위하여, 본 발명의 일 실시예에 따른 객체 인식 방법은 (a) 객체 관련 영상을 획득하는 단계; 및 (b) 객체 인식 딥러닝 모델을 이용하여, 상기 획득된 객체 관련 영상으로부터 상기 객체 및 객체 표시 시간을 인식하는 단계;를 포함할 수 있다.
실시예에서, 상기 (a) 단계는, 상기 객체 관련 영상을 획득하는 단계; 상기 객체 관련 영상을 다수의 프레임으로 분할하는 단계; 및 상기 다수의 프레임 중 상기 객체가 포함된 프레임을 결정하는 단계;를 포함할 수 있다.
실시예에서, 상기 (b) 단계는, 미리 태깅된 객체의 학습 이미지로부터 상기 객체 인식 딥러닝 모델을 학습시키는 단계; 및 상기 학습된 객체 인식 딥러닝 모델을 이용하여 상기 객체 관련 영상에 포함된 객체를 태깅하는 단계;를 포함할 수 있다.
실시예에서, 상기 학습시키는 단계는, 상기 미리 태깅된 객체의 학습 이미지로부터 특징(feature)을 결정하는 단계; 및 상기 결정된 특징을 벡터(vector) 값으로 변환하는 단계;를 포함할 수 있다.
실시예에서, 상기 객체 인식 방법은, 상기 객체 및 객체 표시 시간에 기반하여 상기 객체 관련 영상을 디스플레이하는 단계;를 더 포함할 수 있다.
실시예에서, 상기 객체 인식 방법은, 상기 객체 표시 시간에 대한 입력을 획득하는 단계; 및 상기 다수의 프레임 중, 상기 객체 표시 시간에 대응하는 상기 객체가 포함된 프레임을 디스플레이하는 단계;를 더 포함할 수 있다.
실시예에서, 객체 인식 장치는, 객체 관련 영상을 획득하는 통신부; 및 객체 인식 딥러닝 모델을 이용하여, 상기 획득된 객체 관련 영상으로부터 상기 객체 및 객체 표시 시간을 인식하는 제어부;를 포함할 수 있다.
실시예에서, 상기 통신부는, 상기 객체 관련 영상을 획득하고, 상기 제어부는, 상기 객체 관련 영상을 다수의 프레임으로 분할하며, 상기 다수의 프레임 중 상기 객체가 포함된 프레임을 결정할 수 있다.
실시예에서, 상기 제어부는, 미리 태깅된 객체의 학습 이미지로부터 상기 객체 인식 딥러닝 모델을 학습시키고, 상기 학습된 객체 인식 딥러닝 모델을 이용하여 상기 객체 관련 영상에 포함된 객체를 태깅할 수 있다.
실시예에서, 상기 제어부는, 상기 미리 태깅된 객체의 학습 이미지로부터 특징(feature)을 결정하고, 상기 결정된 특징을 벡터(vector) 값으로 변환할 수 있다.
실시예에서, 상기 객체 인식 장치는, 상기 객체 및 객체 표시 시간에 기반하여 상기 객체 관련 영상을 디스플레이하는 표시부;를 더 포함할 수 있다.
실시예에서, 상기 객체 인식 장치는, 상기 객체 표시 시간에 대한 입력을 획득하는 입력부; 및 상기 다수의 프레임 중, 상기 객체 표시 시간에 대응하는 상기 객체가 포함된 프레임을 디스플레이하는 표시부;를 더 포함할 수 있다.
상기한 목적들을 달성하기 위한 구체적인 사항들은 첨부된 도면과 함께 상세하게 후술될 실시예들을 참조하면 명확해질 것이다.
그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라, 서로 다른 다양한 형태로 구성될 수 있으며, 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자(이하, "통상의 기술자")에게 발명의 범주를 완전하게 알려주기 위해서 제공되는 것이다.
본 발명의 일 실시예에 의하면, 기계학습을 통하여 영상내 객체를 검출하고 이용함으로 영상컨텐츠를 제공함에 있어서 더욱 풍부하고 활용도 있는 서비스를 제공할 수 있다.
또한, 본 발명의 일 실시예에 의하면, 영상 내 다양한 제품이 사용되고 있는 현상을 알 수 있고, 특정브랜드나 제품이 얼마만큼 영상에서 소요되는지를 특정할 수 있다.
또한, 본 발명의 일 실시예에 의하면, 고객의 궁금증을 풀어줄 수 있고 긴 영상내 특정 제품이 노출된 곳으로 바로 진입시키는 서비스가 가능하다.
본 발명의 효과들은 상술된 효과들로 제한되지 않으며, 본 발명의 기술적 특징들에 의하여 기대되는 잠정적인 효과들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 객체 인식 방법을 도시한 도면이다.
도 2a는 본 발명의 일 실시예에 따른 영상 수집의 예를 도시한 도면이다.
도 2b는 본 발명의 일 실시예에 따른 객체 인식 딥러닝 모델 학습의 예를 도시한 도면이다.
도 2c 및 2d는 본 발명의 일 실시예에 따른 객체 인식의 예를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 객체 인식을 위한 사전준비 동작 방법을 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 객체 인식을 위한 인식추출 동작 방법을 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 객체 인식 장치의 기능적 구성을 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시예들을 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.
청구범위에 개시된 발명의 다양한 특징들은 도면 및 상세한 설명을 고려하여 더 잘 이해될 수 있을 것이다. 명세서에 개시된 장치, 방법, 제법 및 다양한 실시예들은 예시를 위해서 제공되는 것이다. 개시된 구조 및 기능상의 특징들은 통상의 기술자로 하여금 다양한 실시예들을 구체적으로 실시할 수 있도록 하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다. 개시된 용어 및 문장들은 개시된 발명의 다양한 특징들을 이해하기 쉽게 설명하기 위한 것이고, 발명의 범위를 제한하기 위한 것이 아니다.
본 발명을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.
이하, 본 발명의 일 실시예에 따른 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치를 설명한다.
도 1은 본 발명의 일 실시예에 따른 객체 인식 방법을 도시한 도면이다. 도 2a는 본 발명의 일 실시예에 따른 영상 수집의 예를 도시한 도면이다. 도 2b는 본 발명의 일 실시예에 따른 객체 인식 딥러닝 모델 학습의 예를 도시한 도면이다. 도 2c 및 2d는 본 발명의 일 실시예에 따른 객체 인식의 예를 도시한 도면이다.
도 1을 참고하면, S101 단계는, 객체 관련 영상을 획득하는 단계이다. 일 실시예에서, 도 2a를 참고하면, 객체 관련 영상(201)을 획득하고, 객체 관련 영상(201)을 다수의 프레임으로 분할하며, 다수의 프레임 중 객체가 포함된 프레임(203)을 결정할 수 있다.
예를 들어, 다수의 프레임은 객체 관련 영상(201)을 1초 단위로 분할하여 생성될 수 있다.
S103 단계는, 객체 인식 딥러닝 모델을 이용하여, 객체 관련 영상으로부터 객체 및 객체 표시 시간을 인식하는 단계이다.
일 실시예에서, 도 2b를 참고하면, 미리 태깅된 객체의 학습 이미지로부터 객체 인식 딥러닝 모델(210)을 학습시킬 수 있다. 예를 들어, 미리 태깅된 객체의 학습 이미지로부터 특징(feature)을 결정하고, 결정된 특징을 벡터(vector) 값으로 변환할 수 있다.
일 실시예에서, 도 2c 및 2d를 참고하면, 객체 ID(220) 및 해당 객체가 표시되는 화면에 대한 객체 표시 시간을 결정할 수 있다.
일 실시예에서, 객체 및 객체 표시 시간에 기반하여 객체 관련 영상을 디스플레이할 수 있다.
일 실시예에서, 객체 표시 시간에 대한 입력을 획득하고, 다수의 프레임 중 객체 표시 시간에 대응하는 객체가 포함된 프레임을 디스플레이할 수 있다.
일 실시예에서, 사용자에 의한 객체 표시 시간에 대한 입력의 횟수가 임계값 이상인 경우, 상기 객체 표시 시간에 대응하는 객체가 포함되는 적어도 하나의 객체 관련 영상의 리스트를 디스플레이할 수 있다.
즉, 해당 객체 표시 시간으로의 타임 워프의 횟수가 일정 수 이상인 경우, 해당 객체에 대한 사용자의 선호도가 높은 것으로 판단하고, 해당 객체와 관련된 다양한 영상들의 리스트를 사용자에게 제공함으로써, 사용자의 객체 검색 활용성을 높일 수 있다.
예를 들어, 상기 객체는, 화장품, 악세사리, 패션잡화 등 다양한 제품을 포함할 수 있으나, 이에 제한되지 않는다.
도 3은 본 발명의 일 실시예에 따른 객체 인식을 위한 사전준비 동작 방법을 도시한 도면이다.
도 3을 참고하면, S301 단계는, 자체 확보한 알고리즘으로 학습영상을 수집하는 단계이다. 여기서, 학습영상은 객체 인식 딥러닝 모델의 학습을 위한 영상을 포함할 수 있다.
일 실시예에서, 학습영상에 존재하는 키워드를 파악하고 키워드들이 자체 확보한 알고리즘을 이용하여, 영상으로 사용할 수 있는 영상과 사용할 수 없는 영상을 구분할 수 있다.
S303 단계는, 학습영상으로부터 객체 이미지를 추출하는 단계이다. 예를 들어, 블러현상과 번짐 현상에 대한 문제를 최소화하기 위해 1초 단위로 객체 이미지를 추출하여 학습영상을 세분화할 수 있다.
S305 단계는, 객체 이미지로부터 객체 인식 딥러닝 모델(210)을 학습시키는 단계이다. 이 경우, 객체 이미지는 객체의 학습 이미지를 포함할 수 있다.
이 경우, 학습 이미지의 객체는 사용자에 의해 미리 태깅될 수 있다. 즉, 최초 사용자의 개입으로 객체를 태깅하기, 최소화 시킬 수 있는 최소 수량을 구해 도입할 수 있다.
이후, 객체의 이미지 중에서 특징을 파악하여 벡터 형태의 계산할 수 있다. 예를 들어, 객체 인식 딥러닝 모델(210)은 YOLO 알고리즘, SSD(Single Shot Multibox Detector) 알고리즘 및 CNN 알고리즘 등이 있으나, 다른 알고리즘의 적용을 배제하는 것은 아니다.
S307 단계는, 객체 인식 딥러닝 모델(210)의 학습에 따라 계산된 학습파일을 저장하는 단계이다. 이 경우, 학습파일은 추출하는 서버로 이동하여 추출의 적정성을 측정할 수 있다.
S309 단계는, 학습파일을 활용하여 객체 관련 영상에서 객체를 자동 태깅하는 단계이다. 즉, 새로 유입된 객체 관련 영상에서의 객체를 학습할 수 있는 데이터로 자동 유입될 수 있도록 하는 자동 태깅단계이다.
일 실시예에서, 양질의 학습 이미지를 많이 입수하고 학습을 시킬수록 인식률이 많이 올라가므로 이를 반복적으로 학습하여 원하는 인식률이 나올때까지 S305 단계 내지 S309 단계를 반복할 수 있다.
도 4는 본 발명의 일 실시예에 따른 객체 인식을 위한 인식추출 동작 방법을 도시한 도면이다.
도 4를 참고하면, S401 단계는, 객체 관련 영상을 획득하는 단계이다. 즉, 새로운 영상을 입력할 수 있다. 일 실시예에서, 새로운 영상은 도 3의 S301 단계와 동일한 방식으로 획득될 수 있다.
S403 단계는, 객체 관련 영상에서 객체 이미지를 추출할 수 있다. 즉, 객체 관련 영상으로부터 객체가 포함된 프레임을 추출할 수 있다. 예를 들어, 객체 이미지가 입력될 수 있도록 1초 단위 이미지로 추출할 수 있다.
S405 단계는, 객체 이미지와 객체 인식 딥러닝 모델에 의해 생성된 학습파일의 일치 여부를 판단하는 단계이다. 즉, 객체 이미지와 학습 파일을 가지고 객체의 종류를 찾아낼 수 있다. 여기서, 학습 파일은 기존 객체 DB(database)를 포함할 수 있다.
S407 단계는, 객체 이미지와 객체 인식 딥러닝 모델에 의해 생성된 학습파일이 일치하는 경우, 객체 이미지에 대응하는 객체의 ID(identification) 및 객체 표시 시간(time)을 추출하는 단계이다.
S409 단계는, 객체 이미지와 객체 인식 딥러닝 모델에 의해 생성된 학습파일이 일치하지 않는 경우, 새로운 객체를 등록할 수 있도록 객체 이미지를 저장하는 단계이다.
즉, 매칭할 수 없는 데이터들은 또 수동 태깅하여 객체 인식 딥러닝 모델의 학습에 이용하여 다음번 인식추출단계에서는 객체 DB와 매칭 될 수 있도록 선순환 사이클(Circle)이 원활이 만들어지도록 시스템을 구성할 수 있다.
도 5는 본 발명의 일 실시예에 따른 객체 인식 장치(500)의 기능적 구성을 도시한 도면이다.
도 5를 참고하면, 객체 인식 장치(500)는 통신부(510), 제어부(520), 표시부(530), 입력부(540) 및 저장부(550)를 포함할 수 있다.
통신부(510)는 객체 관련 영상을 획득할 수 있다.
일 실시예에서, 통신부(510)는 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 통신부(510)의 전부 또는 일부는 '송신부', '수신부' 또는 '송수신부(transceiver)'로 지칭될 수 있다.
제어부(520)는 객체 인식 딥러닝 모델을 이용하여, 객체 관련 영상으로부터 객체 및 객체 표시 시간을 인식할 수 있다.
일 실시예에서, 제어부(520)는 뷰티관련 크리에이터 및 관련 영상을 수집하는 영상수집부(522), 수집된 영상을 모아서 심화학습(Deep Learning)하고 기 학습한 학습데이터를 활용하여 신규 제품을 자동 태깅하여 학습하는 사물학습부(524) 및 특정한 이미지를 제시했을때 학습된 제품 중에서 이 제품이 무엇인지를 구분해 내는 사물추출부(526)를 포함할 수 있다.
일 실시예에서, 제어부(520)는 적어도 하나의 프로세서 또는 마이크로(micro) 프로세서를 포함하거나, 또는, 프로세서의 일부일 수 있다. 또한, 제어부(520)는 CP(communication processor)라 지칭될 수 있다. 제어부(520)는 본 발명의 다양한 실시예에 따른 객체 인식 장치(500)의 동작을 제어할 수 있다.
표시부(530)는 객체 및 객체 표시 시간에 기반하여 객체 관련 영상을 디스플레이할 수 있다. 일 실시예에서, 표시부(530)는 다수의 프레임 중, 객체 표시 시간에 대응하는 객체가 포함된 프레임을 디스플레이할 수 있다.
일 실시예에서, 표시부(530)는 객체 인식 장치(500)에서 처리되는 정보를 나타낼 수 있다. 예를 들면, 표시부(530)는 액정 디스플레이(LCD; Liquid Crystal Display), 발광 다이오드(LED; Light Emitting Diode) 디스플레이, 유기 발광 다이오드(OLED; Organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; Micro Electro Mechanical Systems) 디스플레이 및 전자 종이(electronic paper) 디스플레이 중 적어도 어느 하나를 포함할 수 있다.
입력부(540) 객체 표시 시간에 대한 입력을 획득할 수 있다. 일 실시예에서, 입력부(540)는 사용자에 의한 객체 표시 시간에 대한 입력을 획득할 수 있다.
저장부(550)는 객체 인식 딥러닝 모델(210의 학습파일, 객체 관련 영상, 객체 ID 및 객체 표시 시간을 저장할 수 있다.
일 실시예에서, 저장부(550)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수 있다. 그리고, 저장부(550)는 제어부(520)의 요청에 따라 저장된 데이터를 제공할 수 있다.
도 5를 참고하면, 객체 인식 장치(500)는 통신부(510), 제어부(520), 표시부(530), 입력부(540) 및 저장부(550)를 포함할 수 있다. 본 발명의 다양한 실시 예들에서 객체 인식 장치(500)는 도 5에 설명된 구성들이 필수적인 것은 아니어서, 도 5에 설명된 구성들보다 많은 구성들을 가지거나, 또는 그보다 적은 구성들을 가지는 것으로 구현될 수 있다.
본 발명에 따르면, 최초 수백개의 영상으로 수동으로 학습하고 학습한 데이터를 활용하여 다른 이미지를 자동으로 추출할 수 있도록 시스템을 구축하였다.
또한, 본 발명에 따르면, 객체 이미지를 집어넣으면 자동으로 태깅할 수 있는 것은 자동으로 태깅될 수 있도록 하였고, 자동으로 태깅되지 않은 것들을 따로 모아 태깅하도록 시스템을 구축하여, 사람의 수작업이 최소화될 수 있다.
또한, 본 발명에 따르면, 초기 데이터수집을 최소화 할 수 있도록 최초 소량의 데이터를 이용하여 학습하고 이 학습데이터를 활용하여 자동으로 이미지의 형태를 추출하여 학습데이터 만드는데 활용하고 이러한 과정을 반복시켜서 고품질의 학습데이터를 학습할 수 있다.
이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로, 통상의 기술자라면 본 발명의 본질적인 특성이 벗어나지 않는 범위에서 다양한 변경 및 수정이 가능할 것이다.
따라서, 본 명세서에 개시된 실시예들은 본 발명의 기술적 사상을 한정하기 위한 것이 아니라, 설명하기 위한 것이고, 이러한 실시예들에 의하여 본 발명의 범위가 한정되는 것은 아니다.
본 발명의 보호범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 이해되어야 한다.

Claims (12)

  1. (a) 객체 관련 영상을 획득하는 단계; 및
    (b) 객체 인식 딥러닝 모델을 이용하여, 상기 획득된 객체 관련 영상으로부터 상기 객체 및 객체 표시 시간을 인식하는 단계;
    를 포함하는,
    객체 인식 방법.
  2. 제1항에 있어서,
    상기 (a) 단계는,
    상기 객체 관련 영상을 획득하는 단계;
    상기 객체 관련 영상을 다수의 프레임으로 분할하는 단계; 및
    상기 다수의 프레임 중 상기 객체가 포함된 프레임을 결정하는 단계;
    를 포함하는,
    객체 인식 방법.
  3. 제1항에 있어서,
    상기 (b) 단계는,
    미리 태깅된 객체의 학습 이미지로부터 상기 객체 인식 딥러닝 모델을 학습시키는 단계; 및
    상기 학습된 객체 인식 딥러닝 모델을 이용하여 상기 객체 관련 영상에 포함된 객체를 태깅하는 단계;
    를 포함하는,
    객체 인식 방법.
  4. 제3항에 있어서,
    상기 학습시키는 단계는,
    상기 미리 태깅된 객체의 학습 이미지로부터 특징(feature)을 결정하는 단계; 및
    상기 결정된 특징을 벡터(vector) 값으로 변환하는 단계;
    를 포함하는,
    객체 인식 방법.
  5. 제1항에 있어서,
    상기 객체 및 객체 표시 시간에 기반하여 상기 객체 관련 영상을 디스플레이하는 단계;
    를 더 포함하는,
    객체 인식 방법.
  6. 제2항에 있어서,
    상기 객체 표시 시간에 대한 입력을 획득하는 단계; 및
    상기 다수의 프레임 중, 상기 객체 표시 시간에 대응하는 상기 객체가 포함된 프레임을 디스플레이하는 단계;
    를 더 포함하는,
    객체 인식 방법.
  7. 객체 관련 영상을 획득하는 통신부; 및
    객체 인식 딥러닝 모델을 이용하여, 상기 획득된 객체 관련 영상으로부터 상기 객체 및 객체 표시 시간을 인식하는 제어부;
    를 포함하는,
    객체 인식 장치.
  8. 제7항에 있어서,
    상기 통신부는, 상기 객체 관련 영상을 획득하고,
    상기 제어부는, 상기 객체 관련 영상을 다수의 프레임으로 분할하며,
    상기 다수의 프레임 중 상기 객체가 포함된 프레임을 결정하는,
    객체 인식 장치.
  9. 제7항에 있어서,
    상기 제어부는,
    미리 태깅된 객체의 학습 이미지로부터 상기 객체 인식 딥러닝 모델을 학습시키고,
    상기 학습된 객체 인식 딥러닝 모델을 이용하여 상기 객체 관련 영상에 포함된 객체를 태깅하는,
    객체 인식 장치.
  10. 제9항에 있어서,
    상기 제어부는,
    상기 미리 태깅된 객체의 학습 이미지로부터 특징(feature)을 결정하고,
    상기 결정된 특징을 벡터(vector) 값으로 변환하는,
    객체 인식 장치.
  11. 제7항에 있어서,
    상기 객체 및 객체 표시 시간에 기반하여 상기 객체 관련 영상을 디스플레이하는 표시부;
    를 더 포함하는,
    객체 인식 장치.
  12. 제8항에 있어서,
    상기 객체 표시 시간에 대한 입력을 획득하는 입력부; 및
    상기 다수의 프레임 중, 상기 객체 표시 시간에 대응하는 상기 객체가 포함된 프레임을 디스플레이하는 표시부;
    를 더 포함하는,
    객체 인식 장치.
PCT/KR2020/009479 2019-09-29 2020-07-17 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치 WO2021060684A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022519820A JP2022550548A (ja) 2019-09-29 2020-07-17 機械学習を利用した画像内客体認識方法及び装置
US17/763,977 US20220319176A1 (en) 2019-09-29 2020-07-17 Method and device for recognizing object in image by means of machine learning
JP2023198484A JP2024016283A (ja) 2019-09-29 2023-11-22 機械学習を利用した客体画像提供方法及び装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2019-0120261 2019-09-29
KR20190120261 2019-09-29
KR1020200015042A KR102539072B1 (ko) 2019-09-29 2020-02-07 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치
KR10-2020-0015042 2020-02-07

Publications (1)

Publication Number Publication Date
WO2021060684A1 true WO2021060684A1 (ko) 2021-04-01

Family

ID=75166718

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/009479 WO2021060684A1 (ko) 2019-09-29 2020-07-17 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치

Country Status (3)

Country Link
US (1) US20220319176A1 (ko)
JP (2) JP2022550548A (ko)
WO (1) WO2021060684A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110138212A (ko) * 2009-02-02 2011-12-26 아이사이트 모빌 테크놀로지 엘티디 비디오 스트림에 있어서 물체 인식 및 트랙킹을 위한 시스템 및 방법
KR20180111630A (ko) * 2017-03-30 2018-10-11 더 보잉 컴파니 머신 러닝을 사용하는 비디오 피드 내에서의 자동화된 오브젝트 추적
KR20190038808A (ko) * 2016-06-24 2019-04-09 임피리얼 컬리지 오브 사이언스 테크놀로지 앤드 메디신 비디오 데이터의 객체 검출
KR20190098775A (ko) * 2018-01-12 2019-08-23 상명대학교산학협력단 인공지능 심층학습 기반의 영상물 인식 시스템 및 방법
KR20190106865A (ko) * 2019-08-27 2019-09-18 엘지전자 주식회사 동영상 검색방법 및 동영상 검색 단말기

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014208575A1 (ja) * 2013-06-28 2014-12-31 日本電気株式会社 映像監視システム、映像処理装置、映像処理方法および映像処理プログラム
JP6320112B2 (ja) * 2014-03-27 2018-05-09 キヤノン株式会社 情報処理装置、情報処理方法
WO2019111976A1 (ja) * 2017-12-08 2019-06-13 日本電気通信システム株式会社 対象物検出装置、予測モデル作成装置、対象物検出方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110138212A (ko) * 2009-02-02 2011-12-26 아이사이트 모빌 테크놀로지 엘티디 비디오 스트림에 있어서 물체 인식 및 트랙킹을 위한 시스템 및 방법
KR20190038808A (ko) * 2016-06-24 2019-04-09 임피리얼 컬리지 오브 사이언스 테크놀로지 앤드 메디신 비디오 데이터의 객체 검출
KR20180111630A (ko) * 2017-03-30 2018-10-11 더 보잉 컴파니 머신 러닝을 사용하는 비디오 피드 내에서의 자동화된 오브젝트 추적
KR20190098775A (ko) * 2018-01-12 2019-08-23 상명대학교산학협력단 인공지능 심층학습 기반의 영상물 인식 시스템 및 방법
KR20190106865A (ko) * 2019-08-27 2019-09-18 엘지전자 주식회사 동영상 검색방법 및 동영상 검색 단말기

Also Published As

Publication number Publication date
US20220319176A1 (en) 2022-10-06
JP2022550548A (ja) 2022-12-02
JP2024016283A (ja) 2024-02-06

Similar Documents

Publication Publication Date Title
WO2019156332A1 (ko) 증강현실용 인공지능 캐릭터의 제작 장치 및 이를 이용한 서비스 시스템
WO2010117213A2 (en) Apparatus and method for providing information related to broadcasting programs
WO2014157806A1 (en) Display device and control method thereof
WO2018143486A1 (ko) 딥러닝 분석을 위한 모듈화시스템을 이용한 컨텐츠 제공 방법
WO2014003520A1 (ko) 옥외 광고 led 전광판 및 상호 작용 방법
WO2019156543A2 (ko) 동영상의 대표 이미지를 결정하는 방법 및 그 방법을 처리하는 전자 장치
WO2014035041A1 (ko) 증강현실 기술과 대용량 데이터의 통합을 위한 상호작용 방법 및 장치
WO2017142311A1 (ko) 다중 객체 추적 시스템 및 이를 이용한 다중 객체 추적 방법
WO2019093599A1 (ko) 사용자 관심 정보 생성 장치 및 그 방법
EP3659329A1 (en) Electronic device and control method thereof
WO2021060684A1 (ko) 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치
WO2014003509A1 (ko) 증강 현실 표현 장치 및 방법
WO2020166849A1 (en) Display system for sensing defect on large-size display
WO2024111728A1 (ko) 비언어적 요소 기반 확장현실을 위한 사용자 감정 상호 작용 방법 및 시스템
WO2023282454A1 (ko) Ai 학습을 위한 임플란트 클래스 분류 방법
WO2023068495A1 (ko) 전자 장치 및 그 제어 방법
WO2023033469A1 (ko) 의료 영상 이미지의 3d 크롭핑 방법 및 이를 위한 장치
WO2020101121A1 (ko) 딥러닝 기반의 영상분석 방법, 시스템 및 휴대 단말
WO2022131720A1 (ko) 건축물 이미지를 생성하는 장치 및 방법
WO2022019601A1 (ko) 영상의 객체 특징점 추출과 이를 이용한 영상검색 시스템 및 방법
WO2023018150A1 (en) Method and device for personalized search of visual media
WO2022092487A1 (ko) 전자 장치 및 그 제어 방법
WO2021251733A1 (ko) 디스플레이장치 및 그 제어방법
KR102539072B1 (ko) 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치
WO2021075679A1 (ko) 딥러닝 기반의 증가적 상품 정보 획득 시스템 및 그 획득 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20867221

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022519820

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 09.09.2022)

122 Ep: pct application non-entry in european phase

Ref document number: 20867221

Country of ref document: EP

Kind code of ref document: A1