WO2020067632A1 - 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법 - Google Patents

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법 Download PDF

Info

Publication number
WO2020067632A1
WO2020067632A1 PCT/KR2019/008402 KR2019008402W WO2020067632A1 WO 2020067632 A1 WO2020067632 A1 WO 2020067632A1 KR 2019008402 W KR2019008402 W KR 2019008402W WO 2020067632 A1 WO2020067632 A1 WO 2020067632A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
frame image
video
objects
learned
Prior art date
Application number
PCT/KR2019/008402
Other languages
English (en)
French (fr)
Inventor
박민우
Original Assignee
주식회사 크라우드웍스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 크라우드웍스 filed Critical 주식회사 크라우드웍스
Publication of WO2020067632A1 publication Critical patent/WO2020067632A1/ko
Priority to US17/212,771 priority Critical patent/US11295169B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the present invention relates to a frame image sampling method, an apparatus, a program, and an image learning method of a frame for learning a video for artificial intelligence image learning.
  • AI Artificial intelligence
  • the pre-processing of the acquired data takes about 70-80% of the time of creating the learning data.
  • the amount of video image data differs from tens to hundreds of times compared to the amount of existing image or audio data.
  • Generating training data using video image data has a problem that time and cost are very increased in data pre-processing because of the vast amount of data compared to the generation of training data using existing image or audio data.
  • a problem to be solved by the present invention is to provide a frame image sampling method of a learning object of a video for artificial intelligence image learning that can minimize time and cost in preprocessing of data.
  • a frame image sampling method of a learning target of a video for AI video learning for solving the above-described problem is a method performed by a computer, which receives a raw video for AI video learning , A raw video receiving step, extracting a predetermined number of frame images per predetermined time interval from the received raw video, a frame image extracting step, one or more types of a predetermined type on each frame image using an object detection algorithm
  • a step of detecting one or more learning objects a step of detecting a learning object, a background removing step of removing the background excluding the learning object on each frame image, and an n (n is a natural number of 2 or more) frames from which the background is removed
  • the one or more subjects to be detected on the image A position of the one or more objects to be learned on the n-1 frame image from which the background immediately before the n-th frame image is removed, and the detected one or more objects to be learned on the n-th frame image
  • the n-th frame image is compared to a learning target
  • the n-th frame image is selected as the learning target frame image Otherwise, the n-th frame image is not selected as the learning target frame image.
  • a method for sampling a frame image of a learning object for artificial intelligence image learning includes processing the selected frame object for learning to generate a set of learning videos, for learning The video set generation step is further included.
  • the learning target frame image is a frame image before the one or more learning target objects are detected in the frame image extraction step, and the learning video set generation step includes the previewing on the learning target frame image.
  • an object detection step of detecting one or more learning object objects of a predetermined one or more types, and an annotation processing step of annotating the detected one or more learning object objects on the learning frame image is a frame image before the one or more learning target objects are detected in the frame image extraction step, and the learning video set generation step includes the previewing on the learning target frame image.
  • an object detection step of detecting one or more learning object objects of a predetermined one or more types
  • an annotation processing step of annotating the detected one or more learning object objects on the learning frame image.
  • the learning target frame image in the learning video set generation step is a frame image in which the one or more learning target objects are detected in the learning target object detection step, and the learning video set generation step is detected in the learning target frame image.
  • Annotating processing step further includes annotating the one or more objects to be learned.
  • An artificial intelligence image learning method for solving the above-described problems, as a method performed by a computer, includes performing an artificial intelligence image learning using a set of learning videos, and for learning
  • the video includes a raw video receiving step of receiving a raw video for artificial intelligence image learning, a frame image extraction step of extracting a predetermined number of frame images per predetermined time interval from the received raw video, and object detection
  • n is a natural value of 2 or more
  • the position of the one or more objects to be learned on the frame image is compared with the position of the one or more objects to be detected on the n-1 frame image where the background immediately before the n-th frame image is removed, and the An object movement amount measurement step of measuring the movement amount of each of the one or more objects to be learned on the frame image, and a measurement criterion and a predetermined reference of the movement amount of each of the one or more objects to be learned on the n-frame image detected And selecting the learning object frame image by comparing the n-th frame image as a learning object frame image, and generating a learning video set by processing the selected learning object frame image to generate a learning video set.
  • Learning object frame of video for AI video learning It is characterized by being generated by the image sampling method.
  • a frame image sampling apparatus for learning a video for artificial intelligence video learning includes: a raw video receiving unit receiving a raw video for artificial intelligence video learning; A frame image extractor, which extracts a predetermined number of frame images per predetermined time interval from a raw video, detects one or more predetermined target objects of one or more types on each frame image using an object detection algorithm, A learning object detection unit, a background removal unit for removing the background excluding the learning object from each frame image, the background removal unit, the detected one or more learning target objects on the nth (n is a natural number of 2 or more) frame image The position and the ship immediately before the nth frame image A moving amount measuring unit for measuring the amount of movement of each of the detected one or more objects to be learned on the n-th frame image by comparing positions of the detected one or more objects to be learned on the removed n-1 frame image And a learning object frame image selection unit for selecting the nth frame image as a learning object frame image by
  • the frame image sampling apparatus for learning a video for artificial intelligence image learning processes the selected frame image for learning to generate a set of video for learning. It further includes a video set generator.
  • An artificial intelligence image learning apparatus for solving the above-described problem includes an artificial intelligence image learning performing unit for performing artificial intelligence image learning using a set of learning videos, wherein the learning videos include: Using a raw video receiving unit for receiving a raw video for artificial intelligence image learning, and a frame image extraction unit for extracting a predetermined number of frame images per predetermined time interval from the received raw video, and an object detection algorithm
  • a learning object detection unit for detecting one or more types of learning target objects of a predetermined type on each frame image, a background removal unit for removing a background excluding the learning target object on each frame image, a background removal unit, and a background Sword on the removed nth (n is a natural number greater than or equal to 2) frame image Detected on the n-th frame image by comparing the positions of the one or more learning-target objects and the detected positions of the one or more learning-target objects on the n-1 frame image from which the background immediately before the n-th frame image is removed
  • the moving amount measuring unit for measuring the
  • AI image learning including a frame image selection unit for learning, which selects a frame image as a frame image for learning, and a video set generation unit for learning to process the selected frame image for processing to generate a learning video set.
  • the frame image sampling device to learn video for It is characterized by being made.
  • a frame image sampling program for learning a video for artificial intelligence image learning uses a hardware computer to execute any one of the methods described above. It is stored in a recording medium.
  • the present invention in generating the learning data of the video, only a part of the video data is selected as the learning data, so that time and cost can be minimized in data pre-processing.
  • FIG. 1 is a flowchart illustrating a method for sampling a frame image of a learning target of a video for AI image learning according to an embodiment of the present invention.
  • FIG. 2 is a view for explaining a method for measuring the movement amount of the learning object of the present invention.
  • FIG. 3 is a diagram for explaining a method for selecting a frame image for learning according to the present invention.
  • FIG. 4 is a diagram for explaining a frame image sampling process to be learned according to an embodiment of the present invention.
  • FIG. 5 is a flowchart illustrating a method of sampling a frame image of a learning target of a video for AI video learning, including the step of generating a set of video for learning.
  • FIG. 6 is a flowchart for explaining a step of generating a set of learning videos when the frame image to be learned is the frame image before the object to be learned is detected.
  • the spatially relative terms “below”, “beneath”, “lower”, “above”, “upper”, etc., are as shown in the figure. It can be used to easily describe a correlation between a component and other components.
  • the spatially relative terms should be understood as terms including different directions of components in use or operation in addition to the directions shown in the drawings. For example, if a component shown in the drawing is flipped over, the component described as “below” or “beneath” the other component will be placed “above” the other component. You can.
  • the exemplary term “below” can include both the directions below and above. Components can also be oriented in different directions, and thus spatially relative terms can be interpreted according to orientation.
  • FIG. 1 is a flowchart illustrating a method for sampling a frame image of a learning target of a video for AI image learning according to an embodiment of the present invention.
  • a method of sampling a frame image for a learning target of a video includes receiving a raw video for learning an AI image, receiving a raw video (S100), and previewing the received raw video
  • the raw video includes videos collected from various cameras.
  • the raw video when receiving a raw video to generate artificial intelligence image learning data for autonomous driving of the vehicle, is a vehicle black box image, a CCTV image that illuminates a road that a vehicle can travel, or autonomous driving
  • the raw video is a vehicle black box image, a CCTV image that illuminates a road that a vehicle can travel, or autonomous driving
  • all videos capable of generating learning data for autonomous driving such as a video obtained from a vehicle equipped with a camera, are included, but are not limited to the above example.
  • the raw video when receiving a raw video to generate artificial intelligence image learning data for diagnosing a lesion or disease, includes a video acquired by various imaging medical devices, for example, CT (Computer tomography) image, Nuclear Magnetic Resonance Computed Tomography (NMR-CT), Positron emission tomography (PET), CBCT (conebeamCT), Electron beam tomography (Electron beam tomography) ), X-rays, magnetic resonance imaging, and the like, but all of the videos obtained by the imaging medical device are included, and are not limited to the above examples.
  • CT Computer tomography
  • NMR-CT Nuclear Magnetic Resonance Computed Tomography
  • PET Positron emission tomography
  • CBCT conebeamCT
  • Electron beam tomography Electron beam tomography
  • X-rays X-rays
  • magnetic resonance imaging and the like
  • the raw video when receiving a raw video to generate artificial intelligence video learning data for detecting a crime scene, includes a video obtained by a publicly installed CCTV and a personally installed CCTV. .
  • a predetermined number of frame images are extracted from the received raw video by a computer or a user setting.
  • Extracting a predetermined number of frame images from the received raw video is to extract a predetermined number of frames in a predetermined time interval, for example, the computer can extract 30 frames per second or 60 frames per second, Extracting a frame based on a predetermined criterion by a user or a computer is all included, and is not limited to the above example.
  • the learning object detection step S300 is to detect a learning object for each extracted frame image, and detects one or more learning object objects in each of the extracted frame images, and the learning object object includes one or more types. .
  • Types of objects to be learned include, for example, people, cars, bicycles, buildings, power poles, motorcycles, trees, flowers, dogs, cats, roads, traffic signs, speed bumps, traffic cones, lanes, and the like. It is not limited to the above example, and includes all those that can be distinguished as objects.
  • Each type of learning object includes, for example, a front, rear, right side, left side, and the like, and the type of each learning object is not limited to the above example, and can be divided into more subdivided examples than the above example. It can be classified as a completely different type from the example.
  • Detecting one or more objects of one or more types as the object detection target is detected using an object detection algorithm, and the object detection algorithm includes, for example, an R-CNN model.
  • the background removing step (S400) those except for the object to be detected detected on the extracted frame image are processed as a background, and all background portions are removed.
  • an area corresponding to the background is treated as 0 or 1 to be removed.
  • the learning object object movement amount measurement step (S500) is the removal of the location of the one or more objects to be detected on the n (n is a natural number greater than or equal to 2) frame image with the background removed, and the n of the background immediately preceding the nth frame image removed. This is a step of measuring a movement amount of each of the detected one or more learning target objects on the n-th frame image by comparing the positions of the detected one or more learning target objects on the frame image.
  • the n-th frame image is selected as the learning target frame image by comparing the measurement result of a movement amount of each of the detected one or more learning target objects on the n-th frame image with a predetermined criterion.
  • FIG. 2 is a view for explaining a method for measuring the movement amount of the learning object of the present invention.
  • FIG. 2A shows an n-1th frame image 11 and FIG. 2B shows an nth frame image 12.
  • the measurement of the movement amount of the learning object is to compare the positions of the learning object 21 on the n-1 frame image 11 and the learning object 22 on the n-th frame image 12.
  • the learning object 21 on the n-th frame image 11 and the learning object 22 on the n-th frame image 12 are objects of the same type, and are parts corresponding to the same position of the learning object Select first.
  • the computer selects a specific part as A from the learning object 21 on the n-1 frame image 11, the n-th frame image 12 The portion corresponding to the same position as A on the learning object 22 on the top is selected as A '.
  • the computer After selecting the part corresponding to the same position of the learning object, the computer places the n-th frame image 11 and the n-th frame image 12 on the same plane, and then extracts the coordinates for A and A '. do.
  • the computer After extracting the coordinates for A and A ', the computer measures the amount of movement using the difference between A and A' coordinates.
  • FIG. 3 is a diagram for explaining a method for selecting a frame image for learning according to the present invention.
  • the n-th frame image is selected as the learning target frame image (S611), and the learning object is equal to or greater than a predetermined number of the detected one or more learning object If the amount of movement does not correspond to a predetermined criterion or higher, the n-th frame image is not selected as the frame image to be learned (S612).
  • the frame image to be learned is not selected as all of the extracted frame images as the frame images to be learned, and only a part of the frame images are selected as the frame images to be learned, except for data that has little impact on learning due to a small amount of movement of the object.
  • the training data set can be produced quickly and accurately despite the large amount of data.
  • the learning data set can be produced by removing unnecessary data, thereby reducing the time required for learning.
  • FIG. 4 is a diagram for explaining a frame image sampling process to be learned according to an embodiment of the present invention.
  • Figure 4 (a) shows a frame image 10 extracted by the frame image extraction step (S200), the frame image 10 is the learning object 20 and the background (30) ).
  • FIG. 4 (b) is a diagram showing that the background 30 is removed by the background removal step S400 in the frame image 10 of FIG. 4 (a), wherein the frame image 10 is an object to be learned (20) only.
  • FIG. 4 (c) shows the position of one or more objects to be learned 21 on the nth (n is a natural number greater than or equal to 2) frame image and the n-1 frame image on which the background immediately preceding the nth frame image is removed. It is a diagram showing comparing the positions of the one or more objects to be learned 22 that are detected.
  • the computer may measure the amount of movement of the learning object through comparison between the learning objects 21 and 22.
  • the computer After measuring the amount of movement through the comparison of the positions of the learning target objects 21 and 22, the computer, when the movement amount of the learning target object of a predetermined number or more among the detected one or more learning target objects 20 is greater than or equal to a predetermined criterion, The n-th frame image is selected as the learning target frame image, and if not, the n-th frame image is not selected as the learning target frame image.
  • the computer compares the amount of movement of the object to be detected detected on the first frame image with the amount of movement of the object to be detected detected on the second frame image, and when the amount of movement is greater than or equal to a predetermined reference, the second frame image is the frame to be learned. Select as an image. When the movement amount does not correspond to a predetermined criterion or higher, the second frame image is not selected as the frame image to be learned.
  • the step of selecting the frame image to be learned is to compare all of the selected extracted frame images.
  • the computer is not limited to selecting or not selecting the second frame image as the learning target frame image, and comparing the movement amount of the learning target object detected on the second frame image and the learning target object detected on the third frame image again. , When the amount of movement is greater than or equal to a predetermined criterion, the third frame image is selected as the frame image to be learned.
  • the step of measuring the amount of movement of the object on the frame image and selecting or not selecting the frame image to be learned is detection on one or more objects to be detected on the nth (n is a natural number of 2 or more) frame image and on the n-1 frame image.
  • n is a natural number of 2 or more
  • the selected one or more learning target objects on all the extracted frame images are compared and repeated until selection or selection of the learning target frames is completed.
  • the learning object 20 is one or more, and the computer compares each learning object 20 even if there are a plurality of learning object 20 on one frame image 10 to compare the amount of movement. Measure.
  • the computer measures the amount of movement of all of the plurality of learning target objects 20, thereby learning a predetermined number of When the amount of movement of the target object 20 is greater than or equal to a predetermined criterion, the corresponding frame image 10 is selected as the learning target frame image.
  • the computer measures the amount of movement of all of the plurality of learning object 20, and when the amount of movement of all of the plurality of learning object 20 is greater than or equal to a predetermined criterion, the frame image 10 to be learned Select as.
  • the computer measures only a predetermined number of movements of the learning target object 20 among the plurality of learning target objects 20, and a predetermined number of learning targets among the measured movement amounts of the learning target object 20 When the movement amount of the object 20 is greater than or equal to a predetermined criterion, the corresponding frame image 10 is selected as a frame image to be learned.
  • the computer measures only a predetermined number of movements of the learning target object 20 among the plurality of learning target objects 20, and the measured movement amount of all the learning target objects 20 is greater than or equal to a predetermined criterion
  • the frame image 10 is selected as a frame image to be learned.
  • the learning target frame image selected by the movement amount measurement in FIG. 4C is a learning target frame image selected from the extracted frame images 11, 12, 13, 14, and 15, as shown in FIG. 4D. (12, 14).
  • FIG. 5 is a flowchart illustrating a method of sampling a frame image of a learning target of a video for AI video learning, including the step of generating a set of video for learning.
  • FIG. 6 is a flowchart for explaining a step of generating a set of learning videos when the frame image to be learned is the frame image before the object to be learned is detected.
  • the method for sampling a frame image for learning of a video of the present invention further includes the step of generating a set of video for learning by processing the selected frame image for learning (S700).
  • the learning object frame image includes a frame image before the learning object object is detected or a frame image in which the learning object object is detected.
  • generating a set of learning videos includes one or more learning target objects of one or more types predetermined on the learning target frame image And detecting (S710) and annotating the detected one or more objects to be learned on the frame image to be learned (S720).
  • the step (S710) of detecting one or more types of predetermined learning objects on a learning object frame image is applied in the same manner as the step (S300) of detecting the learning object of FIG. 1 described above.
  • the learning target frame image which is the frame image before the learning target object is detected, undergoes the step of detecting the learning target object, processing annotations on the learning target object on the learning target frame image to be processed later, and using it for learning It is for creating video sets.
  • the annotation processing includes labeling, coloring, or layering, and the object to be learned Any indication of what is is can be included as annotation processing.
  • the one or more objects to be detected on the frame image of the object to be studied are marked such that the regions are divided, for example, in the form of a box.
  • One or more users can do the labeling directly, and the computer can receive and enter labeling commands from the user.
  • the computer may label the object to be labeled as the same as the previous object.
  • one or more users can directly color or layer the same as labeling, and a computer can receive and input coloring or layering commands from the user.
  • the computer determines that an object that has been previously colored or layered by learning is the same as an object to be colored or layered, the computer can color or layer the object to be colored or layered the same as the previous object. .
  • the learning target frame image is a frame image in which one or more learning target objects are detected (S700)
  • the step of annotating the detected one or more learning target objects on the learning target frame image (S720).
  • the step of annotating the detected one or more objects to be learned is the same as described above.
  • the artificial intelligence image learning method includes the steps of performing artificial intelligence image learning using a set of learning videos, and the learning video frame is a learning target frame of the video for learning the artificial intelligence image described above. This is a learning video created by the image sampling method.
  • the method for generating the learning video is applied in the same manner as the method for sampling the frame image of the learning target of the video for learning the artificial intelligence image, and the artificial intelligence video learning method according to another embodiment of the present invention is generated.
  • Artificial intelligence image learning is performed using a set of learning videos.
  • a frame image sampling device for learning a video for artificial intelligence image learning includes: a raw video receiving unit, a frame image extracting unit, a learning object detecting unit, a background removing unit, an object moving amount measuring unit and learning And a target frame image selection unit.
  • the raw video receiving unit receives the raw video for artificial intelligence image learning.
  • the frame image extracting unit extracts a predetermined number of frame images per predetermined time interval from the received raw video.
  • the learning object detection unit detects one or more learning target objects of one or more types predetermined in each frame image using an object detection algorithm.
  • the background removing unit removes a background excluding an object to be learned from each frame image.
  • the movement amount measuring unit of the object is located on the n-1 frame image in which the location of one or more objects to be detected on the nth (n is a natural number greater than or equal to 2) frame image from which the background is removed and the background immediately preceding the nth frame image is removed. By comparing the positions of the detected one or more learning target objects, a movement amount of each of the detected one or more learning target objects on the n-th frame image is measured.
  • the learning target frame image selection unit compares a measurement result of a movement amount of each of the detected one or more learning target objects on the n-th frame image with a predetermined criterion to select the n-th frame image as a learning target frame image.
  • a frame image sampling device for learning a video for artificial intelligence image learning further includes a learning video set generating unit for processing the selected frame image for learning to generate a learning video set. do.
  • Each component of the frame image sampling apparatus for learning a video for artificial intelligence image learning is applied in the same manner as described in the method for sampling a frame image for learning a video for artificial intelligence video learning of FIGS. 1 to 6.
  • the artificial intelligence image learning apparatus includes an artificial intelligence image learning performing unit for performing artificial intelligence image learning using a set of learning videos, and the learning videos include the above-described artificial intelligence image learning.
  • This is a learning video generated by a frame image sampling device for learning a video.
  • the steps of a method or algorithm described in connection with an embodiment of the present invention may be implemented directly in hardware, a software module executed by hardware, or a combination thereof.
  • the software modules may include random access memory (RAM), read only memory (ROM), erasable programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), flash memory, hard disk, removable disk, CD-ROM, or It may reside on any type of computer readable recording medium well known in the art.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법이 제공된다. 상기 방법은, 인공지능 영상 학습을 위한 원시 동영상을 수신하는 단계, 수신한 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는 단계, 객체 검출 알고리즘을 이용하여 각각의 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는 단계, 각각의 프레임 이미지 상에서 학습 대상 객체를 제외한 배경을 제거하는 단계, 배경이 제거된 제n프레임 이미지 상의 학습 대상 객체 각각의 이동량을 측정하는 단계 및 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는 단계를 포함한다.

Description

인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법
본 발명은 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 그 장치, 프로그램 및 그 영상 학습 방법에 관한 것이다.
인공지능(artificial intelligence, AI)은 기계로부터 만들어진 지능을 의미한다. 인간의 지능으로 할 수 있는 사고, 학습 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로서, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 인공지능이라고 한다.
인공지능은 꾸준히 연구개발이 이루어지고 있으며, 이미지 지능화에서 음성 및 텍스트 지능화로, 현재는 비디오 영상 지능화에 대한 연구개발이 이루어지고 있어 급속한 성장 중이며, 비디오 영상 지능화의 산업적 파급효과는 매우 크다.
인공지능 학습을 위한 학습데이터를 만드는 과정에 있어서, 획득한 데이터를 전처리하는 작업은, 학습데이터를 만드는 시간 중 약 70~80%의 시간을 차지한다.
또한, 비디오 영상 데이터의 양은 기존의 이미지 또는 음성 데이터의 양과 비교하여 수십배에서 수백배까지도 차이가 난다.
비디오 영상 데이터를 이용하여 학습 데이터를 생성하는 것은, 기존의 이미지 또는 음성 데이터를 이용한 학습 데이터 생성과 비교하여 방대한 데이터 용량 때문에 데이터의 전처리 작업에서 시간과 비용이 매우 증가하는 문제가 있다.
따라서, 본 발명이 해결하고자 하는 과제는 데이터의 전처리 작업에서 시간과 비용을 최소화 할 수 있는 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법은, 컴퓨터에 의해 수행되는 방법으로서, 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신 단계, 수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출 단계, 객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출 단계, 각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거 단계, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정 단계 및 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정 단계를 포함한다.
상기 학습 대상 프레임 이미지 선정 단계는, 검출된 상기 하나 이상의 학습 대상 객체 중 미리 정해진 개수 이상의 상기 학습 대상 객체의 이동량이 상기 미리 정해진 기준 이상인 경우에는, 상기 제n 프레임 이미지를 상기 학습 대상 프레임 이미지로 선정하고, 그렇지 않은 경우에는, 상기 제n 프레임 이미지를 상기 학습 대상 프레임 이미지로 선정하지 않는다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법은, 선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성 단계를 더 포함한다.
상기 학습용 동영상 셋 생성 단계에서 상기 학습 대상 프레임 이미지는, 상기 프레임 이미지 추출 단계에서 상기 하나 이상의 학습 대상 객체가 검출되기 전의 프레임 이미지이고, 상기 학습용 동영상 셋 생성 단계는, 상기 학습 대상 프레임 이미지 상에서 상기 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 객체 검출 단계 및 상기 학습 대상 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는, 주석화 처리 단계를 더 포함한다.
상기 학습용 동영상 셋 생성 단계에서 상기 학습 대상 프레임 이미지는, 상기 학습 대상 객체 검출 단계에서 상기 하나 이상의 학습 대상 객체가 검출된 프레임 이미지이고, 상기 학습용 동영상 셋 생성 단계는, 상기 학습 대상 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는, 주석화 처리 단계를 더 포함한다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습 방법은, 컴퓨터에 의해 수행되는 방법으로서, 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는 단계를 포함하고, 상기 학습용 동영상은, 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신 단계와, 수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출 단계와, 객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출 단계와, 각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거 단계와, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정 단계와, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정 단계와, 선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성 단계를 포함하는 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법에 의해서 생성된 것을 특징으로 한다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치는, 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신부, 수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출부, 객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출부, 각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거부, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정부 및 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정부를 포함한다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치는, 선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성부를 더 포함한다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습 장치는, 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는, 인공지능 영상 학습 수행부를 포함하고, 상기 학습용 동영상은, 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신부와, 수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출부와, 객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출부와, 각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거부와, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정부와, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정부와, 선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성부를 포함하는 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치에 의해서 생성된 것을 특징으로 한다.
상술한 과제를 해결하기 위한 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 프로그램은, 하드웨어인 컴퓨터를 이용하여, 상술한 방법 중 어느 하나의 방법을 실행하기 위해 기록 매체에 저장된다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
상기 본 발명에 의하면, 동영상의 학습 데이터 생성에 있어서 동영상 데이터 중 일부만을 학습 데이터로 선정함으로써 데이터의 전처리 작업에서 시간 및 비용을 최소화할 수 있다.
또한, 상기 본 발명에 의하면, 학습 데이터 선정에 있어서 불필요한 데이터는 줄이고, 필요한 데이터만을 선정할 수 있다.
또한, 상기 본 발명에 의하면, 학습 대상 객체와 배경을 구분하여 학습 대상 객체의 변화량을 정확하게 측정할 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법을 설명하기 위한 순서도이다.
도 2는 본 발명의 학습 대상 객체의 이동량을 측정하기 위한 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 학습 대상 프레임 이미지 선정 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 학습 대상 프레임 이미지 샘플링 과정을 설명하기 위한 도면이다.
도 5는 학습용 동영상 셋을 생성하는 단계를 포함한 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법을 설명하기 위한 순서도이다.
도 6은 본 발명의 학습 대상 프레임 이미지가 학습 대상 객체가 검출되기 전의 프레임 이미지인 경우 학습용 동영상 셋을 생성하는 단계를 설명하기 위한 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작 시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법을 설명하기 위한 순서도이다.
도 1을 참고하면, 본 발명의 일 실시예에 따른 동영상의 학습 대상 프레임 이미지 샘플링 방법은, 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신 단계(S100), 수신한 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출 단계(S200), 각각의 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출 단계(S300), 각각의 프레임 이미지 상에서 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거 단계(S400), 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 학습 대상 객체 이동량 측정 단계(S500) 및 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정 단계(S600)를 포함한다.
원시 동영상 수신 단계(S100)에서 원시 동영상은 각종 카메라 등에서 수집되는 동영상을 포함한다.
일 실시예로, 자동차의 자율 주행을 위한 인공지능 영상 학습 데이터를 생성하기 위해 원시 동영상을 수신하는 경우, 원시 동영상은, 차량용 블랙박스 영상, 자동차가 다닐 수 있는 도로를 비추고 있는 CCTV 영상 또는 자율 주행을 위한 학습 데이터 생성을 위하여 카메라를 부착한 자동차로부터 획득한 동영상 등, 자율 주행을 위한 학습 데이터 생성이 가능한 동영상이 모두 포함되며, 상기 예에 한정되지 않는다.
다른 실시예로, 병변 또는 질환을 진단하기 위한 인공지능 영상 학습 데이터를 생성하기 위해 원시 동영상을 수신하는 경우, 원시 동영상은, 각종 영상 의료 기기에 의해 획득된 동영상을 포함하고, 예를 들어, CT(Computer tomography) 영상, 핵자기공명 컴퓨터 단층촬영 영상(Nuclear Magnetic Resonance Computed Tomography, NMR-CT), 양전자 단층촬영 영상(positron emission tomography; PET), CBCT(conebeamCT), 전자빔 단층촬영 영상(Electron beam tomography), 엑스레이(X-ray), 자기공명영상(margnetic resonance imaging) 등이 포함될 수 있으나, 영상 의료 기기에 의해 획득된 동영상은 모두 포함되며, 상기 예에 한정되지 않는다.
또 다른 실시예로, 범죄 현장을 감지하기 위한 인공지능 영상 학습 데이터를 생성하기 위해 원시 동영상을 수신하는 경우, 원시 동영상은, 공공으로 설치된 CCTV 및 개인이 설치한 CCTV 등에 의해 획득된 동영상을 포함한다.
프레임 이미지 추출 단계(S200)는, 수신한 원시 동영상에서 컴퓨터 또는 사용자의 설정에 의해 정해진 개수의 프레임 이미지를 추출한다.
수신한 원시 동영상에서 정해진 개수의 프레임 이미지를 추출하는 것은, 미리 정해진 시간의 구간에서 미리 정해진 개수의 프레임을 추출하는 것으로서, 예를 들어, 컴퓨터는 초당 30프레임 또는 초당 60프레임을 추출할 수 있으며, 사용자 또는 컴퓨터에 의해 미리 정해진 기준에 의해 프레임을 추출하는 것은 모두 포함되며, 상기 예에 한정되지 않는다.
학습 대상 객체 검출 단계(S300)는, 추출된 프레임 이미지 각각에 대하여 학습 대상 객체를 검출하는 것으로서, 추출된 프레임 이미지 각각에서 하나 이상의 학습 대상 객체를 검출하고, 학습 대상 객체는 하나 이상의 유형을 포함한다.
학습 대상 객체의 종류로는, 예를 들어, 사람, 자동차, 자전거, 건물, 전봇대, 오토바이, 나무, 꽃, 강아지, 고양이, 도로, 교통 표지판, 과속 방지턱, 교통용 콘, 차선 등을 포함하며, 상기 예에 한정되지 않고, 객체로서 구별이 가능한 것들을 모두 포함한다.
각 학습 대상 객체의 유형으로는, 예를 들어, 전면, 후면, 우측면, 좌측면 등을 포함하고, 각 학습 대상 객체의 유형은 상기 예에 한정되지 않고, 상기 예보다 세분화시켜 구분할 수 있으며, 상기 예와는 전혀 다른 유형으로서 구분할 수도 있다.
학습 대상 객체 검출로서 하나 이상의 유형의 하나 이상의 객체를 검출하는 것은, 객체 검출 알고리즘을 이용하여 검출하는 것이고, 객체 검출 알고리즘은 예를 들어, R-CNN 모델을 포함한다.
배경 제거 단계(S400)는, 추출한 프레임 이미지 상에서 검출된 학습 대상 객체를 제외한 것들을 배경으로 처리하고, 배경 부분을 모두 제거하는 것이다.
프레임 이미지 상에서 배경을 제거하는 방법으로서는, 일 실시예로 배경에 해당 되는 영역을 0 또는 1로 처리하여 제거한다.
학습 대상 객체 이동량 측정 단계(S500)는, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체의 위치와 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체의 위치를 비교하여, 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는 단계이다.
학습 대상 객체 이동량 측정에 관한 구체적인 실시예는 도 2에서 후술한다.
학습 대상 프레임 이미지 선정 단계(S600)는, 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정한다.
학습 대상 프레임 이미지 선정에 관한 구체적인 방법은 도 3 및 도 4에서 후술한다.
도 2는 본 발명의 학습 대상 객체의 이동량을 측정하기 위한 방법을 설명하기 위한 도면이다.
도 2를 참고하여, 학습 대상 객체 이동량 측정 단계(S500)에서의 이동량 측정 방법에 대하여 설명한다.
도 2의 (a)는 제n-1 프레임 이미지(11), 도 2의 (b)는 제n 프레임 이미지(12)를 도시하고 있다.
학습 대상 객체의 이동량 측정은 제n-1 프레임 이미지(11) 상에서의 학습 대상 객체(21)와 제n 프레임 이미지(12) 상에서의 학습 대상 객체(22)의 위치를 비교하는 것이다.
제n-1 프레임 이미지(11) 상에서의 학습 대상 객체(21)와 제n 프레임 이미지(12) 상에서의 학습 대상 객체(22)는 동일한 형태의 객체로서, 학습 대상 객체의 동일한 위치에 해당하는 부분을 먼저 선정한다.
학습 대상 객체의 동일한 위치에 해당하는 부분의 선정은, 컴퓨터가 제n-1 프레임 이미지(11) 상의 학습 대상 객체(21)에서 특정 부분을 A로 선정하였다고 할 때, 제n 프레임 이미지(12) 상의 학습 대상 객체(22)상에서 A와 동일한 위치에 해당하는 부분을 A'로 선정한다.
컴퓨터는 학습 대상 객체의 동일한 위치에 해당하는 부분을 선정한 후, 제n-1 프레임 이미지(11)와 제n 프레임 이미지(12)가 동일한 평면 상에 놓은 후, A 및 A'에 대한 좌표를 추출한다.
컴퓨터는 A 및 A'에 대한 좌표를 추출한 후, A좌표 및 A'좌표의 차이를 이용하여 이동량을 측정한다.
도 3은 본 발명의 학습 대상 프레임 이미지 선정 방법을 설명하기 위한 도면이다.
도 3을 참고하면, 학습 대상 프레임 이미지 선정 방법은, 검출된 하나 이상의 학습 대상 객체 중 미리 정해진 개수 이상의 학습 대상 객체의 이동량이 미리 정해진 기준 이상인지(S610)를 판단하여, 검출된 하나 이상의 학습 대상 객체 중 미리 정해진 개수 이상의 학습 대상 객체의 이동량이 미리 정해진 기준 이상인 경우에는, 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정(S611)하고, 검출된 하나 이상의 학습 대상 객체 중 미리 정해진 개수 이상의 학습 대상 객체의 이동량이 미리 정해진 기준 이상에 해당되지 않는 경우에는 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하지 않는 것이다(S612).
학습 대상 객체의 이동량의 기준을 설정하여, 미리 정해진 기준 이상인 것에 해당되는 프레임 이미지만, 학습 대상 프레임 이미지로서 선정함으로써, 불필요한 데이터는 줄이고, 필요한 데이터만을 선정할 수 있다.
따라서, 학습 대상 프레임 이미지는, 추출된 프레임 이미지 모두가 학습 대상 프레임 이미지로서 선정되지 않고, 객체의 이동량이 적어 학습에 있어 영향이 크지 않은 데이터들을 제외하고, 일부만이 학습 대상 프레임 이미지로서 선정됨으로써, 학습 데이터 셋은, 데이터의 양이 방대함에도 빠르고 정확하게 생산될 수 있다.
또한, 나아가, 학습 데이터 셋은 불필요한 데이터를 제거하여 생산됨으로써, 학습에 소요되는 시간도 줄일 수 있다.
도 4는 본 발명의 일 실시예에 따른 학습 대상 프레임 이미지 샘플링 과정을 설명하기 위한 도면이다.
도 4를 참고하면, 도 4의 (a)는 프레임 이미지 추출 단계(S200)에 의해 추출된 프레임 이미지(10)를 도시하고 있으며, 프레임 이미지(10)는 학습 대상 객체(20) 및 배경(30)을 포함한다.
도 4의 (b)는 도 4의 (a)인 프레임 이미지(10)에서, 배경 제거 단계(S400)에 의해 배경(30)이 제거된 것을 나타낸 도면으로, 프레임 이미지(10)는 학습 대상 객체(20)만을 포함한다.
도 4의 (c)는 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체(21)의 위치와 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체(22)의 위치를 비교하는 것을 나타낸 도면이다.
컴퓨터는 각각의 학습 대상 객체(21, 22)간의 비교를 통하여, 학습 대상 객체의 이동량을 측정할 수 있다.
학습 대상 객체(21, 22)의 위치 비교를 통하여, 이동량을 측정한 후, 컴퓨터는 검출된 하나 이상의 학습 대상 객체(20) 중 미리 정해진 개수 이상의 학습 대상 객체의 이동량이 미리 정해진 기준 이상인 경우에는, 제n 프레임 이미지를 상기 학습 대상 프레임 이미지로 선정하고, 그렇지 않은 경우에는, 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하지 않는다.
일 실시예로, 컴퓨터는 제1 프레임 이미지 상에서 검출된 학습 대상 객체와 제2 프레임 이미지 상에서 검출된 학습 대상 객체의 이동량을 비교하여 이동량이 미리 정해진 기준 이상인 경우에는, 제2 프레임 이미지를 학습 대상 프레임 이미지로 선정한다. 이동량이 미리 정해진 기준 이상에 해당되지 않는 경우에는, 제2 프레임 이미지를 학습 대상 프레임 이미지로 선정하지 않는다.
학습 대상 프레임 이미지를 선정하는 단계는, 선정된 추출된 프레임 이미지를 모두 비교하여 실시하는 것이다.
따라서, 컴퓨터는 제2 프레임 이미지를 학습 대상 프레임 이미지로 선정 또는 선정하지 않은 것에 그치지 않고, 다시 제2 프레임 이미지 상에서 검출된 학습 대상 객체와 제3 프레임 이미지 상에서 검출된 학습 대상 객체의 이동량을 비교하여, 이동량이 미리 정해진 기준 이상인 경우에는, 제3 프레임 이미지를 학습 대상 프레임 이미지로 선정한다.
프레임 이미지 상의 객체의 이동량을 측정하고 학습 대상 프레임 이미지로 선정 또는 선정하지 않는 단계는, 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체와 제n-1 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체의 위치를 비교하는 것으로서, 추출된 모든 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체에 대하여 비교하여 학습 대상 프레임으로 선정 또는 선정하지 않는 것이 완료될 때까지 반복한다.
또한, 학습 대상 객체(20)는 하나 이상으로서, 컴퓨터는 하나의 프레임 이미지(10) 상에 복수의 학습 대상 객체(20)가 있는 경우에도, 각각의 학습 대상 객체(20)를 비교하여 이동량을 측정한다.
하나의 프레임 이미지(10) 상에 복수의 학습 대상 객체(20)를 포함하는 경우에는, 일 실시예로, 컴퓨터는 복수의 학습 대상 객체(20) 전부의 이동량을 측정하여, 미리 정해진 개수의 학습 대상 객체(20)의 이동량이 미리 정해진 기준 이상인 경우 해당 프레임 이미지(10)를 학습 대상 프레임 이미지로 선정한다.
다른 실시예로, 컴퓨터는 복수의 학습 대상 객체(20) 전부의 이동량을 측정하여, 복수의 학습 대상 객체(20) 전부의 이동량이 미리 정해진 기준 이상인 경우 해당 프레임 이미지(10)를 학습 대상 프레임 이미지로 선정한다.
또 다른 실시예로, 컴퓨터는 복수의 학습 대상 객체(20) 중 미리 정해진 개수의 학습 대상 객체(20)의 이동량만을 측정하여, 측정한 학습 대상 객체(20)의 이동량 중 미리 정해진 개수의 학습 대상 객체(20)의 이동량이 미리 정해진 기준 이상인 경우 해당 프레임 이미지(10)를 학습 대상 프레임 이미지로 선정한다.
또 다른 실시예로, 컴퓨터는 복수의 학습 대상 객체(20) 중 미리 정해진 개수의 학습 대상 객체(20)의 이동량만을 측정하여, 측정한 학습 대상 객체(20) 전부의 이동량이 미리 정해진 기준 이상인 경우 해당 프레임 이미지(10)를 학습 대상 프레임 이미지로 선정한다.
도 4의 (c)의 이동량 측정에 의해 선정된 학습 대상 프레임 이미지는, 도 4의 (d)와 같이, 추출된 프레임 이미지(11, 12, 13, 14, 15) 중에서 선정된 학습 대상 프레임 이미지(12, 14)로서 선정된다.
도 5는 학습용 동영상 셋을 생성하는 단계를 포함한 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법을 설명하기 위한 순서도이다.
도 6은 본 발명의 학습 대상 프레임 이미지가 학습 대상 객체가 검출되기 전의 프레임 이미지인 경우 학습용 동영상 셋을 생성하는 단계를 설명하기 위한 순서도이다.
도 5를 참고하면, 본 발명의 동영상의 학습 대상 프레임 이미지 샘플링 방법은 선정된 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는 단계(S700)를 더 포함한다.
선정된 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는 단계(S700)에서, 학습 대상 프레임 이미지는, 학습 대상 객체가 검출되기 전의 프레임 이미지 또는 학습 대상 객체가 검출된 프레임 이미지를 포함한다.
도 6을 참고하면, 학습 대상 프레임 이미지가 학습 대상 객체가 검출되기 전의 프레임 이미지인 경우 학습용 동영상 셋을 생성하는 단계(S700)는, 학습 대상 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는 단계(S710) 및 학습 대상 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는 단계(S720)를 포함한다.
학습 대상 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는 단계(S710)는, 상술한 도 1의 학습 대상 객체를 검출하는 단계(S300)와 동일하게 적용된다.
학습 대상 객체가 검출되기 전의 프레임 이미지인 학습 대상 프레임 이미지가, 학습 대상 객체를 검출하는 단계를 거치게 되는 것은, 이후 진행될 학습 대상 프레임 이미지 상의 학습 대상 객체에 대하여 주석화를 처리하고, 이를 이용하여 학습용 동영상 셋을 생성 단계를 위한 것이다.
학습 대상 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는 단계(S720)에서, 주석화 처리는, 라벨링(labeling), 컬러링(coloring) 또는 레이어링(layering)을 포함하고, 학습 대상 객체가 무엇인지 표시하는 것은 모두 주석화 처리로서 포함될 수 있다.
학습 대상 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체는, 예를 들어, 박스(box)등의 형태로서, 영역이 구분되도록 표시되어 있다.
따라서, 학습 대상 객체로서 구분되어 표시된 영역에 대하여, 각 객체가 무엇인지 설명이 작성될 수 있으며, 라벨링(labeling)은, 간단하게는 하나의 단어로 작성될 수 있고, 하나의 단어가 아닌, 문장으로서도 자세하게 작성될 수 있다.
하나 이상의 사용자가 직접 라벨링을 할 수 있으며, 컴퓨터가 사용자로부터 라벨링 명령을 받아 입력할 수 있다.
사용자가 라벨링을 하는 경우에, 라벨링의 방법으로는, 직접 설명을 작성하거나 복수의 탭 중에서 선택할 수도 있다.
또한, 컴퓨터가 학습에 의하여 이전에 라벨링 되었던 객체와 현재 라벨링 대상 객체가 동일하다고 판단되는 경우에는, 컴퓨터는 현재 라벨링 대상 객체에 대하여 이전 객체와 동일하게 라벨링 할 수 있다.
컬러링(coloring) 또는 레이어링(layering)을 통해 주석화 처리하는 경우에도, 라벨링과 동일하게 하나 이상의 사용자가 직접 컬러링 또는 레이어링을 할 수 있으며, 컴퓨터가 사용자로부터 컬러링 또는 레이어링 명령을 받아 입력할 수 있다.
또한, 컴퓨터가 학습에 의하여 이전에 컬러링 또는 레이어링 되었던 객체와 현재 컬러링 또는 레이어링 대상 객체가 동일하다고 판단되는 경우에는, 컴퓨터는 현재 컬러링 또는 레이어링 대상 객체에 대하여 이전 객체와 동일하게 컬러링 또는 레이어링 할 수 있다.
한편, 학습 대상 프레임 이미지가 하나 이상의 학습 대상 객체가 검출된 프레임 이미지인 경우 학습용 동영상 셋을 생성하는 단계(S700)는, 학습 대상 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는 단계(S720)를 포함한다.
검출된 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는 단계(S720)는, 상술한 내용과 동일하다.
본 발명의 다른 실시예에 따른 인공지능 영상 학습 방법은, 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는 단계를 포함하고, 학습용 동영상은, 상술한 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법에 의해 생성된 학습용 동영상이다.
따라서, 학습용 동영상의 생성을 위한 방법은, 상술한 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법과 동일하게 적용되며, 본 발명의 다른 실시예에 따른 인공지능 영상 학습 방법은, 생성된 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행한다.
본 발명의 또 다른 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치는, 원시 동영상 수신부, 프레임 이미지 추출부, 학습 대상 객체 검출부, 배경 제거부, 객체의 이동량 측정부 및 학습 대상 프레임 이미지 선정부를 포함한다.
원시 동영상 수신부는, 인공지능 영상 학습을 위해 원시 동영상을 수신한다.
프레임 이미지 추출부는, 수신한 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출한다.
학습 대상 객체 검출부는, 객체 검출 알고리즘을 이용하여 각각의 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출한다.
배경 제거부는, 각각의 상기 프레임 이미지 상에서 학습 대상 객체를 제외한 배경을 제거한다.
객체의 이동량 측정부는, 배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체의 위치와 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체의 위치를 비교하여, 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량을 측정한다.
학습 대상 프레임 이미지 선정부는, 제n 프레임 이미지 상의 검출된 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정한다.
본 발명의 또 다른 실시예에 따른 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치는, 선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성부를 더 포함한다.
인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치의 각 구성은, 도 1 내지 도 6의 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법에서 설명한 내용과 동일하게 적용된다.
본 발명의 또 다른 실시예에 따른 인공지능 영상 학습 장치는, 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는, 인공지능 영상 학습 수행부를 포함하고, 학습용 동영상은, 상술한 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치에 의해 생성된 학습용 동영상이다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims (10)

  1. 컴퓨터에 의해 수행되는 방법으로서,
    인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신 단계;
    수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출 단계;
    객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출 단계;
    각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거 단계;
    배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정 단계; 및
    상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정 단계를 포함하는,
    인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법.
  2. 제1항에 있어서,
    상기 학습 대상 프레임 이미지 선정 단계는,
    검출된 상기 하나 이상의 학습 대상 객체 중 미리 정해진 개수 이상의 상기 학습 대상 객체의 이동량이 상기 미리 정해진 기준 이상인 경우에는, 상기 제n 프레임 이미지를 상기 학습 대상 프레임 이미지로 선정하고, 그렇지 않은 경우에는, 상기 제n 프레임 이미지를 상기 학습 대상 프레임 이미지로 선정하지 않는,
    인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법.
  3. 제1항에 있어서,
    선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성 단계를 더 포함하는,
    인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법.
  4. 제3항에 있어서,
    상기 학습용 동영상 셋 생성 단계에서 상기 학습 대상 프레임 이미지는,
    상기 프레임 이미지 추출 단계에서 상기 하나 이상의 학습 대상 객체가 검출되기 전의 프레임 이미지이고,
    상기 학습용 동영상 셋 생성 단계는,
    상기 학습 대상 프레임 이미지 상에서 상기 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 객체 검출 단계; 및
    상기 학습 대상 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는, 주석화 처리 단계를 더 포함하는,
    인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법.
  5. 제3항에 있어서,
    상기 학습용 동영상 셋 생성 단계에서 상기 학습 대상 프레임 이미지는,
    상기 학습 대상 객체 검출 단계에서 상기 하나 이상의 학습 대상 객체가 검출된 프레임 이미지이고,
    상기 학습용 동영상 셋 생성 단계는,
    상기 학습 대상 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체에 대하여 주석화 처리하는, 주석화 처리 단계를 더 포함하는,
    인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법.
  6. 컴퓨터에 의해 수행되는 방법으로서,
    학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는 단계를 포함하고,
    상기 학습용 동영상은,
    인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신 단계와,
    수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출 단계와,
    객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출 단계와,
    각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거 단계와,
    배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정 단계와,
    상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정 단계와, 및
    선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성 단계를 포함하는 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법에 의해서 생성된 것을 특징으로 하는,
    인공지능 영상 학습 방법.
  7. 인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신부;
    수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출부;
    객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출부;
    각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거부;
    배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정부; 및
    상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정부를 포함하는,
    인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치.
  8. 제7항에 있어서,
    선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성부를 더 포함하는,
    인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치.
  9. 학습용 동영상 셋을 이용하여 인공지능 영상 학습을 수행하는, 인공지능 영상 학습 수행부를 포함하고,
    상기 학습용 동영상은,
    인공지능 영상 학습을 위한 원시 동영상을 수신하는, 원시 동영상 수신부와,
    수신한 상기 원시 동영상에서 미리 정해진 시간 구간 당 미리 정해진 개수의 프레임 이미지를 추출하는, 프레임 이미지 추출부와,
    객체 검출 알고리즘을 이용하여 각각의 상기 프레임 이미지 상에서 미리 정해진 하나 이상의 유형의 하나 이상의 학습 대상 객체를 검출하는, 학습 대상 객체 검출부와,
    각각의 상기 프레임 이미지 상에서 상기 학습 대상 객체를 제외한 배경을 제거하는, 배경 제거부와,
    배경이 제거된 제n(n은 2이상의 자연수) 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치와 상기 제n 프레임 이미지의 직전의 배경이 제거된 제n-1 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체의 위치를 비교하여, 상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량을 측정하는, 객체의 이동량 측정부와,
    상기 제n 프레임 이미지 상의 검출된 상기 하나 이상의 학습 대상 객체 각각의 이동량의 측정 결과와 미리 정해진 기준을 비교하여 상기 제n 프레임 이미지를 학습 대상 프레임 이미지로 선정하는, 학습 대상 프레임 이미지 선정부와, 및
    선정된 상기 학습 대상 프레임 이미지를 가공 처리하여 학습용 동영상 셋을 생성하는, 학습용 동영상 셋 생성부를 포함하는 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 장치에 의해서 생성된 것을 특징으로 하는,
    인공지능 영상 학습 장치.
  10. 하드웨어인 컴퓨터를 이용하여, 제1항 내지 제5항 중 어느 한 항의 방법을 실행하기 위해 기록 매체에 저장된, 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 프로그램.
PCT/KR2019/008402 2018-09-27 2019-07-09 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법 WO2020067632A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/212,771 US11295169B2 (en) 2018-09-27 2021-03-25 Method, device, and program for sampling frame image of object to be learned in video for artificial intelligence video learning, and image learning method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0114986 2018-09-27
KR1020180114986A KR102015939B1 (ko) 2018-09-27 2018-09-27 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/212,771 Continuation US11295169B2 (en) 2018-09-27 2021-03-25 Method, device, and program for sampling frame image of object to be learned in video for artificial intelligence video learning, and image learning method thereof

Publications (1)

Publication Number Publication Date
WO2020067632A1 true WO2020067632A1 (ko) 2020-04-02

Family

ID=67775356

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/008402 WO2020067632A1 (ko) 2018-09-27 2019-07-09 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법

Country Status (4)

Country Link
US (1) US11295169B2 (ko)
JP (1) JP6715358B2 (ko)
KR (1) KR102015939B1 (ko)
WO (1) WO2020067632A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179159B (zh) * 2019-12-31 2024-02-20 北京金山云网络技术有限公司 消除视频中目标影像的方法、装置、电子设备及存储介质
KR102405297B1 (ko) * 2020-02-19 2022-06-07 주식회사 에이모 인공지능을 이용한 크라우드 아웃소싱 작업 검수 대상 샘플링 방법 및 장치
KR20230017628A (ko) 2021-07-28 2023-02-06 김남식 인공지능 학습용 이미지 추출 및 학습 플랫폼
KR102510733B1 (ko) * 2022-08-10 2023-03-16 주식회사 에이모 영상에서 학습 대상 이미지 프레임을 선별하는 방법 및 장치
KR20240061407A (ko) 2022-10-31 2024-05-08 (주)비타소프트 고화질 동영상으로부터 효율적으로 배경을 제거하기 위한 인공지능 기술 기반의 고해상도 배경 제거 방법
CN115798020A (zh) * 2023-01-29 2023-03-14 北京林业大学 一种基于人工智能的中小学生学习投入度检测方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944681A (ja) * 1995-08-01 1997-02-14 Matsushita Electric Ind Co Ltd 移動物体領域検出装置
KR20140022676A (ko) * 2012-08-14 2014-02-25 에스케이텔레콤 주식회사 프레임률에 따라 학습률을 가변하는 이동객체 검출장치 및 방법
KR101537559B1 (ko) * 2013-12-30 2015-07-20 전자부품연구원 객체 검출 장치, 차량용 객체 검출 장치 및 이들의 방법
JP2017151813A (ja) * 2016-02-25 2017-08-31 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
KR20180096164A (ko) * 2017-02-20 2018-08-29 연세대학교 산학협력단 객체 인식을 위한 영상 학습 방법 및 장치

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014085795A (ja) * 2012-10-23 2014-05-12 Toshiba Corp 学習画像収集装置、学習装置及び対象物検出装置
JP6188592B2 (ja) * 2014-01-21 2017-08-30 三菱電機株式会社 物体検出装置、物体検出方法、および物体検出プログラム
US10083378B2 (en) * 2015-12-28 2018-09-25 Qualcomm Incorporated Automatic detection of objects in video images
JP6617085B2 (ja) * 2016-08-31 2019-12-04 株式会社デンソーアイティーラボラトリ 物体状況推定システム、物体状況推定装置、物体状況推定方法、及び物体状況推定プログラム
JP2018081545A (ja) * 2016-11-17 2018-05-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 画像データ抽出装置及び画像データ抽出方法
KR101888647B1 (ko) 2017-01-25 2018-08-14 서울대학교산학협력단 이미지 분류 장치 및 방법
US10861168B2 (en) * 2017-09-07 2020-12-08 Comcast Cable Communications, Llc Relevant motion detection in video
US11025942B2 (en) * 2018-02-08 2021-06-01 Samsung Electronics Co., Ltd. Progressive compressed domain computer vision and deep learning systems
US11450009B2 (en) * 2018-02-26 2022-09-20 Intel Corporation Object detection with modified image background

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944681A (ja) * 1995-08-01 1997-02-14 Matsushita Electric Ind Co Ltd 移動物体領域検出装置
KR20140022676A (ko) * 2012-08-14 2014-02-25 에스케이텔레콤 주식회사 프레임률에 따라 학습률을 가변하는 이동객체 검출장치 및 방법
KR101537559B1 (ko) * 2013-12-30 2015-07-20 전자부품연구원 객체 검출 장치, 차량용 객체 검출 장치 및 이들의 방법
JP2017151813A (ja) * 2016-02-25 2017-08-31 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
KR20180096164A (ko) * 2017-02-20 2018-08-29 연세대학교 산학협력단 객체 인식을 위한 영상 학습 방법 및 장치

Also Published As

Publication number Publication date
US11295169B2 (en) 2022-04-05
JP6715358B2 (ja) 2020-07-01
JP2020052999A (ja) 2020-04-02
KR102015939B1 (ko) 2019-08-28
US20210241031A1 (en) 2021-08-05

Similar Documents

Publication Publication Date Title
WO2020067632A1 (ko) 인공지능 영상 학습을 위한 동영상의 학습 대상 프레임 이미지 샘플링 방법, 장치, 프로그램 및 그 영상 학습 방법
WO2019132170A1 (ko) 학습용 데이터 관리방법, 장치 및 프로그램
WO2018106005A1 (ko) 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 그 방법
WO2019132169A1 (ko) 수술영상 재생제어 방법, 장치 및 프로그램
WO2022149894A1 (ko) 병리 검체에 대한 판단 결과를 제공하는 인공 뉴럴 네트워크의 학습 방법, 및 이를 수행하는 컴퓨팅 시스템
WO2020196985A1 (ko) 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법
WO2017051945A1 (ko) 질환 모델 기반의 의료 정보 서비스 제공 방법 및 장치
WO2021194056A1 (en) Method for training deep learning network based on artificial intelligence and learning device using the same
WO2013012150A1 (ko) 에지의 방향 성분을 검출하는 영상 필터링 방법 및 이를 이용한 영상 인식 방법
WO2021201422A1 (ko) Ar에 적용 가능한 의미적인 분할 방법 및 시스템
WO2022065817A1 (en) Methods for training and testing obfuscation network capable of performing distinct concealing processes for distinct regions of original image and learning and testing devices using the same
WO2019235828A1 (ko) 투 페이스 질병 진단 시스템 및 그 방법
WO2020032559A2 (ko) 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 방법
WO2021225360A1 (en) Method for performing on-device learning of machine learning network on autonomous vehicle by using multi-stage learning with adaptive hyper-parameter sets and device using the same
WO2016108327A1 (ko) 차량검출방법, 차량검출을 위한 데이터베이스의 구조, 및 차량검출을 위한 데이터베이스 구축방법
WO2021225296A1 (en) Method for explainable active learning, to be used for object detector, by using deep encoder and active learning device using the same
WO2021101045A1 (en) Electronic apparatus and method for controlling thereof
WO2022146050A1 (ko) 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
WO2021235682A1 (en) Method and device for performing behavior prediction by using explainable self-focused attention
WO2021002722A1 (ko) 이벤트 태깅 기반 상황인지 방법 및 그 시스템
WO2024111914A1 (ko) 범용성이 향상된 인공지능에 의한 의료영상 변환방법 및 그 장치
WO2023182702A1 (ko) 디지털 병리이미지의 인공지능 진단 데이터 처리 장치 및 그 방법
WO2022158843A1 (ko) 조직 검체 이미지 정제 방법, 및 이를 수행하는 컴퓨팅 시스템
WO2023282500A1 (ko) 슬라이드 스캔 데이터의 자동 레이블링 방법, 장치 및 프로그램
WO2023096011A1 (ko) 제로샷 시맨틱 분할 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19866648

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 30.08.2021)

122 Ep: pct application non-entry in european phase

Ref document number: 19866648

Country of ref document: EP

Kind code of ref document: A1