WO2020246655A1 - 상황 인지 방법 및 이를 수행하는 장치 - Google Patents

상황 인지 방법 및 이를 수행하는 장치 Download PDF

Info

Publication number
WO2020246655A1
WO2020246655A1 PCT/KR2019/007691 KR2019007691W WO2020246655A1 WO 2020246655 A1 WO2020246655 A1 WO 2020246655A1 KR 2019007691 W KR2019007691 W KR 2019007691W WO 2020246655 A1 WO2020246655 A1 WO 2020246655A1
Authority
WO
WIPO (PCT)
Prior art keywords
map
context
feature map
aware
processor
Prior art date
Application number
PCT/KR2019/007691
Other languages
English (en)
French (fr)
Inventor
하영국
정혁준
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to CN201980095863.2A priority Critical patent/CN113767392A/zh
Publication of WO2020246655A1 publication Critical patent/WO2020246655A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the following embodiments relate to a context recognition method and an apparatus for performing the same.
  • AI-based real-time image object detection technology shows much better performance than conventional image processing methods such as SURF, template matching, and SHIFT.
  • AI-based object detection is applied to robots, autonomous driving, and security cameras to recognize vehicles, objects, and people within the field of view.
  • Embodiments may provide a technique for recognizing a situation by detecting an object in an image stream with a single framework.
  • a context recognition method includes the steps of obtaining a feature map from an image stream, generating an object map based on the feature map, and the step of generating an object map based on the object map. It includes the step of recognizing the situation of the video constituting the image stream.
  • the context recognition method may further include detecting an object included in the image based on the feature map.
  • the obtaining step may include generating the feature map using a convolution layer and a maxpool layer.
  • the detecting may include detecting the object by calculating at least one of a type, class, position, and area of the object based on the feature map. I can.
  • the generating may include converting the feature map to a bridged map representing a probability of an object present in each grid cell of the feature map, and having a probability of a threshold value or more in the bridge map. It may include the step of generating the object map by displaying an area.
  • the step of generating the bridge map may include calculating a probability value of the existence of an object in each of the grid cells using an anchor box.
  • the context recognition method may further include expanding the size of the object map.
  • the object map includes a plurality of object maps, and the step of recognizing,
  • It may include inputting each of the plurality of object maps to each LSTM cell according to a time step, and recognizing a state of the image using an output of the final LSTM cell.
  • a context-aware device includes a memory including instructions and a processor for executing the instructions, and when the instructions are executed by the processor, the processor includes a feature map in an image stream. ) Is obtained, an object map is generated based on the feature map, and a state of an image constituting the image stream is recognized based on the object map.
  • the processor may detect an object included in the image based on the feature map.
  • the processor may generate the feature map using a convolution layer and a maxpool layer.
  • the processor may detect the object by calculating at least one of a type, a class, a position, and an area of the object based on the feature map.
  • the processor converts the feature map into a bridged map indicating a probability of an object exists in each grid cell of the feature map, and displays an area having a probability equal to or greater than a threshold value in the bridge map.
  • the object map can be generated.
  • the processor may calculate a probability value of the existence of an object in each of the grid cells using an anchor box.
  • the processor may expand the size of the object map.
  • the object map includes a plurality of object maps, and the processor inputs each of the plurality of object maps to each LSTM cell according to a time step, and uses the output of the final LSTM cell to display the image. Be aware of the situation.
  • FIG. 1 is a diagram illustrating a context recognition system according to an exemplary embodiment.
  • FIG. 2 is a schematic block diagram of the situation recognition apparatus shown in FIG. 1.
  • FIG. 3 is a diagram for explaining the operation of the device for recognizing the situation shown in FIG.
  • FIG. 4 is a diagram for describing in detail the operation of the object map generation module illustrated in FIG. 3.
  • 5A to 5C are diagrams illustrating an image frame and an object map corresponding to the image frame.
  • FIG. 6 is a diagram for describing in detail the operation of the context recognition module shown in FIG. 3.
  • FIG. 7 is a diagram for explaining a learning operation of a context-aware device.
  • FIGS. 9A to 9C are diagrams illustrating a situation recognition result based on a real-time image stream by a situation recognition apparatus.
  • first or second may be used to describe various components, but the components should not be limited by terms. The terms are only for the purpose of distinguishing one component from other components, for example, without departing from the scope of rights according to the concept of the embodiment, the first component may be named as the second component, and similarly The second component may also be referred to as a first component.
  • a module may mean hardware capable of performing functions and operations according to each name described in the specification, or may mean a computer program code capable of performing specific functions and operations. Or, it may mean an electronic recording medium, for example, a processor or a microprocessor on which a computer program code capable of performing a specific function and operation is mounted.
  • the module may mean a functional and/or structural combination of hardware for performing the technical idea of the present invention and/or software for driving the hardware.
  • FIG. 1 is a diagram illustrating a context recognition system according to an exemplary embodiment
  • FIG. 2 is a schematic block diagram of the context recognition apparatus illustrated in FIG. 1.
  • the context recognition system 10 may provide a context recognition technology based on a real-time image.
  • the context-aware system 10 may provide context-aware technology to autonomous vehicles.
  • the advanced automation stage (level 4) of an autonomous vehicle is a stage in which autonomous driving is possible in all situations under defined road conditions, and the driver intervenes in driving under other road conditions, and is just before the fully automated stage (level 5).
  • the situation recognition system 10 may be used as a technology for real-time image-based driving situation recognition in autonomous vehicles in a highly automated step and a fully automated step.
  • the context-aware system 10 includes a context-aware device 100 and an image stream 150.
  • the image stream 150 may include image frames. Image frames included in the image stream 150 may be configured according to a time order.
  • the image stream 250 may be image sequences in which images captured in real time while the autonomous vehicle is driving are configured according to a time sequence.
  • the context recognition device 100 may recognize a situation from the input image stream 150.
  • the situation recognition apparatus 100 may recognize a situation in which a road is under construction or a situation in which a pedestrian is crossing the road from the image stream 150 photographed while the autonomous vehicle is driving.
  • the context recognition apparatus 100 may simultaneously perform object detection and situation recognition with a single framework. Since the context-aware model of the context-aware device 100 is designed to be optimized for object detection, the context-aware device 100 is efficient and can provide high performance.
  • the context awareness device 100 includes a memory 200 and a processor 300.
  • the processor 300 may control the overall operation of the context-aware device 100.
  • the processor 300 may learn based on data prepared to perform object detection and context recognition operations.
  • the processor 300 may detect an object from the image stream 150 based on the learned result, and recognize a situation based on the object detection result.
  • the processor 300 may obtain a feature map based on the image stream 150 and may detect an object based on the feature map. Also, the processor 300 may generate an object map based on the feature map, and may recognize the situation of the image stream 150 based on the object map.
  • the memory 200 may store instructions and/or a program executable by the processor 300.
  • the instruction and/or program may include instructions for executing the operation of the processor 300 and/or the operation of each component of the processor 300.
  • the processor 300 may process data stored in the memory 200.
  • the processor 300 may execute computer-readable code (eg, software) stored in the memory 200 and instructions induced by the processor 300.
  • the processor 300 may be a data processing device implemented in hardware having a circuit having a physical structure for executing desired operations.
  • desired operations may include code or instructions included in a program.
  • a data processing device implemented in hardware is a microprocessor, a central processing unit, a processor core, a multi-core processor, and a multiprocessor.
  • ASIC Application-Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the context-aware device 100 may be implemented in a personal computer (PC), a data server, or a portable device.
  • PC personal computer
  • data server data server
  • portable device a portable device
  • Portable devices include a laptop computer, a mobile phone, a smart phone, a tablet PC, a mobile internet device (MID), a personal digital assistant (PDA), an enterprise digital assistant (EDA). , Digital still camera, digital video camera, portable multimedia player (PMP), personal navigation device or portable navigation device (PND), handheld game console, e-book ( e-book) or a smart device.
  • the smart device may be implemented as a smart watch, a smart band, or a smart ring.
  • FIG. 3 is a diagram for explaining the operation of the device for recognizing the situation shown in FIG.
  • the processor 300 includes an object detection module 330, an object map generation module 340, and a context recognition module 350.
  • the image stream 150 may include image frames 151-1, 151-2, and 151-n configured according to a time order.
  • the image stream 150 may be an image sequence in which the image frames 151-1, 151-2, and 151-n are formed in chronological order.
  • the object detection module 330 may detect a type, coordinates, and size of an object in an image frame. For example, the object detection module 330 generates a feature map based on the image frames 151-1, 151-2, and 151-n, and based on the feature map, the object detection module 330 ), coordinates, and size can be detected.
  • the object detection module 330 may be implemented as You Only Look Once (YOLO).
  • the object detection module 330 implemented in YOLO includes a convolutional neural network (CNN) 331-1, 331-2, to 331-n and a detector 333-1, 333-2, to 333- n) may be included.
  • CNN convolutional neural network
  • each CNN (331-1, 331-2, to 331-n) and detectors (333-1, 333-2, to 151-n) for the image frames (151-1, 151-2, to 151-n) 333-n) CNN 331 and a detector representing each CNN (331-1, 331-2, to 331-n) and detectors (333-1, 333-2, to 333-n)
  • the operation of the image frame 151 of 333 will be described.
  • the CNN 331 may generate a feature map based on the image frame 151.
  • the CNN 331 may generate a feature map based on the image frame 151 divided into grid cells.
  • the CNN 3310 may generate a feature map by dividing the image frame 151 into 13 ⁇ 13 grid cells.
  • the CNN 331 may perform convolution by setting an anchor box in each grid cell. For example, the CNN 331 may perform 845 convolutions by setting five anchor boxes in each grid cell.
  • the feature map generated by the CNN 331 may include information on an object detected by an anchor box.
  • the CNN 331 may be composed of a convolution layer, a maxpool layer, and a fully connected layer.
  • the CNN 331 uses a convolution layer, a maxpool layer, and a fully connected layer to perform a convolution operation and max.
  • a feature map can be created by performing max pooling.
  • the detector 333 may calculate an object type (type or class), a position, and an area based on the feature map.
  • the detector 333 may acquire metadata about an object by performing a post-processing operation on the feature map generated by the CNN 331.
  • the object map generation module 340 may generate object maps 341-1, 341-2, and 341-n based on the feature map generated by the object recognition module 330. That is, the object map generation module 340 is based on the feature map generated in response to each image frame 151-1, 151-2, to 151-n by the object recognition module 330, and the image frame 151-1 Object maps 341-1, 341-2, and 341-n corresponding to 1, 151-2, and 151-n) may be generated.
  • the context recognition module 350 may recognize the context based on the object maps 341-1, 341-2, and 341-n.
  • the context awareness module 350 may be implemented as Long Short-term Meomory (LSTM).
  • the context recognition module 350 implemented in LSTM is based on the object maps 341-1, 341-2, to 341-n corresponding to the image frames 151-1, 151-2, and 151-n. Be aware of the situation.
  • the context awareness module 350 may be composed of LSTM cells (LSTM cells 353-1, 353-2, to 353-n).
  • the context recognition module 350 composed of the LSTM cells 353-1, 353-2, to 353-n may recognize the situation based on the object maps 341-1, 341-2, to 341-n. .
  • LSTM cells 353-1, 353-2, to 353-n sequentially output outputs based on the input object maps 351-1, 351-2, and 351-n, followed by LSTM cells 353-1 and 353. -2, to 353-n) can be entered.
  • the last LSTM cell 353-n can input the result as a fully connected layer 355, and the fully connected layer 355 can recognize the situation.
  • FIG. 4 is a diagram for describing in detail the operation of the object map generation module illustrated in FIG. 3.
  • the object map 341 shown in FIG. 4 is for explaining the generation operation of each of the object maps 341-1, 341-2, to 341-n shown in FIG. 3, and the object map 341 shown in FIG. 341-1, 341-2, to 341-n) all correspond to the object map 341.
  • the feature map 335 illustrated in FIG. 4 corresponds to a feature map 335 generated corresponding to the image frames 151-1, 151-2, and 151-n illustrated in FIG. 3.
  • the object map generation module 340 bridges the feature map 335 based on the feature map 335 generated by the object detection module 330 and an anchor box 470 included in the feature map 335. It can be converted to 430.
  • the bridge map 430 may indicate a probability that an object exists in each grid cell of the feature map.
  • each grid cell of the bridge map 430 may represent a probability that an object exists in each grid cell of the feature map as a representative value.
  • the object map generation module 340 may calculate the probability of the object appearing in each grid cell of the feature map based on the probability that the object exists in the anchor box 470 corresponding to each grid cell, and based on the calculated probability.
  • the feature map 335 may be converted into a bridge map 430.
  • the object map generation module 340 may generate an object map 341 based on the bridge map 430.
  • the object map generation module 340 may generate an object map 341 displaying only grid cells having a threshold value or more by comparing the representative value of each grid cell of the bridge map 430 with a threshold value.
  • the feature map 335 cannot be input to the LSTM, but the object map 341 can be input to the LSTM.
  • the context-aware operation since the context-aware operation only needs to input the presence or absence of a specific object at an approximate location, complex calculations can be reduced using the object map 341.
  • 5A to 5C are diagrams illustrating an image frame and an object map corresponding to the image frame.
  • FIG. 5A shows an object map 530-1 corresponding to an image frame 510-1 showing a situation in which a large truck is driving.
  • the context recognition module 350 may generate an object map 530-1 indicating an area where a large truck exists.
  • FIG. 5B shows an object map 530-2 corresponding to an image frame 510-2 including a plurality of objects (vehicle, construction vehicle, and pedestrian).
  • the context recognition module 350 may generate an object map 530-2 indicating an area in which each object exists by classifying a plurality of objects.
  • object maps 530-3 and 530-4 respectively corresponding to the image frame 510-3 and the next image frame 510-4 included in the image stream 150 configured in chronological order are shown. Show.
  • the context recognition module 350 may generate an object map 530-3 corresponding to an image included in the image stream 150 according to a time order.
  • the object maps 530-1 to 530-4 generated as described above may be input to the context recognition module 350 and may be used for a context recognition operation.
  • FIG. 6 is a diagram illustrating an operation of the context recognition module shown in FIG. 3.
  • the context recognition module 350 recognizes the context based on the object maps 341-1, 341-2, to 341-n corresponding to the image frames 151-1, 151-2, and 151-n. I can.
  • Object maps 341-1, 341-2, to 341-n corresponding to image frames 151-1, 151-2, to 151-n configured according to time order, respectively, according to a time step. It may be input to the LSTM cells 353-1, 353-2, to 353-n. Each LSTM cell 353-1, 353-2, to 353-n may form a cell state based on a multilayer perceptron (MLP).
  • MLP multilayer perceptron
  • the object maps 341-1, 341-2, to 341-n are simple 28x28 maps, so there is no need to use a complex layer.
  • the context awareness module 350 may be composed of LSTM cells 353-1, 353-2, and 353-n.
  • each of the object maps 341-1, 341-2, and 341-n corresponding to the image frames 151-1, 151-2, and 151-n are sequentially each LSTM cell.
  • the number of LSTM cells 353 equal to the number of image frames 151-1, 151-2, to 151-n.
  • LSTM cells 353-1, 353-2, to 353-n sequentially output outputs based on the input object maps 351-1, 351-2, and 351-n, followed by LSTM cells 353-1 and 353. -2, to 353-n) can be entered. That is, the first LSTM cell 353-1 can input the output based on the first object map 351-1 to the second LSTM cell 353-2, and the second LSTM cell 353-2 is the first LSTM cell ( A result may be output based on the output of 353-1) and the second object map 351-2.
  • the k-th LSTM cell 353-k may output a result based on the output of the k-1-th LSTM cell 353 (k-1) and the k-th object map 351-k.
  • the last LSTM cell 353-n may input the output result to a fully connected layer 355, and the fully connected layer 355 may output a context recognition result.
  • the context awareness module 350 may be designed as an LSTM based on parameters shown in Table 1.
  • FIG. 7 is a diagram for explaining a learning operation of a context-aware device.
  • the context-aware device 100 may learn about various situations.
  • Various situations include a pedestrian crossing the street (situation 1), a pedestrian standing in front of a crosswalk (situation 2), a vehicle safe on the road (situation 3), a heavy truck ahead (situation 4), and other situations. It may include a situation that requires attention because the vehicle is too close (situation 5), and a situation under construction in front (situation 6).
  • the situational awareness situation 100 may be learned using a plurality of image streams (sequence 1 to sequence n) corresponding to each situation (situation 1 to situation 6).
  • the context-aware device 100 learned for various situations may recognize a situation that the existing context-aware technology cannot recognize.
  • the context recognition apparatus 100 uses 128 hidden layers, and can learn 6 situations (or classes) through 9000 pieces of data.
  • FIGS. 9A to 9C are diagrams illustrating a situation recognition result based on a real-time image stream by a situation recognition apparatus.
  • the situation-aware device 100 recognizes a situation in which a pedestrian crosses the road (situation 1) and a situation in which a pedestrian is standing in front of the road (situation 2) from a real-time image stream of the autonomous vehicle.
  • the situation recognition device 100 recognizes a situation where the vehicle is safe on the road (situation 3) and a situation where a large truck is ahead (situation 4) from the real-time image stream of the autonomous vehicle. .
  • the situation recognition device 100 recognizes a situation under construction (situation 6) ahead from a real-time image stream of the autonomous vehicle.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination.
  • the program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine language codes such as those produced by a compiler but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operation of the embodiment, and vice versa.
  • the software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to behave as desired or processed independently or collectively. You can command the device.
  • Software and/or data may be interpreted by a processing device or to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. , Or may be permanently or temporarily embodyed in a transmitted signal wave.
  • the software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

상황 인지 방법 및 이를 수행하는 장치가 개시된다. 일 실시예에 따른 상황 인지 방법은, 이미지 스트림에서 피처 맵(feature map)을 획득하는 단계와, 상기 피처 맵에 기초하여 오브젝트 맵(object map)을 생성하는 단계와, 상기 오브젝트 맵에 기초하여 상기 이미지 스트림이 구성하는 영상의 상황을 인지하는 단계를 포함한다.

Description

상황 인지 방법 및 이를 수행하는 장치
아래 실시예들은 상황 인지 방법 및 이를 수행하는 장치에 관한 것이다.
최근, 인공 지능(artificial intelligence(AI)) 기술은 다양한 분야에서 이용되고 있다. AI 기반 실시간 이미지 객체 검출 기술은 SURF, Template matching, SHIFT 등과 같은 기존의 이미지 처리 방식에 비해 훨씬 좋은 성능을 보여준다. AI 기반 객체 검출은 로봇, 자율 주행, 보안 카메라 등에 적용되어 시야 내의 차량, 사물, 사람을 인식한다.
포괄적인 상황 인지 능력은 자율 주행 차량 및 로봇 등에 있어서, 다양한 상황에 적절하게 대응하기 위해 필수적이다. 현재 대부분의 시스템들은 규칙 기반(rule-based)의 단순한 상황 판단 방식을 이용하고 있다. 다만, 규칙 기반 시스템의 경우 다양한 상황에서 견고성을 보장 할 수 없으며, 따라서 AI 기반 상황 인지 기술이 개발되고 있다.
실시예들은 단일 프레임 워크로 이미지 스트림에서 객체를 검출하여 상황을 인지하는 기술을 제공할 수 있다.
일 실시예에 따른 상황 인지 방법은, 이미지 스트림에서 피처 맵(feature map)을 획득하는 단계와, 상기 피처 맵에 기초하여 오브젝트 맵(object map)을 생성하는 단계와, 상기 오브젝트 맵에 기초하여 상기 이미지 스트림이 구성하는 영상의 상황을 인지하는 단계를 포함한다.
상기 상황 인지 방법은, 상기 피처 맵에 기초하여 상기 영상에 포함된 객체를 검출하는 단계를 더 포함할 수 있다.
상기 획득하는 단계는, 컨벌루션 레이어(convolution layer) 및 맥스풀 레이어(maxpool layer)를 이용하여 상기 피처 맵을 생성하는 단계를 포함할 수 있다.
상기 검출하는 단계는, 상기 피처 맵에 기초하여 상기 객체의 유형(type), 클래스(class), 위치(position), 및 영역(area) 중 적어도 하나를 계산함으로써 상기 객체를 검출하는 단계를 포함할 수 있다.
상기 생성하는 단계는, 상기 피처 맵을 상기 피처 맵의 각 그리드 셀(grid cell)에서 객체가 존재할 확률을 나타내는 브리지 맵(bridged map)으로 변환하는 단계와, 상기 브리지 맵에서 임계값 이상의 확률을 갖는 영역을 표시하여 상기 오브젝트 맵을 생성하는 단계를 포함할 수 있다.
상기 브리지 맵을 생성하는 단계는, 앵커 박스(anchor box)를 이용하여 상기 각 그리드 셀에 객체가 존재할 확률 값을 산출하는 단계를 포함할 수 있다.
상기 상황 인지 방법은 상기 오브젝트 맵의 크기를 확장하는 단계를 더 포함할 수 있다.
상기 오브젝트 맵은 복수의 오브젝트 맵들을 포함하고, 상기 인지하는 단계는,
상기 복수의 오브젝트 맵들 각각을 타임 스텝(time step)에 따라 각각의 LSTM 셀에 입력하는 단계와, 최종 LSTM 셀의 출력을 이용하여 상기 영상의 상황을 인지하는 단계를 포함할 수 있다.
일 실시예에 따른 상황 인지 장치는, 인스트럭션들을 포함하는 메모리와, 상기 인스트럭션들을 실행하기 위한 프로세서를 포함하고, 상기 프로세서에 의해 상기 인스트럭션들이 실행될 때, 상기 프로세서는, 이미지 스트림에서 피처 맵(feature map)을 획득하고, 상기 피처 맵에 기초하여 오브젝트 맵(object map)을 생성하고, 상기 오브젝트 맵에 기초하여 상기 이미지 스트림이 구성하는 영상의 상황을 인지한다.
상기 프로세서는, 상기 피처 맵에 기초하여 상기 영상에 포함된 객체를 검출할 수 있다.
상기 프로세서는, 컨벌루션 레이어(convolution layer) 및 맥스풀 레이어(maxpool layer)를 이용하여 상기 피처 맵을 생성할 수 있다.
상기 프로세서는, 상기 피처 맵에 기초하여 상기 객체의 유형(type), 클래스(class), 위치(position), 및 영역(area) 중 적어도 하나를 계산함으로써 상기 객체를 검출할 수 있다.
상기 프로세서는, 상기 피처 맵을 상기 피처 맵의 각 그리드 셀(grid cell)에서 객체가 존재할 확률을 나타내는 브리지 맵(bridged map)으로 변환하고, 상기 브리지 맵에서 임계값 이상의 확률을 갖는 영역을 표시하여 상기 오브젝트 맵을 생성할 수 있다.
상기 프로세서는, 앵커 박스(anchor box)를 이용하여 상기 각 그리드 셀에 객체가 존재할 확률 값을 산출할 수 있다.
상기 프로세서는, 상기 오브젝트 맵의 크기를 확장할 수 있다.
상기 오브젝트 맵은 복수의 오브젝트 맵들을 포함하고, 상기 프로세서는, 상기 복수의 오브젝트 맵들 각각을 타임 스텝(time step)에 따라 각각의 LSTM 셀에 입력하고, 최종 LSTM 셀의 출력을 이용하여 상기 영상의 상황을 인지할 수 있다.
도 1은 일 실시예에 따른 상황 인지 시스템을 보여주는 도면이다.
도 2는 도 1에 도시된 상황 인지 장치의 개략적인 블록도이다.
도 3은 도 1에 도시된 상황 인지 장치의 동작을 설명하기 위한 도면이다.
도 4는 도 3에 도시된 오브젝트 맵 생성 모듈의 동작을 상세히 설명하기 위한 도면이다.
도 5a 내지 도 5c는 이미지 프레임과 이미지 프레임에 대응하는 오브젝트 맵을 보여주는 도면이다.
도 6은 도 3에 도시된 상황 인지 모듈의 동작을 상세히 설명하기 위한 도면이다.
도 7은 상황 인지 장치의 학습 동작을 설명하기 위한 도면이다.
도 8은 상황 인식 장치의 학습 결과를 보여주는 그래프이다.
도 9a 내지 도 9c는 상황 인식 장치의 실시간 이미지 스트림 기반 상황 인지 결과를 나타내는 도면이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
제1 또는 제2등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해서 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 실시예의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 명세서에서의 모듈(module)은 본 명세서에서 설명되는 각 명칭에 따른 기능과 동작을 수행할 수 있는 하드웨어를 의미할 수도 있고, 특정 기능과 동작을 수행할 수 있는 컴퓨터 프로그램 코드를 의미할 수도 있고, 또는 특정 기능과 동작을 수행시킬 수 있는 컴퓨터 프로그램 코드가 탑재된 전자적 기록 매체, 예를 들어 프로세서 또는 마이크로 프로세서를 의미할 수 있다.
다시 말해, 모듈이란 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및/또는 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적 및/또는 구조적 결합을 의미할 수 있다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다.
도 1은 일 실시예에 따른 상황 인지 시스템을 보여주는 도면이고, 도 2는 도 1에 도시된 상황 인지 장치의 개략적인 블록도이다.
도 1 및 도 2를 참조하면, 상황 인지 시스템(10)은 실시간 영상 기반의 상황인지 기술을 제공할 수 있다. 예를 들어, 상황 인지 시스템(10)은 자율 주행 차량(autonomous vehicles)에 상황 인지 기술을 제공할 수 있다.
자율 주행 차량 있어서, 주행 상황 인지 기술은 핵심 구성요소이며, 특히 고도 자동화 단계 이상의 단계에서 필수적이다. 자율 주행 차량의 고도 자동화 단계(level 4)는 정해진 도로 조건의 모든 상황에서 자율주행이 가능하고, 그 밖의 도로 조건에서는 운전자가 주행에 개입하는 단계를 의미하며, 완전 자동화 단계(level 5)의 직전 단계이다. 상황 인지 시스템(10)은 고도 자동화 단계 및 완전 자동화 단계의 자율 주행 차량에서 실시간 영상 기반 주행 상황 인지를 위한 기술로 이용될 수 있다.
상황 인지 시스템(10)는 상황 인지 장치(100) 및 이미지 스트림(150)을 포함한다.
이미지 스트림(150)는 이미지 프레임들을 포함할 수 있다. 이미지 스트림(150)에 포함된 이미지 프레임들은 시간 순서에 따라 구성될 수 있다. 예를 들어, 이미지 스트림(250)은 자율 주행 차량의 주행 중에 실시간으로 촬영된 이미지들을 시간 순서에 따라 구성한 이미지 시퀀스(image sequences)일 수 있다.
상황 인지 장치(100)는 입력된 이미지 스트림(150)으로부터 상황을 인지할 수 있다. 예를 들어, 상황 인지 장치(100)는 자율 주행 차량이 주행 중에 촬영하는 이미지 스트림(150)으로부터 도로가 공사 중인 상황 또는 보행자가 도로를 횡단하고 있는 상황 등을 인지 할 수 있다.
상황 인지 장치(100)는 객체 검출(object detection) 및 상황 인지(situation recognition)를 단일 프레임워크(framework)로 동시에 수행할 수 있다. 상황 인지 장치(100)의 상황 인지 모델이 객체 검출에 최적화 되어 디자인 되었기 때문에, 상황 인지 장치(100)는 효율적이며 높은 성능을 제공할 수 있다.
상황 인지 장치(100)는 메모리(200) 및 프로세서(300)를 포함한다. 프로세서(300)는 상황 인지 장치(100)의 전반적인 동작을 제어할 수 있다. 프로세서(300)는 객체 검출 및 상황 인지 동작을 수행하기 위해 준비된 데이터에 기초하여 학습할 수 있다. 프로세서(300)는 학습된 결과에 기초하여 이미지 스트림(150)으로부터 객체를 검출하고, 객체 검출 결과에 기초하여 상황을 인지 할 수 있다.
프로세서(300)는 이미지 스트림(150)에 기초하여 피처 맵(feature map)을 획득할 수 있고, 피처 맵에 기초하여 객체를 검출 할 수 있다. 또한 프로세서(300)은 피처 맵에 기초하여 오브젝트 맵(object map)을 생성할 수 있으며, 오브젝트 맵에 기초하여 이미지 스트림(150)의 상황을 인지할 수 있다.
메모리(200)는 프로세서(300)에 의해 실행가능한 인스트럭션(instructions)들 및/또는 프로그램을 저장할 수 있다. 예를 들어, 인스트럭션 및/또는 프로그램은 프로세서(300)의 동작 및/또는 프로세서(300)의 각 구성의 동작을 실행하기 위한 인스트럭션들을 포함할 수 있다.
프로세서(300)는 메모리(200)에 저장된 데이터를 처리할 수 있다.  프로세서(300)는 메모리(200)에 저장된 컴퓨터로 읽을 수 있는 코드(예를 들어, 소프트웨어) 및 프로세서(300)에 의해 유발된 인스트럭션들을 실행할 수 있다.
프로세서(300)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다.
예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
상황 인지 장치(100)는 PC(personal computer), 데이터 서버, 또는 휴대용 장치 내에 구현될 수 있다.
휴대용 장치는 랩탑(laptop) 컴퓨터, 이동 전화기, 스마트 폰(smart phone), 태블릿(tablet) PC, 모바일 인터넷 디바이스(mobile internet device(MID)), PDA(personal digital assistant), EDA(enterprise digital assistant), 디지털 스틸 카메라(digital still camera), 디지털 비디오 카메라(digital video camera), PMP(portable multimedia player), PND(personal navigation device 또는 portable navigation device), 휴대용 게임 콘솔(handheld game console), e-북(e-book), 또는 스마트 디바이스(smart device)로 구현될 수 있다. 스마트 디바이스는 스마트 와치(smart watch), 스마트 밴드(smart band), 또는 스마트 링(smart ring)으로 구현될 수 있다.
도 3은 도 1에 도시된 상황 인지 장치의 동작을 설명하기 위한 도면이다.
도3을 참조하면, 프로세서(300)는 객체 검출 모듈(330), 오브젝트 맵 생성 모듈(340), 및 상황 인지 모듈(350)를 포함한다.
이미지 스트림(150)는 시간 순서에 따라 구성된 이미지 프레임들(151-1, 151-2, 내지 151-n)을 포함할 수 있다. 예를 들어, 이미지 스트림(150)은 이미지 프레임들(151-1, 151-2, 내지 151-n)을 시간 순서에 따라 구성한 이미지 시퀀스(image sequences)일 수 있다.
객체 검출 모듈(330)은 이미지 프레임에서 객체의 타입(type), 좌표(coordinates), 및 크기(size)를 검출할 수 있다. 예를 들어, 객체 검출 모듈(330)은 이미지 프레임(151-1, 151-2, 내지 151-n)에 기초하여 피처 맵(feature map)을 생성하고, 피처 맵에 기초하여 객체의 타입(type), 좌표(coordinates), 및 크기(size)를 검출할 수 있다.
객체 검출 모듈(330)은 YOLO(You Only Look Once)로 구현될 수 있다. YOLO로 구현된 객체 검출 모듈(330)는 컨벌루션 신경망(convolutional neural network(CNN), 331-1, 331-2, 내지 331-n) 및 디텍터(detector, 333-1, 333-2, 내지 333-n)를 포함할 수 있다.
도 3에는 각 이미지 프레임(151-1, 151-2, 내지 151-n)에 대해 CNN(331-1, 331-2, 내지 331-n) 및 디텍터(333-1, 333-2, 내지 333-n)가 객체 검출 동작을 수행함을 설명하기 위해 이미지 프레임들(151-1, 151-2, 내지 151-n)의 개수와 동일한 수의 CNN(331-1, 331-2, 내지 331-n) 및 디텍터(333-1, 333-2, 내지 333-n)를 도시하였지만, 단일(또는 이미지 프레임의 개수보다 적은 수의) CNN 모듈 및 디텍터 모듈이 각 프레임에 대해 순차적으로 객체 검출 동작을 수행하도록 구현될 수 있다.
이하, 이미지 프레임들(151-1, 151-2, 내지 151-n)에 대한 각각의 CNN(331-1, 331-2, 내지 331-n) 및 디텍터(333-1, 333-2, 내지 333-n)의 동작을, 각각의 CNN(331-1, 331-2, 내지 331-n) 및 디텍터(333-1, 333-2, 내지 333-n)를 대표하는 CNN(331) 및 디텍터(333)의 이미지 프레임(151)에 대한 동작으로 설명하기로 한다.
CNN(331)는 이미지 프레임(151)에 기초하여 피처 맵을 생성할 수 있다. 이 때, CNN(331)은 그리드 셀(grid cell)로 분할된 이미지 프레임(151)에 기초하여 피처 맵을 생성할 수 있다. 예를 들어, CNN(3310)은 이미지 프레임(151)을 13 × 13개의 그리드 셀로 분할하여 피처 맵을 생성할 수 있다.
CNN(331)는 각 그리드 셀에 앵커 박스(anchor box)를 설정하여 컨벌루션(convolution)을 수행할 수 있다. 예를 들어, CNN(331)은 각 그리드 셀에 5개의 앵커 박스를 설정하여 845번의 컨벌루션을 수행할 수 있다. CNN(331)이 생성한 피처 맵은 앵커 박스(anchor box)가 검출한 객체에 대한 정보를 포함할 수 있다.
CNN(331)는 컨벌루션 레이어(convolution layer), 맥스풀 레이어(maxpool layer) 및 풀리 커넥티드 레이어(fully connected layers)로 구성될 수 있다. CNN(331)는 컨벌루션 레이어(convolution layer), 맥스풀 레이어(maxpool layer) 및 풀리 커넥티드 레이어(fully connected layers)를 이용하여 그리드 셀로 분할된 이미지 프레임(151)에 컨벌루션 연산(convolution operation) 및 맥스 풀링(max pooling)을 수행하여 피처 맵을 생성할 수 있다.
디텍터(333)는 피처 맵에 기초하여 객체의 유형(type, 또는 클래스(class)), 위치(position), 및 영역(area)를 산출할 수 있다. 디텍터(333) CNN(331)에 의해 생성된 피처 맵에 후처리(post-processing) 동작을 수행하여 객체에 관한 메타 데이터(metadata)를 획득할 수 있다.
오브젝트 맵 생성 모듈(340)는 객체 인식 모듈(330)에서 생성한 피처 맵에 기초하여 오브젝트 맵(341-1, 341-2, 및 341-n)을 생성 할 수 있다. 즉, 오브젝트 맵 생성 모듈(340)은 객체 인식 모듈(330)에서 각 이미지 프레임(151-1, 151-2, 내지 151-n)에 대응하여 생성한 피처 맵에 기초하여 각 이미지 프레임(151-1, 151-2, 내지 151-n)에 대응하는 오브젝트 맵(341-1, 341-2, 내지 341-n)을 생성할 수 있다.
상황 인지 모듈(350)는 오브젝트 맵(341-1, 341-2, 내지 341-n)에 기초하여 상황을 인지할 수 있다. 상황 인지 모듈(350)는 LSTM(Long Short-term Meomory)으로 구현될 수 있다. LSTM으로 구현된 상황 인지 모듈(350)은 이미지 프레임들(151-1, 151-2, 내지 151-n)에 대응하는 오브젝트 맵(341-1, 341-2, 내지 341-n)에 기초하여 상황을 인지할 수 있다.
상황 인지 모듈(350)은 LSTM 셀(LSTM cell, 353-1, 353-2, 내지 353-n)로 구성될 수 있다. LSTM 셀(353-1, 353-2, 내지 353-n)로 구성된 상황 인지 모듈(350)은 오브젝트 맵(341-1, 341-2, 내지 341-n)에 기초하여 상황을 인지할 수 있다. 시간 순서에 따라 구성된 이미지 프레임(151-1, 151-2, 내지 151-n)에 대응되는 오브젝트 맵(341-1, 341-2, 내지 341-n) 순차적으로 각각의 LSTM 셀(353-1, 353-2, 내지 353-n)에 입력될 수 있다.
LSTM 셀(353-1, 353-2, 내지 353-n)은 입력된 오브젝트 맵(351-1, 351-2, 내지 351-n)에 기초한 출력을 순차적으로 다음 LSTM 셀(353-1, 353-2, 내지 353-n)에 입력할 수 있다. 마지막 LSTM 셀(353-n)은 풀리 커넥티드 레이어(fully connected layer, 355)로 결과를 입력할 수 있고, 풀리 커넥티드 레이어(355)는 상황을 인지할 수 있다.
도 4는 도 3에 도시된 오브젝트 맵 생성 모듈의 동작을 상세히 설명하기 위한 도면이다.
도 4에 도시된 오브젝트 맵(341)은 도 3에 도시된 오브젝트 맵(341-1, 341-2, 내지 341-n) 각각의 생성 동작을 설명하기 위한 것으로, 도 3에 도시된 오브젝트 맵(341-1, 341-2, 내지 341-n)은 모두 오브젝트 맵(341)에 해당한다. 또한, 도 4에 도시된 피처 맵(335)은 도 3에 도시된 이미지 프레임들(151-1, 151-2, 내지 151-n)에 대응하여 생성된 피처 맵(335)에 해당한다.
오브젝트 맵 생성 모듈(340)은 객체 검출 모듈(330)이 생성한 피처 맵(335) 및 피처 맵(335)에 포함된 앵커 박스(anchor box, 470)에 기초하여 피처 맵(335)을 브리지 맵(430)으로 변환할 수 있다. 브리지 맵(430)은 피처 맵의 각 그리드 셀에서 객체가 존재할 확률을 나타낼 수 있다. 예를 들어, 브리지 맵(430)의 각 그리드 셀은 피처 맵의 각 그리드 셀에서 객체가 존재할 확률을 대푯값으로 나타낼 수 있다.
오브젝트 맵 생성 모듈(340)은 각 그리드 셀에 대응하는 앵커 박스(470) 내부에 객체가 있을 확률에 기초하여 피처 맵의 각 그리드 셀에 객체가 나타날 확률을 계산할 수 있고, 계산한 확률에 기초하여 피처 맵(335)을 브리지 맵(430)으로 변환할 수 있다.
오브젝트 맵 생성 모듈(340)은 브리지 맵(430)에 기초하여 오브젝트 맵(341)을 생성할 수 있다. 오브젝트 맵 생성 모듈(340)은 브리지 맵(430) 각 그리드 셀의 대푯값을 임계값과 비교하여 임계값 이상인 그리드 셀만 표시한 오브젝트 맵(341)을 생성할 수 있다.
피처 맵(335)은 LSTM에 입력할 수 없지만, 오브젝트 맵(341)은 LSTM에 입력할 수 있다. 또한, 상황 인지 동작은 대략적인 위치에서 특정 객체의 존재 여부만 입력되면 되기 때문에 오브젝트 맵(341)을 이용해 복잡한 계산을 줄일 수 있다.
도 5a 내지 도 5c는 이미지 프레임과 이미지 프레임에 대응하는 오브젝트 맵을 보여주는 도면이다.
도 5a는 대형 트럭이 주행중인 상황을 보여주는 이미지 프레임(510-1)에 대응하는 오브젝트 맵(530-1)을 나타낸다. 상황 인지 모듈(350)은 대형 트럭이 존재하는 영역을 표시하는 오브젝트 맵(530-1)을 생성할 수 있다.
도 5b는 복수의 객체(차량, 공사 차량, 및 보행자)가 포함된 이미지 프레임(510-2)에 대응하는 오브젝트 맵(530-2)을 나타낸다. 상황 인지 모듈(350)은 복수의 객체를 구분하여 각각의 객체가 존재하는 영역을 표시하는 오브젝트 맵(530-2)을 생성할 수 있다.
도 5c를 참조하면, 시간 순서로 구성된 이미지 스트림(150)에 포함된 이미지 프레임(510-3)과 다음 이미지 프레임(510-4)에 각각 대응되는 오브젝트 맵(530-3 및 530-4)를 나타낸다. 상황 인지 모듈(350)은 이미지 스트림(150)에 포함된 이미지에 대응하는 오브젝트 맵(530-3)을 시간 순서에 따라 생성할 수 있다.
이와 같이 생성된 오브젝트 맵(530-1 내지 530-4)은 상황 인지 모듈(350)에 입력되어 상황 인지 동작에 이용될 수 있다.
도 6은 도 3에 도시된 상황 인지 모듈의 동작을 설명하기 위한 도면이다.
상황 인지 모듈(350)은 이미지 프레임들(151-1, 151-2, 내지 151-n)에 대응하는 오브젝트 맵(341-1, 341-2, 내지 341-n)에 기초하여 상황을 인지할 수 있다.
시간 순서에 따라 구성된 이미지 프레임(151-1, 151-2, 내지 151-n)에 대응되는 오브젝트 맵(341-1, 341-2, 내지 341-n) 타임 스텝(time step)에 따라 각각의 LSTM 셀(353-1, 353-2, 내지 353-n)에 입력될 수 있다. 각 LSTM 셀(353-1, 353-2, 내지 353-n)은 MLP(Multilayer Perceptron) 기반으로 셀 스테이트(Cell state)를 형성 할 수 있다. 예를 들어, 오브젝트 맵(341-1, 341-2, 내지 341-n)은 단순한 28 × 28 맵이므로, 복잡한 레이어(layer)를 사용할 필요가 없다.
상황 인지 모듈(350)은 LSTM 셀(353-1, 353-2, 내지 353-n)로 구성될 수 있다. 도 3 및 도 6에서는 이미지 프레임(151-1, 151-2, 내지 151-n)에 대응되는 각각의 오브젝트 맵(341-1, 341-2, 내지 341-n)이 순차적으로 각각의 LSTM 셀(353-1, 353-2, 내지 353-n)에 입력되는 동작을 설명하기 위하여 이미지 프레임들(151-1, 151-2, 내지 151-n)의 개수와 동일한 수의 LSTM 셀(353-1, 353-2, 내지 353-n)을 도시하였지만, 단일(또는 이미지 프레임의 개수보다 적은 수의) LSTM 셀에 시간 순서에 따른 이미지 프레임(151-1, 151-2, 내지 151-n)에 대응되는 오브젝트 맵(341-1, 341-2, 내지 341-n)이 순차적으로 LSTM 셀에 입력되도록 구현할 수 있다.
LSTM 셀(353-1, 353-2, 내지 353-n)은 입력된 오브젝트 맵(351-1, 351-2, 내지 351-n)에 기초한 출력을 순차적으로 다음 LSTM 셀(353-1, 353-2, 내지 353-n)에 입력할 수 있다. 즉, 첫번째 LSTM 셀(353-1)은 첫번째 오브젝트 맵(351-1)에 기초한 출력을 두번째 LSTM 셀(353-2)에 입력할 수 있고, 두번째 LSTM 셀(353-2)는 첫번째 LSTM 셀(353-1)의 출력 및 두번째 오브젝트 맵(351-2)에 기초하여 결과를 출력할 수 있다. 이러한 방식으로 k번째 LSTM 셀(353-k)는 k-1번째 LSTM 셀(353-(k-1))의 출력 및 k번째 오브젝트 맵(351-k)에 기초하여 결과를 출력할 수 있다. 마지막 LSTM 셀(353-n)은 출력 결과를 풀리 커넥티드 레이어(fully connected layer, 355)에 입력할 수 있고, 풀리 커넥티드 레이어(355)는 상황 인지 결과를 출력할 수 있다.
상황 인지 모듈(350)은 표 1에 기재된 파라미터(parameter)에 기초한 LSTM으로 설계 될 수 있다.
Parameter Value
Inner Iteration 200
Outer Iteration 10
Batch Size 4
Learning Rate 0.001
Hidden Size 128
Input Size 768
Time Steps 10
Class(Situations) 10
도 7은 상황 인지 장치의 학습 동작을 설명하기 위한 도면이다.
상황 인지 장치(100)는 다양한 상황에 대하여 학습을 수행할 수 있다. 다양한 상황은 보행자가 길을 건너는 상황(situation 1), 보행자가 횡단보도 앞에 서있는 상황(situation 2), 차량이 도로 위에서 안전한 상황(situation 3), 대형 트럭이 전방에 있는 상황(situation 4), 다른 차량이 너무 근접해서 주의가 필요한 상황(situation 5), 및 전방에 공사 중인 상황(situation 6) 등을 포함할 수 있다.
상황 인지 상치(100)는 각 상황(situation 1 내지 situation 6)에 해당하는 복수개의 이미지 스트림(sequence 1 내지 sequence n)을 이용하여 학습될 수 있다. 다양한 상황에 대해 학습된 상황 인지 장치(100)는 기존의 상황 인지 기술이 인지할 수 없는 상황을 인지할 수 있다.
도 8은 상황 인식 장치의 학습 결과를 보여주는 그래프이다.
도 8은 히든 레이어(hidden layer)의 수에 따른 상황 인지 장치(100)의 학습 결과를 나타낸다. 히든 레이어의 수가 많을수록 학습 결과가 좋음을 확인 할 수 있다. 상황 인지 장치(100)는 128개의 히든 레이어를 이용하며, 6개의 상황(또는 클래스)를 9000개의 데이터를 통해 학습할 수 있다.
도 9a 내지 도 9c는 상황 인식 장치의 실시간 이미지 스트림 기반 상황 인지 결과를 나타내는 도면이다.
도 9a를 참조하면, 상황 인지 장치(100)가 자율 추행 차량의 실시간 이미지 스트림으로부터 보행자가 길을 건너는 상황(situation 1) 및 보행자가 도로 앞에 서있는 상황(situation 2)을 인지 한 것을 확인할 수 있다.
도 9b를 참조하면, 상황 인지 장치(100)가 자율 추행 차량의 실시간 이미지 스트림으로부터 차량이 도로 위에서 안전한 상황(situation 3), 대형 트럭이 전방에 있는 상황(situation 4)을 인지 한 것을 확인할 수 있다.
도 9c를 참조하면, 상황 인지 장치(100)가 자율 추행 차량의 실시간 이미지 스트림으로부터 전방에 공사 중인 상황(situation 6)을 인지 한 것을 확인할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims (17)

  1. 이미지 스트림에서 피처 맵(feature map)을 획득하는 단계;
    상기 피처 맵에 기초하여 오브젝트 맵(object map)을 생성하는 단계; 및
    상기 오브젝트 맵에 기초하여 상기 이미지 스트림이 구성하는 영상의 상황을 인지하는 단계
    를 포함하는 상황 인지 방법.
  2. 제1항에 있어서,
    상기 피처 맵에 기초하여 상기 영상에 포함된 객체를 검출하는 단계
    를 더 포함하는 상황 인지 방법.
  3. 제1항에 있어서,
    상기 획득하는 단계는,
    컨벌루션 레이어(convolution layer) 및 맥스풀 레이어(maxpool layer)를 이용하여 상기 피처 맵을 생성하는 단계
    를 포함하는 상황 인지 방법.
  4. 제2항에 있어서,
    상기 검출하는 단계는,
    상기 피처 맵에 기초하여 상기 객체의 유형(type), 클래스(class), 위치(position), 및 영역(area) 중 적어도 하나를 계산함으로써 상기 객체를 검출하는 단계;
    를 포함하는 상황 인지 방법.
  5. 제1항에 있어서,
    상기 생성하는 단계는,
    상기 피처 맵을 상기 피처 맵의 각 그리드 셀(grid cell)에서 객체가 존재할 확률을 나타내는 브리지 맵(bridged map)으로 변환하는 단계; 및
    상기 브리지 맵에서 임계값 이상의 확률을 갖는 영역을 표시하여 상기 오브젝트 맵을 생성하는 단계
    를 포함하는 상황 인지 방법.
  6. 제5항에 있어서,
    상기 브리지 맵을 생성하는 단계는,
    앵커 박스(anchor box)를 이용하여 상기 각 그리드 셀에 객체가 존재할 확률 값을 산출하는 단계
    를 포함하는 상황 인지 방법.
  7. 제1항에 있어서,
    상기 오브젝트 맵의 크기를 확장하는 단계
    를 더 포함하는 상황 인지 방법.
  8. 제1항에 있어서,
    상기 오브젝트 맵은 복수의 오브젝트 맵들을 포함하고,
    상기 인지하는 단계는,
    상기 복수의 오브젝트 맵들 각각을 타임 스텝(time step)에 따라 각각의 LSTM 셀에 입력하는 단계; 및
    최종 LSTM 셀의 출력을 이용하여 상기 영상의 상황을 인지하는 단계
    를 포함하는 상황 인지 방법.
  9. 하드웨어와 결합되어 제1항 내지 제8항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
  10. 인스트럭션들을 포함하는 메모리; 및
    상기 인스트럭션들을 실행하기 위한 프로세서
    를 포함하고,
    상기 프로세서에 의해 상기 인스트럭션들이 실행될 때, 상기 프로세서는,
    이미지 스트림에서 피처 맵(feature map)을 획득하고, 상기 피처 맵에 기초하여 오브젝트 맵(object map)을 생성하고, 상기 오브젝트 맵에 기초하여 상기 이미지 스트림이 구성하는 영상의 상황을 인지하는 상황 인지 장치.
  11. 제10항에 있어서,
    상기 프로세서는,
    상기 피처 맵에 기초하여 상기 영상에 포함된 객체를 검출하는 상황 인지 장치.
  12. 제10항에 있어서,
    상기 프로세서는,
    컨벌루션 레이어(convolution layer) 및 맥스풀 레이어(maxpool layer)를 이용하여 상기 피처 맵을 생성하는 상황 인지 장치.
  13. 제11항에 있어서,
    상기 프로세서는,
    상기 피처 맵에 기초하여 상기 객체의 유형(type), 클래스(class), 위치(position), 및 영역(area) 중 적어도 하나를 계산함으로써 상기 객체를 검출하는 상황 인지 장치.
  14. 제10항에 있어서,
    상기 프로세서는,
    상기 피처 맵을 상기 피처 맵의 각 그리드 셀(grid cell)에서 객체가 존재할 확률을 나타내는 브리지 맵(bridged map)으로 변환하고, 상기 브리지 맵에서 임계값 이상의 확률을 갖는 영역을 표시하여 상기 오브젝트 맵을 생성하는 상황 인지 장치.
  15. 제14항에 있어서,
    상기 프로세서는,
    앵커 박스(anchor box)를 이용하여 상기 각 그리드 셀에 객체가 존재할 확률 값을 산출하는 상황 인지 장치.
  16. 제10항에 있어서,
    상기 프로세서는,
    상기 오브젝트 맵의 크기를 확장하는 상황 인지 장치.
  17. 제10항에 있어서,
    상기 오브젝트 맵은 복수의 오브젝트 맵들을 포함하고,
    상기 프로세서는,
    상기 복수의 오브젝트 맵들 각각을 타임 스텝(time step)에 따라 각각의 LSTM 셀에 입력하고, 최종 LSTM 셀의 출력을 이용하여 상기 영상의 상황을 인지하는 상황 인지 장치.
PCT/KR2019/007691 2019-06-07 2019-06-26 상황 인지 방법 및 이를 수행하는 장치 WO2020246655A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201980095863.2A CN113767392A (zh) 2019-06-07 2019-06-26 情况识别方法及执行其的装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0067279 2019-06-07
KR1020190067279A KR102095152B1 (ko) 2019-06-07 2019-06-07 상황 인지 방법 및 이를 수행하는 장치

Publications (1)

Publication Number Publication Date
WO2020246655A1 true WO2020246655A1 (ko) 2020-12-10

Family

ID=70003218

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/007691 WO2020246655A1 (ko) 2019-06-07 2019-06-26 상황 인지 방법 및 이를 수행하는 장치

Country Status (3)

Country Link
KR (1) KR102095152B1 (ko)
CN (1) CN113767392A (ko)
WO (1) WO2020246655A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881730A (zh) * 2020-06-16 2020-11-03 北京华电天仁电力控制技术有限公司 一种火电厂现场安全帽佩戴检测方法
KR102462966B1 (ko) * 2020-11-27 2022-11-04 오픈스택 주식회사 Yolo 알고리즘을 사용하는 장치의 성능 향상 방법
KR102585258B1 (ko) * 2020-12-07 2023-10-05 부경대학교 산학협력단 실시간 다중 객체 검출 장치 및 방법
KR102458952B1 (ko) * 2020-12-31 2022-10-26 한국전자통신연구원 다중 센서 정보 lstm 기반의 무인 로봇 충돌 감지/경고 방법 및 시스템
KR102388806B1 (ko) 2021-04-30 2022-05-02 (주)에이아이매틱스 주행 상황 판단 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180051422A (ko) * 2016-11-08 2018-05-16 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20180070083A (ko) * 2016-12-16 2018-06-26 (주)넥스트칩 영상 처리 방법 및 장치
KR20190024689A (ko) * 2017-08-29 2019-03-08 삼성전자주식회사 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템
KR20190026116A (ko) * 2017-09-04 2019-03-13 삼성전자주식회사 객체 인식 방법 및 장치
KR20190054702A (ko) * 2017-11-14 2019-05-22 고려대학교 산학협력단 영상에서 객체의 행동을 인식하는 방법 및 그 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180051422A (ko) * 2016-11-08 2018-05-16 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20180070083A (ko) * 2016-12-16 2018-06-26 (주)넥스트칩 영상 처리 방법 및 장치
KR20190024689A (ko) * 2017-08-29 2019-03-08 삼성전자주식회사 객체 검출 방법 및 객체 검출을 위한 뉴럴 네트워크 시스템
KR20190026116A (ko) * 2017-09-04 2019-03-13 삼성전자주식회사 객체 인식 방법 및 장치
KR20190054702A (ko) * 2017-11-14 2019-05-22 고려대학교 산학협력단 영상에서 객체의 행동을 인식하는 방법 및 그 장치

Also Published As

Publication number Publication date
CN113767392A (zh) 2021-12-07
KR102095152B1 (ko) 2020-03-30

Similar Documents

Publication Publication Date Title
WO2020246655A1 (ko) 상황 인지 방법 및 이를 수행하는 장치
WO2017213398A1 (en) Learning model for salient facial region detection
WO2017164478A1 (ko) 미세 얼굴 다이나믹의 딥 러닝 분석을 통한 미세 표정 인식 방법 및 장치
WO2014051246A1 (en) Method and apparatus for inferring facial composite
WO2021261696A1 (en) Visual object instance segmentation using foreground-specialized model imitation
WO2021153861A1 (ko) 다중 객체 검출 방법 및 그 장치
WO2016108327A1 (ko) 차량검출방법, 차량검출을 위한 데이터베이스의 구조, 및 차량검출을 위한 데이터베이스 구축방법
WO2022039319A1 (ko) 개인정보 비식별화 처리 방법, 검증 방법 및 시스템
Guan et al. Unsupervised domain adaptation for multispectral pedestrian detection
WO2020017829A1 (ko) 노이즈 패턴을 이용한 차량 번호판 이미지 생성 방법 및 그 장치
CN115953643A (zh) 基于知识蒸馏的模型训练方法、装置及电子设备
WO2021235682A1 (en) Method and device for performing behavior prediction by using explainable self-focused attention
CN113610034B (zh) 识别视频中人物实体的方法、装置、存储介质及电子设备
CN113076891B (zh) 基于改进高分辨率网络的人体姿态预测方法及系统
WO2022139009A1 (ko) 자율 주행을 위한 딥러닝 알고리즘 설정 방법 및 장치
CN111368668B (zh) 三维手部识别方法、装置、电子设备及存储介质
CN116403162B (zh) 一种机场场面目标行为识别方法、系统及电子设备
Anilkumar et al. Imperative Methodology to Detect the Palm Gestures (American Sign Language) using Y010v5 and MediaPipe
WO2019124602A1 (ko) 객체 추적 방법 및 이를 수행하는 장치들
WO2019198900A1 (en) Electronic apparatus and control method thereof
WO2018084473A1 (ko) 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치
Cooper et al. Sign language recognition using linguistically derived sub-units
WO2023113421A1 (ko) 드론을 통한 딥러닝 기반의 실종자 검출 및 수색 경로 관리 방법 및 이를 수행하는 시스템
WO2018093158A1 (ko) 딥 러닝 기반 교육용 비디오 학습 및 평가 시스템
CN111339226A (zh) 一种基于分类检测网络构建地图方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19931704

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19931704

Country of ref document: EP

Kind code of ref document: A1