KR102174656B1 - Apparatus and method for recognizing activity and detecting activity area in video - Google Patents
Apparatus and method for recognizing activity and detecting activity area in video Download PDFInfo
- Publication number
- KR102174656B1 KR102174656B1 KR1020190034501A KR20190034501A KR102174656B1 KR 102174656 B1 KR102174656 B1 KR 102174656B1 KR 1020190034501 A KR1020190034501 A KR 1020190034501A KR 20190034501 A KR20190034501 A KR 20190034501A KR 102174656 B1 KR102174656 B1 KR 102174656B1
- Authority
- KR
- South Korea
- Prior art keywords
- action
- video
- learning
- score
- tubelet
- Prior art date
Links
Images
Classifications
-
- G06K9/00711—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
본 발명은 액션 레이블만이 주석된 학습용 비디오를 이용하여 학습되어 학습용 비디오를 획득하기 위한 시간적 비용적 부담을 경감하고, 비디오에 포함된 객체의 액션을 인식하여 액션 영역을 정확하게 추출하여 액션 로컬라이제이션을 수행할 수 있는 비디오 액션 인식 및 액션 영역 탐지 장치 및 방법을 제공할 수 있다.In the present invention, only the action label is learned using the annotated learning video, thereby reducing the time and cost burden for acquiring the learning video, and performing action localization by accurately extracting the action region by recognizing the action of the object included in the video. It is possible to provide an apparatus and method for recognizing a possible video action and detecting an action area.
Description
본 발명은 비디오 동작 인식 및 동작 구간 탐지 장치 및 방법에 관한 것으로, 비디오에서 객체의 동작을 인식하고 동작 영역을 추출할 수 있는 동작 인식 및 동작 구간 탐지 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for recognizing a video motion and detecting a motion section, and to an apparatus and method for recognizing a motion of an object and extracting a motion region from a video.
비디오에 포함된 객체의 액션을 인식하고, 액션 영역을 추출하는 것은 비디오 감시, 비디오 요약 및 비디오 캡션과 같은 다양한 비디오 이용 분야에서 필수적이다. 비디오에서 객체를 탐지하는 다양한 기술이 공개되었으며, 이로부터 객체의 액션을 인식하는 기법 또한 큰 발전을 이루어 왔으나, 액션의 위치를 정확하게 추출하는 것은 액션의 다양성과 복잡한 배경 등을 포함한 다양한 이유로 인해 성능의 제약이 있어왔다.Recognizing an action of an object included in a video and extracting an action area is essential in various video usage fields such as video surveillance, video summary, and video caption. Various technologies for detecting objects in video have been disclosed, and the technique for recognizing the action of an object has also made great progress. However, accurately extracting the location of an action is due to various reasons including the diversity of actions and complex background. There have been limitations.
이에 최근에는 딥 러닝(Deep learning) 기법으로 학습된 인공 신경망(artificial neural network)을 이용하여 비디오에서 객체의 액션 영역을 추출하는 액션 로컬라이제이션을 수행하기 위한 다양한 연구가 진행되었다. 딥 러닝 기법을 이용함에 의해 비디오에 대한 액션 로컬라이제이션 작업의 성능이 크게 향상되었다.Accordingly, various studies have recently been conducted to perform action localization that extracts an action region of an object from a video using an artificial neural network learned by a deep learning technique. By using the deep learning technique, the performance of the action localization task for video was greatly improved.
기존의 딥러닝 기법에서 인공 신경망은 완전 지도(fully supervised) 학습 방식으로 학습되었다. 따라서 학습 시에 학습용 비디오 내의 객체의 액션 경계에 대한 검증 자료 레이블(ground truth label)이 완전하게 주석(full annotation)될 것이 요구되었다.In the existing deep learning technique, artificial neural networks are trained in a fully supervised learning method. Therefore, it is required that the ground truth label for the action boundary of the object in the training video be fully annotated during learning.
그러나 비디오에서 각 액션 각각에 대한 경계를 수작업으로 주석 처리하는 것은 시간적으로나 비용적으로 매우 비효율적이다. 뿐만 아니라, 각 액션의 경계는 작업자에 따라 주관적으로 판단될 수 있어, 인공 신경망을 부정확하게 학습시킬 수 있다는 문제가 있다.However, manually annotating the boundaries for each action in a video is very inefficient in terms of time and cost. In addition, there is a problem that the boundary of each action can be subjectively determined according to an operator, and thus an artificial neural network can be learned incorrectly.
획득이 용이한 간단한 액션 레이블만이 주석된 학습용 비디오를 이용하는 약지도 학습(weakly-supervised learning) 방식을 기반으로 학습시킬 수 있는 비디오 액션 인식 및 액션 영역 탐지 장치 및 방법을 제공하는데 있다.It is to provide an apparatus and method for recognizing a video action and detecting an action region that can be learned based on a weakly-supervised learning method using only a simple action label that is easy to obtain annotated learning video.
본 발명의 다른 목적은 약지도 학습으로 학습되어 비디오에 대한 액션 로컬라이제이션을 수행할 수 있는 비디오 액션 인식 및 액션 영역 탐지 장치 및 방법을 제공하는데 있다.Another object of the present invention is to provide a video action recognition and action region detection apparatus and method capable of performing action localization on a video through learning through weak guidance learning.
본 발명의 또 다른 목적은 비디오로부터 객체의 액션 영역을 정확하게 추출할 수 있는 비디오 액션 인식 및 액션 영역 탐지 장치 및 방법을 제공하는데 있다.Another object of the present invention is to provide a video action recognition and action region detection apparatus and method capable of accurately extracting an action region of an object from a video.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 장치는 미리 학습된 패턴 추정 방식에 따라 비디오의 다수 프레임 각각에서 기지정된 객체가 포함된 영역인 경계 박스를 탐색하고, 다수의 프레임에서 대응하는 경계 박스를 연결하여 객체 튜블릿을 생성하는 객체 튜블릿 획득부; 액션 레이블이 주석된 액션 학습용 비디오를 이용하는 약지도 학습 방식으로 패턴 추정 방식이 미리 학습되어, 상기 객체 튜블릿의 다수의 경계 박스의 크기를 조절하여 튜블릿을 획득하는 튜블릿 조절부; 상기 튜블릿의 다수의 최적 경계 박스를 시간 평균 풀링하여 튜블릿 이미지로 변환하고, 미리 학습된 패턴 추정 방식에 따라 상기 튜블릿 이미지의 특징을 추출하여 특징맵을 생성하는 특징맵 획득부; 상기 특징맵에서 액션 가중치를 획득하여 대응하는 특징맵에 가중하여 가중 특징맵을 획득하는 액션 가중치 획득부; 및 상기 가중 특징맵이 기지정된 다수의 액션 클래스 각각에 대응하는 수준을 나타내는 액션 클래스 스코어를 계산하고, 상기 액션 클래스 스코어에 따라 튜블릿에 대응하는 액션을 선택하고, 튜블릿에 포함된 최적 경계 박스의 위치 정보를 출력하는 액션 인식 및 영역 판별부; 를 포함한다.The video action recognition and action region detection apparatus according to an embodiment of the present invention for achieving the above object searches for a bounding box that is an area containing a predetermined object in each of a plurality of frames of a video according to a previously learned pattern estimation method. And an object tubelet acquisition unit that connects a corresponding bounding box in a plurality of frames to generate an object tubelet; A tublet adjuster configured to obtain a tube by adjusting the size of a plurality of bounding boxes of the object tube by pre-learning a pattern estimation method in a weak supervised learning method using an action learning video with an action label annotated; A feature map acquisition unit configured to generate a feature map by extracting features of the tubelet image by time-averaging pooling of the plurality of optimal bounding boxes of the tubelet and transforming it into a tubelet image, and extracting features of the tubelet image according to a previously learned pattern estimation method; An action weight acquisition unit for acquiring an action weight from the feature map and weighting a corresponding feature map to obtain a weighted feature map; And an action class score indicating a level corresponding to each of the plurality of action classes for which the weighted feature map is determined, and selecting an action corresponding to the tublet according to the action class score, and an optimal bounding box included in the tublet. An action recognition and area determination unit that outputs location information of the user; Includes.
상기 액션 인식 및 영역 판별부는 인공 신경망을 포함하여 구성되고 비디오에 포함된 N(N은 자연수)개 튜블릿 중 n번째 튜블릿(Pn)에 대한 상기 액션 클래스 스코어(λn(c))를 수학식 The action recognition and region determination unit is configured to include an artificial neural network and calculates the action class score (λ n (c)) for the n-th tubelet (P n ) among N (N is a natural number) tubelets included in the video. Equation
(여기서 αn은 의 액션 가중치이고, yn 은 특징맵이며, wT(c, d)는 지정된 액션 클래스(c ∈ {1, ..., C})를 식별하기 위한 액션 클래스 분류자에 대응하는 d번째 요소로서 인공 신경망의 연산 레이어의 가중치를 나타낸다.)에 따라 획득할 수 있다.(Where α n is the action weight of, y n is the feature map, and w T (c, d) is used in the action class classifier to identify the specified action class (c ∈ {1, ..., C}). As the corresponding d-th element, it can be obtained according to the weight of the computation layer of the artificial neural network).
상기 액션 인식 및 영역 판별부는 상기 액션 클래스 스코어 중 기지정된 기준 액션 클래스 스코어 이상인 액션 클래스 스코어를 선택하고, 선택된 액션 클래스 스코어에 대응하는 액션 클래스를 객체의 액션으로 출력하고, 선택된 액션 클래스 스코어에 대응하는 튜블릿의 최적 경계 박스의 위치 정보를 출력할 수 있다.The action recognition and region determination unit selects an action class score that is equal to or greater than a predetermined reference action class score among the action class scores, outputs an action class corresponding to the selected action class score as an action of the object, and corresponds to the selected action class score. Position information of the optimal bounding box of the tube can be output.
상기 액션 인식 및 영역 판별부는 동일한 튜블릿에 대해 기준 액션 클래스 스코어 이상인 액션 클래스 스코어가 다수개인 경우, 기지정된 설정에 따라 액션 클래스 스코어가 가장 높은 하나의 액션 클래스를 출력하거나, 기준 액션 클래스 스코어 이상으로 나타난 다수의 액션 클래스를 함께 출력할 수 있다.The action recognition and area determination unit outputs one action class with the highest action class score according to a predetermined setting, or outputs one action class score greater than or equal to the reference action class score when there are a plurality of action class scores equal to or greater than the reference action class score for the same tubelet. You can print multiple action classes that appear together.
상기 비디오 액션 인식 및 액션 영역 탐지 장치는 액션 레이블만이 주석된 액션 학습용 비디오를 기반으로 상기 튜블릿 조절부, 상기 특징맵 획득부, 상기 액션 가중치 획득부 및 액션 인식 및 영역 판별부를 약지도 학습시키기 위한 학습부; 를 더 포함하고, 상기 학습부는 상기 액션 학습용 비디오에 응답하여, 액션 가중치 획득부(150)에서 모든 액션 튜블릿(Pn)에 대해 출력되는 가중 특징맵을 가산하여 비디오 특징맵을 획득하고, 비디오 특징맵으로부터 비디오 액션 클래스 스코어를 획득하며, 비디오 액션 클래스 스코어와 액션 학습용 비디오의 액션 레이블과의 차이를 액션 손실로 획득하여 역전파하여 약지도 학습을 수행할 수 있다.The video action recognition and action region detection apparatus learns a ring map based on an action learning video in which only an action label is annotated, the tubelet adjustment unit, the feature map acquisition unit, the action weight acquisition unit, and the action recognition and region determination unit. For learning department; The learning unit further includes, in response to the action learning video, the action
상기 객체 튜블릿 획득부는 미리 학습된 패턴 추정 방식에 따라 비디오의 다수 프레임 각각에서 기지정된 객체가 포함된 영역인 경계 박스를 탐색하고, 각 경계 박스에 검출해야 하는 객체가 존재할 확률을 나타내는 객체 스코어를 함께 획득하고, 획득된 객체 스코어가 기지정된 기준 객체 스코어 이상인 경계 박스를 이용하여 객체 튜블릿을 생성하고, 상기 학습부는 객체 레이블만이 주석된 객체 학습용 비디오가 인가되어 상기 객체 튜블릿 획득부에서 획득된 상기 객체 스코어와 객체 학습용 비디오에 주석된 객체 레이블 사이의 차이를 객체 손실로 획득하여 역전파함으로써, 상기 객체 튜블릿 획득부를 약지도 학습시킬 수 있다.The object tublet acquisition unit searches for a bounding box, which is an area containing a predetermined object in each of a plurality of frames of a video, according to a previously learned pattern estimation method, and generates an object score indicating the probability that an object to be detected exists in each bounding box. Acquired together, and using a bounding box whose object score is equal to or greater than a predetermined reference object score, the learning unit generates an object tutorial, and the learning unit obtains the object tubelet acquisition unit by applying an object learning video to which only the object label is annotated. By acquiring the difference between the obtained object score and the object label annotated in the object learning video as an object loss and backpropagating, the object tubelet acquisition unit may learn the weak map.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 장치 및 방법은 미리 학습된 패턴 추정 방식에 따라 비디오의 다수 프레임 각각에서 기지정된 객체가 포함된 영역인 경계 박스를 탐색하고, 다수의 프레임에서 대응하는 경계 박스를 연결하여 객체 튜블릿을 생성하는 단계; A video action recognition and action area detection apparatus and method according to another embodiment of the present invention for achieving the above object includes a bounding box that is an area including an object specified in each of a plurality of frames of a video according to a previously learned pattern estimation method. Searching, and generating an object tubelet by connecting corresponding bounding boxes in a plurality of frames;
액션 레이블이 주석된 액션 학습용 비디오를 이용하는 약지도 학습 방식으로 학습된 패턴 추정 방식에 따라 상기 객체 튜블릿의 다수의 경계 박스의 크기를 조절하여 튜블릿을 획득하는 단계; 상기 튜블릿의 다수의 최적 경계 박스를 시간 평균 풀링하여 튜블릿 이미지로 변환하고, 미리 학습된 패턴 추정 방식에 따라 상기 튜블릿 이미지의 특징을 추출하여 특징맵을 생성하는 단계; 상기 특징맵에서 액션 가중치를 획득하여 대응하는 특징맵에 가중하여 가중 특징맵을 획득하는 단계; 및 상기 가중 특징맵이 기지정된 다수의 액션 클래스 각각에 대응하는 수준을 나타내는 액션 클래스 스코어를 계산하고, 상기 액션 클래스 스코어에 따라 튜블릿에 대응하는 액션을 선택하고, 튜블릿에 포함된 최적 경계 박스의 위치 정보를 출력하는 단계; 를 포함한다.Obtaining a tube by adjusting sizes of a plurality of bounding boxes of the object tube according to a pattern estimation method learned by a weak supervised learning method using an action learning video in which an action label is annotated; Transforming a plurality of optimal bounding boxes of the tubelet into a tubelet image by time-averaging pooling, and extracting features of the tubelet image according to a previously learned pattern estimation method to generate a feature map; Acquiring an action weight from the feature map and weighting it to a corresponding feature map to obtain a weighted feature map; And an action class score indicating a level corresponding to each of the plurality of action classes for which the weighted feature map is determined, and selecting an action corresponding to the tublet according to the action class score, and an optimal bounding box included in the tublet. Outputting the location information of; Includes.
따라서, 본 발명의 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 장치 및 방법은 액션 레이블만이 주석된 학습용 비디오를 이용하여 학습되어 학습용 비디오를 획득하기 위한 시간적 비용적 부담을 경감할 수 있다. 또한 비디오에 포함된 객체의 액션을 인식하고, 액션 영역을 정확하게 추출하여 액션 로컬라이제이션을 수행할 수 있다.Accordingly, the apparatus and method for recognizing a video action and detecting an action region according to an embodiment of the present invention can reduce a time and cost burden for acquiring a training video by learning using a training video in which only an action label is annotated. In addition, it is possible to recognize an action of an object included in a video and accurately extract an action area to perform action localization.
도 1은 본 발명의 일 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 장치의 개략적 구조를 나타낸다.
도 2는 도 1의 특징맵 획득부의 상세 구성을 나타낸다.
도 3은 약지도 학습을 위한 액션 학습용 비디오의 일예를 나타낸다.
도 4는 도 1의 튜블릿 조절부에서 크기가 조절된 경계 박스의 일예를 나타낸다.
도 5 및 도 6은 본 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 장치에서 액션 로컬라이제이션이 수행된 결과의 일예를 나타낸다.
도 7은 본 발병의 일 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 방법을 나타낸다.1 illustrates a schematic structure of an apparatus for recognizing a video action and detecting an action region according to an embodiment of the present invention.
FIG. 2 shows a detailed configuration of a feature map acquisition unit of FIG. 1.
3 shows an example of an action learning video for weak guidance learning.
FIG. 4 shows an example of a bounding box whose size is adjusted by the tubelet controller of FIG. 1.
5 and 6 illustrate an example of a result of performing action localization in the apparatus for recognizing a video action and detecting an action region according to the present embodiment.
7 shows a method of recognizing a video action and detecting an action region according to an embodiment of the present outbreak.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다. In order to fully understand the present invention, the operational advantages of the present invention, and the objects achieved by the implementation of the present invention, reference should be made to the accompanying drawings illustrating preferred embodiments of the present invention and the contents described in the accompanying drawings.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다. Hereinafter, the present invention will be described in detail by describing a preferred embodiment of the present invention with reference to the accompanying drawings. However, the present invention may be implemented in various different forms, and is not limited to the described embodiments. In addition, in order to clearly describe the present invention, parts irrelevant to the description are omitted, and the same reference numerals in the drawings indicate the same members.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. Throughout the specification, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components unless specifically stated to the contrary. In addition, terms such as "... unit", "... group", "module", and "block" described in the specification mean units that process at least one function or operation, which is hardware, software, or hardware. And software.
도 1은 본 발명의 일 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 장치의 개략적 구조를 나타내고, 도 2는 도 1의 객체 튜블릿 획득부의 상세 구성을 나타낸다.1 shows a schematic structure of an apparatus for recognizing a video action and detecting an action region according to an embodiment of the present invention, and FIG. 2 shows a detailed configuration of an object tubelet acquisition unit of FIG. 1.
도 1을 참조하면, 본 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 장치는 객체 튜블릿 획득부(110), 튜블릿 조절부(120), 차원 변환부(130), 특징 추출부(140), 액션 가중치 획득부(150), 액션 인식 및 영역 판별부(160) 및 학습부(170)를 포함한다.Referring to FIG. 1, the apparatus for recognizing a video action and detecting an action region according to the present embodiment includes an object
객체 튜블릿 획득부(110)는 액션 로컬라이제이션이 수행되어야 하는 비디오를 획득하고, 획득된 비디오의 다수의 프레임에서 객체가 포함된 영역을 검출하여 객체 튜블릿(tubelet)을 생성한다. 객체 튜블릿 획득부(110)는 약지도 학습(weakly-supervised) 방식에 따라 패턴 추정 방식이 미리 학습된 인공 신경망을 포함하여, 비디오의 다수의 프레임에서 기지정된 객체를 검출하고, 연속되는 다수의 프레임에서 객체가 검출된 영역을 연결함으로써 객체 튜블릿을 생성한다.The object
도 2를 참조하면, 객체 튜블릿 획득부(110)는 비디오 제공부(111), 프레임 그룹화부(112), 객체 검출부(113) 및 튜블릿 생성부(114)를 포함할 수 있다.Referring to FIG. 2, the object
비디오 제공부(111)는 액션 로컬라이제이션이 수행되어야 하는 다수 프레임으로 구성된 비디오를 획득한다. 여기서 액션 로컬라이제이션은 비디오 내에 포함된 적어도 하나의 객체의 액션 영역을 구분하는 것으로서, 객체의 액션을 인지하고, 각 프레임 내에서 인지된 객체의 액션이 포함된 영역을 추출하는 것을 의미한다.The
프레임 그룹화부(112)는 연속되는 다수의 프레임이 포함된 비디오에서 기지정된 개수(여기서는 일예로 T개(T는 자연수)) 단위로 프레임(ft, t = {1, ..., T})을 그룹화하여 구분한다. 일반적으로 비디오에는 매우 많은 프레임이 포함되고, 비디오에 포함된 모든 프레임에서 객체가 동일하게 유지되는 경우는 거의 없다. 또한 스트리밍과 같이 비디오의 모든 프레임을 일괄적으로 획득할 수 없는 경우도 발생한다. 따라서 프레임 그룹화부(112)는 비디오에 포함된 객체를 용이하게 검출할 수 있도록, 비디오를 기지정된 개수의 프레임 단위로 그룹화한다. 여기서 그룹화되는 프레임의 개수는 다양하게 설정될 수 있으나, 일예로 8개의 프레임 단위로 그룹화될 수 있다. The
객체 검출부(113)는 패턴 추정 방식이 미리 학습된 인공 신경망을 포함하여, 학습된 패턴 추정 방식에 따라 그룹화된 다수의 프레임에 포함된 객체를 탐지하고, 다수의 프레임에서 탐지된 객체가 나타나는 객체 영역에 대한 경계 박스(B = {B1, ..., BT})를 검출한다.The
여기서 객체 검출부(113)는 검출할 객체가 지정되어 미리 학습될 수 있다. 본 실시예에서는 비디오 액션 인식 및 액션 영역 탐지 장치가 사람의 액션을 인식하고 액션 영역을 검출하는 것으로 가정하며, 이에 객체 검출부(113)는 그룹화된 다수의 프레임에서 사람이 포함된 영역을 검출한다.Here, the
객체 검출부(113)는 그룹화된 다수의 프레임(ft)에서 객체가 나타나는 객체 영역을 사각의 경계 박스(bounding box)(B)로 검출하고, 검출된 경계 박스(B)의 좌표를 출력할 수 있다.The
여기서 객체 검출부(113)는 일예로 컨볼루션 신경망(Convolutional Neural Networks)으로 구현될 수 있으며, 학습의 편의성을 위해 약지도 학습 방식에 따라 학습될 수 있다.Here, the
객체 검출부(113)가 완전 지도 학습 방식으로 학습되는 경우, 객체 검출 성능이 우수하지만, 객체의 경계, 즉 경계 박스(B)에 대한 검증 자료 레이블이 완전하게 주석된 대량의 학습용 비디오를 필요로 한다. 그리고 검증 자료 레이블이 주석된 학습용 비디오는 기본적으로 수작업으로 획득되므로, 학습용 비디오를 획득하는 것이 용이하지 않다.When the
그에 비해 본 실시예에서 객체 검출부(113)는 단순한 객체 레이블만이 주석된 객체 학습용 비디오를 기반으로 약지도 학습된다.In contrast, in the present embodiment, the
단순 객체 레이블만이 주석된 객체 학습용 비디오는 객체 영역에 대한 별도의 주석 없이 비디오 전체에 대해 객체 레이블만이 제공되는 비디오를 의미한다. 일예로, 본 실시예에서 객체 학습용 비디오에는 사람, 개, 고양이, 염소 등과 같이 단순히 객체의 레이블만이 주석으로 제공되며, 객체가 나타나는 객체 영역에 대해서는 별도의 주석이 제공되지 않는다.An object learning video in which only a simple object label is annotated refers to a video in which only an object label is provided for the entire video without additional annotation on the object area. For example, in the object learning video in the present embodiment, only the label of an object such as a person, dog, cat, goat, etc. is provided as an annotation, and a separate annotation is not provided for an object area in which the object appears.
간단한 객체 레이블만이 제공되는 비디오를 이용한 약지도 학습은 객체의 영역 경계를 수작업으로 주석 처리할 필요가 없으므로, 대량의 객체 학습용 비디오를 저비용으로 빠르고 용이하게 제작할 수 있다.In the weak instructional learning using a video provided only with a simple object label, since it is not necessary to manually annotate the boundary of an object, a large amount of video for object learning can be produced quickly and easily at low cost.
여기서 객체 검출부(113)는 각 경계 박스(B)에 검출해야 하는 객체가 존재할 확률을 나타내는 객체 스코어(h*)를 함께 획득하고, 획득된 객체 스코어(h*)가 기지정된 기준 객체 스코어 이상인 경우에만 정상 경계 박스(B)로 판별하여 출력할 수도 있다. 이는 객체 검출부(113)의 객체 검출 신뢰도를 향상시키기 위해서이다.Wherein not less than the
객체 검출부(113)는 미리 학습된 패턴 추정 방식에 따라 다수의 프레임(ft) 중 n번째 프레임(fn)에서 검출되는 경계 박스(Bn)의 객체 특징(xn ∈ )을 추출하고, 추출된 객체 특징(xn)로부터 수학식 1에 따라 프레임별 객체 스코어(hn)를 획득할 수 있다.The
(여기서 wh(d)는 지정된 객체를 식별하기 위한 객체 분류자(wh)에 대응하는 d번째 요소(element)로서 인공 신경망의 연산 레이어(예를 들면 컨볼루션 레이어)의 가중치를 나타낸다.)(Wh h (d) is a d-th element corresponding to an object classifier (w h ) for identifying a designated object, and represents the weight of the computational layer (eg, convolutional layer) of the artificial neural network.)
객체 검출부(113)는 다수의 프레임(ft) 각각에 대해 획득되는 프레임별 객체 스코어(hn)에 대해 평균값 풀링(average pooling)과 시그모이드(sigmoid) 함수를 적용하여, 수학식 2에 따라 다수의 프레임(ft)의 경계 박스(B)에서 객체가 존재할 확률인 객체 스코어(h*)를 획득할 수 있다.The
한편 객체 검출부(113)는 다수의 프레임에 다수의 객체가 포함된 경우, 다수 객체의 다양한 조합에 따른 영역을 검출할 수도 있다. 예를 들면, 비디오에 다수의 객체가 나타나며, 다수의 객체는 서로 이격되어 나타나거나 인접 또는 일부 영역에서 중첩되어 나타날 수도 있다. 이에 객체 검출부(113)는 서로 이격된 객체는 각각 구분된 객체 영역으로 검출하고, 인접하거나 일부 영역이 중첩된 객체는 각 객체별로 구분된 객체 영역으로 검출할 뿐만 아니라, 인접 또는 중첩된 객체가 함께 포함된 객체 영역 또한 검출할 수 있다. 여기서 객체 검출부(113)는 일예로 객체가 인접 또는 중첩 배치되어 각 객체에 대한 객체 영역의 적어도 일부가 중첩되는 경우에 객체가 함께 포함된 객체 영역을 추가로 검출하도록 구성될 수 있다.Meanwhile, when a plurality of objects are included in a plurality of frames, the
객체 검출부(113)는 T개의 프레임(f1, ..., fT) 각각에 대응하는 경계 박스(bounding box)(B = {B1, ..., BT})를 검출하며, 각 프레임(ft)에 다수의 객체 영역이 탐지되는 경우, 각 객체 영역에 대응하는 개수(N)의 경계 영역(Bt n, 여기서 {n = 1, ..., N})를 검출할 수 있다.The
객체 검출부(113)에 의해 객체 영역이 검출되면, 튜블릿 생성부(114)는 다수의 프레임에서 동일 객체에 대해 검출된 객체 영역을 연결하여 객체 튜블릿을 생성한다. 즉 튜블릿은 그룹화된 다수 프레임에서 동일한 객체가 포함된 영역에 대한 경계 박스(B)들의 집합으로 획득될 수 있다.When an object region is detected by the
튜블릿 생성부(114)는 두개의 연속되는 프레임(ft-1, ft)에서 경계 박스(Bt m, Bt-1 n)(여기서 m, n ∈ {1, ..., N})가 획득되면, 경계 박스(Bt m)와 경계 박스(Bt-1 n) 사이의 링크 스코어(Elink)를 수학식 3에 따라 획득한다.The
(여기서 h(Bt n)는 경계 박스에 지정된 객체가 포함될 확률을 나타내는 객체 스코어이고, Efeat(Bt n, Bt-1 n)는 L2-norm 함수에 의해 경계 박스(Bt n)와 경계 박스(Bt-1 n)의 정규화된 특징 사이의 유사성을 나타내고, EIoU(Bt m, Bt-1 n)는 경계 박스(Bt m)와 경계 박스(Bt-1 n) 사이의 중첩 스코어로서 Union of IoU (Intersection of Union)를 측정한 결과를 나타내며, β1, β2는 각각 특징 유사도와 중첩 스코어에 대한 가중치를 제어하는 매개 변수이다.)(Where h(B t n ) is an object score representing the probability that the object specified in the bounding box will be included, and E feat (B t n , B t-1 n ) is the bounding box (B t n ) by the L 2 -norm function. ) And the normalized features of the bounding box (B t-1 n ), and E IoU (B t m , B t-1 n ) is the bounding box (B t m ) and the bounding box (B t-1 n ) n ) represents the result of measuring Union of IoU (Intersection of Union) as an overlap score between, and β 1 and β 2 are parameters that control feature similarity and weight for overlapping scores, respectively.)
링크 스코어(Elink)는 연속되는 두 개의 프레임(ft-1, ft)에서 객체의 특징이 유사하고, 객체가 나타나는 영역이 중첩될수록 큰 값을 가져 강력하게 연결된다.The link score E link has similar characteristics of an object in two consecutive frames (f t-1 and f t ), and has a larger value as the area where the object appears overlaps, so that it is strongly connected.
그리고 프레임(ft)에서 n 번째 객체에 대한 튜블릿을 생성하기 위해, 경로 수학식 4에 따른 인덱스(πt(n))를 갖는 연결 경로를 구성하여, 수학식 5로 표현되는 객체 튜블릿(On)을 생성한다.And in order to generate a tublet for the n-th object in the frame (f t ), by configuring a connection path having an index (π t (n)) according to the path equation 4, the object tublet represented by equation 5 Produces (O n ).
(여기서, l ∈ {1, ..., N}이고, t ∈ {2, ..., T}이다.)(Here, l ∈ {1, ..., N} and t ∈ {2, ..., T}.)
다만 객체 튜블릿을 획득하는 다양한 방식이 기존에 공개되어 있으므로, 경우에 따라서 객체 튜블릿 획득부(110)는 기존의 방식으로 미리 학습되어 객체 튜블릿(On)을 생성 할 수도 있다.However, since various methods of acquiring an object tube have been previously disclosed, in some cases, the object
튜블릿 조절부(120) 또한 패턴 추정 방식이 미리 학습된 인공 신경망을 포함하여 객체 튜블릿 획득부(110)에서 획득된 객체 튜블릿(On)을 인가받고, 인가된 객체 튜블릿(On) 각각에서 경계 박스(B)들의 크기를 조절한다. 즉 객체 튜블릿(On) 각각의 크기를 조절하여 튜블릿(Pn)을 획득한다.The
상기한 바와 같이, 객체 튜블릿 획득부(110)가 약지도 학습되는 경우, 학습용 비디오를 매우 용이하게 획득할 수 있으나, 경계 박스(B)의 검출 성능은 완전 지도 학습 방식보다 낮아질 수 있다. 즉 경계 박스(B)가 객체가 나타나는 객체 영역에 정확하게 대응하지 않고, 불필요한 영역을 포함하여 추출될 수 있다. 이에 튜블릿 조절부(120)는 경계 박스(B)가 정확하게 객체 영역만을 지정하도록 객체 튜블릿의 경계 박스(B)에서 이러한 불필요한 영역을 제거하도록 한다.As described above, when the object
튜블릿 조절부(120)는 t번째 프레임(ft)의 n번째 경계 박스(Bt n)의 중심 위치를 기준으로 대해 폭(ut n)과 높이(vt n)에 대한 오프셋을 줄여 경계 박스(B)의 크기를 조절한다.The
구체적으로 튜블릿 조절부(120)는 미리 학습된 패턴 추정 방식에 따라 경계 박스(Bt n)의 폭(ut n)에 대한 조절 폭(∇ut n)과 높이(vt n)에 대한 조절 높이(∇vt n)를 획득하고, 획득된 조절 폭(∇ut n)과 조절 높이(∇vt n)에 따라 수학식 6과 같이 크기가 조절된 최적 경계 박스()를 획득한다.In more detail, the
튜블릿 조절부(120)는 다수의 컨볼루션 레이어와 적어도 하나의 활성화 함수 레이어(Activation function layer)(여기서는 일예로 ReLU)로 구성된 컨볼루션 신경망을 포함하여, 조절 폭(∇ut n)과 조절 높이(∇vt n)를 획득할 수 있다.The
도 3은 약지도 학습을 위한 액션 학습용 비디오의 일예를 나타내고, 도 4은 도 1의 튜블릿 조절부에서 크기가 조절된 경계 박스의 일예를 나타낸다.3 shows an example of an action learning video for weak supervised learning, and FIG. 4 shows an example of a bounding box whose size is adjusted in the tube control unit of FIG. 1.
튜블릿 조절부(120)는 객체 튜블릿 획득부(110)가 객체 학습용 비디오에 의해 약지도 학습된 이후, 약지도 학습된 객체 튜블릿 획득부(110)가 액션 학습용 비디오에서 획득한 객체 튜블릿을 인가받아 추가적으로 약지도 학습될 수 있다. 여기서 액션 학습용 비디오는 단순히 액션 레이블이 주석된 비디오로서, 일예로 도 3에 도시된 바와 같이, 다이빙, 골프, 아이스 댄싱, 펜싱 등의 액션 레이블이 주석된 단일 액션이 포함된 비디오일 수 있다.After the object
도 4에서는 연속되는 다수의 프레임에서 객체 튜블릿 획득부(110)가 검출한 경계 박스(Bt n)와 튜블릿 조절부(120)에서 조절된 최적 경계 박스()를 나타내고 있다. 도 4에 도시된 바와 같이, 경계 박스(Bt n)는 객체가 나타나는 영역에 대해 상대적으로 큰 영역으로 검출되어 여백이 포함되는 반면, 최적 경계 박스()는 객체의 영역에 매우 타이트하게 설정되었음을 알 수 있다.In FIG. 4, a bounding box (B t n ) detected by the object
차원 변환부(130)는 튜블릿(Pn) 각각의 다수의 최적 경계 박스()들에 대해 시간축을 기준으로 시간 평균 풀링(time average pooling)을 수행하여, 다수의 최적 경계 박스()를 포함하는 3차원의 튜블릿(Pn) 각각을 2차원의 튜블릿 이미지로 변환한다. The
특징 추출부(140)는 튜블릿 이미지를 인가받고, 미리 학습된 패턴 추정 방식에 따라 튜블릿 이미지의 특징을 추출하여 특징맵(yn ∈ )을 획득한다.The
액션 가중치 획득부(150)는 미리 학습된 패턴 추정 방식에 따라 특징 추출부(140)에서 획득된 특징맵에서 액션 가중치(αn)를 획득하고, 획득된 액션 가중치를 대응하는 특징맵(yn)에 적용하여 가중 특징맵(αnyn)을 획득한다.Action characterized by the
여기서 액션 가중치(αn)는 튜블릿 이미지에서 객체의 액션 수준, 즉 움직임을 나타내는 가중치이다. 액션 가중치 획득부(150)가 액션 가중치(αn)를 획득하여 특징맵(yn)에 가중하는 것은, 비록 객체 튜블릿 획득부(110)가 객체를 탐지하여 객체 튜블릿(On)을 획득하더라도, 객체 튜블릿(On)의 객체에 움직임이 없다면 객체의 액션 영역을 검출하는 액션 로컬라이제이션에서는 무의미하기 때문이다.Here, the action weight α n is a weight representing the action level, that is, motion of the object in the tubular image. The action
차원 변환부(130)와 특징 추출부(140)는 특징맵 획득부로 통합될 수 있다.The
액션 인식 및 영역 판별부(160)는 가중 특징맵(αnyn)을 인가받고, 미리 학습된 패턴 추정 방식에 따라 기지정된 다수의 액션 클래스 중 적어도 하나의 액션 클래스로 분류한다. 액션 인식 및 영역 판별부(160) 또한 인공 신경망으로 구현될 수 있다.The action recognition and
액션 인식 및 영역 판별부(160)는 우선 튜블릿(Pn) 각각에 대응하는 가중 특징맵(αnyn)이 기지정된 다수의 액션 클래스 각각에 대응하는 수준을 나타내는 액션 클래스 스코어(λn(c) = {λn(1), ..., λn(C)})를 수학식 7에 따라 획득한다.The action recognition and
(여기서 wT(c, d)는 지정된 액션 클래스(c ∈ {1, ..., C})를 식별하기 위한 액션 클래스 분류자(wT ∈ )에 대응하는 d번째 요소로서 인공 신경망의 연산 레이어(예를 들면 컨볼루션 레이어)의 가중치를 나타낸다.)(Where w T (c, d) is the action class classifier (w T ∈) to identify the specified action class (c ∈ {1, ..., C}). ), which represents the weight of the computational layer (for example, the convolutional layer) of the artificial neural network.)
수학식 7에서 는 n번째 튜블릿(Pn)의 클래스(c)에 대한 연관성을 나타내는 분류 스코어로서 수학식 8와 같이 표현될 수 있다.In Equation 7 Is a classification score indicating the association with the class (c) of the n-th tubelet (P n ), and may be expressed as in Equation 8.
(여기서 sn = [sn(1), ..., sn(C)]T ∈ 이다.)(Where s n = [s n (1), ..., s n (C)] T ∈ to be.)
수학식 8에 의해 수학식 7는 수학식 9으로 표현될 수 있다.Equation 7 can be expressed as Equation 9 by Equation 8.
즉 n번째 튜블릿(Pn)의 클래스(c)에 대한 액션 클래스 스코어(λn(c))는 수학식 9과 같이, 액션 가중치(αn)와 분류 스코어(Sn)로 획득된다.That is, the action class score (λ n (c)) for the class (c) of the n-th tubelet (P n ) is obtained as an action weight (α n ) and a classification score (S n ), as shown in Equation 9.
액션 인식 및 영역 판별부(160)는 튜블릿(Pn) 각각의 다수의 액션 클래스(c)에 대한 액션 클래스 스코어(λn(c))가 획득되면, 기지정된 기준 액션 클래스 스코어 이상인 액션 클래스 스코어(λn(c))를 선택하고, 선택된 액션 클래스 스코어(λn(c))에 대응하는 튜블릿(Pn)을 액션 튜블릿으로 추출한다. 그리고 추출된 액션 튜블릿의 최적 경계 박스()와 액션 클래스(c)를 획득하여 액션 로컬라이제이션의 결과로 출력한다. 즉 액션의 종류와 함께 비디오에서 액션이 나타난 객체 영역을 출력한다.When the action class score (λ n (c)) for a plurality of action classes (c) of each of the tubelets (P n ) is obtained, the action recognition and
이때 하나의 튜블릿(Pn)이 다수의 액션 클래스(c)에 대해서 액션 클래스 스코어(λn(c))가 기준 액션 클래스 스코어 이상으로 나타날 수 있다. 즉 하나의 튜블릿(Pn)이 다수의 액션 클래스에 대응하는 경우가 발생할 수 있다. 이 경우, 액션 인식 및 영역 판별부(160)는 기지정된 설정에 따라 액션 클래스 스코어(λn(c))가 가장 높은 하나의 액션 클래스(c)를 출력하거나, 기준 액션 클래스 스코어 이상으로 나타난 다수의 액션 클래스(c) 모두를 출력할 수 있다.In this case, one tubelet P n may have an action class score λ n (c) greater than or equal to the reference action class score for a plurality of action classes c. That is, there may be a case where one tubelet P n corresponds to a plurality of action classes. In this case, the action recognition and
학습부(170)는 액션 인식 및 액션 영역 탐지 장치를 약지도 학습시키기 위한 구성으로 학습 수행 시에만 추가되고, 학습된 이후에는 생략될 수 있다.The
학습부(170)는 객체 학습용 비디오를 이용하여 객체 튜블릿 획득부(110)를 우선 약지도 학습시키고, 이후, 약지도 학습된 객체 튜블릿 획득부(110)와 액션 학습용 비디오를 이용하여 튜블릿 조절부(120), 차원 변환부(130), 특징 추출부(140), 액션 가중치 획득부(150) 및 액션 인식 및 영역 판별부(160)를 약지도 학습시킬 수 있다.The
학습부(170)는 객체 학습용 비디오가 객체 튜블릿 획득부(110)에 인가되어 획득되는 경계 박스(B)에 검출해야 하는 객체가 존재할 확률을 나타내는 객체 스코어(h*)를 전달받는다. 그리고 객체 스코어(h*)와 객체 학습용 비디오에 주석된 객체 레이블 사이의 차이를 객체 손실로 획득하여 객체 튜블릿 획득부(110)로 역전파하여 객체 튜블릿 획득부(110)를 약지도 학습시킨다. 이때, 학습부(170)는 객체 손실을 일예로 표준 다중 레이블 교차 엔트로피 손실과 같은 공지된 함수에 적용하여 획득할 수 있다.The
객체 튜블릿 획득부(110)가 약지도 학습되면, 학습부(170)는 액션 학습용 비디오를 객체 튜블릿 획득부(110)에 인가하고, 액션 가중치 획득부(150)에서 모든 액션 튜블릿(Pn)에 대해 출력되는 가중 특징맵(αnyn)을 수학식 10과 같이 모두 더하여 비디오 레벨에서 액션 튜블릿에 대한 특징을 나타내는 비디오 특징맵(y*)을 획득한다.When the object
그리고 학습부(170)는 비디오 특징맵(y*)으로부터 비디오 액션 클래스 스코어(λ(c))를 수학식 7와 유사하게 수학식 11에 따라 획득한다.In addition, the
비디오 액션 클래스 스코어(λ(c))가 획득되면, 학습부(170)는 비디오 액션 클래스 스코어(λ(c))와 액션 학습용 비디오의 액션 레이블과의 차이를 액션 손실로 획득하여 역전파함으로써, 튜블릿 조절부(120), 차원 변환부(130), 특징 추출부(140), 액션 가중치 획득부(150) 및 액션 인식 및 영역 판별부(160)를 약지도 학습시킬 수 있다. 여기서 학습부(170)는 액션 손실을 일예로 표준 다중 레이블 교차 엔트로피 손실과 같은 공지된 함수에 적용하여 획득할 수 있다.When the video action class score λ(c) is obtained, the
도 5 및 도 6은 본 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 장치에서 액션 로컬라이제이션이 수행된 결과의 일예를 나타낸다.5 and 6 illustrate an example of a result of performing action localization in the apparatus for recognizing a video action and detecting an action region according to the present embodiment.
도 5에서 (a)와 (b)는 각각 농구와 아이스 댄싱에 대해 액션 로컬라이제이션을 수행한 결과를 나타내고, 도6 에서 (a) 내지 (d)는 각각 다이빙, 축구, 농구 및 사이클에 대해 액션 로컬라이제이션을 수행한 결과를 나타낸다. 그리고 도 5 및 도 6에서는 본 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 장치의 성능을 비교하기 위해 기존에 수작업 등으로 수행된 검증 자료 레이블(ground truth label)을 함께 표시하였다.In Figure 5 (a) and (b) show the results of performing action localization for basketball and ice dancing, respectively, and in Figure 6 (a) to (d) are action localization for diving, soccer, basketball and cycle, respectively. Shows the result of performing. In FIGS. 5 and 6, in order to compare the performance of the apparatus for recognizing a video action and detecting an action region according to the present embodiment, a ground truth label previously performed manually or the like is displayed together.
도 5 및 도 6에 도시된 바와 같이, 본 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 장치는 약지도 학습 방식으로 학습이 수행됨에도 객체의 액션이 발생된 영역을 정확하게 추출할 수 있음을 확인할 수 있다.As shown in Figs. 5 and 6, it can be seen that the video action recognition and action region detection apparatus according to the present embodiment can accurately extract the region in which the action of the object occurs even though the learning is performed by the weak guidance learning method. have.
도 7은 본 발병의 일 실시예에 따른 비디오 액션 인식 및 액션 영역 탐지 방법을 나타낸다.7 shows a method of recognizing a video action and detecting an action region according to an embodiment of the present outbreak.
도 1 내지 도 6을 참조하여, 도 7의 비디오 액션 인식 및 액션 영역 탐지 방법을 설명하면, 우선 학습부(170)는 객체 레이블이 주석된 객체 학습용 비디오를 이용하여 객체 튜블릿 획득부(110)를 약지도 학습시킨다(S12). 학습부(170)는 객체 튜블릿 획득부(110)가 객체 학습용 비디오에 응답하여 출력하는 객체 스코어(h*)와 객체 레이블 사이의 차이를 객체 손실로 획득하여 객체 튜블릿 획득부(110)로 역전파함으로써, 객체 튜블릿 획득부(110)를 학습시킬 수 있다.Referring to FIGS. 1 to 6, the video action recognition and action region detection method of FIG. 7 will be described. First, the
이후 학습부(170)는 학습된 객체 튜블릿 획득부(110)와 객체의 액션 레이블이 주석된 액션 학습용 비디오를 이용하여 튜블릿 조절부(120), 차원 변환부(130), 특징 추출부(140), 액션 가중치 획득부(150) 및 액션 인식 및 영역 판별부(160)를 약지도 학습시킨다(S12).Thereafter, the
학습부(170)는 액션 가중치 획득부(150)에서 모든 액션 튜블릿(Pn)에 대해 출력되는 가중 특징맵(αnyn)으로부터 수학식 10에 따라 비디오 특징맵(y*)을 획득하고, 비디오 특징맵(y*)으로부터 비디오 액션 클래스 스코어(λ(c))를 획득한다. 그리고 획득된 비디오 액션 클래스 스코어(λ(c))와 액션 학습용 비디오의 액션 레이블과의 차이를 액션 손실로 획득하여 역전파하여 약지도 학습을 수행할 수 있다.The
학습이 수행된 이후, 비디오 액션 인식 및 액션 영역 탐지 장치는 액션 로컬라이제이션이 수행되어야 하는 비디오를 인가받고, 패턴 추정 방식이 약지도 학습된 객체 튜블릿 획득부(110)는 비디오에서 기지정된 객체가 포함된 영역인 경계 박스(B)를 검출하여 객체 튜블릿(On)을 획득한다(S21). 이때 비디오에 포함된 객체의 수에 따라 획득되는 객체 튜블릿(On)의 개수는 가변될 수 있다.After the learning is performed, the video action recognition and action region detection device receives the video for which action localization is to be performed, and the object
튜블릿 조절부(120)는 획득된 객체 튜블릿(On)의 경계 박스(Bt n) 각각에 대해 약지도 학습된 패턴 추정 방식에 따라 수학식 6과 같이 객체 튜블릿(On)의 경계 박스(B)의 크기를 조절하여, 최적 경계 박스()를 갖는 튜블릿(Pn)을 획득한다.The
튜블릿(Pn)이 획득되면, 차원 변환부(130)가 튜블릿(Pn) 각각의 다수의 최적 경계 박스()들에 대해 시간축을 기준으로 시간 평균 풀링을 수행하여, 튜블릿 이미지로 변환한다 (S23).When the tubelet P n is obtained, the
그리고 미리 학습된 패턴 추정 방식에 따라 특징 추출부(140)가 튜블릿 이미지의 특징을 추출하여 특징맵(yn)을 획득하고, 액션 가중치 획득부(150)가 특징맵에서 액션 가중치(αn)를 획득하여 대응하는 특징맵(yn)에 적용함으로써 가중 특징맵(αnyn)을 획득한다(S24).In addition, according to the previously learned pattern estimation method, the
액션 인식 및 영역 판별부(160)는 튜블릿(Pn) 각각에 대응하는 가중 특징맵(αnyn)이 기지정된 다수의 액션 클래스 각각에 대응하는 수준을 나타내는 액션 클래스 스코어(λn(c) = {λn(1), ..., λn(C)})를 수학식 9와 같이 획득한다(S25).The action recognition and
그리고 획득된 액션 클래스 스코어(λn(c)) 중 기지정된 기준 액션 클래스 스코어 이상인 액션 클래스 스코어(λn(c))를 선택하고, 선택된 액션 클래스 스코어(λn(c))에 대응하는 튜블릿(Pn)을 액션 튜블릿으로 추출한다. 이와 함께 추출된 액션 튜블릿의 최적 경계 박스()와 액션 클래스(c)를 획득하여 출력한다(S26).And the obtained action class score (λ n (c)) of the exchanger tube for selecting a specified standard action class scores than action class score (λ n (c)), and corresponding to the selected action class score (λ n (c)) The bullet (P n ) is extracted as an action tube. With this, the optimal bounding box of the extracted action tube ( ) And the action class (c) are obtained and output (S26).
본 발명에 따른 방법은 컴퓨터에서 실행 시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.The method according to the present invention may be implemented as a computer program stored in a medium for execution on a computer. Here, the computer-readable medium may be any available medium that can be accessed by a computer, and may also include all computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data, and ROM (Read Dedicated memory), RAM (random access memory), CD (compact disk)-ROM, DVD (digital video disk)-ROM, magnetic tape, floppy disk, optical data storage device, and the like.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.The present invention has been described with reference to the embodiments shown in the drawings, but these are merely exemplary, and those of ordinary skill in the art will appreciate that various modifications and other equivalent embodiments are possible therefrom.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.Therefore, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.
110: 객체 튜블릿 획득부 120: 튜블릿 회귀부
130: 차원 변환부 140: 특징 추출부
150: 액션 가중치 획득부 160: 액션 인식 및 영역 판별부
170: 학습부110: object tublet acquisition unit 120: tublet regression unit
130: dimensional transformation unit 140: feature extraction unit
150: action weight acquisition unit 160: action recognition and area determination unit
170: learning department
Claims (12)
액션 레이블이 주석된 액션 학습용 비디오를 이용하는 약지도 학습 방식으로 제2 패턴 추정 방식이 미리 학습되어, 상기 객체 튜블릿의 다수의 경계 박스의 크기를 조절하여 튜블릿을 획득하는 튜블릿 조절부;
상기 튜블릿의 크기가 조절된 다수의 경계 박스를 시간 평균 풀링하여 튜블릿 이미지로 변환하고, 미리 학습된 제3 패턴 추정 방식에 따라 상기 튜블릿 이미지의 특징을 추출하여 특징맵을 생성하는 특징맵 획득부;
상기 특징맵에서 액션 가중치를 획득하여 대응하는 특징맵에 가중하여 가중 특징맵을 획득하는 액션 가중치 획득부; 및
상기 가중 특징맵이 기지정된 다수의 액션 클래스 각각에 대응하는 수준을 나타내는 액션 클래스 스코어를 계산하고, 상기 액션 클래스 스코어에 따라 튜블릿에 대응하는 액션을 선택하고, 상기 튜블릿에 포함된 상기 크기가 조절된 경계 박스의 위치 정보를 출력하는 액션 인식 및 영역 판별부; 를 포함하는 비디오 액션 인식 및 액션 영역 탐지 장치.An object tublet that searches for a bounding box that is an area containing a predetermined object in each of a plurality of frames of a video according to a pre-learned first pattern estimation method, and creates an object tube by connecting the corresponding bounding box in a plurality of frames. Acquisition unit;
A tubelet adjusting unit for obtaining a tube by adjusting the size of a plurality of bounding boxes of the object tube by pre-learning a second pattern estimation method in a weak supervised learning method using an action learning video with an action label annotated;
A feature map for generating a feature map by transforming a plurality of bounding boxes of which the size of the tublet is adjusted into a tublet image by time-averaging pooling, and extracting features of the tublet image according to a previously learned third pattern estimation method Acquisition unit;
An action weight acquisition unit for acquiring an action weight from the feature map and weighting a corresponding feature map to obtain a weighted feature map; And
An action class score representing a level corresponding to each of a plurality of action classes in which the weighted feature map is determined is calculated, an action corresponding to a tublet is selected according to the action class score, and the size included in the tublet is An action recognition and area determination unit outputting position information of the adjusted bounding box; Video action recognition and action area detection device comprising a.
상기 제2 패턴 추정 방식에 따라 객체 튜블릿의 다수의 경계 박스(Bt n) 각각의 폭(ut n)에 대한 조절 폭(∇ut n)과 높이(vt n)에 대한 조절 높이(∇vt n)를 획득하고, 획득된 조절 폭(∇ut n)과 조절 높이(∇vt n)로부터 수학식
에 따라 상기 크기가 조절된 경계 박스()를 획득하는 비디오 액션 인식 및 액션 영역 탐지 장치.The method of claim 1, wherein the tubular adjustment unit
Adjusted width (∇u t n ) and height (v t n ) for each width (u t n ) of a plurality of bounding boxes (B t n ) of the object tube according to the second pattern estimation method Obtain (∇v t n ), and from the obtained adjustment width (∇u t n ) and adjustment height (∇v t n )
The bounding box whose size is adjusted according to ( A video action recognition and action area detection device to acquire).
인공 신경망을 포함하여 구성되고 비디오에 포함된 N(N은 자연수)개 튜블릿 중 n번째 튜블릿(Pn)에 대한 상기 액션 클래스 스코어(λn(c))를
수학식
(여기서 αn은 의 액션 가중치이고, yn 은 특징맵이며, wT(c, d)는 지정된 액션 클래스(c ∈ {1, ..., C})를 식별하기 위한 액션 클래스 분류자에 대응하는 d번째 요소로서 인공 신경망의 연산 레이어의 가중치를 나타낸다.)
에 따라 획득하는 비디오 액션 인식 및 액션 영역 탐지 장치.The method of claim 1, wherein the action recognition and area determination unit
The action class score (λ n (c)) for the n-th tubelet (P n ) among N (N is a natural number) tubelets configured including an artificial neural network and included in the video
Equation
(Where α n is the action weight of, y n is the feature map, and w T (c, d) is used in the action class classifier to identify the specified action class (c ∈ {1, ..., C}). As the corresponding d-th element, it represents the weight of the computational layer of the artificial neural network.)
Video action recognition and action area detection device acquired according to.
상기 액션 클래스 스코어 중 기지정된 기준 액션 클래스 스코어 이상인 액션 클래스 스코어를 선택하고, 선택된 액션 클래스 스코어에 대응하는 액션 클래스를 객체의 액션으로 출력하고, 선택된 액션 클래스 스코어에 대응하는 튜블릿의 크기가 조절된 경계 박스의 위치 정보를 출력하는 비디오 액션 인식 및 액션 영역 탐지 장치.The method of claim 1, wherein the action recognition and area determination unit
Among the action class scores, an action class score equal to or greater than a predetermined reference action class score is selected, the action class corresponding to the selected action class score is output as an action of the object, and the size of the tube corresponding to the selected action class score is adjusted. A video action recognition and action area detection device that outputs location information of a bounding box.
동일한 튜블릿에 대해 기준 액션 클래스 스코어 이상인 액션 클래스 스코어가 다수개인 경우, 기지정된 설정에 따라 액션 클래스 스코어가 가장 높은 하나의 액션 클래스를 출력하거나, 기준 액션 클래스 스코어 이상으로 나타난 다수의 액션 클래스를 함께 출력하는 비디오 액션 인식 및 액션 영역 탐지 장치.The method of claim 4, wherein the action recognition and area determination unit
When there are multiple action class scores that are equal to or greater than the base action class score for the same tubelet, one action class with the highest action class score is output according to a predetermined setting, or multiple action classes that appear above the base action class score are combined. Output video action recognition and action area detection device.
액션 레이블만이 주석된 액션 학습용 비디오를 기반으로 상기 튜블릿 조절부, 상기 특징맵 획득부, 상기 액션 가중치 획득부 및 액션 인식 및 영역 판별부를 약지도 학습시키기 위한 학습부; 를 더 포함하고,
상기 학습부는
상기 액션 학습용 비디오에 응답하여, 액션 가중치 획득부(150)에서 모든 액션 튜블릿(Pn)에 대해 출력되는 가중 특징맵을 가산하여 비디오 특징맵을 획득하고, 비디오 특징맵으로부터 비디오 액션 클래스 스코어를 획득하며, 비디오 액션 클래스 스코어와 액션 학습용 비디오의 액션 레이블과의 차이를 액션 손실로 획득하여 역전파하여 약지도 학습을 수행하는 비디오 액션 인식 및 액션 영역 탐지 장치.The apparatus of claim 1, wherein the video action recognition and action area detection device
A learning unit for learning a weak map based on an action learning video in which only an action label is annotated, the tubelet control unit, the feature map acquisition unit, the action weight acquisition unit, and the action recognition and region determination unit; Including more,
The learning unit
In response to the action learning video, the action weight acquisition unit 150 adds weighted feature maps output for all action tublets (P n ) to obtain a video feature map, and obtains a video action class score from the video feature map. A video action recognition and action region detection device that acquires and performs weak supervised learning by acquiring the difference between the video action class score and the action label of the action learning video as an action loss and backpropagating it.
상기 제1 패턴 추정 방식에 따라 비디오의 다수 프레임 각각에서 기지정된 객체가 포함된 영역인 경계 박스를 탐색하고, 각 경계 박스에 검출해야 하는 객체가 존재할 확률을 나타내는 객체 스코어를 함께 획득하고, 획득된 객체 스코어가 기지정된 기준 객체 스코어 이상인 경계 박스를 이용하여 객체 튜블릿을 생성하고,
상기 학습부는
객체 레이블만이 주석된 객체 학습용 비디오가 인가되어 상기 객체 튜블릿 획득부에서 획득된 상기 객체 스코어와 객체 학습용 비디오에 주석된 객체 레이블 사이의 차이를 객체 손실로 획득하여 역전파함으로써, 상기 객체 튜블릿 획득부를 약지도 학습시키는 비디오 액션 인식 및 액션 영역 탐지 장치.The method of claim 6, wherein the object tubelet acquisition unit
According to the first pattern estimation method, a bounding box, which is an area containing a predetermined object in each of a plurality of frames of a video, is searched, an object score indicating the probability of the existence of an object to be detected in each bounding box is obtained, and the obtained An object tublet is created using a bounding box having an object score equal to or greater than a predetermined reference object score,
The learning unit
An object learning video in which only an object label is annotated is applied, and the difference between the object score obtained by the object tubelet acquisition unit and the object label annotated in the object learning video is acquired as an object loss and backpropagated, so that the object tube A video action recognition and action region detection device that learns weak guidance of the acquisition unit.
액션 레이블이 주석된 액션 학습용 비디오를 이용하는 약지도 학습 방식으로 학습된 제2 패턴 추정 방식에 따라 상기 객체 튜블릿의 다수의 경계 박스의 크기를 조절하여 튜블릿을 획득하는 단계;
상기 튜블릿의 크기가 조절된 경계 박스를 시간 평균 풀링하여 튜블릿 이미지로 변환하고, 미리 학습된 제3 패턴 추정 방식에 따라 상기 튜블릿 이미지의 특징을 추출하여 특징맵을 생성하는 단계;
상기 특징맵에서 액션 가중치를 획득하여 대응하는 특징맵에 가중하여 가중 특징맵을 획득하는 단계; 및
상기 가중 특징맵이 기지정된 다수의 액션 클래스 각각에 대응하는 수준을 나타내는 액션 클래스 스코어를 계산하고, 상기 액션 클래스 스코어에 따라 튜블릿에 대응하는 액션을 선택하고, 상기 튜블릿에 포함된 상기 크기가 조절된 경계 박스의 위치 정보를 출력하는 단계; 를 포함하는 비디오 액션 인식 및 액션 영역 탐지 방법.Searching for a bounding box, which is an area including an object, in each of a plurality of frames of a video according to a pre-learned first pattern estimation method, and connecting the corresponding bounding boxes in the plurality of frames to generate an object tube;
Obtaining a tube by adjusting the size of a plurality of bounding boxes of the object tube according to a second pattern estimation method learned by a weak supervised learning method using an action learning video with an action label annotated;
Generating a feature map by performing time-averaged pooling of the bounding box of which the size of the tubelet is adjusted to convert it into a tubelet image, and extracting features of the tubelet image according to a previously learned third pattern estimation method;
Acquiring an action weight from the feature map and weighting it to a corresponding feature map to obtain a weighted feature map; And
An action class score representing a level corresponding to each of a plurality of action classes in which the weighted feature map is determined is calculated, an action corresponding to a tublet is selected according to the action class score, and the size included in the tublet is Outputting position information of the adjusted bounding box; Video action recognition and action area detection method comprising a.
인공 신경망을 포함하여 구성되고 비디오에 포함된 N(N은 자연수)개 튜블릿 중 n번째 튜블릿(Pn)에 대한 상기 액션 클래스 스코어(λn(c))를
수학식
(여기서 αn은 의 액션 가중치이고, yn 은 특징맵이며, wT(c, d)는 지정된 액션 클래스(c ∈ {1, ..., C})를 식별하기 위한 액션 클래스 분류자에 대응하는 d번째 요소로서 인공 신경망의 연산 레이어의 가중치를 나타낸다.)
에 따라 획득하는 비디오 액션 인식 및 액션 영역 탐지 방법.The method of claim 8, wherein outputting the location information comprises:
The action class score (λ n (c)) for the n-th tubelet (P n ) among N (N is a natural number) tubelets configured including an artificial neural network and included in the video
Equation
(Where α n is the action weight of, y n is the feature map, and w T (c, d) is used in the action class classifier to identify the specified action class (c ∈ {1, ..., C}). As the corresponding d-th element, it represents the weight of the computational layer of the artificial neural network.)
Video action recognition and action area detection method obtained according to.
상기 액션 클래스 스코어 중 기지정된 기준 액션 클래스 스코어 이상인 액션 클래스 스코어를 선택하는 단계;
선택된 액션 클래스 스코어에 대응하는 액션 클래스를 객체의 액션으로 출력하는 단계; 및
선택된 액션 클래스 스코어에 대응하는 튜블릿의 크기가 조절된 경계 박스의 위치 정보를 출력하는 단계; 를 포함하는 비디오 액션 인식 및 액션 영역 탐지 방법.The method of claim 8, wherein outputting the location information comprises:
Selecting an action class score that is equal to or greater than a predetermined reference action class score among the action class scores;
Outputting an action class corresponding to the selected action class score as an action of the object; And
Outputting location information of a bounding box in which a size of a tube corresponding to the selected action class score is adjusted; Video action recognition and action area detection method comprising a.
액션 레이블만이 주석된 액션 학습용 비디오를 기반으로 약지도 학습시키는 단계; 를 더 포함하고,
상기 약지도 학습시키는 단계는
상기 액션 학습용 비디오에 응답하여, 획득되는 모든 액션 튜블릿(Pn)에 대해 출력되는 가중 특징맵(αnyn)을 가산하여 비디오 특징맵(y*)을 획득하는 단계;
상기 비디오 특징맵(y*)으로부터 비디오 액션 클래스 스코어(λ(c))를 획득하는 단계; 및
비디오 액션 클래스 스코어(λ(c))와 액션 학습용 비디오의 액션 레이블과의 차이를 액션 손실로 획득하여 역전파하는 단계; 를 포함하는 비디오 액션 인식 및 액션 영역 탐지 방법.The method of claim 8, wherein the video action recognition and action region detection method
Learning a medicine map based on the action learning video in which only the action label is annotated; Including more,
The step of learning the medicine map
Acquiring a video feature map (y * ) by adding weighted feature maps (α n y n ) output to all acquired action tubelets (P n ) in response to the action learning video;
Obtaining a video action class score (λ(c)) from the video feature map (y * ); And
Acquiring a difference between the video action class score λ(c) and the action label of the video for action learning as an action loss and backpropagating; Video action recognition and action area detection method comprising a.
상기 제1 패턴 추정 방식에 따라 비디오의 다수 프레임 각각에서 기지정된 객체가 포함된 영역인 경계 박스를 탐색하는 단계;
각 경계 박스에 검출해야 하는 객체가 존재할 확률을 나타내는 객체 스코어를 함께 획득하는 단계: 및
획득된 객체 스코어가 기지정된 기준 객체 스코어 이상인 경계 박스를 이용하여 객체 튜블릿을 생성하는 단계; 를 포함하고,
상기 약지도 학습시키는 단계는
객체 레이블만이 주석된 객체 학습용 비디오가 인가되어 상기 객체 튜블릿 획득부에서 획득된 상기 객체 스코어와 객체 학습용 비디오에 주석된 객체 레이블 사이의 차이를 객체 손실로 획득하여 역전파함으로써, 상기 객체 튜블릿 획득부를 약지도 학습시키는 단계; 를 더 포함하는 비디오 액션 인식 및 액션 영역 탐지 방법.The method of claim 8, wherein generating the object tublet comprises:
Searching for a bounding box that is an area including a predetermined object in each of a plurality of frames of a video according to the first pattern estimation method;
Acquiring an object score indicating a probability that an object to be detected exists in each bounding box together: And
Generating an object tubelet using a bounding box in which the obtained object score is equal to or greater than a predetermined reference object score; Including,
The step of learning the medicine map
An object learning video in which only an object label is annotated is applied, and the difference between the object score obtained by the object tubelet acquisition unit and the object label annotated in the object learning video is acquired as an object loss and backpropagated, so that the object tube Learning an acquiring unit; Video action recognition and action area detection method further comprising.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190034501A KR102174656B1 (en) | 2019-03-26 | 2019-03-26 | Apparatus and method for recognizing activity and detecting activity area in video |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190034501A KR102174656B1 (en) | 2019-03-26 | 2019-03-26 | Apparatus and method for recognizing activity and detecting activity area in video |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200119386A KR20200119386A (en) | 2020-10-20 |
KR102174656B1 true KR102174656B1 (en) | 2020-11-05 |
Family
ID=73025404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190034501A KR102174656B1 (en) | 2019-03-26 | 2019-03-26 | Apparatus and method for recognizing activity and detecting activity area in video |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102174656B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487913A (en) * | 2020-11-24 | 2021-03-12 | 北京市地铁运营有限公司运营四分公司 | Labeling method and device based on neural network and electronic equipment |
EP4239591A1 (en) * | 2022-03-04 | 2023-09-06 | Samsung Electronics Co., Ltd. | Method and apparatus for video action classification |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101731461B1 (en) | 2015-12-09 | 2017-05-11 | 고려대학교 산학협력단 | Apparatus and method for behavior detection of object |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150065370A (en) * | 2013-12-05 | 2015-06-15 | 한국전자통신연구원 | Apparatus and method for recognizing human actions |
KR101758693B1 (en) * | 2015-12-11 | 2017-07-19 | 연세대학교 산학협력단 | Apparatus and Method of Behavior Recognition based on Object-Behavior Relation Model |
KR101900237B1 (en) | 2017-10-20 | 2018-09-19 | 주식회사 삼진엘앤디 | On-site judgment method using situation judgment data on acquired images |
-
2019
- 2019-03-26 KR KR1020190034501A patent/KR102174656B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101731461B1 (en) | 2015-12-09 | 2017-05-11 | 고려대학교 산학협력단 | Apparatus and method for behavior detection of object |
Also Published As
Publication number | Publication date |
---|---|
KR20200119386A (en) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharma et al. | A comprehensive and systematic look up into deep learning based object detection techniques: A review | |
Ziaeefard et al. | Semantic human activity recognition: A literature review | |
Wojek et al. | Multi-cue onboard pedestrian detection | |
Chen et al. | Efficient activity detection with max-subgraph search | |
Ouyang et al. | Deepid-net: multi-stage and deformable deep convolutional neural networks for object detection | |
Delaitre et al. | Learning person-object interactions for action recognition in still images | |
Sermanet et al. | Overfeat: Integrated recognition, localization and detection using convolutional networks | |
Yang et al. | Recognizing human actions from still images with latent poses | |
Laptev et al. | Retrieving actions in movies | |
Sun et al. | Discover: Discovering important segments for classification of video events and recounting | |
KR20200000824A (en) | Method for recognizing facial expression based on deep-learning model using center-dispersion loss function | |
WO2017059576A1 (en) | Apparatus and method for pedestrian detection | |
KR102174658B1 (en) | Apparatus and method for recognizing activity and detecting activity duration in video | |
Motiian et al. | Online human interaction detection and recognition with multiple cameras | |
KR102174656B1 (en) | Apparatus and method for recognizing activity and detecting activity area in video | |
KR102185777B1 (en) | Method for recognising semantic relationship between objects based on deep-learning and PLSI using computer | |
KR102138681B1 (en) | Apparatus and method for detecting object based on heterogeneous sensor | |
Lin et al. | Region-based context enhanced network for robust multiple face alignment | |
De Croon et al. | Adaptive gaze control for object detection | |
US11977607B2 (en) | CAM-based weakly supervised learning object localization device and method | |
Duan et al. | Attribute-based vehicle recognition using viewpoint-aware multiple instance svms | |
CN114399731B (en) | Target positioning method under supervision of single coarse point | |
Wozniak et al. | Deep embeddings-based place recognition robust to motion blur | |
Saha et al. | Spatio-temporal human action localisation and instance segmentation in temporally untrimmed videos | |
Aly et al. | Adaptive feature selection and data pruning for 3D facial expression recognition using the Kinect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right |