KR20220040063A - 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법 - Google Patents

불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법 Download PDF

Info

Publication number
KR20220040063A
KR20220040063A KR1020200122806A KR20200122806A KR20220040063A KR 20220040063 A KR20220040063 A KR 20220040063A KR 1020200122806 A KR1020200122806 A KR 1020200122806A KR 20200122806 A KR20200122806 A KR 20200122806A KR 20220040063 A KR20220040063 A KR 20220040063A
Authority
KR
South Korea
Prior art keywords
segment
video
segments
behavior
background
Prior art date
Application number
KR1020200122806A
Other languages
English (en)
Other versions
KR102395089B1 (ko
Inventor
변혜란
이필현
이제욱
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020200122806A priority Critical patent/KR102395089B1/ko
Publication of KR20220040063A publication Critical patent/KR20220040063A/ko
Application granted granted Critical
Publication of KR102395089B1 publication Critical patent/KR102395089B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법은, 매우 동적이고 일관성이 없는 배경 프레임의 특징을 고려하여, 배경 프레임을 분포 외(out-of-distribution) 샘플로 취급하고, 프레임이 분포 내(in-distribution)인지 아닌지에 대한 불확실성(uncertainty)을 약한 지도 학습 기반으로 학습함으로써, 복잡한 배경 프레임의 오분류를 줄일 수 있고, 이로 인해 행동 프레임 검출 성능을 향상시킬 수 있다.

Description

불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법{Apparatus and method for detecting action frame based on weakly-supervised learning through background modeling via uncertainty estimation}
본 발명은 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법에 관한 것으로서, 더욱 상세하게는 비디오에서 행동 프레임을 검출하는, 장치 및 방법에 관한 것이다.
실제 세계에 존재하는 비디오의 대부분은 우리가 관심있는 행동 프레임뿐만 아니라, 행동이 존재하지 않는 배경 프레임을 포함하고 있으며, 이러한 비디오를 비정제 비디오라 한다. 이러한 비정제 동영상을 사람이 효율적으로 활용하기 위해서는 행동 프레임만을 검출하는 기술이 필수적으로 필요하다. 또한, 행동 프레임을 검출하여 정제된 비디오는 사람뿐만 아니라 다른 딥 러닝 모델에서 학습 데이터로 사용하기에도 매우 용이하다.
종래의 행동 프레임 검출 방법은 모델 학습에 사용되는 정답 레이블이 비디오 단위의 행동 클래스밖에 없는 약한 지도 학습을 이용하고 있으나, 매우 동적이고 일관성이 없는 배경 프레임을 고려하여 배경을 모델링하지는 않고 있어, 그 검출 정확도가 높지 않은 문제가 있다.
본 발명이 이루고자 하는 목적은, 매우 동적이고 일관성이 없는 배경 프레임의 특징을 고려하여, 배경 프레임을 분포 외(out-of-distribution) 샘플로 취급하고, 프레임이 분포 내(in-distribution)인지 아닌지에 대한 불확실성(uncertainty)을 약한 지도 학습 기반으로 학습하는, 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법을 제공하는 데 있다.
본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.
상기의 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치는, 비디오를 프레임 단위로 복수개의 세그먼트로 분할하고, 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어를 획득하며, 복수개의 세그먼트-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득하고, 복수개의 비디오-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률을 획득하며, 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 세그먼트에서 유사 행동 세그먼트(pseudo action segment)와 유사 배경 세그먼트(pseudo action segment)를 획득하고, 복수개의 비디오-레벨 행동 확률과 비디오-레벨 정답 레이블 각각을 항으로 포함하는 제1 손실 함수와, 유사 행동 세그먼트의 특징의 벡터 크기가 증가되고 유사 배경 세그먼트의 특징의 벡터 크기가 감소되도록 하기 위해 유사 행동 세그먼트의 특징과 유사 배경 세그먼트의 특징 각각을 항으로 포함하는 제2 손실 함수와, 유사 배경 세그먼트의 행동 확률의 엔트로피(entropy)가 최대화되도록 하기 위해 복수개의 행동 클래스 각각에 대한 유사 배경 세그먼트의 행동 확률을 항으로 포함하는 제3 손실 함수로 이루어지는 손실 함수(loss function)를 통해 약한 지도 학습 기반으로 검출 모델을 학습하는 학습부; 행동 프레임과 배경 프레임을 포함하는 대상 비디오를 입력받는 입력부; 및 상기 입력부를 통해 입력된 상기 대상 비디오를 상기 검출 모델에 입력하여 상기 대상 비디오에 대한 행동 프레임을 검출하는 검출부;를 포함한다.
여기서, 상기 학습부는, 비디오로부터 RGB 프레임과 옵티컬 플로우(optical flow) 프레임을 추출하고, RGB 프레임과 옵티컬 플로우 프레임 각각을 미리 설정된 개수의 프레임 단위로 RGB 세그먼트와 옵티컬 플로우 세그먼트로 분할하고, 복수개의 RGB 세그먼트와 복수개의 옵티컬 플로우 세그먼트 각각으로부터 추출한 RGB 특징과 옵티컬 플로우 특징을 기반으로 세그먼트 별 특징 맵을 획득하며, 세그먼트 별 특징 맵을 기반으로 임베딩된 특징(embedded features)을 획득하고, 복수개의 임베딩된 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어를 획득하며, 복수개의 세그먼트-레벨 클래스 스코어에서 점수가 높은 미리 설정된 개수의 세그먼트-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득하고, 복수개의 비디오-레벨 클래스 스코어에 소프트맥스 함수(softmax function)을 적용하여 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률을 획득할 수 있다.
여기서, 상기 제1 손실 함수는,
Figure pat00001
이며, 상기 N은, 비디오의 개수를 나타내고, 상기 C는, 행동 클래스의 개수를 나타내며, 상기 pc(vn)은, n번째 비디오의 c번째 행동 클래스에 대한 비디오-레벨 행동 확률을 나타내고, 상기 yn;c는 n번째 비디오의 c번째 행동 클래스에 대한 정규화된 비디오-레벨 정답 레이블을 나타낼 수 있다.
여기서, 상기 학습부는, 복수개의 임베딩된 특징을 기반으로 복수개의 세그먼트에서 특징 벡터 크기(magnitude)의 값이 큰 미리 설정된 개수의 세그먼트들을 유사 행동 세그먼트로 획득하고 특징 벡터 크기의 값이 작은 미리 설정된 개수의 세그먼트들을 유사 배경 세그먼트로 획득할 수 있다.
여기서, 상기 제2 손실 함수는,
Figure pat00002
이며, 상기 N은, 비디오의 개수를 나타내고, 상기 fact n은, n번째 비디오의 유사 행동 세그먼트의 평균 특징을 나타내며, 식
Figure pat00003
이고, 상기 kact는, 유사 행동 세그먼트의 개수를 나타내며, 상기 Sact는, 유사 행동 세그먼트의 집합을 나타내고, 상기 fn,i는, n번째 비디오의 i번째 세그먼트의 특징 벡터를 나타내며, 상기 fbkg n은, n번째 비디오의 유사 배경 세그먼트의 평균 특징을 나타내며, 식
Figure pat00004
이고, 상기 kbkg는, 유사 배경 세그먼트의 개수를 나타내며, 상기 Sbkg는, 유사 배경 세그먼트의 집합을 나타내고, 상기 fn,j는, n번째 비디오의 j번째 세그먼트의 특징 벡터를 나타내며, 상기 ∥∥는, 놈 함수(norm function)를 나타내며, 상기 m은, 미리 정의된 최대 특징 크기를 나타낼 수 있다.
여기서, 상기 제3 손실 함수는,
Figure pat00005
이며, 상기 N은, 비디오의 개수를 나타내고, 상기 C는, 행동 클래스의 개수를 나타내며, 상기
Figure pat00006
는, 유사 배경 세그먼트들의 c번째 클래스에 대한 행동 확률의 평균을 나타내고, 식
Figure pat00007
이며, 상기 kbkg는, 유사 배경 세그먼트의 개수를 나타내고, 상기 Sbkg는, 유사 배경 세그먼트의 집합을 나타내며, 상기 pc(~sn,j)는, n번째 비디오의 j번째 세그먼트 ~sn,j의 c번째 클래스에 대한 확률을 나타낼 수 있다.
상기의 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 방법은, 비디오에서 행동 프레임을 검출하는 장치에 의해 수행되는 행동 프레임 검출 방법으로서, 비디오를 프레임 단위로 복수개의 세그먼트로 분할하고, 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어를 획득하며, 복수개의 세그먼트-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득하고, 복수개의 비디오-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률을 획득하며, 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 세그먼트에서 유사 행동 세그먼트(pseudo action segment)와 유사 배경 세그먼트(pseudo action segment)를 획득하고, 복수개의 비디오-레벨 행동 확률과 비디오-레벨 정답 레이블 각각을 항으로 포함하는 제1 손실 함수와, 유사 행동 세그먼트의 특징의 벡터 크기가 증가되고 유사 배경 세그먼트의 특징의 벡터 크기가 감소되도록 하기 위해 유사 행동 세그먼트의 특징과 유사 배경 세그먼트의 특징 각각을 항으로 포함하는 제2 손실 함수와, 유사 배경 세그먼트의 행동 확률의 엔트로피(entropy)가 최대화되도록 하기 위해 복수개의 행동 클래스 각각에 대한 유사 배경 세그먼트의 행동 확률을 항으로 포함하는 제3 손실 함수로 이루어지는 손실 함수(loss function)를 통해 약한 지도 학습 기반으로 검출 모델을 학습하는 단계; 행동 프레임과 배경 프레임을 포함하는 대상 비디오를 입력받는 단계; 및 상기 대상 비디오를 상기 검출 모델에 입력하여 상기 대상 비디오에 대한 행동 프레임을 검출하는 단계;를 포함한다.
여기서, 상기 검출 모델 학습 단계는, 비디오로부터 RGB 프레임과 옵티컬 플로우(optical flow) 프레임을 추출하고, RGB 프레임과 옵티컬 플로우 프레임 각각을 미리 설정된 개수의 프레임 단위로 RGB 세그먼트와 옵티컬 플로우 세그먼트로 분할하고, 복수개의 RGB 세그먼트와 복수개의 옵티컬 플로우 세그먼트 각각으로부터 추출한 RGB 특징과 옵티컬 플로우 특징을 기반으로 세그먼트 별 특징 맵을 획득하며, 세그먼트 별 특징 맵을 기반으로 임베딩된 특징(embedded features)을 획득하고, 복수개의 임베딩된 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어를 획득하며, 복수개의 세그먼트-레벨 클래스 스코어에서 점수가 높은 미리 설정된 개수의 세그먼트-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득하고, 복수개의 비디오-레벨 클래스 스코어에 소프트맥스 함수(softmax function)을 적용하여 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률을 획득하는 것으로 이루어질 수 있다.
여기서, 상기 검출 모델 학습 단계는, 복수개의 임베딩된 특징을 기반으로 복수개의 세그먼트에서 특징 벡터 크기(magnitude)의 값이 큰 미리 설정된 개수의 세그먼트들을 유사 행동 세그먼트로 획득하고 특징 벡터 크기의 값이 작은 미리 설정된 개수의 세그먼트들을 유사 배경 세그먼트로 획득하는 것으로 이루어질 수 있다.
상기의 기술적 과제를 달성하기 위한 본 발명의 바람직한 실시예에 따른 컴퓨터 프로그램은 컴퓨터로 읽을 수 있는 기록 매체에 저장되어 상기한 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 방법 중 어느 하나를 컴퓨터에서 실행시킨다.
본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법에 의하면, 매우 동적이고 일관성이 없는 배경 프레임의 특징을 고려하여, 배경 프레임을 분포 외(out-of-distribution) 샘플로 취급하고, 프레임이 분포 내(in-distribution)인지 아닌지에 대한 불확실성(uncertainty)을 약한 지도 학습 기반으로 학습함으로써, 복잡한 배경 프레임의 오분류를 줄일 수 있고, 이로 인해 행동 프레임 검출 성능을 향상시킬 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 모델의 구조를 설명하기 위한 도면이다.
도 3은 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 모델의 성능을 설명하기 위한 도면으로, BaS-Net과의 정성 비교 결과를 나타낸다.
도 4는 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
본 명세서에서 각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 명세서에서, "가진다", "가질 수 있다", "포함한다" 또는 "포함할 수 있다"등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
또한, 본 명세서에 기재된 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터 구조들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다.
이하에서 첨부한 도면을 참조하여 본 발명에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
먼저, 도 1을 참조하여 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치에 대하여 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치를 설명하기 위한 블록도이다.
도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치(이하 '행동 프레임 검출 장치'라 한다)(100)는 매우 동적이고 일관성이 없는 배경 프레임의 특징을 고려하여, 배경 프레임을 분포 외(out-of-distribution) 샘플로 취급하고, 프레임이 분포 내(in-distribution)인지 아닌지에 대한 불확실성(uncertainty)을 약한 지도 학습 기반으로 학습한다.
이를 위해, 행동 프레임 검출 장치(100)는 학습부(110), 입력부(130) 및 검출부(150)를 포함할 수 있다.
학습부(110)는 제1 손실 함수와, 제2 손실 함수와, 제3 손실 함수로 이루어지는 손실 함수(loss function)를 통해 약한 지도 학습 기반으로 검출 모델을 학습한다.
즉, 학습부(110)는 비디오를 프레임 단위로 복수개의 세그먼트로 분할한다. 보다 자세히 설명하면, 학습부(110)는 비디오로부터 RGB 프레임과 옵티컬 플로우(optical flow) 프레임을 추출하고, RGB 프레임과 옵티컬 플로우 프레임 각각을 미리 설정된 개수의 프레임 단위로 RGB 세그먼트와 옵티컬 플로우 세그먼트로 분할할 수 있다.
그리고, 학습부(110)는 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어를 획득한다. 여기서, 행동 클래스는 행동의 유형을 나타내는 것으로, 예컨대, 골프 스윙, 다이빙 등을 말한다. 보다 자세하게 설명하면, 학습부(110)는 복수개의 RGB 세그먼트와 복수개의 옵티컬 플로우 세그먼트 각각으로부터 추출한 RGB 특징과 옵티컬 플로우 특징을 기반으로 세그먼트 별 특징 맵(feature map)을 획득하며, 세그먼트 별 특징 맵을 기반으로 임베딩된 특징(embedded features)을 획득하고, 복수개의 임베딩된 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어(세그먼트-레벨 행동 스코어)를 획득할 수 있다.
그리고, 학습부(110)는 복수개의 세그먼트-레벨 클래스 스코어(세그먼트-레벨 행동 스코어)를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득한다. 보다 자세하게 설명하면, 학습부(110)는 복수개의 세그먼트-레벨 클래스 스코어에서 점수가 높은 미리 설정된 개수의 세그먼트-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득할 수 있다.
그리고, 학습부(110)는 복수개의 비디오-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률을 획득한다. 보다 자세하게 설명하면, 학습부(110)는 복수개의 비디오-레벨 클래스 스코어에 소프트맥스 함수(softmax function)을 적용하여 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률(비디오-레벨 소프트맥스 스코어)을 획득할 수 있다.
그러면, 학습부(110)는 검출 모델의 학습에 이용되는 손실 함수의 하나인 제1 손실 함수를 획득할 수 있다. 여기서, 제1 손실 함수는 복수개의 비디오-레벨 행동 확률(비디오-레벨 소프트맥스 스코어)과 비디오-레벨 정답 레이블 각각을 항으로 포함하며,
Figure pat00008
일 수 있다.
여기서, N은 비디오의 개수를 나타낸다.
그리고, C는 행동 클래스의 개수를 나타낸다.
그리고, pc(vn)은 n번째 비디오의 c번째 행동 클래스에 대한 비디오-레벨 행동 확률(비디오-레벨 소프트맥스 스코어)을 나타낸다.
그리고, yn;c는 n번째 비디오의 c번째 행동 클래스에 대한 정규화된 비디오-레벨 정답 레이블을 나타낸다.
또한, 학습부(110)는 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 세그먼트에서 유사 행동 세그먼트(pseudo action segment)와 유사 배경 세그먼트(pseudo action segment)를 획득한다.
즉, 학습부(110)는 복수개의 임베딩된 특징을 기반으로 복수개의 세그먼트에서, 특징 벡터 크기(magnitude)의 값이 큰 미리 설정된 개수의 세그먼트들을 유사 행동 세그먼트로 획득하고, 특징 벡터 크기의 값이 작은 미리 설정된 개수의 세그먼트들을 유사 배경 세그먼트로 획득할 수 있다.
그러면, 학습부(110)는 검출 모델의 학습에 이용되는 손실 함수의 하나인 제2 손실 함수를 획득할 수 있다. 여기서, 제2 손실 함수는 유사 행동 세그먼트의 특징의 벡터 크기가 증가되고 유사 배경 세그먼트의 특징의 벡터 크기가 감소되도록 하기 위해, 유사 행동 세그먼트의 특징과 유사 배경 세그먼트의 특징 각각을 항으로 포함하며,
Figure pat00009
일 수 있다.
여기서, N은 비디오의 개수를 나타낸다.
그리고, fact n은 n번째 비디오의 유사 행동 세그먼트의 평균 특징을 나타내며, 식
Figure pat00010
이다. kact는 유사 행동 세그먼트의 개수를 나타낸다. Sact는 유사 행동 세그먼트의 집합을 나타낸다. fn,i는 n번째 비디오의 i번째 세그먼트의 특징 벡터를 나타낸다.
그리고, fbkg n은 n번째 비디오의 유사 배경 세그먼트의 평균 특징을 나타내며, 식
Figure pat00011
이다. kbkg는 유사 배경 세그먼트의 개수를 나타낸다. Sbkg는 유사 배경 세그먼트의 집합을 나타낸다. fn,j는 n번째 비디오의 j번째 세그먼트의 특징 벡터를 나타낸다.
그리고, ∥∥는 놈 함수(norm function)를 나타낸다.
그리고, m은 미리 정의된 최대 특징 크기를 나타낸다.
아울러, 학습부(110)는 검출 모델의 학습에 이용되는 손실 함수의 하나인 제3 손실 함수를 획득할 수 있다. 여기서, 제3 손실 함수는 유사 배경 세그먼트의 행동 확률의 엔트로피(entropy)가 최대화되도록 하기 위해, 복수개의 행동 클래스 각각에 대한 유사 배경 세그먼트의 행동 확률을 항으로 포함하며,
Figure pat00012
일 수 있다.
여기서, N은 비디오의 개수를 나타낸다.
그리고, C는 행동 클래스의 개수를 나타낸다.
그리고,
Figure pat00013
는 유사 배경 세그먼트들의 c번째 클래스에 대한 행동 확률의 평균을 나타내고, 식
Figure pat00014
이다. kbkg는 유사 배경 세그먼트의 개수를 나타낸다. Sbkg는 유사 배경 세그먼트의 집합을 나타낸다. pc(~sn,j)는 n번째 비디오의 j번째 세그먼트 ~sn,j의 c번째 클래스에 대한 확률(소프트맥스 스코어)을 나타낸다.
입력부(130)는 대상 비디오를 입력받는다. 여기서, 대상 비디오는 행동 프레임과 배경 프레임을 포함한다.
검출부(150)는 입력부(130)를 통해 입력된 대상 비디오를 학습부(110)에 의해 학습된 검출 모델에 입력하여, 대상 비디오에 대한 행동 프레임을 검출한다.
그러면, 도 2를 참조하여 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 모델의 구조에 대하여 보다 자세하게 설명한다.
도 2는 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 모델의 구조를 설명하기 위한 도면이다.
본 발명에 따른 모델은 도 2에 도시된 바와 같이, 크게 메인 파이프라인(main pipeline) 부분과 배경 모델링(background modeling) 부분으로 이루어진다.
여기서, 메인 파이프라인(main pipeline)의 동작에 대해 간략히 설명하면, 우선 입력으로 들어온 비디오로부터 RGB 프레임과 광학 플로우 프레임을 추출한다. 그후, 추출된 프레임들을 16개의 프레임 단위의 세그먼트로 쪼갠 후, 각 세그먼트를 특징 추출기에 넣음으로써 각 1024차원의 RGB 특징과 광학 플로우 특징을 얻는 특징 추출(feature extraction) 단계를 거친다. 얻어낸 RGB 특징과 광학 플로우 특징을 연결하여 2048차원의 특징 맵을 만들어 낸 후, 이것을 컨볼루션 네트워크의 입력으로 넣어줌으로써 특징을 임베딩(feature embedding)한다. 그후, 임베딩된 특징을 다시 한 번 컨볼루션 네트워크에 집어 넣어서 세그먼트 레벨에서의 클래스 스코어를 예측(segment-level classification)한 후, 이를 모아 비디오 레벨의 클래스 스코어를 생성한 다음 정답 레이블과의 비교를 통해 비디오 단위 분류 손실값(video-level classification loss)을 계산한다.
그리고, 배경 모델링(background modeling)의 동작에 대해 간략히 설명하면, 임베딩된 특징을 이용해서 배경 모델링을 수행한다. 우선 임베딩된 특징의 벡터 크기 (magnitude)를 기반으로 유사 행동 세그먼트(pseudo action segment)와 유사 배경 세그먼트(pseudo background segment)를 골라낸다. 그후, 유사 행동 세그먼트의 특징들은 벡터 크기를 키우는 반면, 유사 배경 세그먼트의 특징의 벡터 크기는 감소시키도록 학습을 유도한다. 이로써 행동 세그먼트와 배경 세그먼트의 분리가 가능해진다. 또한, 추가적으로, 배경 프레임들이 어떠한 특정 행동 클래스에 치우치지 않도록 행동 클래스 예측 값 분포의 엔트로피(entropy)를 최대화시키는 추가적인 손실 함수를 추가한다. 이를 통해 행동 세그먼트와 배경 세그먼트 간의 분리를 좀 더 증진시킴으로써, 보다 정확한 배경 모델링을 가능하게 한다.
먼저, 약한 지도(weakly-supervised) 행동 로컬리제이션(action localization)를 위한 베이스라인(baseline)에 대해 이하 설명한다. 다음으로, 배경 식별 문제(background identification problem)를 불확실성(uncertainty)을 모델링하는 것에 의한 분포 외(out-of-distribution) 검출로 제시한다. 그후, 본 발명에 따른 모델을 학습하기 위한 목적 함수(objective function)에 대해 설명한다. 마지막으로, 어떻게 추론(inference)이 수행되는지에 대해 설명한다.
A. 메인 파이프라인(main pipeline)
특징 추출(feature extraction)
메모리 제약을 고려하여, 본 발명은 각각의 비디오를 서로 중복되지 않는 멀티-프레임 세그먼트들
Figure pat00015
로 분할한다. 여기서, Ln은 n번째 비디오 vn 내의 세그먼트들의 개수를 나타낸다. 비디오 길이 내의 큰 변화(variation)를 핸들링하기 위해, 세그먼트들
Figure pat00016
의 개수 T는 각각의 원본 비디오로부터 샘플링된다. 그런 다음, 샘플링된 RGB 세그먼트들과 옵티컬 플로우 세그먼트들로부터 시-공간 특징들(spatio-temporal features)
Figure pat00017
Figure pat00018
를 추출한다. 이때, 종래의 특징 추출기를 통해 세그먼트로부터 특징을 추출할 수 있다. 그후, RGB 세그먼트들로부터 추출된 RGB 특징들과 옵티컬 플로우 특징들을 특징 벡터들 xn,t∈R2D로 결합하고, 그러면, 길이 T의 특징 맵 Xn=[xn,1,...,xn,T]∈R2D×T를 구축된다.
특징 임베딩(feature embedding)
추출된 특징들을 임베딩하기 위해, 추출된 특징들을 ReLU 활성화를 따르는 단일 1-D 컨볼루션 레이어(single 1-D convolutional layer)에 제공한다. 즉, 추출된 특징 맵 Xn을 Fn=gembed(Xnembed)에 제공한다. 여기서, gembed는 활성화 함수의 컨볼루션 연산자를 나태내고, φembed는 컨볼루션 레이어의 학습 파라미터들을 나타낸다. 구체적으로, 임베딩된 특징들 Fn=[fn,1,...,fn,T]∈R2D×T의 차원(dimension)은 입력된 특징 맵과 동일하다.
세그먼트-레벨 분류(segment-level classification)
임베딩된 특징들로부터, 추후 행동 로컬리제이션(action localization)에 이용되는, 세그먼트-레벨 클래스 스코어들(segment-level class scores)을 획득한다. n번째 비디오 vn에서, 클래스 스코어들은 행동 분류기 An=gcls(Fncls)에 의해 도출된다. 여기서, gcls는 파라미터들 φcls을 가지는 선형 분류기를 나타내고, An∈RC×T는 세그먼트-레벨 행동 스코어들(segment-level action scores)을 나타내며, C는 행동 클래스들의 개수를 나타낸다.
행동 스코어 집합(action score aggregation)
멀티플 인스턴스 학습을 적용하여, 각각의 행동 클래스에 대해 모든 세그먼트들을 따라 점수가 높은 kact개의 스코어들을 모으고, 비디오-레벨 클래스 스코어(video-level class score)를 구축하기 위해 이들을 아래의 [수학식 1]과 같이 평균한다.
[수학식 1]
Figure pat00019
여기서, ^An;c는 클래스 c에 대한 kact개의 행동 스코어들을 포함하는 부분 집합을 나타내고, kact는 집합된 세그먼트들의 개수를 조절하는 하이퍼-파라미터(hyper-parameter)이다.
그후, 아래의 [수학식 2]와 같이, 소프트맥스 함수(softmax function)를 집합된 스코어들에 적용하여 각각의 행동 클래스에 대한 비디오-레벨 행동 확률(video-level action probability)을 획득할 수 있다.
[수학식 2]
Figure pat00020
여기서, pc(vn)은 n번째 비디오의 c번째 행동에 대한 소프트맥스 스코어(softmax score)를 나타낸다.
B. 배경(background)을 분포 외(out-of-distribution)로 고려
행동 로컬리제이션의 분해(decomposition of action localization)
메인 파이프라인(main pipeline)으로부터, 행동 로컬리제이션(action localization)을 위한 각각의 세그먼트에 대한 행동 확률들을 획득하지만, 배경 식별(background identification)은 고려되지 않는다. 배경 모델링 부분에서는 배경 프레임들의 제약되지 않고 일관성이 없는 특성(unconstraint and inconsistency)을 고려하여, 배경(background)을 분포 외(out-of-distribution)로 취급한다. 세그먼트 ~sn,t의 클래스 c에 대한 확률을 고려할 때, 체인 규칙(chain rule), 즉 분포 내 행동 분류(in-distribution action classification)와 배경 식별(background identification)을 사용하여 두 부분으로 분해할 수 있다. d∈{0,1}은 배경 식별에 대한 변수를 나타낸다. 세그먼트가 어떤 행동 클래스에 속하면, d는 1이 되고, 속하지 않으면 d는 0(배경에 속함)이 된다. 그러면, 세그먼트 ~sn,t의 클래스 c에 대한 위의 확률은 아래의 [수학식 3]과 같이 주어진다.
[수학식 3]
Figure pat00021
여기서, yn,t는 대응하는 세그먼트 ~sn,t의 레이블(label)이고, 세그먼트 ~sn,t가 c번째 행동 클래스에 속하면, yn,t는 c가 되고, 속하지 않으면 yn,t는 0(배경 세그먼트임)이 된다.
불확실성 모델링(uncertainty modeling)
[수학식 3]에서, 분포 내 행동 분류에 대한 확률, 즉 P(yn,t=c|d=1, ~sn,t)은 일반 분류 태스크(general classification task)로 소프트맥스 함수에 의해 추정된다. 추가적으로, 세그먼트가 어떤 행동 클래스에 속하는 지에 대한 확률, 즉 P(d=1|~sn,t)을 모델링하는 것은 배경 식별 문제를 해결하는 것과 같다. 배경 프레임들이 모든 행동 클래스들에 대하여 낮은 스코어들을 생산한다고 가정하면, 특징 벡터들의 크기들(magnitudes)에 의해 불확실성(uncertainty)을 모델링하며, 다시 말해, 배경 프레임들이 작은 크기들(magnitudes)을 가지는 반면, 행동 프레임들은 큰 크기들을 가지는 것이다. 그러면, n번째 비디오 내의 t번째 세그먼트 (~sn,t)가 행동 세그먼트인 확률은 아래의 [수학식 4]에 의해 정의된다.
[수학식 4]
Figure pat00022
여기서, fn,t는 ~sn,t의 대응되는 특징 벡터이고, ∥∥는 놈 함수(norm function)(즉, L-2 놈)이며, m은 미리 정의된 최대 특징 크기이다. 위의 식으로부터, 확률은 0과 1 사이, 즉 0≤P(d=1|~sn,t)≤1이 되는 것을 보장한다.
멀티플 인스턴스 학습(multiple instance learning)
비디오-레벨 레이블들을 통해 불확실성(uncertainty)을 학습하기 위해, 인스턴스들(즉, 세그먼트들)보다, 가방(즉, 비정제 비디오)을 가지고 학습되는 모델인, 멀티플 인스턴스 학습을 적용한다. 이러한 설정에서, 특징 크기(feature magnitude)에 대하여 값이 큰 kact개의 세그먼트들은 선택하고, 이들을 유사 행동 세그먼트들(pseudo action segments) {~sn,i|i∈Sact}로 획득하고, 여기서 Sact는 유사 행동 세그먼트들의 집합을 나타낸다. 한편, 특징 크기의 값이 작은 kbkg개의 세그먼트들은 유사 배경 세그먼트들(pseudo background segments) {~sn,j|j∈Sbkg}로 획득하고, 여기서 Sbkg는 유사 배경 세그먼트들의 집합을 나타낸다. kact 및 kbkg는 각각 유사 행동 세그먼트들의 개수 및 유사 배경 세그먼트들의 개수를 나타낸다. 그러면, 유사 행동 세그먼트들/유사 배경 세그먼트들은 비정제 비디오의 대표의 역할을 하며, 이들은 비디오-레벨 레이블들과 함께 모델을 학습하는데 이용된다.
C. 학습 목표(training objectives)
본 발명에 따른 모델은 3개의 손실들(losses), 즉 1)각각의 입력 비디오의 행동 분류를 위한 비디오-레벨 분류 손실(video-level classification loss) Lcls, 2)배경 식별을 위해 행동 특징 벡터들과 배경 특징 벡터들의 크기들(magnitudes)을 조작하는 불확실성 모델링 손실(uncertainty modeling loss) Lum, 및 3)배경 세그먼트들이 어떤 행동 클래스에 속하는 확률이 높은 것을 방지하기 위한 배경 엔트로피 로스(background entropy loss) Lbe을 최적화하기 위한 것이다. 전체 손실 함수(loss function)는 아래의 [수학식 5]와 같다.
[수학식 5]
Ltotal = Lcls + αLum + βLbe
여기서, α 및 β는 손실들(losses)의 균형을 맞추기 위한 하이퍼-파라미터들(hyper-parameters)이다.
비디오-레벨 분류 손실(video-level classification loss)
멀티-레이블 행동 분류(multi-label action classification)를 위해, 아래의 [수학식 6]과 같이, 정규화된 비디오-레벨 레이블들을 가지는 바이너리 크로스 엔트로피 손실(binary cross entropy loss)를 사용한다.
[수학식 6]
Figure pat00023
여기서, pc(vn)은 n번째 비디오의 c번째 행동 클래스에 대한 비디오-레벨 소프트맥스 스코어([수학식 2] 참조)를 나타내고, yn;c는 n번째 비디오의 c번째 행동 클래스에 대한 정규화된 비디오-레벨 레이블이다.
불확실성 모델링 손실(uncertainty modeling loss)
불확실성(uncertainty)을 학습하기 위해, 도 2에 도시된 (a)와 같이, 유사 행동 세그먼트들은 큰 크기들(magnitudes)을 가지는 특징 벡터들을 생산하고 유사 배경 세그먼트들은 작은 크기들(magnitudes)을 가지는 특징 벡터들을 생산하도록 학습한다. 불확실성 모델링 손실(uncertainty modeling loss)은 아래의 [수학식 7]과 같다.
[수학식 7]
Figure pat00024
여기서, fact n은 식
Figure pat00025
이고, n번째 비디오의 유사 행동 세그먼트들의 평균 특징들이다. 그리고, fbkg n은 식
Figure pat00026
이고, n번째 비디오의 유사 배경 세그먼트들의 평균 특징들이다. ∥∥는 놈 함수(norm function)를 나타내고, m은 미리 정의된 최대 특징 크기(pre-defined maximum feature magnitude)를 나타낸다([수학식 4] 참조).
배경 엔트로피 손실(background entropy loss)
불확실성 모델링 손실(uncertainty modeling loss)은 배경 세그먼트들이 모든 행동들에 대하여 낮은 스코어들을 생산하도록 함에도 불구하고, 일부의 행동 클래스들에 대한 소프트맥스 스코어들은 소프트맥스 함수의 상대성(relativeness)에 기인하여 높은 값을 가질 수 있다. 배경 세그먼트들이 어떤 행동 클래스에 대해 높은 소프트맥스 스코어를 가지는 것을 방지하기 위해, 배경 세그먼트들의 행동 확률들의 엔트로피(entropy)를 최대화하는, 즉 배경 세그먼트들이 도 2에 도시된 (b)와 같이, 균일한 확률 분포(uniform probability distribution)를 가지도록 하는, 손실 함수를 정의한다. 배경 엔트로피 손실(background entropy loss)은 아래의 [수학식 8]에 따라 계산된다.
[수학식 8]
Figure pat00027
여기서,
Figure pat00028
는 식
Figure pat00029
이고, 유사 배경 세그먼트들의 c번째 클래스에 대한 행동 확률의 평균이다. 그리고, pc(~sn,j)는 n번째 비디오의 j번째 세그먼트 ~sn,j의 c번째 클래스에 대한 소프트맥스 스코어이다.
D. 추론(inference)
테스트 시간에, 입력 비디오에 대해, 먼저 비디오-레벨 소프트맥스 스코어 및 행동 클래스들의 로컬라이징을 위한 임계값 θvid를 획득한다. 남아있는 행동 클래스들에 대해, [수학식 3]과 같이 세그먼트-레벨 소프트맥스 스코어와 행동 세그먼트일 확률을 곱하여 세그먼트-레벨 사후 확률을 계산한다. 그후, 사후 확률이 θseg보다 큰 세그먼트들을 후보 세그먼트들로 선택한다. 마지막으로, 연속 후보 세그먼트들을 단일 제안(single proposal)으로 그룹화한다. θseg에 대해 다중의 임계값을 사용하기 때문에, 비-최대치 억제(non-maximum suppression, NMS)가 제안들(proposals)에 대해 수행된다. 여기서, 중복 제안은 허용되지 않는다.
이와 같이, 본 발명에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 모델은, 매우 동적이고 일관성이 없는 배경 프레임의 특징을 고려하여, 배경 프레임을 분포 외(out-of-distribution) 샘플로 취급하고, 프레임이 분포 내(in-distribution)인지 아닌지에 대한 불확실성(uncertainty)을 약한 지도 학습 기반으로 학습함으로써, 복잡한 배경 프레임의 오분류를 줄일 수 있고, 이로 인해 행동 프레임 검출 성능을 향상시킬 수 있다.
아울러, 본 발명에 따른 모델은 비정제 비디오로부터 행동 프레임을 찾을 수 있어, 아래와 같이 실생활에서 다양하게 사용될 수 있다.
- 검색 엔진 : 최근 유튜브와 같은 동영상 공유 시장이 급속도로 성장하고 있다. 이러한 시장에서 수많은 비정제 비디오로부터 행동 프레임만을 검색해서 추출해낼 수 있다면, 매우 효율적인 검색 엔진으로 활용될 수 있다.
- 스포츠 동영상 : 스포츠 경기는 비교적 길기 때문에, 경기가 끝난 후 하이라이트만을 찾아서 보는 사람들이 늘어나고 있다. 현재는 하이라이트 동영상을 수작업으로 만들고 있지만, 긴 스포츠 동영상 중에서 사람들이 관심있어 하는 행동 프레임만을 추출해낼 수 있다면, 자동적으로 하이라이트 동영상도 생성할 수 있다.
- CCTV 분석 : CCTV 동영상은 매우 긴 촬영 시간을 가지고 있는 반면, 실제로 CCTV 분석을 위해 필요한 장면은 매우 짧다. 이 필요한 장면을 찾기 위해서 사람의 노동이 많이 필요하다. CCTV 동영상 내에서 행동 프레임을 자동적으로 탐색함으로써 이러한 비용을 크게 줄일 수 있다.
그러면, 도 3을 참조하여 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 모델의 성능에 대하여 설명한다.
본 발명에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 모델의 성능 평가를 위해, 가장 널리 사용되는 비디오 데이터 셋인 아래의 [표 1]과 같은 THUMOS'14와 ActivityNet을 이용하여 실험을 진행한다.
데이터 셋 이름 데이터 셋 특징

THUMOS'14
- 20가지의 행동 클래스가 존재함
- 비교적은 작은 데이터 셋임
- 비디오의 길이와 행동 프레임의 비율이 매우 다양해 난이도가 높음

ActivityNet
- 1.2 버전과 1.3 버전이 존재함
- 1.2 버전에서는 100가지의 행동 클래스가 존재함
- 1.3 버전에서는 1.2 버전의 행동 클래스를 포함하는 200가지의 행동 클래스가 존재함
- 비교적 큰 데이터 셋임
그리고, 시간적 행동 로컬리제이션(temporal action localization)을 위한 표준 평가 지표인, 여러개의 다른 IoU(intersection of union) 임계값 하에서 mAPs(mean average precisions)를 이용하여 성능을 평가한다. ActivityNet3의 공식 평가 코드는 mAPs를 측정하는데 사용된다.
그리고, ImageNet 상에서 미리-학습된 UntrimmedNets과 Kinetics 상에서 미리-학습된 I3D networks인, 서로 다른 2개의 특징 추출기들을 이용한다. 각각의 입력 세그먼트는 UntrimmedNets에서는 5개의 프레임들로 구성되고, I3D networks에서는 16개의 프레임들로 구성된다. TVL1 알고리즘은 비디오들로부터 광학 플로우를 추출한데 이용된다. THUMOS'14에서는 세그먼트들의 개수 T를 750으로 하고, ActivityNet에서는 세그먼트들의 개수 T를 50으로 한다. 샘플링 방법은 STPN과 동일하다. 유사 행동 프레임들/유사 배경 프레임들의 개수는 비율 파라미터들(ratio parameters), 즉 kact=T/ract 및 kbkg=T/rbkg에 의해 결정된다. 모든 하이퍼-파라미터들(hyper-parameters)은 그리드 서치(grid search)에 의해 설정되고, m은 100, ract는 8, rbkg는 6, α는 10-4, β는 1, 그리고 θvid는 0.2이다. 제안 풀(proposal pool)을 풍요롭게 하기 위해, θseg에 대해 0부터 0.25 사이에서 증감 크기(step size) 0.025를 가지는 다중의 임계값들을 사용한 다음, IoU 임계값 0.7을 가지는 비-최대치 억제(non-maximum suppression, NMS)를 수행한다.
아래의 [표 2]는 THUMOS'14 데이터 셋을 통한 실험 결과를 나타내고, [표 3]은 ActivityNet1.2 데이터 셋을 통한 실험 결과를 나타내며, [표 4]는 ActivityNet1.3 데이터 셋을 통한 실험 결과를 나타낸다. [표 2] 내지 [표 4]에 도시된 바와 같이, 본 발명에 따른 모델([표 2] 내지 [표 4]의 Ours)과 공정한 비교가 가능한 종래의 방법들은 함께 기재되어 있고, 본 발명에 따른 모델([표 2] 내지 [표 4]의 Ours)과 공정한 비교가 불가능한 방법들은 가로선으로 구분되어 있다. [표 2] 내지 [표 4]를 참조하면, 공정한 비교가 가능한 방법들 중에서 본 발명에 따른 모델([표 2] 내지 [표 4]의 Ours)이 가장 좋은 성능을 보이는 것을 확인할 수 있다.
[표 2]
Figure pat00030
[표 3]
Figure pat00031
[표 4]
Figure pat00032
도 3은 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 모델의 성능을 설명하기 위한 도면으로, BaS-Net과의 정성 비교 결과를 나타낸다.
본 발명에 따른 모델(도 3의 Ours)의 성능을 객관적으로 평가하기 위해, 종래의 방법들 중 최고 수준의 성능을 보이는 배경 모델링 방법(도 3의 BaS-Net)과 비교를 진행한다. 도 3의 박스에서 도시된 바와 같이, 종래의 방법(도 3의 BaS-Net)의 결과는 배경 모델링의 실패로 인해, 하나의 행동 객체를 여러 개로 나누어 검출한 반면, 본 발명에 따른 모델(도 3의 Ours)의 결과는 정확하게 행동 객체를 검출하는 것을 확인할 수 있다.
그러면, 도 4를 참조하여 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 방법에 대하여 설명한다.
도 4는 본 발명의 바람직한 실시예에 따른 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 방법을 설명하기 위한 흐름도이다.
도 4를 참조하면, 행동 프레임 검출 장치(100)는 제1 손실 함수와, 제2 손실 함수와, 제3 손실 함수로 이루어지는 손실 함수(loss function)를 통해 약한 지도 학습 기반으로 검출 모델을 학습한다(S110).
여기서, 제1 손실 함수는 복수개의 비디오-레벨 행동 확률과 비디오-레벨 정답 레이블 각각을 항으로 포함한다. 그리고, 제2 손실 함수는 유사 행동 세그먼트의 특징의 벡터 크기가 증가되고 유사 배경 세그먼트의 특징의 벡터 크기가 감소되도록 하기 위해, 유사 행동 세그먼트의 특징과 유사 배경 세그먼트의 특징 각각을 항으로 포함한다. 그리고, 제3 손실 함수는 유사 배경 세그먼트의 행동 확률의 엔트로피(entropy)가 최대화되도록 하기 위해, 복수개의 행동 클래스 각각에 대한 유사 배경 세그먼트의 행동 확률을 항으로 포함한다.
즉, 행동 프레임 검출 장치(100)는 비디오를 프레임 단위로 복수개의 세그먼트로 분할하고, 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어(세그먼트-레벨 행동 스코어)를 획득하며, 복수개의 세그먼트-레벨 클래스 스코어(세그먼트-레벨 행동 스코어)를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득하고, 복수개의 비디오-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률(비디오-레벨 소프트맥스 스코어)을 획득한다.
보다 자세히 설명하면, 행동 프레임 검출 장치(100)는 비디오로부터 RGB 프레임과 옵티컬 플로우(optical flow) 프레임을 추출하고, RGB 프레임과 옵티컬 플로우 프레임 각각을 미리 설정된 개수의 프레임 단위로 RGB 세그먼트와 옵티컬 플로우 세그먼트로 분할하고, 복수개의 RGB 세그먼트와 복수개의 옵티컬 플로우 세그먼트 각각으로부터 추출한 RGB 특징과 옵티컬 플로우 특징을 기반으로 세그먼트 별 특징 맵(feature map)을 획득하며, 세그먼트 별 특징 맵을 기반으로 임베딩된 특징(embedded features)을 획득하고, 복수개의 임베딩된 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어(세그먼트-레벨 행동 스코어)를 획득하며, 복수개의 세그먼트-레벨 클래스 스코어(세그먼트-레벨 행동 스코어)에서 점수가 높은 미리 설정된 개수의 세그먼트-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득하고, 복수개의 비디오-레벨 클래스 스코어에 소프트맥스 함수(softmax function)을 적용하여 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률(비디오-레벨 소프트맥스 스코어)을 획득할 수 있다.
그리고, 행동 프레임 검출 장치(100)는 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 세그먼트에서 유사 행동 세그먼트(pseudo action segment)와 유사 배경 세그먼트(pseudo action segment)를 획득한다.
보다 자세히 설명하면, 행동 프레임 검출 장치(100)는 복수개의 임베딩된 특징을 기반으로 복수개의 세그먼트에서 특징 벡터 크기(magnitude)의 값이 큰 미리 설정된 개수의 세그먼트들을 유사 행동 세그먼트로 획득하고 특징 벡터 크기의 값이 작은 미리 설정된 개수의 세그먼트들을 유사 배경 세그먼트로 획득할 수 있다.
이후, 행동 프레임 검출 장치(100)는 행동 프레임과 배경 프레임을 포함하는 대상 비디오를 입력한다(S130).
그러면, 행동 프레임 검출 장치(100)는 대상 비디오를 검출 모델에 입력하여 대상 비디오에 대한 행동 프레임을 검출한다(S150).
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록 매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록 매체로서는 자기기록매체, 광 기록매체 등이 포함될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 행동 프레임 검출 장치,
110 : 학습부,
130 : 입력부,
150 : 검출부

Claims (10)

  1. 비디오를 프레임 단위로 복수개의 세그먼트로 분할하고, 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어를 획득하며, 복수개의 세그먼트-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득하고, 복수개의 비디오-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률을 획득하며, 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 세그먼트에서 유사 행동 세그먼트(pseudo action segment)와 유사 배경 세그먼트(pseudo action segment)를 획득하고, 복수개의 비디오-레벨 행동 확률과 비디오-레벨 정답 레이블 각각을 항으로 포함하는 제1 손실 함수와, 유사 행동 세그먼트의 특징의 벡터 크기가 증가되고 유사 배경 세그먼트의 특징의 벡터 크기가 감소되도록 하기 위해 유사 행동 세그먼트의 특징과 유사 배경 세그먼트의 특징 각각을 항으로 포함하는 제2 손실 함수와, 유사 배경 세그먼트의 행동 확률의 엔트로피(entropy)가 최대화되도록 하기 위해 복수개의 행동 클래스 각각에 대한 유사 배경 세그먼트의 행동 확률을 항으로 포함하는 제3 손실 함수로 이루어지는 손실 함수(loss function)를 통해 약한 지도 학습 기반으로 검출 모델을 학습하는 학습부;
    행동 프레임과 배경 프레임을 포함하는 대상 비디오를 입력받는 입력부; 및
    상기 입력부를 통해 입력된 상기 대상 비디오를 상기 검출 모델에 입력하여 상기 대상 비디오에 대한 행동 프레임을 검출하는 검출부;
    를 포함하는 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치.
  2. 제1항에서,
    상기 학습부는,
    비디오로부터 RGB 프레임과 옵티컬 플로우(optical flow) 프레임을 추출하고, RGB 프레임과 옵티컬 플로우 프레임 각각을 미리 설정된 개수의 프레임 단위로 RGB 세그먼트와 옵티컬 플로우 세그먼트로 분할하고, 복수개의 RGB 세그먼트와 복수개의 옵티컬 플로우 세그먼트 각각으로부터 추출한 RGB 특징과 옵티컬 플로우 특징을 기반으로 세그먼트 별 특징 맵을 획득하며, 세그먼트 별 특징 맵을 기반으로 임베딩된 특징(embedded features)을 획득하고, 복수개의 임베딩된 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어를 획득하며, 복수개의 세그먼트-레벨 클래스 스코어에서 점수가 높은 미리 설정된 개수의 세그먼트-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득하고, 복수개의 비디오-레벨 클래스 스코어에 소프트맥스 함수(softmax function)을 적용하여 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률을 획득하는,
    불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치.
  3. 제2항에서,
    상기 제1 손실 함수는,
    Figure pat00033
    이며,
    상기 N은, 비디오의 개수를 나타내고,
    상기 C는, 행동 클래스의 개수를 나타내며,
    상기 pc(vn)은, n번째 비디오의 c번째 행동 클래스에 대한 비디오-레벨 행동 확률을 나타내고,
    상기 yn;c는 n번째 비디오의 c번째 행동 클래스에 대한 정규화된 비디오-레벨 정답 레이블을 나타내는,
    불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치.
  4. 제2항에서,
    상기 학습부는,
    복수개의 임베딩된 특징을 기반으로 복수개의 세그먼트에서 특징 벡터 크기(magnitude)의 값이 큰 미리 설정된 개수의 세그먼트들을 유사 행동 세그먼트로 획득하고 특징 벡터 크기의 값이 작은 미리 설정된 개수의 세그먼트들을 유사 배경 세그먼트로 획득하는,
    불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치.
  5. 제4항에서,
    상기 제2 손실 함수는,
    Figure pat00034
    이며,
    상기 N은, 비디오의 개수를 나타내고,
    상기 fact n은, n번째 비디오의 유사 행동 세그먼트의 평균 특징을 나타내며, 식
    Figure pat00035
    이고, 상기 kact는, 유사 행동 세그먼트의 개수를 나타내며, 상기 Sact는, 유사 행동 세그먼트의 집합을 나타내고, 상기 fn,i는, n번째 비디오의 i번째 세그먼트의 특징 벡터를 나타내며,
    상기 fbkg n은, n번째 비디오의 유사 배경 세그먼트의 평균 특징을 나타내며, 식
    Figure pat00036
    이고, 상기 kbkg는, 유사 배경 세그먼트의 개수를 나타내며, 상기 Sbkg는, 유사 배경 세그먼트의 집합을 나타내고, 상기 fn,j는, n번째 비디오의 j번째 세그먼트의 특징 벡터를 나타내며,
    상기 ∥∥는, 놈 함수(norm function)를 나타내며,
    상기 m은, 미리 정의된 최대 특징 크기를 나타내는,
    불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치.
  6. 제4항에서,
    상기 제3 손실 함수는,
    Figure pat00037
    이며,
    상기 N은, 비디오의 개수를 나타내고,
    상기 C는, 행동 클래스의 개수를 나타내며,
    상기
    Figure pat00038
    는, 유사 배경 세그먼트들의 c번째 클래스에 대한 행동 확률의 평균을 나타내고, 식
    Figure pat00039
    이며, 상기 kbkg는, 유사 배경 세그먼트의 개수를 나타내고, 상기 Sbkg는, 유사 배경 세그먼트의 집합을 나타내며, 상기 pc(~sn,j)는, n번째 비디오의 j번째 세그먼트 ~sn,j의 c번째 클래스에 대한 확률을 나타내는,
    불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치.
  7. 비디오에서 행동 프레임을 검출하는 장치에 의해 수행되는 행동 프레임 검출 방법으로서,
    비디오를 프레임 단위로 복수개의 세그먼트로 분할하고, 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어를 획득하며, 복수개의 세그먼트-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득하고, 복수개의 비디오-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률을 획득하며, 복수개의 세그먼트 각각으로부터 추출한 특징을 기반으로 복수개의 세그먼트에서 유사 행동 세그먼트(pseudo action segment)와 유사 배경 세그먼트(pseudo action segment)를 획득하고, 복수개의 비디오-레벨 행동 확률과 비디오-레벨 정답 레이블 각각을 항으로 포함하는 제1 손실 함수와, 유사 행동 세그먼트의 특징의 벡터 크기가 증가되고 유사 배경 세그먼트의 특징의 벡터 크기가 감소되도록 하기 위해 유사 행동 세그먼트의 특징과 유사 배경 세그먼트의 특징 각각을 항으로 포함하는 제2 손실 함수와, 유사 배경 세그먼트의 행동 확률의 엔트로피(entropy)가 최대화되도록 하기 위해 복수개의 행동 클래스 각각에 대한 유사 배경 세그먼트의 행동 확률을 항으로 포함하는 제3 손실 함수로 이루어지는 손실 함수(loss function)를 통해 약한 지도 학습 기반으로 검출 모델을 학습하는 단계;
    행동 프레임과 배경 프레임을 포함하는 대상 비디오를 입력받는 단계; 및
    상기 대상 비디오를 상기 검출 모델에 입력하여 상기 대상 비디오에 대한 행동 프레임을 검출하는 단계;
    를 포함하는 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 방법.
  8. 제7항에서,
    상기 검출 모델 학습 단계는,
    비디오로부터 RGB 프레임과 옵티컬 플로우(optical flow) 프레임을 추출하고, RGB 프레임과 옵티컬 플로우 프레임 각각을 미리 설정된 개수의 프레임 단위로 RGB 세그먼트와 옵티컬 플로우 세그먼트로 분할하고, 복수개의 RGB 세그먼트와 복수개의 옵티컬 플로우 세그먼트 각각으로부터 추출한 RGB 특징과 옵티컬 플로우 특징을 기반으로 세그먼트 별 특징 맵을 획득하며, 세그먼트 별 특징 맵을 기반으로 임베딩된 특징(embedded features)을 획득하고, 복수개의 임베딩된 특징을 기반으로 복수개의 행동 클래스 각각에 대한 세그먼트-레벨 클래스 스코어를 획득하며, 복수개의 세그먼트-레벨 클래스 스코어에서 점수가 높은 미리 설정된 개수의 세그먼트-레벨 클래스 스코어를 기반으로 복수개의 행동 클래스 각각에 대한 비디오-레벨 클래스 스코어를 획득하고, 복수개의 비디오-레벨 클래스 스코어에 소프트맥스 함수(softmax function)을 적용하여 복수개의 행동 클래스 각각에 대한 비디오-레벨 행동 확률을 획득하는 것으로 이루어지는,
    불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 방법.
  9. 제8항에서,
    상기 검출 모델 학습 단계는,
    복수개의 임베딩된 특징을 기반으로 복수개의 세그먼트에서 특징 벡터 크기(magnitude)의 값이 큰 미리 설정된 개수의 세그먼트들을 유사 행동 세그먼트로 획득하고 특징 벡터 크기의 값이 작은 미리 설정된 개수의 세그먼트들을 유사 배경 세그먼트로 획득하는 것으로 이루어지는,
    불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 방법.
  10. 제7항 내지 제9항 중 어느 한 항에 기재된 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램.
KR1020200122806A 2020-09-23 2020-09-23 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법 KR102395089B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200122806A KR102395089B1 (ko) 2020-09-23 2020-09-23 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200122806A KR102395089B1 (ko) 2020-09-23 2020-09-23 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220040063A true KR20220040063A (ko) 2022-03-30
KR102395089B1 KR102395089B1 (ko) 2022-05-04

Family

ID=80948113

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200122806A KR102395089B1 (ko) 2020-09-23 2020-09-23 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102395089B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453010A (zh) * 2023-03-13 2023-07-18 彩虹鱼科技(广东)有限公司 基于光流rgb双路特征海洋生物目标检测方法及系统
CN116503959A (zh) * 2023-06-30 2023-07-28 山东省人工智能研究院 基于不确定性感知的弱监督时序动作定位方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160035631A (ko) * 2014-09-23 2016-04-01 에스케이텔레콤 주식회사 히스토그램 기반의 움직임 검출 방법 및 그 장치
KR20190054702A (ko) * 2017-11-14 2019-05-22 고려대학교 산학협력단 영상에서 객체의 행동을 인식하는 방법 및 그 장치
KR20190127261A (ko) * 2018-05-04 2019-11-13 연세대학교 산학협력단 행동 인식을 위한 투 스트림 네트워크의 클래스 스코어 학습 방법 및 장치
WO2019225415A1 (ja) * 2018-05-21 2019-11-28 パナソニックIpマネジメント株式会社 球技映像解析装置、及び、球技映像解析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160035631A (ko) * 2014-09-23 2016-04-01 에스케이텔레콤 주식회사 히스토그램 기반의 움직임 검출 방법 및 그 장치
KR20190054702A (ko) * 2017-11-14 2019-05-22 고려대학교 산학협력단 영상에서 객체의 행동을 인식하는 방법 및 그 장치
KR20190127261A (ko) * 2018-05-04 2019-11-13 연세대학교 산학협력단 행동 인식을 위한 투 스트림 네트워크의 클래스 스코어 학습 방법 및 장치
WO2019225415A1 (ja) * 2018-05-21 2019-11-28 パナソニックIpマネジメント株式会社 球技映像解析装置、及び、球技映像解析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453010A (zh) * 2023-03-13 2023-07-18 彩虹鱼科技(广东)有限公司 基于光流rgb双路特征海洋生物目标检测方法及系统
CN116453010B (zh) * 2023-03-13 2024-05-14 彩虹鱼科技(广东)有限公司 基于光流rgb双路特征海洋生物目标检测方法及系统
CN116503959A (zh) * 2023-06-30 2023-07-28 山东省人工智能研究院 基于不确定性感知的弱监督时序动作定位方法及系统
CN116503959B (zh) * 2023-06-30 2023-09-08 山东省人工智能研究院 基于不确定性感知的弱监督时序动作定位方法及系统

Also Published As

Publication number Publication date
KR102395089B1 (ko) 2022-05-04

Similar Documents

Publication Publication Date Title
Lee et al. Weakly-supervised temporal action localization by uncertainty modeling
Tu et al. Action-stage emphasized spatiotemporal VLAD for video action recognition
Li et al. Contour knowledge transfer for salient object detection
US10891524B2 (en) Method and an apparatus for evaluating generative machine learning model
Shou et al. Temporal action localization in untrimmed videos via multi-stage cnns
US9846845B2 (en) Hierarchical model for human activity recognition
Croitoru et al. Unsupervised learning from video to detect foreground objects in single images
KR102395089B1 (ko) 불확실성 기반의 배경 모델링을 통한 약한 지도 학습 기반의 행동 프레임 검출 장치 및 방법
CN105005772A (zh) 一种视频场景检测方法
Kolesnikov et al. Improving weakly-supervised object localization by micro-annotation
Wang et al. Closed-loop tracking-by-detection for ROV-based multiple fish tracking
Hu et al. AGNet: Attention-guided network for surgical tool presence detection
CN111931654A (zh) 一种人员跟踪智能监测方法、系统和装置
CN114049581A (zh) 一种基于动作片段排序的弱监督行为定位方法和装置
Xie et al. Semi-supervised skin lesion segmentation with learning model confidence
Vainstein et al. Modeling video activity with dynamic phrases and its application to action recognition in tennis videos
Zaeem et al. Cause and effect: Concept-based explanation of neural networks
Xiao et al. Self-explanatory deep salient object detection
Okuma et al. Self-learning for player localization in sports video
KR102334388B1 (ko) 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치
Liu et al. Action prediction network with auxiliary observation ratio regression
Pershouse et al. Addressing the Challenges of Open-World Object Detection
Chaudhury et al. Unsupervised temporal feature aggregation for event detection in unstructured sports videos
Niemeijer et al. Synthetic Dataset Acquisition for a Specific Target Domain
JAIN et al. Weakly supervised logo detection using a dual-attention dilated residual network

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant