KR20130091596A - 비디오 정보를 통한 인간 행동 예측 방법 - Google Patents

비디오 정보를 통한 인간 행동 예측 방법 Download PDF

Info

Publication number
KR20130091596A
KR20130091596A KR1020120013000A KR20120013000A KR20130091596A KR 20130091596 A KR20130091596 A KR 20130091596A KR 1020120013000 A KR1020120013000 A KR 1020120013000A KR 20120013000 A KR20120013000 A KR 20120013000A KR 20130091596 A KR20130091596 A KR 20130091596A
Authority
KR
South Korea
Prior art keywords
behavior
video
video information
human
histogram
Prior art date
Application number
KR1020120013000A
Other languages
English (en)
Inventor
유상원
이재영
유원필
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120013000A priority Critical patent/KR20130091596A/ko
Priority to US13/654,077 priority patent/US20130202210A1/en
Publication of KR20130091596A publication Critical patent/KR20130091596A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 비디오 정보를 통한 인간 행동 예측 방법에 관한 것으로, 인간 행동에 대한 비디오 정보가 포함된 비디오 스트림으로부터 시공간 지역 특색을 추출하는 단계와, 추출한 시공간 지역 특색들을 외관을 바탕으로 다수의 시각 언어로 군집화하는 단계와, 각 행동을 시각 언어의 적분 히스토그램으로 모델링하여 행동 개연성 값을 계산하는 단계와, 계산한 행동 개연성 값에 의거하여 인간 행동을 예측하는 단계를 포함하며, 최대한 빠른 시점에 다소 불충분한 비디오 정보로도 행동 및 사건의 시작 단서를 감지하여 인간 행동 예측을 수행할 수 있다.

Description

비디오 정보를 통한 인간 행동 예측 방법{METHOD FOR HUMAN ACTIVITY PREDICTION FORM STREAMING VIDEOS}
본 발명은 비디오 정보를 통한 인간 행동 예측 방법에 관한 것으로, 더욱 상세하게는 비디오 영상에서 인간의 행동을 예측하여 위험 사건을 조기에 인식하기 위한 방법에 관한 것이다.
인간 행동 인식(human activity recognition)이란 주어진 비디오에서 관찰되는 인간의 행동을 자동적으로 검출하기 위한 기술이다. 인간 행동 인식은 다중 카메라를 통한 감시/보안/정찰 (surveillance)이나, 동적 카메라를 활용한 위험 상황 감지, 인간-컴퓨터 인터페이스(human-computer interface) 등에 응용된다.
현재의 인간 행동 인식 방법론들은 행동이나 사건이 끝난 시점에서 일어난 행동의 검출을 목표로 한다. 행동 전체를 담고 있는 비디오 정보가 주어진 후에야 인식이 수행된다. 사후 검출(after-the-fact detection)이라고 볼 수 있다.
그러나, 범죄나 자동차 사고 같은 위험한 행동과 사건의 경우에 이를 미연에 방지하는 것이 중요하며, 일단 사건이 일어나고 난 후에 인식을 하는 것은 불충분하다.
하지만, 종래의 기술들은 종료된 인간 행동에 대한 사후적 인식을 목표로 하고 있기 때문에 행동이나 사건을 끝까지 관찰하기 전에는 인식이 수행되지 않는다. 그러나, 도둑질 방지를 위한 보안(surveillance) 시스템이나 자동차 사고 방지 시스템 등을 위해서는 종래의 기술들은 부적합하며, 새로운 조기 사건 예측 및 인식 기술의 개발이 필수적이다.
미국 공개특허 20080309761, 공개일자 2008년 12년 18일.
본 발명은 전술한 바와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 최대한 빠른 시점에 (즉, 사건이 일어나고 있는 초기 시점에) 불충분한 비디오 정보에서 행동 및 사건의 시작 단서를 감지하여 인간 행동 예측을 수행하여 인간 행동을 조기에 인식하는 방안을 제공한다.
본 발명의 제 1 관점으로서 비디오 정보를 통한 인간 행동 예측 방법은, 인간 행동에 대한 비디오 정보가 포함된 비디오 스트림으로부터 시공간 지역 특색을 추출하는 단계와, 추출한 상기 시공간 지역 특색들을 외관을 바탕으로 다수의 시각 언어로 군집화하는 단계와, 각 행동을 상기 시각 언어의 적분 히스토그램으로 모델링하여 행동 개연성 값을 계산하는 단계와, 계산한 상기 행동 개연성 값에 의거하여 상기 인간 행동을 예측하는 단계를 포함할 수 있다.
여기서, 상기 시공간 지역 특색을 추출하는 단계는, 상기 비디오 스트림으로부터 모션 변화를 가진 관심점을 탐지하고, 지역적 움직임을 나타내는 디스크립터를 계산할 수 있다.
상기 시각 언어는, K-평균 군집화 알고리즘을 사용하여 샘플 비디오로부터 추출된 특징들로부터 형성할 수 있다.
상기 행동 개연성 값을 계산하는 단계는, 이전 관찰에 대해 계산된 개연성 값을 이용해 전체 관찰의 개연성 값을 업데이트하여 재귀적 행동 개연성 값을 계산할 수 있다.
상기 비디오 스트림의 이미지 프레임을 고정된 기간을 가진 여러 세그먼트들로 나누고, 나뉜 세그먼트들을 행동 세그먼트들과 동적으로 매치시켜서 상기 재귀적 행동 개연성 값을 계산할 수 있다.
본 발명의 실시 예에 의하면, 최대한 빠른 시점에 (즉, 사건이 일어나고 있는 초기 시점에) 다소 불충분한 비디오 정보로도 행동 및 사건의 시작 단서를 감지하여 인간 행동 예측을 수행함으로써 인간 행동을 조기에 인식할 수 있다.
따라서, 아직 미처 발생하지 않거나 실행이 완전히 끝나지 않은 범죄 또는 위험한 행동을 비디오 정보를 바탕으로 알아내서 대처를 할 수 있도록 한다. 조기에 경보를 발생하여 사회적으로 중요한 범죄나 이상 행동에 대한 예방을 가능케 하는 효과가 있다.
도 1은 본 발명의 실시 예에 따른 인간 행동 예측 방법에 대한 이해를 돕기 위해 인간 행동 사후 인식 방법과 대조시킨 예이다.
도 2는 본 발명의 실시 예에 따라 샘플 비디오부터 추출된 특징(가)과 이들로부터 형성한 시각 언어(나)의 예이다.
도 3은 본 발명의 실시 예에 따른 관찰 비디오(가)와 적분 히스토그램(나)의 예이다.
도 4는 본 발명의 실시 예에 따라 이전 관찰에 대해 계산된 개연성을 이용하여 전체 관찰의 개연성을 업데이트 하는 과정을 보인 예이다.
도 5는 미완성 비디오로부터 진행 중인 행동의 개연성을 계산하기 위한 동적 프로그래밍 알고리즘의 과정을 도시한 예이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 인간의 행동이나 사건에 대한 사후적인 인식이 아니라 조기 예측을 수행하는 것이다. 보안 등을 위한 실시간 시스템에서 비디오는 스트림 형태로 연속적으로 시스템에 주어지게 되며, 시스템은 이러한 비디오 스트림에서 행동 또는 사건을 찾아야 한다. 이때, 아직 진행 중인 행동 또는 사건을 조기에 최대한 빨리 예측하여 그에 대응하여야 한다.
이를 위하여 인간 행동 예측(human activity prediction)이라는 개념으로써 확률적인 수식을 구축하였다. 이러한 수식의 구현을 위해서 시공간 특색(spatio-temporal feature)이라는 비디오에서 지역적인 움직임을 포착하는 특색들을 추출하였고, 이를 사용하는 적분 백 오브 워즈(integral bag-of-words, 적분 단어 가방)와 동적 백 오브 워즈(dynamic bag-of-words, 동적 단어 가방)라는 방법론을 설계하였다. 이 두 가지 방법론은 공통적으로 적분 히스토그램(integral histogram)을 사용한다. 즉, 행동 또는 사건의 조기 예측을 시공간 특색들의 분포를 묘사하는 적분 히스토그램을 사용하여 실현한다.
도 1은 본 발명의 실시 예에 따른 인간 행동 예측 방법에 대한 이해를 돕기 위해 인간 행동 사후 인식 방법과 대조시킨 예이다.
도 1의 (가)는 인간 행동 사후 인식 방법의 예이며, 인간의 특정 행동이 이루어지는 영상이 입력되면 영상을 분석하여 그 분석 결과에 따라 인간 행동을 분류함으로써 어떤 행동이 이루어졌는지를 파악할 수 있다.
도 1의 (나)는 인간 행동 예측 방법의 예이며, 인간의 특정 행동이 이루어지기 전까지의 정보가 담긴 영상이 입력되면 영상을 분석하여 그 분석 결과에 따라 어떤 행동이 이루어질지를 예측할 수 있다.
이하, 인간 행동 분류에 대해 간략히 설명한 후에 본 발명의 실시 예에 따른 인간 행동 예측에 대해 설명하기로 한다.
인간 행동 분류의 목적은 주어진 비디오(즉, 테스트 비디오)를 제한된 수의 클래스로 분류하는 것이다. 시간 0에서 t까지 이미지 프레임들로 구성된 관찰 비디오 'O'가 주어진다면, 시스템은 비디오에 포함되어 있다고 믿는 행동 라벨 Ap를 선택하도록 요구된다. K 근접 이웃(K-nearest neighbors, 이하, K-NNs)과 서포트 벡터 머신(Support Vector Machine, SVM)을 포함하는 다양한 분류기가 종래의 방법에서 일반적으로 사용되어졌다. 또한, 슬라이딩 윈도우(sliding windows) 기법은 연속적인 비디오 스트림으로부터 행동의 위치 파악(localization)을 위한 행동 분류 알고리즘을 적용하기 위해 종종 채택되었다.
확률적으로, 행동 분류는 길이 t를 가진 비디오 'O'를 부여받은 행동 Ap의 사후 확률의 계산으로서 정의된다. 대부분의 경우에, 비디오 기간 t는 행동에 독립적이라 가정하여 무시된다.
[수학식 1]
Figure pat00001
여기서, d*는 행동의 진행 레벨을 나타내는 변수로, 행동이 완전히 진행되어짐을 나타낸다. 결과로서, 최대값 P(Ap, d*|O)를 가진 행동 클래스가 비디오 'O'의 행동인 것으로 선택된다.
행동 분류의 확률적 공식은, 시스템으로 제공된 각 비디오(훈련 비디오 또는 테스트 비디오)가 단일 행동의 모든 실행을 포함함을, 분류 문제가 가정하고 있다는 것을 암시한다. 즉, 진행 중인 행동을 분석하기보다는 비디오 관찰의 사후 분류를 가정하며, 끝나지 않은 행동을 인식하기 위한 시도는 거의 없었다.
인간 행동 예측의 문제는 미완성의 비디오에서 일시적으로 나타나는 끝나지 않은 행동의 추론으로서 정의된다. 행동 분류와 대조적으로, 시스템은 행동 실행의 중간에 '어떤 행동이 발생하고 있는가'에 관한 결정을 할 것이 요구된다. 행동 예측에서는 진행 중인 행동이 완전히 실행되었다는 가정은 하지 않는다. 예측 방법론은, 비디오 관찰을 바탕으로 가장 개연성이 있다고 보이는 각 행동의 진행 상태를 자동으로 추정해야만 하고, 그 시점에 어떤 행동이 가장 일어날 것 같은지를 결정해야만 한다.
행동 예측 과정을 다음과 같이 확률적으로 공식화할 수 있다.
[수학식 2]
Figure pat00002
여기서, d는 행동 Ap의 진행 레벨을 나타내는 변수이다. 예를 들어, d=50은 행동 Ap가 0번째 프레임에서부터 50번째 프레임까지 진행되었음을 가리킨다. 즉, 행동 예측 과정은 0 ≤ d ≤ d*인 모든 값에 대해 행동의 다양한 가능한 진행 상태를 고려해야만 한다는 것을 의미한다. P(t|d)는 관찰의 길이 t와 행동 진행의 길이 d 사이의 유사성을 나타낸다.
행동 예측 문제의 핵심은 개연성 값(likelihood value) P(O|Ap,d)의 정확하고도 효율적인 계산이고, 개연성 값 P(O|Ap,d)는 비디오 관찰과 d라는 진행 레벨을 가지는 행동 Ap간의 유사성을 측정한다. 행동 예측 문제를 푸는 억지 접근(brute force)방법은 Ap와 d의 모든 가능한 값들에 대해 다수의 확률적 분류기(예를 들면, 확률적 SVM)를 구축하는 것이다. 그러나, 모든 진행 레벨 d를 다루기 위해 수백 개의 분류기(예를 들어, 초당 30프레임(30fps)에 행동이 10초가 걸린다면 행동 당 300개의 SVM)를 훈련시키고 유지하는 것은 상당한 양의 계산 비용을 요구한다. 게다가, 독립적인 분류기의 억지 접근 구축은 개연성 값 간의 순차적인 관계를 무시하므로, 이에, 강력하고 효율적인 행동 예측 방법론의 개발이 요구된다.
본 발명에서는 적분 백 오브 워즈(integral bag-of-words)로 부를 수 있는 인간 행동 예측 방법론을 제시한다. 이 섹션에서 소개되는 방법은 비디오 스트림으로부터 진행 중인 행동의 상태를 효율적으로 분석할 수 있도록 설계된다는 점이 종래 방법과의 주요한 차이점이다.
본 발명의 실시 예에 따라 인간 행동을 예측하기 위해 3D 시공간 지역 특징을 이용한다. 시공간 특징 추출기는 비디오로부터 가장 중요한 모션 변화를 가진 관심점을 탐지하고 비디오에서 발생하는 지역적 움직임을 나타내는 디스크립터(descriptor, 기술자)를 제공한다. 이러한 시공간 특징 추출기는 시간축을 따라 이미지 프레임을 연관시킴으로서 형성되는 3D XYT볼륨으로 비디오를 변환시키고, 가장 중요한 모션 변화를 가진 3D 볼륨 패치의 위치를 파악한다. 3D 볼륨 패치 내부에 변화도를 요약함으로써 각 로컬 패치에 대해 디스크립터가 계산된다.
본 방법은, 일단 지역 특징들이 추출되면, 지역 특징들을 그 외관(즉, 특징 벡터값)을 바탕으로 다수의 대표 타입으로 군집화 한다. 이 타입들은 '시각 언어'라고 불리며, 본질적으로 특징들의 무리이다. K-평균 군집화 알고리즘(K-means clustering algorithm)을 사용하여 샘플 비디오로부터 추출된 특징들로부터 시각 언어를 형성한다. 그 결과로, 비디오에서 각 탐지된 특징은 k개의 시각 언어들 중의 하나에 속한다. 도 2는 특징과 언어의 예를 보여준다.
적분 백 오브 워즈는 인간 행동을 나타내기 위해 적분 히스토그램 (integral histogram)을 구축하는 확률적 행동 예측 방법이다. 길이 t의 비디오 관찰 'O'를 부여받은 진행 중인 행동을 예측하기 위해서, 시스템은 행동 Ap의 모든 가능한 진행 레벨 d에 대해서 개연성 값 P(O|Ap,d)를 계산할 것이 요구된다. 여기서 제시하고자 하는 것은 각 행동을 시각 언어의 적분 히스토그램으로 모델링함으로써 행동 개연성 값을 계산하기 위한 효율적인 방법론이다.
적분 백 오브 워즈 방법은 히스토그램 기반의 접근으로, 특징 히스토그램을 바탕으로 개연성 값 P(O|Ap,d)를 계산함으로써 진행 중인 행동을 확률적으로 추론한다. 이 개념은 비디오 'O'와 행동 모델 (Ap,d)의 히스토그램 표현을 비교함으로써 그 둘 간의 유사성을 측정하는 것이다. 히스토그램 표현의 장점은 잡음이 섞인 변화하는 규모를 가진 관찰을 다룰 수 있다는 것이다. 모든 가능한 (Ap,d)에 대해서, 이 접근은 행동의 히스토그램을 계산하고 그것들을 테스트 비디오의 히스토그램과 비교한다.
특징 히스토그램은 k개의 히스토그램 빈(bin)의 집합으로, 여기서 k는 시각언어(즉, 특징 타입)의 개수이다. 관찰 비디오가 주어질 때, 각 히스토그램 빈은 같은 타입을 가진 추출된 특징들의 개수를 카운트하는데 이때 특징들의 시공간 위치는 무시한다. 행동 모델 (Ap,d)의 히스토그램 표현은 시간 프레임 d 후에 관찰된 특징들을 버리는 동시에 훈련 비디오의 특징 히스토그램을 평균화함으로써 계산된다. 즉, 행동 모델 (Ap,d)의 각 히스토그램 빈은 해당 시각 언어의 예상 발생 개수를 나타내는데, 시각 언어의 발생은 행동 Ap가 프레임 d로 진행된다면 관찰될 것이다.
히스토그램을 사용하는 어떤 (Ap,d)에 대한 개연성 값의 효율적인 계산을 가능하게 하기 위해서, 각 행동의 적분 히스토그램을 구축함으로써 각 행동을 모델링한다. 형식적으로, 비디오의 적분 히스토그램은 연속적인 특징 히스토그램 H(Ol)=[h1(Ol),h2(Ol),…,h|H|(Ol)](여기서, |H|는 행동 비디오 Ol의 프레임 개수) 으로 정의된다. vw는 w번째 시각언어를 의미한다고 하자. 그러면, 각 히스토그램 hd(Ol)의 w번째 히스토그램 빈의 값은 다음과 같이 계산된다.
[수학식 3]
Figure pat00003
여기서, f는 비디오 Ol로부터 추출된 특징이고, tf는 그 특징의 시간적 위치이다. 즉, 적분 히스토그램 H(Ol)의 각 요소 hd(Ol)는 시간적 위치가 d보다 작은 시공간 특징의 히스토그램 분포를 나타낸다. 이러한 적분 히스토그램은 공간 적분 히스토그램의 시간적 버전으로서 보여질 수 있다.
도 3은 적분 히스토그램의 예를 보여준다. 기본적으로, 적분 히스토그램은 관찰 기간이 증가함에 따라 히스토그램 값이 어떻게 변하는지를 묘사하는 시간의 함수이다. 적분 히스토그램은 행동의 모든 훈련 비디오에 대해 계산되고, 평균 적분 히스토그램은 행동의 대표값으로 사용된다. 이 개념은 행동 진행으로서 관찰되어지는 시각 언어에서의 변화를 추적하는 것이다.
구축된 적분 히스토그램은 인간 행동의 예측을 가능하게 한다. 균일한 분산(variance)을 가지는 가우시안(Gaussian) 분포를 가진 행동의 적분 히스토그램을 모델링할 때, 가장 개연성 있는 행동 A*을 예측하는 문제는 다음과 같이 수학식 4로부터 열거된다.
[수학식 4]
Figure pat00004
여기서, H(Ai)는 행동 Ai의 적분 히스토그램이고, H(O)는 비디오 'O'의 적분 히스토그램이다. 행동들 간에 동일한 사전 확률이 가정되고, σ2은 상기 균일한 분산을 나타낸다.
본 발명에서 제안하는 방법은 행동의 적분 히스토그램을 부여받은 O(k-d*) 계산을 가지고 모든 d에 대해서 행동 개연성 값을 계산하는 것이 가능하다. 각 행동에 대한 적분 히스토그램 구축의 시간 복잡도는 O(m-log m + k-d*)이고, 여기서 m은 행동의 훈련 비디오들에서 총 특징들의 개수이다. 즉, 이 접근법은, 이전의 분류기를 적용하는 억지 접근 방법과 비교할 때 상당히 적은 양의 계산을 요구한다. 예를 들면, 모든 d에 대해 SVMs를 훈련시키는 억지 접근 방법은 O(n-k-d*-r) 계산을 취한다. 여기서 n은 행동의 훈련 비디오의 개수이고 r은 SVM을 훈련시키는 반복 횟수이다.
본 발명에서는 동적(dynamic) 백 오브 워즈라고 부를 수 있는 동작 인식 방법론을 제시한다. 여기서, 동적 백 오브 워즈는 일련의 매칭 알고리즘을 이용하여 시작 비디오로부터 인간의 행동을 예측한다. 앞서 설명한 적분 백 오브 워즈는 행동의 진행 중인 상태를 분석하여 행동 예측을 수행할 수 있으나 추출된 특징들 간의 시간적 관계를 무시한다.
본 발명에 따른 동적 백 오브 워즈는 잡음이 많은 관측을 처리하는 백 오브 워즈의 이점을 유지하면서, 인간 행동의 일련의 속성을 고려하는 새로운 행동 인식 접근법이다. 행동 비디오는 인간의 동작을 묘사하는 일련의 이미지이고, 그 행동 비디오의 인식은 추출된 시공간 특징에 의해 표시된 일련의 구조를 고려해야 한다. 동적 백 오브 워즈 방법은 예측 공식(즉, 수학식 2)을 따라 학습된 행동 모델에 의해 발생된 주어진 비디오 관찰의 사후 확률을 측정한다. 그것의 장점은 개연성 확률, P(O|Ap,d)가 행동의 순차적인 구조를 고려하기 위해 계산된다는 것이다.
Δd가 d로 끝나는 행동 모델(즉, Ap)의 서브 간격(sub-interval)이라고 하고, Δt가 t로 끝나는 관찰된 비디오(즉, O)의 서브 간격이라고 하자. 추가로, 관찰된 비디오 'O'를 더욱 구체적으로 Ot('O'가 프레임 0 내지 t로부터 획득됨을 가리킴)로서 나타내자. 그러면 행동 모델과 관찰된 비디오 간의 개연성 값은 다음과 같이 열거될 수 있다.
[수학식 5]
Figure pat00005
여기서, OΔt는 Δt의 시간 간격 동안 획득된 관찰에 대응하고, Ot-Δt는 간격 t-Δt 동안 획득된 관찰에 대응한다.
이 개념은 이전 관찰에 대해 계산된 개연성(즉, P(Ot-Δt| Ap,d-Δd))을 이용하여 전체 관찰의 개연성(즉, P(Ot|Ap,d))을 업데이트 하는 것이다. 증분 개연성 계산은 증대하는 관찰에 대한 효율적인 행동 예측을 가능하게 할 뿐만 아니라, 관찰이 행동 모델과 연속적으로 매칭하여야만 한다는 시간적 제약을 제기한다.
기본적으로, 앞서 언급된 재귀 연산은 행동 진행 시간 간격 d를 변화하는 길이를 가진 서브 간격들 D={Δd1,Δd2,…,Δdq}의 집합으로 나누고, 관찰 비디오 'O'를 서브 간격들 T={Δt1,Δt2,…,Δtq}의 집합으로 나누는 것이다. 개연성 값은 q쌍의 서브 간격들 (Δdj,Δtj)을 매칭함으로써 계산되고 있다. 즉, 상기 방법은, 두 시퀀스간의 전체 개연성 값을 최대화하는 최적의 D와 T를 찾는데, 전체 개연성 값은 각 (Δdj,Δtj)쌍 간의 유사성을 계산함으로써 측정된다. 도 4는 이런 과정을 묘사한다.
이러한 동기(motivation)는 행동 모델과 관찰된 시퀀스를 다수의 세그먼트로 나누어 그들 간의 구조적 유사성을 찾는 것이다. 새로운 관찰 세그먼트(즉, OΔt)와 매칭하는 행동 모델 세그먼트(즉, Δd)의 기간은, 그들의 유사성 거리를 순환적으로 계산하기 위해 베스트-매칭 세그먼트 쌍을 찾아 동적으로 선택됨을 주목하여야 한다. 세그먼트 개연성 P(OΔt|Ap,Δd)는 그들의 히스토그램 표현을 비교함으로써 계산된다. 즉, 백 오브 워즈 패러다임은, 세그먼트 그 자신이 재귀적인 행동 예측 공식에 기초하여 순차적으로 배열되는 동안, 내부 세그먼트들의 매칭을 위해 적용된다.
본 발명에 따른 동적 백 오브 워즈 방법은 내부 세그먼트 간의 유사성(즉, P(OΔt|A, Δd))을 계산하기 위한 적분 히스토그램을 이용한다. 적분 히스토그램은 어떤 가능한 (Δd, Δt)에 대해 행동 세그먼트 Δd의 히스토그램과 비디오 세그먼트 Δt의 히스토그램의 효율적인 구축을 가능하게 한다. [a, b]가 Δd의 시간 간격이라고 하자. Δd에 대응하는 히스토그램은 다음과 같이 계산된다.
[수학식 6]
Figure pat00006
여기서, H(Ap)는 행동 Ap의 적분 히스토그램이다. 마찬가지로, Δt의 히스토그램은 적분 히스토그램 H(O)를 바탕으로 계산되어 hΔt(O)를 제공한다.
적분 히스토그램을 사용하여, 동적 백 오브 워즈의 개연성 확률 계산은 다음 재귀적인 식으로 묘사된다. 적분 백 오브 워즈 방법의 경우와 유사하게, 행동들의 특징 히스토그램은 가우시안 분포에 의해 모델링된다.
[수학식 7]
Figure pat00007
여기서, Fp(t,d)는 확률 P(Ot|Ap,d)와 등가이다.
아래에서는 주어진 비디오로부터 진행 중인 행동을 찾기 위해 동적 백 오브 워즈 방법의 동적 프로그래밍 구현을 제시한다. 어떤 행동이 가장 발생할 가능성이 있는지를 결정하는 MAP(maximum a posteriori probability, 최대 귀납 확률) 분류기를 구축한다.
길이 t를 가진 관찰 비디오 'O'가 주어질 때, 가장 개연성 있는 진행 중인 행동 A*를 찾는 행동 예측 문제는 다음과 같이 표현된다.
[수학식 8]
Figure pat00008
즉, 관찰 Ot을 부여받은 진행 중인 행동을 예측하기 위하여, 시스템은 모든 행동 진행 상태 d에 대해서 재귀적으로 개연성 Fp(t,d) 즉, 수학식 8을 계산하도록 요구된다.
그러나, 적분 히스토그램을 사용하더라도, 길이 t를 가진 주어진 비디오에 대한 (Δt, Δd)의 모든 가능한 조합의 억지 접근 검색은 O(k-(d*)2-t2)계산을 요구한다. 각 타입 스텝 t에서의 A*를 찾기 위하여, 시스템은 d*개의 가능한 d에 대한 Fp(t,d)를 계산해야만 한다. 게다가, 수학식(8)에서 나타나듯이, 각 Fp(t,d)의 계산은 Δt와 Δd의 모든 가능한 조합의 Fp값들의 총합을 요구한다.
예측 과정을 계산적으로 다루기 쉽도록 하기 위하여, Δt가 고정된 기간을 가지도록 하여 개연성 Fp(t,d)를 계산하는 알고리즘을 설계한다. 관찰된 비디오의 이미지 프레임은 고정된 기간(예를 들면, 1초)을 가진 여러 세그먼트들로 나뉘고, 나뉜 세그먼트들은 행동 세그먼트들과 동적으로 매치된다. u가 단위 시간 기간을 가리키는 변수라고 하자. 그러면, 행동 예측 개연성은 다음과 같이 계산된다.
[수학식 9]
Figure pat00009
여기서, u-는 u-1과 u사이의 단위 시간 간격이다.
알고리즘은 모든 u에 대해 순차적으로 F'p(u,d)를 계산한다. 수학식 9에 나타나 있듯이, u의 각 반복에서, 시스템은 함수 F'를 최대화하는 u-에 대한 최적 매칭 세그먼트 Δd를 찾는다. 기본적으로, 이 방법은 비디오를 정렬된 서브 간격들(즉, u-)의 시퀀스로 해석하는데, 하위 간격들 각각이 자신 안의 특징들의 히스토그램으로 대표된다. 결과로서, F'p(u,d)는, d번째 프레임으로 진행하는 행동(즉, Ap)으로부터 관찰 'O'가 얼마나 발생될 것 같은지를 측정하면서, 행동 예측 개연성의 효율적인 계산을 제공한다.
상기 재귀적인 식에 대응하는 전통적인 동적 프로그래밍 알고리즘은 개연성을 계산하기 위해 설계된다. 그 목표는, 행동 모델 분할을 단계적으로 관찰과 매칭하면서, 관찰을 가장 잘 묘사하는 최적의 행동 모델 분할(즉, Δd)을 찾기 위한 것이다. 도 5는 미완성 비디오로부터 진행 중인 행동의 개연성을 계산하기 위한 동적 프로그래밍 알고리즘의 과정을 도시한다. 알고리즘의 시간 복잡도는 각 타입 스텝 u에 대해 O(k- (d*)2)이고, 이것은 일반적으로 t보다 훨씬 작다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (5)

  1. 인간 행동에 대한 비디오 정보가 포함된 비디오 스트림으로부터 시공간 지역 특색을 추출하는 단계와,
    추출한 상기 시공간 지역 특색들을 외관을 바탕으로 다수의 시각 언어로 군집화하는 단계와,
    각 행동을 상기 시각 언어의 적분 히스토그램으로 모델링하여 행동 개연성 값을 계산하는 단계와,
    계산한 상기 행동 개연성 값에 의거하여 상기 인간 행동을 예측하는 단계를 포함하는
    비디오 정보를 통한 인간 행동 예측 방법.
  2. 제 1 항에 있어서,
    상기 시공간 지역 특색을 추출하는 단계는, 상기 비디오 스트림으로부터 모션 변화를 가진 관심점을 탐지하고, 지역적 움직임을 나타내는 디스크립터를 계산하는
    비디오 정보를 통한 인간 행동 예측 방법.
  3. 제 1 항에 있어서,
    상기 시각 언어는, K-평균 군집화 알고리즘을 사용하여 샘플 비디오로부터 추출된 특징들로부터 형성하는
    비디오 정보를 통한 인간 행동 예측 방법.
  4. 제 1 항에 있어서,
    상기 행동 개연성 값을 계산하는 단계는, 이전 관찰에 대해 계산된 개연성 값을 이용해 전체 관찰의 개연성 값을 업데이트하여 재귀적 행동 개연성 값을 계산하는
    비디오 정보를 통한 인간 행동 예측 방법.
  5. 제 4 항에 있어서,
    상기 비디오 스트림의 이미지 프레임을 고정된 기간을 가진 여러 세그먼트들로 나누고, 나뉜 세그먼트들을 행동 세그먼트들과 동적으로 매치시켜서 상기 재귀적 행동 개연성 값을 계산하는
    비디오 정보를 통한 인간 행동 예측 방법.
KR1020120013000A 2012-02-08 2012-02-08 비디오 정보를 통한 인간 행동 예측 방법 KR20130091596A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120013000A KR20130091596A (ko) 2012-02-08 2012-02-08 비디오 정보를 통한 인간 행동 예측 방법
US13/654,077 US20130202210A1 (en) 2012-02-08 2012-10-17 Method for human activity prediction from streaming videos

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120013000A KR20130091596A (ko) 2012-02-08 2012-02-08 비디오 정보를 통한 인간 행동 예측 방법

Publications (1)

Publication Number Publication Date
KR20130091596A true KR20130091596A (ko) 2013-08-19

Family

ID=48902943

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120013000A KR20130091596A (ko) 2012-02-08 2012-02-08 비디오 정보를 통한 인간 행동 예측 방법

Country Status (2)

Country Link
US (1) US20130202210A1 (ko)
KR (1) KR20130091596A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652201A (zh) * 2020-08-10 2020-09-11 中国人民解放军国防科技大学 基于深度视频事件补全的视频数据异常识别方法和装置
KR20220026127A (ko) * 2020-08-25 2022-03-04 한국전자통신연구원 온라인 행동 탐지 장치 및 방법
US11315354B2 (en) 2018-12-24 2022-04-26 Samsung Electronics Co., Ltd. Method and apparatus that controls augmented reality (AR) apparatus based on action prediction
KR20230081308A (ko) 2021-11-30 2023-06-07 서강대학교산학협력단 사건 단위 비디오 검색을 위한 비디오 특징 벡터 생성 방법 및 이를 이용한 비디오 검색 시스템

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9500865B2 (en) * 2013-03-04 2016-11-22 Alex C. Chen Method and apparatus for recognizing behavior and providing information
CN103605986A (zh) * 2013-11-27 2014-02-26 天津大学 一种基于局部特征的人体动作识别方法
CN104809132B (zh) * 2014-01-27 2018-07-31 阿里巴巴集团控股有限公司 一种获取网络主体社交关系类型的方法及装置
US9779307B2 (en) 2014-07-07 2017-10-03 Google Inc. Method and system for non-causal zone search in video monitoring
US10127783B2 (en) 2014-07-07 2018-11-13 Google Llc Method and device for processing motion events
US9449229B1 (en) 2014-07-07 2016-09-20 Google Inc. Systems and methods for categorizing motion event candidates
US10140827B2 (en) 2014-07-07 2018-11-27 Google Llc Method and system for processing motion event notifications
US9501915B1 (en) 2014-07-07 2016-11-22 Google Inc. Systems and methods for analyzing a video stream
US9224044B1 (en) 2014-07-07 2015-12-29 Google Inc. Method and system for video zone monitoring
CN104143089B (zh) * 2014-07-28 2017-07-07 东南大学 人体动作识别中的基于空时能量分解的关键点检测方法
USD782495S1 (en) 2014-10-07 2017-03-28 Google Inc. Display screen or portion thereof with graphical user interface
US9935837B2 (en) * 2015-03-20 2018-04-03 International Business Machines Corporation Physical change tracking system for enclosures within data centers
US9710911B2 (en) * 2015-11-30 2017-07-18 Raytheon Company System and method for generating a background reference image from a series of images to facilitate moving object identification
CN107273782B (zh) 2016-04-08 2022-12-16 微软技术许可有限责任公司 使用递归神经网络的在线动作检测
US10506237B1 (en) 2016-05-27 2019-12-10 Google Llc Methods and devices for dynamic adaptation of encoding bitrate for video streaming
US10380429B2 (en) 2016-07-11 2019-08-13 Google Llc Methods and systems for person detection in a video feed
US11783010B2 (en) 2017-05-30 2023-10-10 Google Llc Systems and methods of person recognition in video streams
CN107451553B (zh) * 2017-07-26 2019-08-02 北京大学深圳研究生院 一种基于超图转变的视频中暴力事件检测方法
US10664688B2 (en) 2017-09-20 2020-05-26 Google Llc Systems and methods of detecting and responding to a visitor to a smart home environment
US10679044B2 (en) 2018-03-23 2020-06-09 Microsoft Technology Licensing, Llc Human action data set generation in a machine learning system
CN109800717B (zh) * 2019-01-22 2021-02-02 中国科学院自动化研究所 基于强化学习的行为识别视频帧采样方法及系统
CN111901673B (zh) * 2020-06-24 2021-12-03 北京大学 一种视频预测方法、装置、存储介质及终端

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11315354B2 (en) 2018-12-24 2022-04-26 Samsung Electronics Co., Ltd. Method and apparatus that controls augmented reality (AR) apparatus based on action prediction
CN111652201A (zh) * 2020-08-10 2020-09-11 中国人民解放军国防科技大学 基于深度视频事件补全的视频数据异常识别方法和装置
KR20220026127A (ko) * 2020-08-25 2022-03-04 한국전자통신연구원 온라인 행동 탐지 장치 및 방법
US11935296B2 (en) 2020-08-25 2024-03-19 Electronics And Telecommunications Research Institute Apparatus and method for online action detection
KR20230081308A (ko) 2021-11-30 2023-06-07 서강대학교산학협력단 사건 단위 비디오 검색을 위한 비디오 특징 벡터 생성 방법 및 이를 이용한 비디오 검색 시스템

Also Published As

Publication number Publication date
US20130202210A1 (en) 2013-08-08

Similar Documents

Publication Publication Date Title
KR20130091596A (ko) 비디오 정보를 통한 인간 행동 예측 방법
Sánchez et al. Revisiting crowd behaviour analysis through deep learning: Taxonomy, anomaly detection, crowd emotions, datasets, opportunities and prospects
US10755108B2 (en) Movement state estimation device, movement state estimation method and program recording medium
US9208675B2 (en) Loitering detection in a video surveillance system
US9111148B2 (en) Unsupervised learning of feature anomalies for a video surveillance system
CN102663452B (zh) 基于视频分析的可疑行为检测方法
Lim et al. iSurveillance: Intelligent framework for multiple events detection in surveillance videos
US11017236B1 (en) Anomalous object interaction detection and reporting
KR102217253B1 (ko) 행동패턴 분석 장치 및 방법
CN109902612B (zh) 一种基于无监督学习的监控视频异常检测方法
US9965687B2 (en) System and method for detecting potential mugging event via trajectory-based analysis
US10210392B2 (en) System and method for detecting potential drive-up drug deal activity via trajectory-based analysis
JP5358851B2 (ja) 不審行動検知方法および不審行動検知装置
Cheng et al. An efficient subsequence search for video anomaly detection and localization
Chriki et al. Uav-based surveillance system: an anomaly detection approach
US10929688B2 (en) System and method of video content filtering
Ryoo et al. Observe-and-explain: A new approach for multiple hypotheses tracking of humans and objects
Ramasso et al. Belief Scheduler based on model failure detection in the TBM framework. Application to human activity recognition
Zhu et al. Context-aware local abnormality detection in crowded scene
CN111027482B (zh) 基于运动向量分段分析的行为分析方法及装置
Kanthaseelan et al. CCTV Intelligent Surveillance on Intruder Detection
Patino et al. Extraction of activity patterns on large video recordings
Jin et al. Optical flow and spatio-temporal gradient based abnormal behavior detection
Taj et al. Recognizing interactions in video
Schuster et al. Multi-cue learning and visualization of unusual events

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid