KR20180054453A - 비디오 시퀀스에서 동작 인식 - Google Patents

비디오 시퀀스에서 동작 인식 Download PDF

Info

Publication number
KR20180054453A
KR20180054453A KR1020170148159A KR20170148159A KR20180054453A KR 20180054453 A KR20180054453 A KR 20180054453A KR 1020170148159 A KR1020170148159 A KR 1020170148159A KR 20170148159 A KR20170148159 A KR 20170148159A KR 20180054453 A KR20180054453 A KR 20180054453A
Authority
KR
South Korea
Prior art keywords
video sequence
motion
interest
motion recognition
image frames
Prior art date
Application number
KR1020170148159A
Other languages
English (en)
Other versions
KR102156818B1 (ko
Inventor
니클라스 다니엘쏜
시몬 몰린
Original Assignee
엑시스 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엑시스 에이비 filed Critical 엑시스 에이비
Publication of KR20180054453A publication Critical patent/KR20180054453A/ko
Application granted granted Critical
Publication of KR102156818B1 publication Critical patent/KR102156818B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06K9/00771
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)

Abstract

본 발명은 비디오 시퀀스에서 동작 인식을 위한 시스템에 관한 것이다. 상기 시스템은 상기 비디오 시퀀스를 캡처하도록 구성된 카메라(100) 및 동작 인식을 수행하도록 구성된 서버(200)를 포함한다. 상기 카메라는, 상기 비디오 시퀀스의 객체 이미지 프레임에서 관심 객체를 식별하도록 구성된 객체 식별자(124)와; 상기 객체 이미지 프레임에 제1 동작 인식 알고리즘을 적용하여 동작 후보의 존재를 검출하도록 구성된 동작 후보 인식기(126)와; 상기 비디오 시퀀스로부터 복수의 이미지 프레임들에 관한 비디오 데이터를 추출함으로써 동작 비디오 시퀀스의 동작 이미지 프레임들을 생성하도록 구성된 비디오 추출기(127) - 상기 비디오 데이터가 추출되는 상기 복수의 이미지 프레임들 중 하나 이상은 상기 관심 객체를 포함하며 - 와; 그리고 상기 동작 비디오 시퀀스를 상기 서버로 전송하도록 구성된 네트워크 인터페이스(130)를 포함한다. 상기 서버는, 제2 동작 인식 알고리즘을 상기 동작 비디오 시퀀스에 적용하여, 상기 동작 후보가 동작임을 확인 또는 거부하는 동작 검증기(210)를 포함한다. 또한, 비디오 시퀀스에서 동작 인식을 위한 방법이 제시된다.

Description

비디오 시퀀스에서 동작 인식{ACTION RECOGNITION IN A VIDEO SEQUENCE}
본 발명은 비디오 시퀀스에서 동작 인식에 관한 것이다.
비디오 시퀀스의 동작 인식은 비디오 시퀀스에서 미리 정의된 특정 동작들을 검출하는 작업이다. 검출될 동작의 예들은, 예를 들어, 싸우는 것, 달리기, 먹기, 스포츠 게임하는 것일 수 있다. 동작 인식은 일반적으로 비디오 시퀀스를 캡처하는 디지털 비디오 카메라에서 수행하기에는 부적합할 수 있는 과도한 프로세싱 능력을 요구한다. 대신, 동작 인식은 통상적으로 필요한 프로세싱 능력을 가진 서버에 의해 수행된다. 하지만, 디지털 네트워크들을 통해 많은 양의 비디오를 전송하는 것은 다수의 대역폭을 요구한다.
따라서, 비디오 시퀀스에서 동작 인식을 향상시킬 필요가 있다.
상기를 고려하여, 본 발명의 목적은 비디오 시퀀스에서 개선된 동작 인식을 제공하는 것이다.
제1 양상에 따라, 카메라에 의해 캡처된 비디오 시퀀스에서의 동작 인식을 위한 방법이 제공된다. 상기 방법은, 상기 카메라의 회로에 의해, 상기 비디오 시퀀스의 객체 이미지 프레임에서 관심 객체를 식별하는 단계와; 상기 객체 이미지 프레임에 제1 동작 인식 알고리즘을 적용하여 동작 후보의 존재를 검출하는 단계와; 상기 비디오 시퀀스로부터 복수의 이미지 프레임들에 관한 비디오 데이터를 추출함으로써 동작 비디오 시퀀스의 동작 이미지 프레임들을 생성하는 단계 - 상기 비디오 데이터가 추출되는 상기 복수의 이미지 프레임들 중 하나 이상은 상기 관심 객체를 포함하며 - 와; 그리고 동작 인식을 수행하는 서버로 상기 동작 비디오 시퀀스를 전송하는 단계를 포함하고, 상기 방법은, 상기 서버의 회로에 의해, 제2 동작 인식 알고리즘을 상기 동작 비디오 시퀀스에 적용하여, 상기 동작 후보가 미리 정의된 유형의 동작임을 확인 또는 거부하는 단계를 포함한다.
동작 인식에 대한 본 방법은, 카메라와 서버 간의 통신에서 지나치게 많은 대역폭을 차지하는 문제없이 동작 인식을 위해 필요한 프로세싱 전력이 2개의 상이한 디바이스들에 분산되도록하기 때문에 바람직하다. 또한, 동작 인식에서의 본 방법은, 서버에 전체 비디오 시퀀스를 끊임없이 스트리밍할 필요없이 동시에 카메라의 프로세서를 너무 많이 로딩하지 않으면서 프로세서 집중 동작 인식을 수행하는 것을 가능하게 한다. 따라서, 본 방법은 카메라상에서 국부적으로 제1 유형의 동작 인식 알고리즘을 요구하는 프로세싱을 적게 사용하고, 서버상에서 제2 유형의 동작 인식 알고리즘을 요구하는 프로세싱을 보다 많이 사용하게 한다. 연속적인 비디오 스트림이 아닌 동작 비디오 시퀀스만을 추출하여 전송함으로써 대역폭이 절약될 수 있다. 동작 인식에서의 본 방법에 따르면, 후보 동작은 카메라에서 검출될 수 있다. 후보 동작은 동작 비디오 시퀀스를 서버로 전달하는 것을 야기하며, 여기서 더 진보된 동작 인식 분석이 수행된다. 따라서, 카메라상의 동작 인식의 목적은 동작 후보들의 검출을 야기하는 것이다. 동작 후보의 검출은 추가 분석을 위해 서버로 동작 비디오 시퀀스를 전송하도록 초래하고, 동작 후보를 실제 동작으로 확인 또는 거부한다.
상기 제1 동작 인식 알고리즘은 주로 객체 이미지 프레임에서 콘텍스트 및/또는 공간 정보를 사용하는 콘텍스트 및/또는 공간 동작 인식 알고리즘에 기초할 수 있다. 콘텍스트 및/또는 공간 동작 인식 알고리즘은 일반적으로 프로세싱 전력을 그다지 많이 요구하지 않는다. 따라서, 이러한 종류의 알고리즘들을 사용하는 동작 인식은 카메라에서 로컬적으로 보다 쉽게 수행할 수 있다.
상기 제2 동작 인식 알고리즘은 주로 상기 동작 비디오 시퀀스의 복수의 이미지 프레임들의 시간 정보를 이용하는 시간 동작 인식 알고리즘에 기초할 수 있다. 시간 동작 인식 알고리즘들은 통상적으로 동작을 인식할 때 더 정확하다. 따라서, 더 정확한 동작 인식이 수행될 수 있다.
상기 동작 이미지 프레임들을 생성하는 단계는, 상기 관심 객체를 포함하는 상기 동작 이미지 프레임들이 상기 관심 객체의 적어도 일부를 포함하도록 상기 비디오 시퀀스의 복수의 이미지 프레임들을 크로핑(cropping)하는 단계를 포함할 수 있다. 이는, 카메라와 서버간의 대역폭을 절약할 수 있다.
상기 동작 이미지 프레임들을 생성하는 단계는, 상기 관심 객체를 포함하는 상기 동작 이미지 프레임들은 상기 관심 객체를 적어도 부분적으로 둘러싸는 배경의 일 부분을 포함하도록 상기 비디오 시퀀스의 복수의 이미지 프레임들을 크로핑하는 단계를 포함할 수 있다. 상기 관심 객체를 적어도 부분적으로 둘러싸는 배경을 포함시킴으로써, 상기 동작 비디오 시퀀스의 시간적 분석뿐만 아니라 문맥적 분석 및/또는 공간적 분석이 수행될 수 있다.
상기 동작 비디오 시퀀스를 전송하는 단계는 상기 동작 비디오 시퀀스 내의 좌표들을 상기 관심 객체로 전송하는 단계를 포함할 수 있다. 상기 좌표들은, 관심 객체를 포함하는 그리고/또는 각각의 이미지 프레임에서 관심 객체가 위치되는 이미지 프레임 또는 이미지 프레임들을 참조할 수 있다.
상기 방법은, 상기 카메라의 회로에 의해, 상기 비디오 시퀀스에서 관심 객체를 검출하는 단계를 더 포함할 수 있다. 상기 동작 이미지 프레임들을 생성하는 단계는, 상기 관심 객체의 검출 이전의 시점에 관련된 상기 비디오 시퀀스의 제1 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하는 단계를 포함할 수 있다. 상기 동작 이미지 프레임들을 생성하는 단계는, 상기 관심 객체의 검출 이후의 시점에 관련된 상기 비디오 시퀀스의 제2 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하는 단계를 포함할 수 있다. 이를 통해, 서버에서 동작을 인식할 수 있는 올바른 임시 창을 서버로 보낼 수 있는 가능성을 높일 수 있다.
상기 카메라 및 서버는, 서로 거리를 두고 위치되는 별도의 물리적 개체일 수 있다. 상기 카메라 및 상기 서버는, 디지털 네트워크를 통해 서로 통신하도록 구성될 수 있다.
제2 양상에 따라, 비디오 시퀀스에서 동작 인식을 위한 시스템이 제공된다. 상기 시스템은, 상기 비디오 시퀀스를 캡처하는 카메라 및 동작 인식을 수행하는 서버를 포함한다. 상기 카메라는, 상기 비디오 시퀀스의 객체 이미지 프레임에서 관심 객체를 식별하는 객체 식별자와; 상기 객체 이미지 프레임에 제1 동작 인식 알고리즘을 적용하여 동작 후보의 존재를 검출하는 동작 후보 인식기와; 상기 비디오 시퀀스로부터 복수의 이미지 프레임들에 관한 비디오 데이터를 추출함으로써 동작 비디오 시퀀스의 동작 이미지 프레임들을 생성하는 비디오 추출기 - 상기 비디오 데이터가 추출되는 상기 복수의 이미지 프레임들 중 하나 이상은 상기 관심 객체를 포함하며 - 와; 그리고 상기 동작 비디오 시퀀스를 상기 서버로 전송하는 네트워크 인터페이스를 포함한다. 상기 서버는, 제2 동작 인식 알고리즘을 상기 동작 비디오 시퀀스에 적용하여, 상기 동작 후보가 미리 정의된 유형의 동작임을 확인 또는 거부하는 동작 검증기를 포함한다.
상기 비디오 추출기는, 또한, 상기 관심 객체를 포함하는 상기 동작 이미지 프레임들이 상기 관심 객체의 적어도 일부를 포함하도록 상기 비디오 시퀀스의 복수의 이미지 프레임들을 크로핑하도록 구성될 수 있다.
상기 비디오 추출기는, 또한, 상기 관심 객체를 포함하는 상기 동작 이미지 프레임들은 상기 관심 객체를 적어도 부분적으로 둘러싸는 배경의 일 부분을 포함하도록 상기 비디오 시퀀스의 복수의 이미지 프레임들을 크로핑하도록 구성될 수 있다.
상기 객체 식별자는, 또한, 상기 비디오 시퀀스에서 관심 객체를 검출하도록 구성될 수 있다. 상기 비디오 추출기는, 또한, 상기 관심 객체의 검출 이전의 시점에 관련된 상기 비디오 시퀀스의 제1 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하도록 구성될 수 있다. 상기 비디오 추출기는, 또한, 상기 관심 객체의 검출 이후의 시점에 관련된 상기 비디오 시퀀스의 제2 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하도록 구성될 수 있다.
적용 가능한 경우 상기에서 언급한 방법의 피처들은 이 두 번째 양상에도 적용된다. 과도한 반복을 피하기 위해 위의 내용을 참조할 수 있다.
본 발명의 또 다른 적용 범위는 이하의 상세한 설명으로부터 명백해질 것이다. 하지만, 본 발명의 범위 내의 다양한 변경들 및 수정들이 이 상세한 설명으로부터 통상의 기술자에게 명백해질 것이기 때문에, 본 발명의 바람직한 실시예를 나타내는 상세한 설명 및 특정예들은 단지 예시로서 주어진 것임을 이해해야 한다.
따라서, 상기 서술된 디바이스 및 방법이 변할 수 있기 때문에, 본 발명은, 상기 서술된 디바이스의 특정 컴포넌트 부분들 또는 서술된 방법들의 단계들로 제한되지 않음이 이해되어야 한다. 또한, 여기에서 사용된 용어는 특정 실시예들을 설명하기 위한 것일 뿐이며, 제한하도록 의도되지는 않음을 알아야 한다. 명세서 및 첨부된 청구 범위에서 사용되는 바와 같이, 용어 "하나의" 및 "상기"는, 문맥에서 명확하게 다르게 나타내지 않으면, 하나 이상의 요소들이 존재함을 의도한다고 이해해야 한다. 따라서, 예를 들어, "하나의 유닛" 또는 "상기 유닛"에 대한 언급은 다수의 디바이스들을 포함할 수 있다. 또한, 단어 "포함하는" 및 유사한 의미의 단어들은 다른 요소들 또는 단계들을 배제하지 않는다.
본 발명의 상기 양상 및 다른 양상은 본 발명의 실시예들을 도시하는 첨부 된 도면들을 참조하여 보다 상세히 설명될 것이다. 도면들은 본 발명을 특정 실시 예로 제한하는 것으로 고려되어서는 안된다. 대신에, 도면들은 발명을 설명하고 이해하기 위해 사용된다.
도면들에 도시된 바와 같이, 층들 및 영역들의 크기들은 설명의 목적으로 과장되어 있으며, 따라서 본 발명의 실시예들의 일반적인 구조들을 예시하기 위해 제공된다. 동일한 도면 부호들은 동일한 요소들을 지칭한다.
도 1은 비디오 시퀀스에서 동작 인식을 위한 시스템을 도시한다.
도 2는 비디오 시퀀스에서 동작 인식 방법의 블록도이다.
본 발명은, 본 발명의 현재 바람직한 실시예들이 도시되는 첨부된 도면들을 참조하여 이하에서 상세하게 설명될 것이다. 그러나, 본 발명은 많은 상이한 형태들로 구체화될 수 있으며, 여기에 설명된 실시예들에 한정되는 것으로 해석되어서는 안된다. 오히려, 이들 실시예들은 완성도를 위해 제공되며, 본 발명의 범위를 당업자에게 충분하게 전달하기 위해 제공된다.
도 1은 비디오 시퀀스에서 동작 인식을 위한 시스템을 도시한다. 이 시스템은 디지털 네트워크 카메라(100) 및 서버(200)를 포함한다. 디지털 네트워크 카메라(100)는 디지털 네트워크(300)를 통해 서버(200)에 접속된다. 디지털 네트워크 카메라(100)와 서버(200)는 서로 떨어져 있는 개별적인 물리적 개체들로서, 디지털 네트워크(300)를 통해 서로 통신하도록 구성된다.
디지털 네트워크(300)는, 디바이스들, 예를 들어, 디지털 네트워크 카메라(100) 및 서버(200)가 접속되어 디지털 데이터를 교환하도록 하는 네트워크에 관한 것이다. 디지털 네트워크(300)에 접속된 디바이스들 간의 접속들은 케이블들 또는 무선을 사용하여 설립된다. 디지털 네트워크들의 비-제한적 예들은 인터넷, 인트라넷, 로컬 영역 네트워크 및 셀룰러 네트워크이다. 디지털 네트워크의 일부들은 사설 디지털 네트워크일 수 있다. 디지털 네트워크의 일부들은 공용 디지털 네트워크일 수 있다. 사설 디지털 네트워크는 네트워크 액세스 제한 디바이스(도시되지 않음)에 의해 공용 디지털 네트워크에 접속될 수 있다. 네트워크 액세스 제한 디바이스는 사설 디지털 네트워크를 보호하기 위해 설치된 방화벽 일 수 있다. 네트워크 액세스 제한 디바이스는 NAT(Network Address Translation)를 수행하는 디바이스일 수 있다.
디지털 네트워크 카메라(100)는 장면을 묘사하는 비디오 시퀀스를 캡처하도록 구성된다. 디지털 네트워크 카메라(100)는 하우징(112), 렌즈(114) 및 회로(102)를 포함한다. 디지털 네트워크 카메라(100)는 비디오 시퀀스를 캡처 및 프로세싱(그리고 가능하게는 저장)하도록 구성된다. 회로(102)는 이미지 센서(116), 이미지 프로세싱 유닛(118), 객체 식별자(124), 동작 후보 인식기(126), 비디오 추출기(127) 및 네트워크 인터페이스(130)를 포함한다. 회로(102)는 중앙 처리 유닛(CPU)(120), 디지털 데이터 저장 매체(메모리)(122) 및 인코딩 유닛(128) 중 하나 이상을 더 포함할 수 있다. 이미지 프로세싱 유닛(118), 객체 식별자(124), 동작 후보 인식기(126), 비디오 추출기(127) 및/또는 인코딩 유닛(128) 중 임의의 하나는 전용 하드웨어 회로 및/또는 소프트웨어 모듈로서 구현될 수 있다. 소프트웨어로 구현되는 경우, 소프트웨어는 CPU(120)상에서 실행될 수 있다. CPU(120)는 디지털 데이터 프로세싱을 수행하기 위한 임의의 적합한 CPU일 수 있다. 또한, 임의의 전용 하드웨어 회로는 부분적으로 전용 프로세서 또는 CPU(120) 상에서 실행되는 소프트웨어 부분들을 포함할 수 있음을 알아야 한다.
메모리(122)는 임의의 종류의 휘발성 또는 비-휘발성 메모리 일 수 있다. 또한, 메모리(122)는 복수의 메모리 유닛들을 포함할 수 있다. 복수의 메모리 유닛들 중 적어도 하나는, 예를 들어, 비디오 시퀀스의 콘텐트를 프로세싱하는 동안 데이터를 버퍼링하기 위한 버퍼 메모리로서 사용될 수 있다.
디지털 네트워크 카메라(100)는 네트워크 인터페이스(130)를 통해 디지털 네트워크(300)에 접속되도록 구성된다. 디지털 네트워크에 대한 접속은 유선 또는 무선일 수 있다. 따라서, 네트워크 인터페이스(130)는 이더넷 포트와 같은 10/100/1000 Mbps 데이터 트래픽에 적합한 네트워크 포트일 수 있고, 예를 들어, RJ45 커넥터와 같은 모듈러 커넥터를 수신하도록 구성된 모듈 포트일 수 있다. 일반적으로, 이러한 RJ45 커넥터 포트는 (예를 들어, cat 5, cat 5e 또는 cat 6의) 트위스트 페어 케이블과 같은 네트워크 케이블을 수신하도록 구성된다. 대안으로, 네트워크 포트의 I/O 수단은 모바일 인터넷 통신 표준(예를 들어, 1G, 2G, 2.5G, 2.75G, 3G, 3.5G, 3.75G, 3.9G, 4G, 5G)을 사용하는 또는 WiFi를 사용하는 무선 I/O 수단일 수 있다.
카메라 컴포넌트들, 즉, 렌즈(114) 및 이미지 센서(116)는 미가공 이미지들(raw images)을 캡처하도록 구성될 수 있고, 각각의 미가공 이미지는 상이한 파장들의 광으로 기술될 수 있고 그리고 상이한 객체들 및 객체들의 부분들로부터 기원할 수 있다. 그 후, 이러한 미가공 이미지들은 아날로그 포맷으로부터 디지털 포맷으로 변환되어 이미지 프로세싱 유닛(118)으로 전송된다. 이러한 실시예에 따르면, 디지털 네트워크 카메라(100)는 사진 이미지들을 캡처하도록 구성된 카메라이다. 대안으로 또는 조합하여, 디지털 네트워크 카메라(100)의 이미지 센서(116)는 열 이미지(thermal image)들을 캡처하도록 구성될 수 있다. 또한, 대안적으로 또는 조합하여, 디지털 네트워크 카메라(100)의 이미지 센서(116)는 레이더 이미지들을 캡처하도록 구성될 수 있다. 따라서, 디지털 네트워크 카메라(100)에 의해 캡처된 비디오 시퀀스는 사진 이미지들의 표현, 열 이미지들의 표현, 레이더 이미지들의 표현 또는 이들의 조합일 수 있다.
객체 식별자(124)는 카메라(100)에 의해 캡처된 비디오 시퀀스에서 관심 객체들을 검출하도록 구성된다. 관심 객체는, 예를 들어, 인간, 얼굴, 차량, 컨베이어 밴드 상의 제품, 동물, 지형 컴포넌트들, 무기일 수 있다. 객체 식별자(124)는 또한 검출된 관심 객체들을 분류하도록 구성될 수 있다. 관심 객체는, 예를 들어, 특정 유형의 객체에 속하는 것으로 분류될 수 있다. 특정 유형의 객체들의 예들은 인간들, 얼굴들, 차량들, 특정 유형의 제품들이 있다. 객체 식별자(124)는, 또한, 관심 객체가 처음 검출된 비디오 시퀀스에서의 시점을 식별하도록 구성될 수 있다. 이와 관련하여, 메모리(122)는 미리 결정된 수의 이미지 프레임들을 저장하도록 구성된 이미지 프레임 버퍼로서 더 사용될 수 있다. 따라서, 먼저 검출된 관심 객체에서의 비디오 시퀀스에서 시점 이전의 이미지 프레임들을 나타내는 이미지 프레임들은, 이미지 프레임 버퍼로서 동작하는 메모리(122)에 저장될 수 있다.
객체 식별자(124)는 또한 비디오 시퀀스의 하나 이상의 이미지 프레임들에서 관심 객체를 식별하도록 구성되며, 관심 객체가 식별된 이미지 프레임은 여기서 객체 이미지 프레임이라 언급될 것이다.
비디오 시퀀스에서 동작 인식은 비디오 시퀀스에서 하나 이상의 미리 정의 된 유형들의 동작들을 검색하는 작업이다. 미리 정의된 유형들의 동작들의 예로는 싸우기, 달리기, 먹기, 특정 게임하기 등이 있다. 미리 정의된 유형들의 동작들의 다른 예는, 음주 운전 탐지, 점프 탐지, 분노 탐지, 미소 감지, 수신호 감지, 낙하 감지, 정체 감지, 보행 감지, 위협 행동 감지, 의심스러운 행동 감지(예를 들어, 비정상적인 행동의 감지)들이다.
동작 인식은 정지 이미지 문맥 및/또는 공간 분석 또는 시간 분석(또는 이들의 조합)에 의해 수행될 수 있다. 문맥 및/또는 공간 동작 인식 알고리즘들은 정지 이미지들, 예를 들어, 비디오 시퀀스의 단일 이미지 프레임 상에서 수행된다. 시간 동작 인식 알고리즘들은 비디오 시퀀스의 복수의 이미지 프레임들에 대해 수행된다.
문맥적 동작 인식 알고리즘의 예는, Georgia Gkioxari, Ross Girshick 및 Jitendra Malik에 의해 "R*CNN과의 문맥 액션 인식"에서 공개되었다; arXiv : 1505.01197. 동작 인식 알고리즘들의 추가 예들로서, 문맥 및/또는 공간 동작 인식 알고리즘들 및 시간 동작 인식 알고리즘들은, 예를 들어, CN102855462, CN103106394, 및 Karen Simonyan 및 Andrew Zisserman에 의한 "비디오들에서 동작 인식을 위한 2-스트림 컨볼루션 네트워크들"에서 기술된다; arXiv : 1406.2199.
따라서, 동작 인식에는 두 가지 주요 접근법들; 정지 이미지 문맥 및/또는 공간 분석 및 시간 분석을 가진다. 가장 유망한 접근법들은 시간 분석을 기본 동작 인식 알고리즘으로 사용하지만, 정지 이미지 접근법들은 일부 경우들에서 상당히 잘 작동한다. 하지만, 시간적 동작 인식은 어렵고 그리고, 예를 들어, 순환 신경망들을 사용하는 프로세싱 집약적인 알고리즘들을 포함한다. 이는, 그와 같은 시간 동작 인식 알고리즘들이 디지털 네트워크 카메라(100)와 같은 내장형 디바이스들 상에서 수행 되기에는 부적합하게 만든다.
본 발명은 문맥 및/또는 공간 동작 인식 알고리즘들 사이의 시너지들을 사용하는 것에 관한 것으로, 종종 집중적으로 합리적인 처리를 하고, 프로세싱 집약적인 시간 동작 인식 알고리즘들을 사용한다. 제1 동작 인식 알고리즘은 동작 후보들을 찾기 위해 디지털 네트워크 카메라(100)상에서 실행되고, 그리고 제2 동작 인식 알고리즘은 동작 후보가 실제 동작인 것을 확인 또는 거부하기 위해 서버(200)상에서 실행된다. 제2 동작 인식 알고리즘은 제1 동작 인식 알고리즘보다 많은 프로세싱을 요구한다. 제1 동작 인식 알고리즘은 주로 문맥 및/또는 공간 동작 인식에 기초한다. 비-제한적인 예로서, 제1 동작 인식 알고리즘은 단지 문맥 및/또는 공간 동작 인식 알고리즘에 기초할 수 있다. 제2 동작 인식 알고리즘은 주로 시간 동작 인식에 기초한다. 하지만, 제2 동작 인식 알고리즘은 문맥 및/또는 공간 동작 인식의 요소들을 포함할 수 있다.
동작 후보 인식기(126)는 객체 식별자(124)에 의해 식별된 객체 이미지 프레임들 중 적어도 하나에 제1 동작 인식 알고리즘을 적용하도록 구성된다. 제1 동작 인식 알고리즘을 적용함으로써, 동작 후보의 존재가 검출된다. 동작 후보 인식기(126)에 의해 수행되는 제1 동작 인식 알고리즘 분석은 동작 유형을 검출할 필요가 없다. 단지 일반 동작 후보들만 검색하면 된다. 하지만, 제1 동작 인식 알고리즘은 상이한 유형들의 동작들을 필터링하도록 구성될 수 있다. 따라서, 제1 동작 인식 알고리즘을 적용함으로써, 미리결정된 유형의 동작의 동작 후보의 존재가 검출될 수 있다.
제1 동작 인식 알고리즘을 적용함으로써, 동작 후보 인식기(126)는 동작을 나타낼 가능성이 있는 비정상적인 포즈들을 검출하도록 구성될 수 있다. 그 결과, 동작을 위한 동작 후보자를 찾는다. 또한, 동작 후보 인식기(126)는 미리 정의된 유형의 동작에 대한 동작 후보를 찾기 위해 검출된 포즈들을 필터링하도록 구성될 수 있다. 제1 동작 인식 알고리즘은 상대적으로 가벼운 알고리즘이다. 거짓 긍정들이 어느 정도 허용된다. 동작 후보자의 검출은 제2 동작 인식 알고리즘을 사용하는 보다 진보된 동작 인식 분석을 동기로 삼는다. 따라서, 동작 후보 인식기(126)는, 본 명세서에서 언급되는 바와 같이, 가능성 있는 동작 제안들 또는 동작 후보들을 야기하도록 구성된다.
동작 후보를 검출하는 것은, 동작 비디오 시퀀스에 제2 동작 인식 알고리즘을 적용함으로써 동작 후보가 실제 동작인지 여부를 결정하기 위해, 동작 후보를 포함하는 비디오 시퀀스의 일부인 동작 비디오 시퀀스를 서버(200)에 송신하는 것을 야기한다.
비디오 추출기(127)는 동작 비디오 시퀀스의 동작 이미지 프레임들을 생성하도록 구성된다. 동작 비디오 시퀀스는 동작 후보를 포함하는 비디오 시퀀스의 일부이다. 동작 비디오 시퀀스는 비디오 시퀀스와 동일한 프레임 레이트를 가질 수 있다. 동작 비디오 시퀀스는 비디오 시퀀스의 프레임 레이트보다 작은 프레임 레이트를 가질 수 있다. 즉, 동작 비디오 시퀀스는 비디오 시퀀스보다 작은 초당 프레임들 수(fps)를 갖는 프레임 레이트를 갖는다. 예를 들어, 비디오 시퀀스의 프레임 레이트는 60fps일 수 있고, 동작 비디오 시퀀스의 프레임 레이트는 30fps일 수 있다.
여기에서, 동작 이미지 프레임들이라고 불리는 동작 비디오 시퀀스의 이미지 프레임들은 비디오 시퀀스로부터의 복수의 이미지 프레임들에 관한 비디오 데이터를 추출함으로써 생성된다. 비디오 추출기(127)는, 비디오 데이터가 추출되는 하나 이상의 복수의 이미지 프레임들이 관심 객체를 포함하도록 구성된다. 따라서, 복수의 동작 이미지 프레임들 중 적어도 하나 이상은 객체 이미지 프레임(들)이다.
또한, 비디오 추출기(127)는, 관심이 있는 객체가 검출된 비디오 시퀀스에서 식별된 시점 이전의 시점과 관련된 비디오 시퀀스의 제1 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하도록 구성될 수 있다. 그러므로, 비디오 시퀀스의 이미지 프레임들은 동작 비디오 시퀀스에서 나중에 사용하기 위해 메모리 (122)에서 캐싱될 수 있다. 이는, 제1 동작 인식 알고리즘의 실행을 야기하는 관심 객체를 포함하는 객체 이미지 프레임 및 동작 비디오 시퀀스에 포함될 객체 이미지 프레임에 선행하는 이미지 프레임(들) 모두를 포함할 수 있게 한다. 이것은, 동작 비디오 시퀀스의 시간 윈도우가 관심 객체에 의해 수행되는 동작에 관한 모든 관련 정보를 포함할 가능성을 향상시킨다. 비-제한적인 예로서, 제1 미리결정된 수의 이미지 프레임들은, 관심 객체의 유형 또는 동작 후보의 동작의 유형 중 하나 이상에 따라 설정될 수 있다. 더욱이, 추가의 비-제한적인 예로서, 객체 및 가능하게는 그 주변의 모션 분석은 어떤 이전의 이미지 프레임들에서 동작 후보가 시작되었는지를 나타내기 위해 사용될 수 있다. 이를 통해, 비교적 큰 프리버퍼(prebuffer)로부터, 실제로 제2 동작 인식에 관련될 가능성이 있는 이미지 프레임들만을 추출할 수 있게 된다. 따라서, 제1 미리결정된 수의 이미지 프레임들이 동적으로 설정될 수 있다.
또한, 비디오 추출기(127)는, 관심이 있는 객체가 검출된 비디오 시퀀스에서 식별된 시점 이후의 시점과 관련된 비디오 시퀀스의 제2 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하도록 구성될 수 있다. 이는, 제1 동작 인식 알고리즘의 실행을 야기하는 관심 객체를 포함하는 객체 이미지 프레임 및 동작 비디오 시퀀스에 포함될 객체 이미지 프레임에 후속하는 이미지 프레임(들) 모두를 포함하게 한다. 이것은, 동작 비디오 시퀀스의 시간 윈도우가 관심 객체에 의해 수행되는 동작에 관한 모든 관련 정보를 포함할 가능성을 향상시킨다. 제2 미리결정된 수의 이미지 프레임들은 관심 객체의 유형 또는 동작 후보의 동작 유형 중 하나 이상에 따라 설정될 수 있다. 더욱이, 추가의 비-제한적인 예로서, 객체 및 가능하게는 객체 주변들의 모션 분석은 어떤 이미지 프레임에서 동작 후보가 종료되었는지를 나타내기 위해 사용될 수 있다. 이를 통해, 실제로 제2 동작 인식에 관련될 가능성이 있는 이미지 프레임들만을 추출할 수 있게 된다. 따라서, 제2 미리결정된 수의 이미지 프레임들이 동적으로 설정될 수 있다.
비디오 추출기(127)는, 또한, 관심 객체에 대해 동작 비디오 시퀀스 내의 좌표들에 관한 정보를 추출하도록 구성될 수 있다. 좌표들은, 관심 객체를 포함하는 그리고/또는 각각의 이미지 프레임에서 관심 객체가 위치되는 이미지 프레임 또는 이미지 프레임들을 참조할 수 있다. 이러한 좌표들은 동작 비디오 시퀀스와 함께 서버로 전송될 수 있다.
비디오 추출기(127)는 또한 동작 이미지 프레임들을 생성할 때 복수의 이미지 프레임들의 비디오 데이터를 자르도록 구성될 수 있다. 관심 객체를 포함하는 동작 이미지 프레임들이 관심 객체의 적어도 일부를 포함하도록 복수의 이미지 프레임들의 비디오 데이터가 잘릴 수 있다. 더욱이, 관심 객체를 포함하는 동작 이미지 프레임들이 관심 객체를 적어도 부분적으로 둘러싸는 배경의 부분을 포함하도록 복수의 이미지 프레임들의 비디오 데이터가 잘릴 수 있다. 관심 객체를 적어도 부분적으로 둘러싸는 배경을 통합함으로써, 동작 비디오 시퀀스의 시간 분석뿐만 아니라 문맥 분석 및/또는 공간 분석이 수행될 수 있다.
인코딩 유닛(128)은 비디오 인코딩을 이용하여 비디오 시퀀스의 디지털 비디오 데이터를 인코딩하도록 구성된다. 비디오 인코딩의 비-제한적인 예들은 ISO/MPEG 또는 ITU-H.26X 계열의 비디오 인코딩 표준들이다. 인코딩 유닛(128)은 이후에 인코딩된 디지털 비디오 데이터로 지칭되는, 디지털 비디오 데이터의 이미지들을 인코딩하도록 구성된다. 인코딩된 디지털 비디오 데이터는 네트워크 인터페이스(130)를 거쳐 디지털 네트워크(300)를 통해 직접 전송될 수 있다. 대안으로, 인코딩된 디지털 비디오 데이터는, 디지털 네트워크(300)를 통해 네트워크 인터페이스(130)를 거쳐 추후 전송을 위해 메모리(122)에 저장될 수 있다. 인코딩 유닛(128)은, 동작 비디오 시퀀스가 서버(200)로 전송되기 전에 동작 비디오 시퀀스를 인코딩하도록 구성될 수 있다.
네트워크 인터페이스(130)는 동작 비디오 시퀀스를 서버(200)로 전송하도록 구성된다.
서버(200)는 동작 검증기(210)를 포함하는 회로(201)를 포함한다. 회로(201)는 네트워크 인터페이스(202), 디코딩 유닛(204), 중앙 처리 유닛(CPU)(206) 및 디지털 데이터 저장 매체(메모리)(208) 중 하나 이상을 더 포함할 수 있다. 디코딩 유닛(204) 및/또는 동작 검증기(210) 중 임의의 하나는 전용 하드웨어 회로 및/또는 소프트웨어 모듈로서 구현될 수 있다. 소프트웨어로 구현되는 경우, 소프트웨어는 CPU(206) 상에서 실행될 수 있다. CPU(206)는 디지털 데이터 프로세싱을 수행하기 위한 임의의 적합한 CPU일 수 있다. 임의의 전용 하드웨어 회로는 부분적으로 전용 프로세서 또는 CPU(206) 상에서 실행되는 소프트웨어 부분들을 포함할 수 있음에 유의해야 한다.
서버(200)는 네트워크 인터페이스(202)를 통해 디지털 네트워크(300)에 접속되도록 구성된다. 디지털 네트워크에 대한 접속은 유선 또는 무선일 수 있다. 따라서, 네트워크 인터페이스(202)는 이더넷 포트와 같은 10/100/1000 Mbps 데이터 트래픽에 적합한 네트워크 포트일 수 있고, 예를 들어, RJ45 커넥터와 같은 모듈러 커넥터를 수신하도록 구성된 모듈 포트일 수 있다. 일반적으로, 이러한 RJ45 커넥터 포트는 (예를 들어, cat 5, cat 5e 또는 cat 6의) 트위스트 페어 케이블과 같은 네트워크 케이블을 수신하도록 구성된다. 대안으로, 네트워크 포트의 I/O 수단은 모바일 인터넷 통신 표준(예를 들어, 1G, 2G, 2.5G, 2.75G, 3G, 3.5G, 3.75G, 3.9G, 4G, 5G)을 사용하는 또는 WiFi를 사용하는 무선 I/O 수단일 수 있다.
동작 비디오 시퀀스가 인코딩되는 경우, 디코딩 유닛(204)은 인코딩된 비디오 시퀀스를 디코딩하도록 구성된다. 따라서, 디코딩 유닛(204)은 비디오 디코딩을 사용하여 비디오 시퀀스의 디지털 비디오 데이터를 디코딩하도록 구성된다.
메모리(122)는 임의의 종류의 휘발성 또는 비-휘발성 메모리 일 수 있다. 또한, 메모리(122)는 복수의 메모리 유닛들을 포함할 수 있다. 복수의 메모리 유닛들 중 적어도 하나는, 예를 들어, 동작 비디오 시퀀스를 프로세싱하는 동안 데이터를 버퍼링하기 위한 버퍼 메모리로서 사용될 수 있다. 메모리(122)는 동작 비디오 시퀀스의 전체 또는 일부를 더 저장할 수 있다.
동작 검증기(210)는 제2 동작 인식 알고리즘을 동작 비디오 시퀀스에 적용하도록 구성된다. 따라서, 동작 후보가 실제 행동인 것으로 확인되거나 거절될 수 있다. 특히, 동작 후보가 미리 정의된 행동 유형의 행동임을 확인하거나 거절할 수 있다. 동작 검증기(210)에 의해 수행되는 동작 인식은 반드시 실시간으로 수행될 필요는 없다. 이것은 행동이 끊임없이 지속되는 것이 아니라 짧은 시간의 사건이기 때문에, 중요한 것은 특정 유형의 행동에 대한 알람이 발생되는 지를 결정하는 것이다.
도 2를 참조하면, 카메라(100)에 의해 캡처된 비디오 시퀀스에서의 동작 인식 방법이 도시된다. 상기 방법은, 카메라(100)의 회로(102)에 의해,
비디오 시퀀스의 객체 이미지 프레임에서 관심 객체를 식별하는 단계(S501)와;
제1 동작 인식 알고리즘을 객체 이미지 프레임에 적용(S502)하여 동작 후보의 존재를 검출하는 단계와;
비디오 시퀀스로부터 복수의 이미지 프레임들에 관한 비디오 데이터를 추출함으로써 동작 비디오 시퀀스의 동작 이미지 프레임들을 생성하는 단계(S504) - 상기 비디오 데이터가 추출되는 상기 복수의 이미지 프레임들 중 하나 이상은 상기 관심 객체를 포함하며 - 와; 그리고
상기 동작 비디오 시퀀스를 서버(200)로 전송하는 단계(S506)를 포함한다.
상기 방법은, 서버(200)의 회로(201)에 의해, 제2 동작 인식 알고리즘을 동작 비디오 시퀀스에 적용(S508)하여, 동작 후보가 미리 정의된 유형의 동작임을 확인 또는 거부하는 단계를 더 포함한다.
동작 이미지 프레임들을 생성하는 단계(S504)는, 관심 객체를 포함하는 동작 이미지 프레임들이 관심 객체의 적어도 일부를 포함하도록 비디오 시퀀스의 복수의 이미지 프레임들을 크로핑(cropping)하는 단계를 포함할 수 있다.
동작 이미지 프레임들을 생성하는 단계(S504)는, 관심 객체를 포함하는 동작 이미지 프레임들이 관심 객체를 적어도 부분적으로 둘러싸는 배경 부분을 포함하도록 비디오 시퀀스의 복수의 이미지 프레임들을 크로핑하는 단계를 포함할 수 있다.
동작 비디오 시퀀스를 전송하는 단계(S506)는 동작 비디오 시퀀스 내의 좌표들을 관심 객체로 전송하는 단계를 포함할 수 있다. 좌표들은, 어떤 이미지 프레임 또는 이미지 프레임들이 관심 객체를 포함하는지 그리고/또는 각각의 이미지 프레임에서 관심 객체가 어디에 위치하는지를 나타낼 수 있다.
상기 방법은, 카메라(100)의 회로(102)에 의해, 비디오 시퀀스에서 관심 객체를 검출하는 단계(S500)를 더 포함할 수 있다. 동작 이미지 프레임들을 생성하는 단계(S504)는, 관심 객체의 검출 이전의 시점과 관련된 비디오 시퀀스의 제1 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하는 단계를 포함할 수 있다. 동작 이미지 프레임들을 생성하는 단계(S504)는, 관심 객체의 검출 이후의 시점에 관련된 비디오 시퀀스의 제2 미리결정된 수의 이미지 프레임들에 관련된 비디오 데이터를 추출하는 단계를 포함할 수 있다.
통상의 기술자는, 본 발명이 결코 전술한 바람직한 실시예들에 제한되지 않는다는 것을 알 수 있다. 반대로, 첨부된 청구항의 범위 내에서 많은 수정들 및 변형들이 가능하다.
예를 들어, 동작 후보가 실제 동작인지를 검증한 후에, 서버(200)는 알람 트리거를 전송하도록 구성될 수 있다. 알람 트리거는, 추가적인 프로세싱을 위해 디지털 네트워크 카메라(100)로 전송될 수 있다. 예를 들어, 디지털 네트워크 카메라(100)는 알람 트리거를 수신한 후 카메라 설정을 변경하도록 구성될 수 있다. 변경될 수 있는 카메라 설정들의 비-제한적인 예들은, 프레임 레이트, 해상도, 광 감도, HDR로 전환, 표준 메시지로 카메라에 연결된 스피커 트리거, 관심 객체의 PTZ 추적 시작, 탐지된 객체의 개선된 외양의 모델의 트리거를 생성하여 여러 카메라들에서 추적하거나, 레이더 추적을 시작하거나, 열 모드로 전환하거나, 추가 동작 인식을 위한 임계 값을 변경하거나 관련 유형의 후속 작업을 확인하는 것이다(예를 들어, 사람이 넘어지면 "다시 일어나십시오(rise up again)"라는 행동을 검색하고 일정한 시간 내에 일어나지 않으면 알람을 울림).
대안으로 또는 조합하여, 알람 트리거는 비디오 관리 센터(VMS)로 전송될 수 있다. 알람 트리거는, 미리 정의된 유형의 동작이 발생했다는 통지들을 전송하기 위해 VMS에서 사용될 수 있다.
또한, 서버(200)는 다양한 유형들의 디바이스들로 구현될 수 있다. 서버(200)로서 구현되는 디바이스들의 비-제한적인 예들은, 전용 컴퓨터, 다른 카메라 디바이스, 비디오 관리 시스템, 클라우드 서버, 카메라 근처의 분석 박스, 액세스 제어 유닛, 컴퓨팅 성능을 갖는 IoT 장치이다. 또한, 서버 기능은 다른 디바이스들에 분산될 수 있다. 특히, 동작 검증기(210)의 경우에, 적어도 부분적으로는 복수의 프로세서들 상에서 실행되는 소프트웨어 코드 부분으로서 구현된다.
더욱이, 관심 객체는 비디오 시퀀스의 복수의 객체 이미지 프레임들에서 식별될 수 있다. 제1 동작 인식 알고리즘은 복수의 객체 이미지 프레임들 각각에 개별적으로 적용될 수 있다. 이후, 제1 동작 인식 알고리즘의 개별적인 애플리케이션의 결과는 동작 후보를 찾는 데 사용될 수 있다. 예를 들어, 복수의 이미지들의 개별 분석은 사람의 다리들이 항상 상이한 각도들에 있음을 개시할 수 있다. 이는 사람이 걷거나 달리는 것을 나타낼 수 있다. 이후, 동작 비디오 시퀀스의 동작 이미지 프레임들은 비디오 시퀀스로부터의 복수의 이미지 프레임들에 관한 비디오 데이터를 추출함으로써 생성되며, 비디오 데이터가 추출되는 하나 이상의 복수의 이미지 프레임들은 관심 객체를 포함한다.
추가적으로, 개시된 실시예들에 대한 변형들은, 도면들, 개시된 내용 및 첨부된 청구 범위의 연구로부터 청구된 발명을 실시하는 당업자에 의해 이해되고 영향을 받을 수 있다.

Claims (14)

  1. 카메라(100)에 의해 캡처된 비디오 시퀀스에서의 동작 인식을 위한 방법으로서,
    상기 방법은, 상기 카메라(100)의 회로(102)에 의해,
    상기 비디오 시퀀스의 이미지 프레임에서 관심 객체(object of interest)를 식별하는 단계와;
    상기 관심 객체가 식별된 상기 이미지 프레임에 제1 동작 인식 알고리즘을 적용하여 동작 후보의 존재를 검출하는 단계 - 상기 제1 동작 인식 알고리즘은 주로 비디오 시퀀스의 단일 이미지 프레임에서 콘텍스트 및/또는 공간 정보를 사용하는 정지 이미지 콘텍스트 및/또는 공간 동작 인식 알고리즘에 기초하고, 상기 단일 이미지 프레임은 상기 관심 객체를 포함하며 - 와;
    상기 비디오 시퀀스로부터 복수의 이미지 프레임들에 관한 비디오 데이터를 추출함으로써 동작 비디오 시퀀스의 이미지 프레임들을 생성하는 단계 - 상기 비디오 데이터가 추출되는 상기 복수의 이미지 프레임들 중 하나 이상은 상기 관심 객체를 포함하며 - 와; 그리고
    동작 인식을 수행하는 서버(200)로 상기 동작 비디오 시퀀스를 전송하는 단계를 포함하고,
    상기 방법은, 상기 서버의 회로(201)에 의해, 제2 동작 인식 알고리즘을 상기 동작 비디오 시퀀스에 적용하여, 상기 동작 후보가 미리 정의된 유형의 동작임을 확인 또는 거부하는 단계를 포함하는 것을 특징으로 하는
    동작 인식을 위한 방법.
  2. 제1항에 있어서,
    상기 제2 동작 인식 알고리즘은 주로 상기 동작 비디오 시퀀스의 복수의 이미지 프레임들의 시간 정보를 이용하는 시간 동작 인식 알고리즘에 기초하는 것을 특징으로 하는
    동작 인식을 위한 방법.
  3. 제1항에 있어서,
    상기 동작 비디오 시퀀스의 이미지 프레임들을 생성하는 단계는, 상기 관심 객체를 포함하는 상기 이미지 프레임들이 상기 관심 객체의 적어도 일부를 포함하도록 상기 비디오 시퀀스의 복수의 이미지 프레임들을 크로핑(cropping)하는 단계를 포함하는 것을 특징으로 하는
    동작 인식을 위한 방법.
  4. 제3항에 있어서,
    상기 관심 객체를 포함하는 상기 동작 비디오 시퀀스의 이미지 프레임들은 상기 관심 객체를 적어도 부분적으로 둘러싸는 배경의 일 부분을 포함하는 것을 특징으로 하는
    동작 인식을 위한 방법.
  5. 제1항에 있어서,
    상기 동작 비디오 시퀀스를 전송하는 단계는 상기 동작 비디오 시퀀스 내의 좌표들을 상기 관심 객체로 전송하는 단계를 포함하는 것을 특징으로 하는
    동작 인식을 위한 방법.
  6. 제1항에 있어서,
    상기 방법은, 상기 카메라의 회로에 의해,
    상기 비디오 시퀀스에서 관심 객체를 검출하는 단계를 더 포함하고,
    상기 동작 비디오 시퀀스의 이미지 프레임들을 생성하는 단계는, 상기 관심 객체의 검출 이전의 시점에 관련된 상기 비디오 시퀀스의 제1 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하는 단계를 포함하는 것을 특징으로 하는
    동작 인식을 위한 방법.
  7. 제1항에 있어서,
    상기 방법은, 상기 카메라의 회로에 의해,
    상기 비디오 시퀀스에서 관심 객체를 검출하는 단계를 더 포함하고,
    상기 동작 비디오 시퀀스의 이미지 프레임들을 생성하는 단계는 상기 관심 객체의 검출 이후의 시점에 관련된 상기 비디오 시퀀스의 제2 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하는 단계를 포함하는 것을 특징으로 하는
    동작 인식을 위한 방법.
  8. 제1항에 있어서,
    상기 카메라 및 상기 서버는, 서로 거리를 두고 위치되고 그리고 디지털 네트워크(300)를 통해 서로 통신하는 별개의 물리적 개체들인 것을 특징으로 하는
    동작 인식을 위한 방법.
  9. 비디오 시퀀스에서 동작 인식을 위한 시스템으로서,
    상기 비디오 시퀀스를 캡처하는 카메라(100) 및 동작 인식을 수행하는 서버(200)를 포함하고,
    상기 카메라는:
    상기 비디오 시퀀스의 이미지 프레임에서 관심 객체를 식별하는 객체 식별자(124)와;
    상기 관심 객체가 식별된 상기 이미지 프레임에 제1 동작 인식 알고리즘을 적용하여 동작 후보의 존재를 검출하는 동작 후보 인식기(126) - 상기 제1 동작 인식 알고리즘은 주로 상기 비디오 시퀀스의 단일 이미지 프레임에서 콘텍스트 및/또는 공간 정보를 사용하는 정지 이미지 콘텍스트 및/또는 공간 동작 인식 알고리즘에 기초하고, 상기 단일 이미지 프레임은 상기 관심 객체를 포함하며 - 와;
    상기 비디오 시퀀스로부터 복수의 이미지 프레임들에 관한 비디오 데이터를 추출함으로써 동작 비디오 시퀀스의 이미지 프레임들을 생성하는 비디오 추출기(127) - 상기 비디오 데이터가 추출되는 상기 복수의 이미지 프레임들 중 하나 이상은 상기 관심 객체를 포함하며 - 와; 그리고
    상기 동작 비디오 시퀀스를 상기 서버로 전송하는 네트워크 인터페이스(130)를 포함하고,
    상기 서버는:
    제2 동작 인식 알고리즘을 상기 동작 비디오 시퀀스에 적용하여, 상기 동작 후보가 미리 정의된 유형의 동작임을 확인 또는 거부하는 동작 검증기(210)를 포함하는 것을 특징으로 하는
    동작 인식을 위한 시스템.
  10. 제9항에 있어서,
    상기 비디오 추출기(127)는, 또한, 상기 관심 객체를 포함하는 상기 비디오 시퀀스의 이미지 프레임들이 상기 관심 객체의 적어도 일부를 포함하도록 상기 비디오 시퀀스의 복수의 이미지 프레임들을 크로핑하는 것을 특징으로 하는
    동작 인식을 위한 시스템.
  11. 제9항에 있어서,
    상기 비디오 추출기(127)는, 또한, 상기 관심 객체를 포함하는 상기 비디오 시퀀스의 이미지 프레임들이 상기 관심 객체를 적어도 부분적으로 둘러싸는 배경의 일 부분을 포함하도록 상기 비디오 시퀀스의 복수의 이미지 프레임들을 크로핑하는 것을 특징으로 하는
    동작 인식을 위한 시스템.
  12. 제9항에 있어서,
    상기 객체 식별자(124)는, 또한, 상기 비디오 시퀀스에서 관심 객체를 검출하고,
    상기 비디오 추출기(127)는, 또한, 상기 관심 객체의 검출 이전의 시점에 관련된 상기 비디오 시퀀스의 제1 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하는 것을 특징으로 하는
    동작 인식을 위한 시스템.
  13. 제9항에 있어서,
    상기 객체 식별자(124)는, 또한, 상기 비디오 시퀀스에서 관심 객체를 검출하고,
    상기 비디오 추출기(127)는, 또한, 상기 관심 객체의 검출 이후의 시점에 관련된 상기 비디오 시퀀스의 제2 미리결정된 수의 이미지 프레임들에 관한 비디오 데이터를 추출하는 것을 특징으로 하는
    동작 인식을 위한 시스템.
  14. 제9항에 있어서,
    상기 제2 동작 인식 알고리즘은 주로 상기 동작 비디오 시퀀스의 복수의 이미지 프레임들의 시간 정보를 이용하는 시간 동작 인식 알고리즘에 기초하는 것을 특징으로 하는
    동작 인식을 위한 시스템.
KR1020170148159A 2016-11-14 2017-11-08 비디오 시퀀스에서 동작 인식 KR102156818B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16198678.1 2016-11-14
EP16198678.1A EP3321844B1 (en) 2016-11-14 2016-11-14 Action recognition in a video sequence

Publications (2)

Publication Number Publication Date
KR20180054453A true KR20180054453A (ko) 2018-05-24
KR102156818B1 KR102156818B1 (ko) 2020-09-16

Family

ID=57326219

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170148159A KR102156818B1 (ko) 2016-11-14 2017-11-08 비디오 시퀀스에서 동작 인식

Country Status (6)

Country Link
US (1) US10691949B2 (ko)
EP (1) EP3321844B1 (ko)
JP (1) JP6963467B2 (ko)
KR (1) KR102156818B1 (ko)
CN (1) CN108073890B (ko)
TW (1) TWI706377B (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102343532B1 (ko) * 2020-08-19 2021-12-27 인핸드플러스 주식회사 약물 이행 유형을 고려한 약물 이행 여부 판단 방법 및 이를 이용하는 서버
US11405594B2 (en) 2018-04-30 2022-08-02 Inhandplus Inc. Method for detecting event of object by using wearable device and management server operating same
KR20230040708A (ko) 2021-09-16 2023-03-23 현대자동차주식회사 행위 인식 장치 및 방법
KR20230059879A (ko) 2021-10-25 2023-05-04 연세대학교 산학협력단 모방 학습을 이용한 실시간 비디오 동작 검출 장치 및 방법
US11647167B2 (en) 2019-05-07 2023-05-09 Inhandplus Inc. Wearable device for performing detection of events by using camera module and wireless communication device

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107820010B (zh) * 2017-11-17 2020-11-06 英业达科技有限公司 摄影计数装置
CN109344770B (zh) * 2018-09-30 2020-10-09 新华三大数据技术有限公司 资源分配方法及装置
GB2611949B (en) * 2018-10-01 2023-08-09 Digital Barriers Services Ltd Video surveillance and object recognition
GB2577689B (en) 2018-10-01 2023-03-22 Digital Barriers Services Ltd Video surveillance and object recognition
EP3667557B1 (en) * 2018-12-13 2021-06-16 Axis AB Method and device for tracking an object
CN111866575B (zh) * 2019-04-24 2022-02-01 北京力动科技有限公司 一种实时动作视频智能捕捉与反馈方法及系统
CN110362715B (zh) * 2019-06-28 2021-11-19 西安交通大学 一种基于图卷积网络的未剪辑视频动作时序定位方法
CN110633630B (zh) * 2019-08-05 2022-02-01 中国科学院深圳先进技术研究院 一种行为识别方法、装置及终端设备
US10997730B2 (en) 2019-08-21 2021-05-04 XNOR.ai, Inc. Detection of moment of perception
CN111062355A (zh) * 2019-12-25 2020-04-24 神思电子技术股份有限公司 一种人体动作识别方法
JP7355674B2 (ja) * 2020-02-18 2023-10-03 株式会社日立製作所 映像監視システムおよび映像監視方法
US20220083781A1 (en) * 2020-09-17 2022-03-17 Nec Laboratories America, Inc. Rule enabled compositional reasoning system
JP2024032618A (ja) * 2022-08-29 2024-03-12 富士通株式会社 異常送信プログラム、異常送信方法および情報処理装置
CN116071825B (zh) * 2023-01-31 2024-04-19 天翼爱音乐文化科技有限公司 一种动作行为识别方法、系统、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013093173A1 (en) * 2011-12-21 2013-06-27 Nokia Corporation A method, an apparatus and a computer software for context recognition
US9158974B1 (en) * 2014-07-07 2015-10-13 Google Inc. Method and system for motion vector-based video monitoring and event categorization

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999007153A1 (en) * 1997-07-31 1999-02-11 Reality Fusion, Inc. Systems and methods for software control through analysis and interpretation of video information
JP2002032766A (ja) * 2000-07-18 2002-01-31 Matsushita Electric Ind Co Ltd 画像認識装置及びその方法
JP2003216955A (ja) * 2002-01-23 2003-07-31 Sharp Corp ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
US20100002070A1 (en) * 2004-04-30 2010-01-07 Grandeye Ltd. Method and System of Simultaneously Displaying Multiple Views for Video Surveillance
US9318012B2 (en) * 2003-12-12 2016-04-19 Steve Gail Johnson Noise correcting patient fall risk state system and method for predicting patient falls
US8675059B2 (en) * 2010-07-29 2014-03-18 Careview Communications, Inc. System and method for using a video monitoring system to prevent and manage decubitus ulcers in patients
CN101563710B (zh) * 2006-05-22 2013-12-04 安讯士有限公司 识别由视频监视摄像机检测到的对象的特性的方法及装置
US8295597B1 (en) * 2007-03-14 2012-10-23 Videomining Corporation Method and system for segmenting people in a physical space based on automatic behavior analysis
US20170155877A1 (en) * 2008-05-06 2017-06-01 Careview Communications, Inc. System and method for predicting patient falls
US9195898B2 (en) * 2009-04-14 2015-11-24 Qualcomm Incorporated Systems and methods for image recognition using mobile devices
JP2011170856A (ja) * 2010-02-22 2011-09-01 Ailive Inc 複数の検出ストリームを用いたモーション認識用システム及び方法
TWI545947B (zh) * 2011-04-08 2016-08-11 南昌歐菲光電技術有限公司 具有影像擷取及分析模組之顯示裝置
US8643746B2 (en) * 2011-05-18 2014-02-04 Intellectual Ventures Fund 83 Llc Video summary including a particular person
US8665345B2 (en) * 2011-05-18 2014-03-04 Intellectual Ventures Fund 83 Llc Video summary including a feature of interest
CN102855462A (zh) 2011-07-01 2013-01-02 富士通株式会社 确定人体动作周期及识别人体动作的方法和装置
CN102855635A (zh) * 2011-07-01 2013-01-02 富士通株式会社 确定人体动作周期及识别人体动作的方法和装置
CN103106394A (zh) 2012-12-24 2013-05-15 厦门大学深圳研究院 一种视频监控中的人体行为识别方法
US10136119B2 (en) * 2013-01-10 2018-11-20 Qualcomm Incoporated View synthesis in 3D video
JP6171374B2 (ja) * 2013-02-06 2017-08-02 ソニー株式会社 情報処理装置、情報処理方法、プログラム、及び情報処理システム
JP5991224B2 (ja) * 2013-02-15 2016-09-14 オムロン株式会社 画像処理装置、画像処理方法、および画像処理プログラム
JP6115630B2 (ja) * 2013-03-19 2017-04-19 日本電気株式会社 処理装置、処理装置のデータ処理方法、およびプログラム
CN104112112A (zh) * 2013-04-19 2014-10-22 华为技术有限公司 识别动作的方法及其装置
EP2838268B1 (en) * 2013-07-31 2019-02-20 Axis AB Method, device and system for producing a merged digital video sequence
US9672728B2 (en) * 2014-04-07 2017-06-06 Google Inc. Smart hazard detector drills
US20160042621A1 (en) * 2014-06-13 2016-02-11 William Daylesford Hogg Video Motion Detection Method and Alert Management
CN104298974B (zh) * 2014-10-10 2018-03-09 北京工业大学 一种基于深度视频序列的人体行为识别方法
US10110858B2 (en) * 2015-02-06 2018-10-23 Conduent Business Services, Llc Computer-vision based process recognition of activity workflow of human performer
CN104766051B (zh) * 2015-03-20 2018-08-31 北京交通大学 基于结构化的特征图的人体行为识别方法
US10984355B2 (en) * 2015-04-17 2021-04-20 Xerox Corporation Employee task verification to video system
US10643442B2 (en) * 2015-06-05 2020-05-05 Withings Video monitoring system
US9626849B2 (en) * 2015-06-12 2017-04-18 Google Inc. Using scene information from a security camera to reduce false security alerts
CN204791482U (zh) * 2015-07-11 2015-11-18 新疆东正科技发展有限公司 视频监控设备检测管理无线传输报警系统
US10296793B2 (en) * 2016-04-06 2019-05-21 Nec Corporation Deep 3D attention long short-term memory for video-based action recognition
US10410086B2 (en) * 2017-05-30 2019-09-10 Google Llc Systems and methods of person recognition in video streams

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013093173A1 (en) * 2011-12-21 2013-06-27 Nokia Corporation A method, an apparatus and a computer software for context recognition
US9158974B1 (en) * 2014-07-07 2015-10-13 Google Inc. Method and system for motion vector-based video monitoring and event categorization

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11405594B2 (en) 2018-04-30 2022-08-02 Inhandplus Inc. Method for detecting event of object by using wearable device and management server operating same
US11695903B2 (en) 2018-04-30 2023-07-04 Inhandplus Inc. Method for detecting event of object by using wearable device and management server operating same
US11647167B2 (en) 2019-05-07 2023-05-09 Inhandplus Inc. Wearable device for performing detection of events by using camera module and wireless communication device
US11660048B2 (en) 2020-08-19 2023-05-30 Inhandplus Inc. Wearable device for medication adherence monitoring
US11304656B2 (en) 2020-08-19 2022-04-19 Inhandplus Inc. Wearable device for medication adherence monitoring
US11457862B2 (en) 2020-08-19 2022-10-04 Inhandplus Inc. Method for determining whether medication has been administered and server using same
WO2022039521A1 (en) * 2020-08-19 2022-02-24 Inhandplus Inc. Method for determining whether medication has been administered and server using same
KR102343532B1 (ko) * 2020-08-19 2021-12-27 인핸드플러스 주식회사 약물 이행 유형을 고려한 약물 이행 여부 판단 방법 및 이를 이용하는 서버
KR102344101B1 (ko) * 2020-08-19 2021-12-29 인핸드플러스 주식회사 약물 이행 여부를 판단하는 방법 및 이를 이용하는 서버
US11832962B2 (en) 2020-08-19 2023-12-05 Inhandplus Inc. Method for determining whether medication has been administered and server using same
US11950922B2 (en) 2020-08-19 2024-04-09 Inhandplus Inc. Wearable device for medication adherence monitoring
KR20230040708A (ko) 2021-09-16 2023-03-23 현대자동차주식회사 행위 인식 장치 및 방법
US11907771B2 (en) 2021-09-16 2024-02-20 Hyundai Motor Company Action recognition device and action recognition method
KR20230059879A (ko) 2021-10-25 2023-05-04 연세대학교 산학협력단 모방 학습을 이용한 실시간 비디오 동작 검출 장치 및 방법

Also Published As

Publication number Publication date
US10691949B2 (en) 2020-06-23
TWI706377B (zh) 2020-10-01
EP3321844A1 (en) 2018-05-16
CN108073890B (zh) 2023-01-24
TW201820264A (zh) 2018-06-01
JP2018125841A (ja) 2018-08-09
US20180137362A1 (en) 2018-05-17
KR102156818B1 (ko) 2020-09-16
CN108073890A (zh) 2018-05-25
JP6963467B2 (ja) 2021-11-10
EP3321844B1 (en) 2021-04-14

Similar Documents

Publication Publication Date Title
KR102156818B1 (ko) 비디오 시퀀스에서 동작 인식
US20200184103A1 (en) Methods and apparatus for using video analytics to detect regions for privacy protection within images from moving cameras
US10510234B2 (en) Method for generating alerts in a video surveillance system
US10121080B2 (en) Systems and methods for controlling the recording, storing and transmitting of video surveillance content
US20170213091A1 (en) Video processing
US20120114177A1 (en) Image processing system, image capture apparatus, image processing apparatus, control method therefor, and program
KR20130060339A (ko) 클라우드 보조 증강 현실을 위한 적응적 프레임워크
WO2018031102A1 (en) Methods and systems of performing content-adaptive object tracking in video analytics
US11200683B2 (en) Image processing device and image processing method
WO2018026427A1 (en) Methods and systems of performing adaptive morphology operations in video analytics
CN109564686B (zh) 在视频分析中更新用于对象追踪器的运动模型的方法和系统
CN111126317A (zh) 一种图像处理方法、装置、服务器及存储介质
KR102261054B1 (ko) 카메라에 연결되는 고속 얼굴 인식 장치
CN113850211A (zh) 注入视频攻击检测方法和装置
US20200327332A1 (en) Moving image analysis apparatus, system, and method
KR102179077B1 (ko) 상용분류기 외부 연동 학습형 신경망을 이용한 압축영상에 대한 신택스 기반의 객체 분류 방법
KR102178952B1 (ko) 압축영상에 대한 신택스 기반의 mrpn-cnn을 이용한 객체 분류 방법
JP2016021716A (ja) 追尾装置及びその制御方法
KR102527133B1 (ko) 영상 분석 대상 판별 서버 및 그 제어방법
CN111225178A (zh) 基于对象检测的视频监控方法及其系统
WO2021084895A1 (en) A method, an apparatus and a system for managing an event to generate an alert indicating a subject is likely to be unauthorized
KR20210077178A (ko) 깊이 추정을 이용한 영상 관리 장치 및 방법
KR20200139612A (ko) 네트워크 감시 카메라 시스템 및 그 동작 방법

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant