KR20200112681A

KR20200112681A - 지능형 비디오 분석

Info

Publication number: KR20200112681A
Application number: KR1020200029393A
Authority: KR
Inventors: 티. 응우웬 휴
Original assignee: 더 보잉 컴파니
Priority date: 2019-03-19
Filing date: 2020-03-10
Publication date: 2020-10-05
Also published as: EP3716144A1; CN111723637A; JP7507574B2; JP2020173791A; US11328510B2; US20200302177A1

Abstract

장치가 제공된다. 장치는 비디오 피드를 수신하고 비디오 피드가 수신됨에 따라 비디오 피드를 실시간으로 처리한다. 장치는 비디오 피드에 대한 물체 탐지 및 인식을 수행하여 그 안의 물체를 탐지 및 분류하고, 적어도 일부 물체의 활동을 탐지 및 분류하기 위한 활동 인식을 수행하며, 분류된 물체 및 분류된 활동을 비디오 피드에 출력한다. 장치는 비디오 피드를 기술하는 자연 언어 텍스트를 생성하고, 시맨틱 네트워크를 생성하며, 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크를 지식 베이스에 저장한다. 장치는 지식 베이스의 질의 및 비디오 피드의 선택, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크의 프리젠테이션을 가능하게 하도록 구성된 그래픽 사용자 인터페이스(GUI)를 생성한다.

Description

지능형 비디오 분석 {INTELLIGENT VIDEO ANALYSIS}

본 발명은 일반적으로 지능형 비디오 분석, 특히 실시간 모니터링과 오프라인 검색을 지원하는 지능형 비디오 분석에 관한 것이다.

비디오 분석은 비디오 감시 시스템과 같은 많은 애플리케이션에서 사용될 수 있다. 비디오 분석은 종종 인간 오퍼레이터들이 비디오 스트림을 수동으로 시청하고 비디오 콘텐츠의 언어 내러티브를 제작하는 것을 포함한다. 그러나, 많은 애플리케이션에서, 비디오 분석에 사용되는 카메라와 이미징 센서는 대량의 스트리밍과 보관된 비디오 데이터를 생성하는바, 이는 인간이 분석하고 이해하며 응답하는 데 비실용적일 수 있다.

기존의 자동화된 비디오 분석 시스템은 적은 인력으로 비디오 분석을 수행할 수 있다. 그러나, 기존의 많은 자동화된 비디오 분석 시스템은 정지된 카메라에서만 동작하며 물체 탐지만 제공한다. 즉, 기존의 많은 자동화된 비디오 분석 시스템은 이동하는 카메라에는 사용할 수 없으며, 이동하는 물체 추적, 활동 인식, 비디오 피드에서 물체의 시맨틱 관계를 시각적으로 제시하는 것, 지능적인 비디오 검색과 같은 다중 기능을 제공하지 않는다.

따라서, 적어도 위에서 논의된 문제들 중 일부는 물론 다른 가능한 문제들을 고려한 시스템 및 방법을 갖추는 것이 바람직할 것이다.

본 발명의 예시적인 구현은 실시간 모니터링과 오프라인 검색 등을 지원하는 지능형 비디오 분석으로 향한다. 본 발명의 예시적인 구현은 실시간으로 비디오 데이터를 수신하고 분석할 수 있으며, 관심 물체를 식별하고 추적하기 위한 기계 학습 알고리즘을 구현할 수 있다. 본 발명의 예시적인 구현은 자연 언어 표현을 이용하여 추적된 물체를 기술할 수 있다.

본 발명의 예시적인 구현은 다양한 정지 및 이동 가능한 비디오 피드로부터 데이터를 수신할 수 있다. 본 발명의 예시적인 구현은 물체 탐지, 추적, 지리적 등록(geo-registration), 활동 인식, 비디오 캡셔닝 및 그래프 기반 콘텐츠 표현에서 개선된 컴퓨터 비전 및 기계 학습 능력을 통합할 수 있다. 본 발명의 예시적인 구현은 실시간 모니터링에서 대량의 스트리밍 비디오 데이터의 자동화된 시맨틱 파싱을 제공하고 오프라인 조사(search) 및 검색을 지원할 수 있다. 본 발명의 예시적인 구현은 유인 또는 무인 항공기, 위성, 거리 보안 카메라, 차체에 맞춘 카메라(body-worn camera) 및 개인 이동 전화와 같은 광범위한 플랫폼에 배치될 수 있다.

또한, 본 발명의 예시적인 구현은 대용량 비디오 아카이브를 통한 효율적인 콘텐츠 브라우징 및 탐색과 같은 비디오 법의학 분석을 제공할 수 있다. 본 발명의 예시적인 구현은 (예를 들어, 키워드, 지리적 공간 영역 또는 시각적 유사성에 의한) 다양한 유형의 시맨틱 기반 비디오 질의를 이용하여 과거 사건의 신속한 조사 및 검색을 지원한다. 본 발명의 예시적인 구현은 고정 및 이동 가능한 카메라 플랫폼을 모두 지원할 수 있으며, 오프라인에서 효율적으로 저장 및 검색될 수 있는 비디오 피드로부터 고도의 시맨틱 콘텐츠 정보를 자동으로 추출할 수 있다. 본 발명의 예시적인 구현은 비디오 감시 애플리케이션에서 필요한 인력과 인력 의존도를 줄일 수 있으며, 인간 오퍼레이터가 라이브 비디오 피드를 수동으로 시청하고 과거 사건에 대한 비디오 아카이브를 검색하는 데 오랜 시간을 소비하지 않도록 할 수 있다.

따라서 본 발명은 제한 없이 다음의 예시적 구현을 포함한다.

일부 예시적인 구현은, 강화 학습에 자동 타겟 인식 방법을 제공하며, 그 방법은, 비디오 피드를 수신하는 단계; 비디오 피드가 수신됨에 따라 비디오 피드를 실시간으로 처리하는 단계; 및 지식 베이스(데이터베이스)의 질의(query), 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크의 프리젠테리션을 가능하게 하도록 구성된 그래픽 사용자 인터페이스(GUI)를 생성하는 단계를 구비하되, 비디오 피드를 실시간으로 처리하는 단계가, 비디오 피드에서의 물체 탐지 및 인식을 수행하여 그 안의 물체를 탐지 및 분류하고, 적어도 물체의 일부의 활동을 탐지 및 분류하기 위해 활동 인식을 수행하며, 비디오 피드에서 분류된 물체 및 분류된 활동을 출력하는 단계; 분류된 물체 및 활동으로부터 비디오 피드를 기술하는 자연 언어 텍스트를 생성하는 단계; 분류된 물체를 나타내는 정점, 정점을 연결하고 분류된 물체간의 시맨틱 관계, 적어도 분류된 활동의 각각의 활동에 대응하는 시맨틱 관계의 일부를 나타내는 에지를 가진 그래프를 포함하는 시맨틱 네트워크를 생성하는 단계; 및 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크를 지식 베이스에 저장하는 단계를 포함한다.

임의의 선행하는 예시적인 구현 또는 선행하는 예시적인 구현의 임의의 조합의 방법의 일부 예시적인 구현에 있어서, 비디오 피드를 수신하는 단계는 다수의 소스로부터 비디오 피드를 수신하는 단계를 포함하며, 여기서 적어도 다수의 소스의 일부는 이동 소스이다.

임의의 선행하는 예시적인 구현 또는 선행하는 예시적인 구현의 임의의 조합의 방법의 일부 예시적인 구현에 있어서, 비디오 피드를 처리하는 단계는 각각의 지리적 위치로 분류된 물체를 지리적으로 등록하는 단계, 및 분류된 물체의 이동하는 물체의 각각의 궤적을 포함하는 단계를 더 포함하되, 여기서 GUI는 각각의 지리적 위치에서 분류된 물체를 식별하고 분류된 물체 중 이동하는 물체의 각각의 궤적을 식별하여 비디오 피드에서 장면의 항공 이미지 또는 맵을 제시하도록 더 구성된다.

임의의 선행하는 예시적인 구현 또는 선행하는 예시적인 구현의 임의의 조합의 방법의 일부 예시적인 구현에 있어서, 물체 탐지 및 인식을 수행하는 단계는 분류된 물체에 각각의 고유 식별자를 할당하는 단계를 포함하고, GUI에서의 비디오 피드의 선택의 프리젠테이션은 비디오 피드에서의 분류된 물체를 식별하는 것 및 각각의 고유 식별자를 포함하는 것을 포함한다.

임의의 선행하는 예시적인 구현 또는 선행하는 예시적인 구현의 임의의 조합의 방법의 일부 예시적인 구현에 있어서, 적어도 물체의 일부가 이동하는 물체이고, 물체 탐지 및 인식을 수행하는 단계는 움직임 보상, 배경 제거 및 컨볼루셔널 신경망을 이용하여 이동하는 물체를 탐지하여 분류하는 단계를 포함한다.

임의의 선행하는 예시적인 구현 또는 선행하는 예시적인 구현의 임의의 조합의 방법의 일부 예시적인 구현에 있어서, 활동 인식을 수행하는 단계는 분류된 물체들 중 단일의 물체, 분류된 물체들 중 다수의 물체, 또는 하나 이상의 분류된 물체와 비디오 피드의 지리적 영역 사이의 상호 작용만을 포함하는 것으로서 적어도 활동의 일부를 탐지하여 분류하는 단계를 포함한다.

임의의 선행하는 예시적인 구현 또는 선행하는 예시적인 구현의 임의의 조합의 방법의 일부 예시적인 구현에 있어서, GUI를 생성하는 단계는 사용자 지정 물체와 비디오 피드 내의 하나 이상의 분류된 물체들 사이의 유사성에 기초하여 지식 베이스의 질의를 가능하게 하도록 구성된 GUI를 생성하는 단계를 포함한다.

일부 예시적인 구현은 장치를 제공한다. 그 장치는, 프로세서와, 프로세서에 의한 실행에 응답하여 장치가 적어도 임의의 선행하는 예시적인 구현 또는 선행하는 예시적인 구현의 임의의 조합의 방법을 수행하도록 하는 실행 가능한 명령을 저장하는 메모리를 구비한다.

일부 예시적인 구현은 컴퓨터 판독 가능한 저장 매체를 제공한다. 컴퓨터 판독 가능한 저장 매체는 비 일시적이며, 프로세서에 의한 실행에 응답하여 장치가 적어도 임의의 선행하는 예시적인 구현 또는 선행하는 예시적인 구현의 임의의 조합의 방법을 수행하도록 하는 그 안에 저장된 컴퓨터 판독 가능한 프로그램 코드를 갖는다.

본 발명의 이들 및 다른 특징, 태양 및 이점은 이하에서 간략하게 설명되는 첨부도면과 함께 다음의 상세한 설명을 읽음으로써 명백해질 것이다. 본 발명은 이러한 특징들 또는 요소들이 본 명세서에 설명된 특정 예시적인 구현에서 명시적으로 결합되거나 달리 언급되는지에 관계없이, 본 발명에서 설명된 2, 3, 4 이상의 특징들 또는 요소들의 임의의 조합을 포함한다. 본 발명은 그것의 양상 및 예시적인 구현들 중 임의의 태양에서 본 발명의 임의의 분리 가능한 특징들 또는 요소들이 본 발명의 내용이 명백하게 달리 지시하지 않는 한 조합 가능한 것으로 간주되도록 전체적으로 읽도록 의도된다.

그러므로, 이 간략한 요약은 본 발명의 일부 태양의 기본적인 이해를 제공하기 위해 일부 예시적인 구현을 요약하기 위한 목적으로만 제공된다는 것이 이해될 것이다. 따라서, 전술한 예시적인 구현은 단지 예일 뿐이고 본 발명의 범위 또는 사상을 임의의 방식으로 좁히는 것으로 해석되지 않아야 한다는 것이 이해될 것이다. 다른 예시적인 구현, 태양 및 이점은 예로서 설명된 예시적인 구현의 원리를 예시하는 첨부도면과 함께 취해진 다음의 상세한 설명으로부터 명백해질 것이다.

따라서 일반적인 용어로 본 발명의 예시적인 구현을 설명하였지만, 이제 반드시 일정한 축척으로 도시되지는 않는 첨부도면을 참조할 것이다:
도 1은 본 발명의 예시적인 구현에 따른 지능형 비디오 분석을 위한 시스템을 도시한다.
도 2는 본 발명의 예시적인 구현에 따른 지능형 비디오 분석을 위한 도면을 도시한다.
도 3은 본 발명의 예시적인 구현에 따라 비디오 피드에서 탐지되고 분류된 물체를 도시한다.
도 4a 및 도 4b는 본 발명의 예시적인 구현에 따라 분류된 물체의 지리적 등록을 도시한다.
도 5는 본 발명의 예시적인 구현에 따른 시맨틱 네트워크를 도시한다.
도 6은 본 발명의 예시적인 구현에 따른 그래픽 사용자 인터페이스에서의 비디오 피드의 프리젠테이션을 도시한다.
도 7은 본 발명의 예시적인 구현에 따른 지식 베이스의 질의를 설명한다.
도 8은 본 발명의 예시적인 구현에 따른 지능형 비디오 분석의 방법에서의 각종 동작의 흐름도를 도시한다.
도 9는 일부 예시적인 구현에 따른 장치를 도시한다.

본 발명의 일부 구현이 이제 첨부도면을 참조하여 이하에서 더 완전하게 설명될 것이며, 여기서 본 발명의 모든 구현이 아닌 일부가 도시된다. 실제로, 본 발명의 다양한 구현은 많은 상이한 형태로 구현될 수 있고 여기에 설명된 구현으로 제한되는 것으로 해석되어서는 안되며; 오히려, 이들 예시적인 구현은 본 발명이 철저하고 완전하도록 제공되며, 본 발명의 범위를 당업자에게 완전히 전달할 것이다. 예를 들어, 달리 명시되지 않는 한, 제1, 제2 등의 것으로 무언가를 언급하는 것은 특정한 순서를 의미하는 것으로 해석되어서는 안된다. 또한, (달리 명시되지 않는 한) 위에 있는 것으로 설명될 수 있는 어떤 것이 대신에 아래에 있는 것으로 설명될 수도 있고, 그 반대의 경우도 마찬가지이며; 마찬가지로 다른 것의 좌측에 있는 것으로 설명될 수 있는 어떤 것이 대신에 우측에 있는 것으로 설명될 수도 있고, 그 반대의 경우도 마찬가지이다. 명세서 전체에 걸쳐 동일한 참조부호는 동일한 구성요소를 지칭한다.

본 발명의 예시적인 구현은 일반적으로 지능형 비디오 분석, 특히 실시간 모니터링과 오프라인 검색 등을 지원하는 지능형 비디오 분석으로 향한다.

도 1은 본 발명의 예시적인 구현에 따른 지능형 비디오 분석을 위한 시스템(100)을 설명한다. 일부 예에서는, 도 9를 참조하여 더 상세히 기술되는 바와 같이, 그 시스템은 지능형 비디오 분석을 위한 장치에 의해 구현될 수 있다.

시스템(100)은 하나 이상의 기능 또는 동작을 수행하기 위한 다수의 서브시스템(각각 개별 시스템)을 포함한다. 도시된 바와 같이, 일부 예에서 시스템은 데이터 수신 모듈(101), 비디오 파싱(parsing, 구문 분석) 모듈(102), 지식 베이스(103) 및 비디오 탐색 모듈(104)를 각각 하나 이상 포함한다. 서브시스템은 서로 공존하거나 직접 결합될 수 있으며, 일부 예에서는 서브시스템의 다양한 것들이 하나 이상의 컴퓨터 네트워크를 통해 서로 통신할 수 있다. 또한, 시스템의 일부로서 나타내지만, 데이터 수신 모듈, 비디오 파싱 모듈, 지식 베이스 및 비디오 탐색 모듈 중 하나 이상이 다른 서브시스템의 임의의 것과 관계 없이 별도의 시스템으로 기능하거나 동작할 수 있다는 점을 이해해야 한다. 또한, 시스템이 도 1에 나타낸 것보다 하나 이상의 추가 또는 대체 서브시스템을 포함할 수 있다는 점을 이해해야 한다.

일부 예에서는, 데이터 수신 모듈(101)은 화살표(110)로 나타낸 것처럼 비디오 피드를 수신하도록 구성되어 있다. 일부 예에서는, 데이터 수신 모듈은 다수의 소스로부터 비디오 피드를 수신하도록 구성되어 있다. 적어도 다수의 소스 중 일부는 유인 또는 무인 항공기에 배치된 카메라 또는 이미징 센서와 같은 이동 소스(moving source)이다. 데이터 수신 모듈은 수신된 비디오 피드를 비디오 파싱 모듈(102)에 제공할 수 있다. 비디오 파싱 모듈(102)은 탐지 및 인식 모듈(1021), 자연 언어 생성기(1022), 시맨틱 네트워크 생성기(1023) 및 지리적 등록 모듈(1024)을 포함할 수 있다.

일부 예에서는, 비디오 파서(102)가 비디오 피드를 수신함에 따라 실시간으로 비디오 피드를 처리하도록 구성되어 있다. 이러한 예에서, 탐지 및 인식 모듈(1021)은 비디오 피드에서의 물체 탐지 및 인식을 수행하여 그 안의 물체를 탐지하여 분류하도록 구성되어 있다. 또한 탐지 및 인식 모듈은 적어도 물체의 일부의 활동을 탐지 및 분류하기 위해 활동 인식을 수행하고, 비디오 피드에서 분류된 물체 및 분류된 활동을 출력하도록 구성되어 있다. 일부 예에서는, 적어도 물체의 일부는 이동하는 차량과 같은 이동 물체이다. 이러한 예에서, 탐지 및 인식 모듈은 모션(움직임) 보상, 배경 제거 및 컨볼루셔널 신경망을 이용하여 이동하는 물체를 탐지하고 분류하도록 구성되어 있다.

물체의 활동은 분류될 수 있다. 일부 예에서, 탐지 및 인식 모듈(1021)은 적어도 활동의 일부를, 분류된 물체 중 하나의 물체, 분류된 물체 중 다수의 물체, 또는 분류된 물체 중 하나 이상과 비디오 피드에서의 지리적 영역 사이의 상호 작용만을 포함하는 것으로서 탐지하여 분류하도록 구성되어 있다. 분류된 물체 중 하나의 물체만을 포함하는 활동의 예로는 차(car, 자동차)를 회전시키는 것이 있을 수 있다. 분류된 물체 중 다수의 물체를 포함하는 활동의 예로는 두 대의 자동차를 미행하는 것이 있을 수 있다. 하나 이상의 분류된 물체와 지리적 영역 사이의 상호작용을 포함하는 활동의 예로는 자동차를 주차장으로 진입시키는 것이 있을 수 있다. 일부 예에서는, 물체 및 활동이 분류된 후, 자연 언어 생성기(1022)는 분류된 물체 및 활동으로부터 비디오 피드를 기술하는 자연 언어 텍스트를 생성하도록 구성되어 있다. 예를 들어, 자연 언어 생성기는 비디오 피드를 기술하기 위해 "자전거를 타는 사람"과 같은 자연 언어 텍스트를 생성할 수 있다.

사용자에게 분류된 물체 사이의 시맨틱 관계를 표시하기 위해, 일부 예에서는 시맨틱 네트워크 생성기(1023)가 그래프를 포함한 시맨틱 네트워크를 생성하도록 구성된다. 그래프는 분류된 물체를 나타내는 정점과 정점을 연결하고 분류된 물체 사이의 시맨틱 관계를 나타내는 에지를 포함한다. 적어도 시맨틱 관계 중 일부는 분류된 활동의 각각의 활동에 대응한다. 시맨틱 네트워크는 아래에서 도 5를 참조하여 더 자세히 설명될 것이다.

일부 예에서, 비디오 파싱 모듈(102)은 지식 베이스(103)에 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트, 시맨틱 네트워크를 저장하도록 구성되어 있다. 지식 베이스는 정보를 저장하도록 구성되며, 파일 저장, 데이터베이스 저장, 클라우드 저장 등과 같은 다수의 상이한 방식으로 구현될 수 있다.

일부 예에서는, 비디오 탐색 모듈(104)은 그래픽 사용자 인터페이스(GUI)(1041)를 생성하도록 구성되어 있다. GUI는 화살표(105)로 나타낸 바와 같은 지식 베이스(103)의 질의, 및 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크의 선택의 프리젠테이션을 가능하게 하도록 구성되어 있다. 일부 예에서, 비디오 탐색 모듈은 사용자 지정 물체와 비디오 피드 내의 하나 이상의 분류된 물체 사이의 유사성에 기초하여 지식 베이스의 질의를 가능하게 하도록 구성된 GUI를 생성하도록 구성되어 있다. 예를 들어, 사용자 지정 물체는 흰색 자동차일 수 있으며, 생성된 GUI는 흰색 자동차와 비디오 피드 내의 다른 자동차 사이의 유사성에 기초하여 지식 베이스의 질의를 가능하게 하도록 할 수 있다.

비디오 파싱 모듈(102)은 지리적 등록을 통해 분류된 물체의 물리적 속성을 결정할 수 있다. 일부 예에서, 지리적 등록 모듈(1024)은 분류된 물체 중 이동하는 물체의 각각의 궤적을 포함하는 각각의 지리적 위치를 갖는 분류된 물체를 지리적으로 등록하도록 구성되어 있다. 비디오 피드에 있는 자동차의 물리적 크기, 헤딩, 속도 등과 같은 분류된 물체의 물리적 특성은 지리적 등록을 통해 결정될 수 있다. 이러한 예에서, GUI(1041)는 비디오 피드에서의 장면의 항공 이미지 또는 지도를 표시하도록 구성되어 있다. 항공 이미지 또는 지도는 각각의 지리적 위치와 분류된 물체의 이동하는 궤적을 통해 분류된 물체를 식별한다.

비디오 파싱 모듈(102)은 또한 다수의 분류된 물체를 추적할 수 있다. 일부 예에서는, 탐지 및 인식 모듈(1021)은 분류된 물체에 각각의 고유 식별자를 할당하도록 구성되어 있다. 이러한 예에서, GUI(1041)에서의 비디오 피드의 선택의 프리젠테이션은 비디오 피드의 분류된 물체를 식별하는 것 및 각각의 고유한 식별자를 포함하는 것을 포함한다. 분류된 물체에 각각의 고유 식별자를 할당하는 것은 아래에서 도 3을 참조하여 보다 상세하게 설명될 것이다.

도 2는 본 발명의 예시적인 구현에 따른 지능형 비디오 분석을 위한 도면을 도시한다. 도시된 바와 같이, 하나의 예에서 비디오 파싱 모듈(102)은 다수의 소스로부터 비디오 피드를 수신할 수 있다. 소스 중 일부는 정지 상태일 수 있는바, 예를 들어 소스(201)는 정지 카메라일 수 있다. 소스 중 일부는 이동할 수 있는바, 예를 들어 소스(202)는 유인 또는 무인 항공기에 배치된 카메라 또는 이미징 센서일 수 있다. 비디오 파싱 모듈은 비디오 피드가 다수의 소스로부터 수신됨에 따라 실시간으로 비디오 피드를 처리할 수 있다. 예를 들어, 비디오 파싱 모듈은 위에서 설명한 바와 같이 물체 탐지 및 인식을 수행하고, 활동 인식을 수행하며, 비디오 피드를 기술하는 자연 언어 텍스트를 생성하고, 시맨틱 네트워크를 생성할 수 있다. 비디오 파싱 모듈은 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트, 시맨틱 네트워크를 지식 베이스(103)에 저장할 수 있다. 비디오 탐색 모듈(104)은 GUI(예를 들어, GUI(1041))를 생성할 수 있다. GUI는 사용자(203)와 같은 사용자에 의한 지식 베이스의 질의를 가능하게 할 수 있다. GUI는 또한 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크의 선택의 프리젠테이션을 가능하게 할 수 있다.

도 3은 본 발명의 예시적인 구현에 따른 비디오 피드에서의 탐지 및 분류된 물체를 도시한다. 도시된 바와 같이, 이미지(300)(예를 들어, 비디오 피드의 프레임)에서는, 탐지 및 인식 모듈(1021)은 물체를 탐지하여 비디오 피드에서 "차(car, 자동차)" 또는 "사람(person)" 또는 "핸드백(handbag)"으로서 분류할 수 있다. 탐지 및 인식 모듈은 분류된 물체에 각각의 고유 식별자를 할당할 수 있다. 예를 들어, 고유 식별자 "사람(50)"은 비디오 피드에서 사람에게 할당된다. 물체의 고유 식별자는 비디오 피드의 서로 다른 프레임에서의 물체의 발현(appearance) 중에 변경 없이 유지될 수 있다. GUI에서 비디오 피드의 프리젠테이션은 비디오 피드의 분류된 물체를 식별하는 것 및 각각의 고유한 식별자를 포함하는 것을 포함한다. 예를 들어, 비디오 피드에 있어서 사람을 식별하기 위해 비디오 피드에 "사람(50)"이 표시된다. 하나의 예에서, 다중 카메라가 동일한 영역을 감시할 때, 물체의 고유 식별자는 서로 다른 카메라 뷰에 걸쳐 유지될 수 있다.

도 4a 및 도 4b는 본 발명의 예시적인 구현에 따른 분류된 물체의 지리적 등록을 설명한다. 지리적 등록 모듈(1024)은 탐지되고 분류된 물체와 그 궤적을 구글(Google) 지도와 같은 지리적 참조 세계 지도에 등록할 수 있다. 지리적 등록 모듈은 비디오 프레임과 지도 사이의 투시 변환을 이용할 수 있다. 도 4a는 비디오 피드가 정지 카메라로부터의 것인 예를 나타낸다. 이 예에서, 비디오 프레임과 지도 사이의 변환은 사용자가 (예를 들어, GUI(1041)를 통해) 수동으로 지정한 일련의 랜드마크 포인트로부터 계산될 수 있다. 예를 들어, 사용자는 정지 카메라에 의해 캡처된 이미지와 지도 사이의 일련의 포인트 대응(관계)을 입력할 수 있다. 도시된 바와 같이, GUI는 카메라 캡처 이미지(401)와 지도의 오버헤드 뷰(overhead view)(402)를 표시할 수 있다. 사용자는 이미지(401)와 지도의 오버헤드 뷰(402) 사이의 포인트 대응(관계)을 지시하는 라인(예를 들어, 라인(403))을 입력할 수 있다. 각 라인은 이미지의 한 점과 지도의 대응하는 점을 연결할 수 있다. 그런 다음, 지리적 등록 모듈이 이미지로부터 지도로의 호모그래픽 변환을 계산할 수 있다.

도 4b는 비디오 피드가 유인 또는 무인 항공기로부터의 센서와 같은 이동하는 센서로부터의 것인 예를 나타낸다. 이 예에서, 지리적 등록 모듈(1024)은 GPS(Global Positioning System)로부터의 데이터와 같은 센서의 위치와 방향의 원격측정 데이터를 이용하여 비디오 프레임과 지도 사이의 변환을 계산할 수 있다. 도시된 바와 같이, GUI(1041)는 이동하는 센서에 의해 캡처된 영역(411)의 지도와 영역(412)의 이미지를 표시할 수 있다. 지리적 등록 모듈은, 분류된 물체를, 분류된 물체의 이동하는 물체의 각각의 궤적을 포함하는 각각의 지리적 위치와 함께 지리적으로 등록할 수 있다. 예를 들어, 지리적 등록 모듈은 자동차(70)를 자동차(70)의 궤적(413)을 포함하는 그 지리적 위치와 함께 지리적으로 등록할 수 있다. 그리고 GUI는 분류된 물체 중 이동하는 물체의 각각의 궤적으로 각각의 지리적 위치에서 분류된 물체를 식별하여 비디오 피드에서 장면의 항공 이미지나 지도를 표시할 수 있다. 예를 들어, 도시된 바와 같이, GUI는 그 지리적 위치에서 자동차(70)를 식별하는 이미지를 자동차(70)의 궤적(413)으로 표시할 수 있다.

도 5는 본 발명의 예시적인 구현에 따른 시맨틱 네트워크를 도시한다. 도시된 바와 같이, 시맨틱 네트워크는 분류된 물체를 나타내는 정점 및 정점을 연결하고 분류된 물체 사이의 시맨틱 관계를 나타내는 에지를 갖는 그래프(500)를 포함할 수 있다. 시맨틱 관계 중 일부는 분류된 물체의 일부 분류된 활동에 대응한다. 예를 들어, 정점(501)은 사람을 나타낼 수 있고 정점(503)은 건물을 나타낼 수 있다. 정점(501)과 정점(503)을 연결하는 에지(502)는 사람이 건물 안으로 들어가는 시맨틱 관계를 나타낼 수 있다.

도 6은 본 발명의 예시적인 구현에 따른 그래픽 사용자 인터페이스에서 비디오 피드의 프리젠테이션을 도시한다. 도시된 바와 같이, 하나의 예에서, 비디오 피드는 트랙 663 및 661과 같은 다중 트랙을 포함할 수 있다. 각 비디오 피드는 길이가 30분일 수 있고, 각 트랙은 길이가 2분일 수 있다. 각 트랙은 카메라에 의해 감시되는 특정 물체나 특정 영역에 대응될 수 있다. 각 트랙마다 다른 이벤트가 있을 수 있다. 예를 들어, 화살표 601로 나타낸 바와 같은 트랙(661)에서는, 트랙(661)에서 생성한 하나의 이벤트는 차량이 좌회전했다는 것일 수 있다. 하나의 예에서, 자연 언어 생성기(1022)는 분류된 물체 및 활동으로부터 비디오 피드를 기술하는 자연 언어 텍스트를 생성할 수 있다. 예를 들어, 화살표 602로 나타낸 바와 같이, 자연 언어 텍스트는 비디오 피드에서 트랙 ID 691로 자동차를 기술하는 "레이커 빌리지 드라이브에 나타난 자동차"일 수 있다.

도 7은 본 발명의 예시적인 구현에 따른 지식 베이스의 질의를 나타낸다. 위에서 설명한 바와 같이, GUI(1041)는 사용자에 의한 지식 베이스(103)의 질의를 가능하게 할 수 있다. 질의는 사용자에 의해 입력되는 키워드에 기초할 수 있다. 질의는 사용자에 의해 지정된 주어진 시간 윈도우 및/또는 지리적 영역에 있는 물체나 이벤트에 기초할 수 있다. 하나의 예에서, 지식 베이스의 질의는 사용자 지정 물체와 비디오 피드 내의 하나 이상의 분류된 물체 사이의 유사성에 기초할 수 있다. 예를 들어, 화살표 701에 의해 나타낸 바와 같이, 사용자는 자동차를 지정하고 비디오 피드에서 지정된 자동차와 시각적으로 유사한 자동차를 검색하기 위해 "유사한 자동차 검색(Find Similar)"을 선택할 수 있다.

도 8은 본 발명의 예시적인 구현에 따른 지능형 비디오 분석의 방법에서의 각종의 동작의 흐름도를 도시한다. 도시된 바와 같이, 블록 801에서, 방법(800)은 비디오 피드를 수신하는 것을 포함한다. 블록 802에서, 방법은 비디오 피드가 수신됨에 따라 실시간으로 비디오 피드를 처리하는 것을 포함한다.

하나의 예에서, 블록 802에서의 동작은 서브 블록 8021, 8022, 8023 및 8024로 나타낸 바와 같이 네 단계로 더 분할될 수 있다. 서브 블록 8021에서, 방법(800)은 그 안의 물체를 탐지하고 분류하기 위해 비디오 피드에서 물체 탐지 및 인식을 수행하는 단계, 적어도 물체의 일부의 활동을 탐지하고 분류하기 위해 활동 인식을 수행하는 단계, 및 비디오 피드에서 분류된 물체와 분류된 활동을 출력하는 단계를 포함한다. 서브 블록 8022에서, 이 방법은 분류된 물체 및 활동으로부터 비디오 피드를 기술하는 자연 언어 텍스트를 생성하는 단계를 포함한다. 서브 블록 8023에서, 이 방법은 분류된 물체를 나타내는 정점, 및 정점을 연결하고 분류된 물체 사이의 시맨틱 관계를 나타내는 에지를 갖는 그래프를 포함하는 시맨틱 네트워크를 생성하는 단계를 포함하되, 시맨틱 관계의 적어도 일부는 분류된 활동의 각각의 활동에 대응한다. 서브 블록 8024에서, 이 방법은 지식 베이스에 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트, 및 시맨틱 네트워크를 저장하는 단계를 포함한다.

블록 803에서, 이 방법(800)은 지식 베이스의 질의, 및 비디오 피드, 분류된 물체와 분류된 활동, 자연 언어 텍스트, 시맨틱 네트워크의 선택의 프리젠테이션을 가능하게 하도록 구성된 그래픽 사용자 인터페이스(GUI)(1041)를 생성하는 단계를 포함한다.

본 발명의 예시적인 구현에 따르면, 데이터 수신 모듈(101), 비디오 파싱 모듈(102), 지식 베이스(103) 및 비디오 탐색 모듈(104)을 포함하는 시스템(100)과 그 서브시스템이 다양한 방법으로 구현될 수 있다. 시스템과 그 서브시스템을 구현하기 위한 수단은 단독으로 또는 컴퓨터 판독 가능한 저장 매체로부터의 하나 이상의 컴퓨터 프로그램의 지시에 따라 하드웨어를 포함할 수 있다. 일부 예에서는, 하나 이상의 장치가 여기에 도시되고 설명된 시스템과 그 서브 시스템으로서 기능하거나 그렇지 않으면 시스템과 그 서브 시스템을 구현하도록 구성될 수 있다. 하나 이상의 장치를 포함하는 예에서, 각각의 장치는 다수의 다른 방식, 즉 유선 또는 무선 네트워크 등을 통해 직접적으로 또는 간접적으로 서로 연결되거나 그렇지 않으면 서로 통신할 수 있다.

도 9는 일부 예시적인 구현에 따른 장치(900)를 나타낸다. 일반적으로, 본 발명의 예시적인 구현의 장치는 하나 이상의 고정 전자 장치 또는 휴대 가능한 전자 장치를 구비하거나, 포함하거나 또는 하나 이상의 고정 전자 장치 또는 휴대 가능한 전자 장치에 매립될 수 있다. 적절한 전자 장치의 예는 스마트폰, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크탑 컴퓨터, 워크스테이션 컴퓨터, 서버 컴퓨터 등을 포함한다. 장치는 예를 들어 메모리(902)(예를 들어, 저장 장치)에 연결된 프로세서(901)(예를 들어, 처리 회로)와 같은 다수의 구성 요소 중 각각의 하나 이상을 포함할 수 있다. 일부 예에서, 장치(900)는 시스템(100)을 구현한다.

프로세서(901)는 하나 이상의 프로세서로만 구성되거나 또는 하나 이상의 메모리와 함께 구성될 수 있다. 프로세서는 일반적으로 예를 들어 데이터, 컴퓨터 프로그램 및/또는 기타 적절한 전자 정보와 같은 정보를 처리할 수 있는 컴퓨터 하드웨어의 일부분이다. 프로세서는 집적회로 또는 복수의 상호연결된 집적회로(때로는 일반적으로 "칩(chip)"이라고 일컬어지는 집적회로)로 패키징될 수 있는 몇몇의 전자회로의 집합(collection)으로 구성된다. 프로세서는, 프로세서에 온보드로 저장되거나 그렇지 않으면 (동일 또는 다른 장치의) 메모리(902)에 저장될 수 있는 컴퓨터 프로그램을 실행하도록 구성될 수 있다.

프로세서(901)는 특정 구현에 따라 다수의 프로세서, 멀티 코어 프로세서 또는 일부 다른 유형의 프로세서일 수 있다. 또한, 프로세서는 메인 프로세서가 단일 칩에 하나 이상의 보조 프로세서와 함께 존재하는 다수의 이종 프로세서 시스템을 이용하여 구현될 수 있다. 또 다른 예시적인 예로서, 프로세서는 동일한 유형의 다수의 프로세서를 포함하는 대칭형 멀티 프로세서 시스템일 수도 있다. 더욱 다른 예에서, 프로세서는 하나 이상의 응용 주문형 집적 회로(Application Specific Integrate Circuit, ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 등으로서 매립되거나 그렇지 않으면 하나 이상의 응용 주문형 집적 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 등을 포함할 수 있다. 따라서, 프로세서는 하나 이상의 기능을 수행하기 위해 컴퓨터 프로그램을 실행할 수 있지만, 다양한 예의 프로세서는 컴퓨터 프로그램의 도움 없이도 하나 이상의 기능을 수행할 수 있다. 어느 경우든, 프로세서는 본 발명의 예시적인 구현에 따라 기능 또는 동작을 수행하도록 적절히 프로그램될 수 있다.

메모리(902)는 일반적으로 예를 들어 데이터, 컴퓨터 프로그램(예를 들어, 컴퓨터 판독 가능한 프로그램 코드(903)) 및/또는 다른 적절한 정보와 같은 정보를 일시적으로 및/또는 영구적으로 저장할 수 있는 컴퓨터 하드웨어의 일부분이다. 메모리는 휘발성 및/또는 비휘발성 메모리를 포함할 수 있으며, 고정되거나 분리 가능할 수 있다. 적절한 메모리의 예는, RAM(Random Access Memory), ROM(Read-Only Memory), 하드 드라이브, 플래시 메모리, 썸 드라이브, 분리 가능한 컴퓨터 디스켓, 광 디스크, 자기 테이프 또는 상기한 것의 일부 조합을 포함한다. 광 디스크는 CD-ROM(compact disk - read only memory), CD-R/W(compact disk - read/write), DVD 등을 포함할 수 있다. 각종의 경우에, 메모리는 컴퓨터 판독 가능한 저장 매체로 언급될 수 있다. 컴퓨터 판독 가능한 저장 매체는 정보를 저장할 수 있는 비 일시적 장치로, 정보를 한 위치로부터 다른 위치로 옮길 수 있는 전자적인 일시적 신호와 같은 컴퓨터 판독 가능한 저장 매체와 구별 가능하다. 여기에 기술된 바와 같은 컴퓨터 판독 가능한 매체는 일반적으로 컴퓨터 판독 가능한 저장 매체 또는 컴퓨터 판독 가능한 전송 매체로 언급될 수 있다.

메모리(902) 이외에, 프로세서(901)는 정보를 표시, 전송 및/또는 수신하기 위한 하나 이상의 인터페이스에 연결될 수 있다. 인터페이스는 통신 인터페이스(904)(예를 들어, 통신 유닛) 및/또는 하나 이상의 사용자 인터페이스를 포함할 수 있다. 통신 인터페이스는 다른 장치, 네트워크 등으로 및/또는 다른 장치, 네트워크 등으로부터 정보를 송신 및/또는 수신하도록 구성될 수 있다. 통신 인터페이스는 물리적(유선) 및/또는 무선 통신 링크를 통해 정보를 송신 및/또는 수신하도록 구성될 수 있다. 적절한 통신 인터페이스의 예는 네트워크 인터페이스 컨트롤러(NIC), 무선 NIC(WNIC) 등을 포함한다.

사용자 인터페이스는 디스플레이(906) 및/또는 하나 이상의 사용자 입력 인터페이스(905)(예를 들어, 입력/출력 장치)를 포함할 수 있다. 디스플레이는 사용자에게 정보를 제공하거나 그렇지 않으면 표시하도록 구성될 수 있으며, 그 적절한 예는 액정 디스플레이(LCD), 발광 다이오드 디스플레이(LED), 플라스마 디스플레이 패널(PDP) 등을 포함한다. 사용자 입력 인터페이스는 유선 또는 무선일 수 있으며, 사용자로부터 처리, 저장 및/또는 디스플레이하기 위한 장치로 정보를 수신하도록 구성될 수 있다. 사용자 입력 인터페이스의 적절한 예는 마이크, 키보드 또는 키패드, 조이스틱, 터치 탐지 표면(터치 스크린과 분리 또는 통합), 생체 인식 센서 등을 포함한다. 사용자 인터페이스는 프린터, 스캐너 등과 같은 주변장치와 통신하기 위한 하나 이상의 인터페이스를 포함할 수 있다. 일부 예에서, 사용자 인터페이스는 GUI(1041)를 포함한다.

위에 나타낸 바와 같이, 프로그램 코드 명령은, 여기에 기술된 시스템, 서브시스템, 도구 및 그들 각각의 요소들의 기능을 구현하기 위해, 메모리에 저장되고 그에 따라 프로그램된 프로세서에 의해 실행될 수 있다. 알 수 있는 바와 같이, 임의의 적절한 프로그램 코드 명령은 특정 기계가 여기에 명시된 기능을 구현하기 위한 수단으로 되도록 특정 기계를 생산하기 위해 컴퓨터 판독 저장 매체로부터 컴퓨터 또는 기타 프로그램 가능한 장치에 로드(적재)될 수 있다. 이러한 프로그램 코드 명령은 또한 컴퓨터, 프로세서 또는 다른 프로그램 가능한 장치가 특정 방식으로 기능하도록 지시함으로써 특정 기계 또는 특정 제조 물품을 생성할 수 있는 컴퓨터 판독 가능한 저장 매체에 저장될 수도 있다. 컴퓨터 판독 가능한 저장 매체에 저장된 명령은 제조 물품을 생산할 수 있으며, 여기에서 제조 물품은 여기에서 기술된 기능을 구현하기 위한 수단으로 될 수 있다. 프로그램 코드 명령은, 컴퓨터 판독 가능한 저장 매체로부터 검색되어, 컴퓨터, 프로세서 또는 다른 프로그램 가능한 장치에서 수행되어야 할 동작 또는 컴퓨터, 프로세서 또는 다른 프로그램 가능한 장치에 의해 수행되어야 할 동작을 실행하기 위해 컴퓨터, 프로세서 또는 다른 프로그램 가능한 장치를 구성하도록 컴퓨터, 프로세서 또는 다른 프로그램 가능한 장치에 로드될 수 있다.

프로그램 코드 명령의 검색, 로딩 및 실행은 한 번에 하나의 명령이 검색, 로드 및 실행되도록 순차적으로 수행될 수 있다. 일부 예시적인 구현에서는, 프로그램 코드 명령의 검색, 로딩 및 실행은 복수의 명령이 함께 검색, 로드 및/또는 실행되도록 병렬로 실행될 수도 있다. 프로그램 코드 명령의 실행은, 컴퓨터, 프로세서 또는 다른 프로그램 가능한 장치에 의해 실행되는 명령이 여기에 기술된 기능을 구현하기 위한 동작을 제공하도록, 컴퓨터에 의해 구현되는 프로세스를 생성할 수 있다.

또한, 본 발명은 다음의 절에 따른 실시예를 갖춘다:

절 1. 프로세서(901)와 프로세서에 의한 실행에 응답하여 장치가 비디오 피드를 수신하고, 비디오 피드가 수신됨에 따라 비디오 피드를 실시간으로 처리하며, 지식 베이스의 질의(query), 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크의 프리젠테리션을 가능하게 하도록 구성된 그래픽 사용자 인터페이스(GUI)(1041)를 생성하도록 하는 실행 가능한 명령을 저장하는 메모리(902)를 구비한 장치로서,

비디오 피드에서의 물체 탐지 및 인식을 수행하여 그 안의 물체를 탐지 및 분류하고, 적어도 물체의 일부의 활동을 탐지 및 분류하기 위해 활동 인식을 수행하며, 비디오 피드에서 분류된 물체 및 분류된 활동을 출력하고;

분류된 물체 및 활동으로부터 비디오 피드를 기술하는 자연 언어 텍스트를 생성하며;

분류된 물체를 나타내는 정점, 정점을 연결하고 분류된 물체간의 시맨틱 관계, 적어도 분류된 활동의 각각의 활동에 대응하는 시맨틱 관계의 일부를 나타내는 에지를 가진 그래프를 포함하는 시맨틱 네트워크를 생성하며;

비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크를 지식 베이스에 저장하도록 된 장치를 포함한다.

절 2. 절 1의 장치(900)에서, 비디오 피드를 수신하도록 된 장치는 다수의 소스로부터 비디오 피드를 수신하는 것을 포함하며, 다수의 소스의 적어도 일부는 이동 소스이다.

절 3. 선행하는 절의 장치(900)에서, 비디오 피드를 처리하도록 된 장치는 각각의 지리적 위치에 지리적으로 등록하고, 분류된 물체를 분류된 물체 중 이동하는 물체의 각각의 궤적을 포함하는 것을 더 포함하되,

GUI(1041)는 각각의 지리적 위치에서 분류된 물체를 식별하고 분류된 물체 중 이동하는 물체의 각각의 궤적을 식별하여 비디오 피드에서 장면의 항공 이미지 또는 맵을 제시하도록 더 구성된다.

절 4. 선행하는 절의 장치(900)에서, 물체 탐지 및 인식을 수행하도록 된 장치는 분류된 물체에 각각의 고유 식별자를 할당하는 것을 포함하고, GUI(1041)에서의 비디오 피드의 선택의 프리젠테이션은 비디오 피드에서의 분류된 물체를 식별하는 것 및 각각의 고유 식별자를 포함하는 것을 포함한다.

절 5. 선행하는 절의 장치(900)에서, 적어도 물체의 일부가 이동하는 물체이고, 물체 탐지 및 인식을 수행하도록 된 장치는 모션 보상, 배경 제거 및 컨볼루셔널 신경망을 이용하여 이동하는 물체를 탐지하여 분류하는 것을 포함한다.

절 6. 선행하는 절의 장치(900)에서, 활동 인식을 수행하도록 된 장치는 분류된 물체들 중 단일의 물체, 분류된 물체들 중 다수의 물체, 또는 하나 이상의 분류된 물체와 비디오 피드의 지리적 영역 사이의 상호 작용만을 포함하는 것으로서 적어도 활동의 일부를 탐지하여 분류하는 것을 포함한다.

절 7. 선행하는 절의 장치(900)에서, GUI(1041)를 생성하도록 된 장치는 사용자 지정 물체와 비디오 피드 내의 하나 이상의 분류된 물체들 사이의 유사성에 기초하여 지식 베이스의 질의를 가능하게 하도록 구성된 GUI를 생성하는 것을 포함한다.

절 8. 지능형 비디오 분석의 방법(800)으로서,

비디오 피드를 수신하는 단계(801);

비디오 피드가 수신됨에 따라 비디오 피드를 실시간으로 처리하는 단계(802); 및

지식 베이스의 질의, 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크의 프리젠테리션을 가능하게 하도록 구성된 그래픽 사용자 인터페이스(GUI)(1041)를 생성하는 단계(803)를 구비하되,

비디오 피드를 실시간으로 처리하는 단계(802)가,

비디오 피드에서의 물체 탐지 및 인식을 수행하여 그 안의 물체를 탐지 및 분류하고, 적어도 물체의 일부의 활동을 탐지 및 분류하기 위해 활동 인식을 수행하며, 비디오 피드에서 분류된 물체 및 분류된 활동을 출력하는 단계(8021);

분류된 물체 및 활동으로부터 비디오 피드를 기술하는 자연 언어 텍스트를 생성하는 단계(8022);

분류된 물체를 나타내는 정점, 정점을 연결하고 분류된 물체간의 시맨틱 관계, 적어도 분류된 활동의 각각의 활동에 대응하는 시맨틱 관계의 일부를 나타내는 에지를 가진 그래프를 포함하는 시맨틱 네트워크를 생성하는 단계(8023); 및

비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크를 지식 베이스에 저장하는 단계(8024)를 포함한다.

절 9. 절 8의 방법(800)에서, 비디오 피드를 수신하는 단계(801)는 다수의 소스로부터 비디오 피드를 수신하는 단계를 포함하며, 적어도 다수의 소스의 일부는 이동 소스이다.

절 10. 절 8-9 중 어느 하나의 방법(800)에서, 비디오 피드를 처리하는 단계(802)는, 각각의 지리적 위치에 지리적으로 등록하는 단계, 및 분류된 물체를 분류된 물체 중 이동하는 물체의 각각의 궤적을 포함하는 단계를 더 포함하되,

절 11. 절 8-10 중 어느 하나의 방법(800)에서, 물체 탐지 및 인식을 수행하는 단계(8021)는, 분류된 물체에 각각의 고유 식별자를 할당하는 단계를 포함하고, GUI(1041)에서의 비디오 피드의 선택의 프리젠테이션은 비디오 피드에서의 분류된 물체를 식별하는 것 및 각각의 고유 식별자를 포함하는 것을 포함한다.

절 12. 절 8-11 중 어느 하나의 방법(800)에서, 적어도 물체의 일부가 이동하는 물체이고, 물체 탐지 및 인식을 수행하는 단계(8021)는 모션 보상, 배경 제거 및 컨볼루셔널 신경망을 이용하여 이동하는 물체를 탐지하여 분류하는 단계를 포함한다.

절 13. 절 8-12 중 어느 하나의 방법(800)에서, 활동 인식을 수행하는 단계(8021)는, 분류된 물체들 중 단일의 물체, 분류된 물체들 중 다수의 물체, 또는 하나 이상의 분류된 물체와 비디오 피드의 지리적 영역 사이의 상호 작용만을 포함하는 것으로서 적어도 활동의 일부를 탐지하여 분류하는 단계를 포함한다.

절 14. 절 8-13 중 어느 하나의 방법(800)에서, GUI(1041)를 생성하는 단계는, 사용자 지정 물체와 비디오 피드 내의 하나 이상의 분류된 물체들 사이의 유사성에 기초하여 지식 베이스의 질의를 가능하게 하도록 구성된 GUI를 생성하는 단계를 포함한다.

절 15. 프로세서(901)에 의한 실행에 응답하여 장치(900)가

비디오 피드를 수신하고;

비디오 피드가 수신됨에 따라 비디오 피드를 실시간으로 처리하며;

지식 베이스의 질의, 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크의 프리젠테리션을 가능하게 하도록 구성된 그래픽 사용자 인터페이스(GUI)(1041)를 생성하도록 하는 컴퓨터 판독 가능한 프로그램 코드(903)가 저장되어 있는 비전송 컴퓨터 판독 저장 매체(902)로서,

절 16. 절 15의 컴퓨터 판독 가능한 저장 매체(902)에서, 비디오 피드를 수신하도록 된 장치(900)는 다수의 소스로부터 비디오 피드를 수신하는 것을 포함하며, 다수의 소스의 적어도 일부는 이동 소스이다.

절 17. 절 15-16항 중 어느 하나의 컴퓨터 판독 가능한 저장 매체(902)에서,

비디오 피드를 처리하도록 된 장치(900)는 각각의 지리적 위치에 지리적으로 등록하고, 분류된 물체를 분류된 물체 중 이동하는 물체의 각각의 궤적을 포함하는 것을 더 포함하되,

절 18. 절 15-17 중 어느 하나의 컴퓨터 판독 가능한 저장 매체(902)에서, 물체 탐지 및 인식을 수행하도록 된 장치(900)는 분류된 물체에 각각의 고유 식별자를 할당하는 것을 포함하고, GUI(1041)에서의 비디오 피드의 선택의 프리젠테이션은 비디오 피드에서의 분류된 물체를 식별하는 것 및 각각의 고유 식별자를 포함하는 것을 포함한다.

절 19. 절 15-18 중 어느 하나의 컴퓨터 판독 가능한 저장 매체(902)에서, 적어도 물체의 일부가 이동하는 물체이고, 물체 탐지 및 인식을 수행하도록 된 장치(900)는 모션 보상, 배경 제거 및 컨볼루셔널 신경망을 이용하여 이동하는 물체를 탐지하여 분류하는 것을 포함한다.

절 20. 절 15-19 중 어느 하나의 컴퓨터 판독 가능한 저장 매체(902)에서, 활동 인식을 수행하도록 된 장치(900)는 분류된 물체들 중 단일의 물체, 분류된 물체들 중 다수의 물체, 또는 하나 이상의 분류된 물체와 비디오 피드의 지리적 영역 사이의 상호 작용만을 포함하는 것으로서 적어도 활동의 일부를 탐지하여 분류하는 것을 포함한다.

절 21. 절 15-20 중 어느 하나의 컴퓨터 판독 가능한 저장 매체(902)에서, GUI(1041)를 생성하도록 된 장치(900)는 사용자 지정 물체와 비디오 피드 내의 하나 이상의 분류된 물체들 사이의 유사성에 기초하여 지식 베이스의 질의를 가능하게 하도록 구성된 GUI를 생성하는 것을 포함한다.

프로세서에 의한 명령의 실행 또는 컴퓨터 판독 가능 저장 매체에서의 명령의 저장은 지정된 기능을 수행하기 위한 동작의 조합을 지원한다. 이러한 방식으로, 장치(900)는 프로세서(901) 및 프로세서에 연결된 컴퓨터 판독 가능 저장 매체 또는 메모리(902)를 포함할 수 있으며, 프로세서는 메모리에 저장된 컴퓨터 판독 가능 프로그램 코드(903)를 실행하도록 구성된다. 하나 이상의 기능 및 기능의 조합은 특정 기능을 수행하는 특수 목적 하드웨어 기반 컴퓨터 시스템 및/또는 프로세서, 또는 특수 목적 하드웨어 및 프로그램 코드 명령의 조합에 의해 구현될 수 있음을 이해할 수 있을 것이다.

여기에서 제시된 본 발명의 많은 수정 및 다른 구현은 본 발명이 전술한 설명 및 관련 도면에 제시된 교시의 이점을 갖는 것이라는 점이 당업자에게 떠오를 것이다. 그러므로, 본 발명은 개시된 특정 구현들로 제한되지 않아야 하고 수정들 및 다른 구현들은 첨부된 청구항들의 범위 내에 포함되는 것으로 이해되어야 한다. 또한, 전술한 설명 및 관련 도면은 요소 및/또는 기능의 특정 예시적인 조합의 맥락에서 예시적인 구현을 설명하지만, 요소 및/또는 기능의 상이한 조합이 첨부된 청구범위의 범주로부터 벗어나지 않고 대안적인 구현에 의해 제공될 수 있음을 이해해야 한다. 이와 관련하여, 예를 들어, 위에서 명시적으로 설명된 것과 상이한 요소 및/또는 기능의 조합이 또한 첨부된 청구범위의 일부에서 설명될 수 있을 것으로 고려된다. 본 명세서에서 특정 용어가 사용되지만, 이 용어는 포괄적이고 설명적인 의미로만 사용되며 제한의 목적으로 사용되지는 않는다.

Claims

프로세서(901)와,
프로세서에 의한 실행에 응답하여 장치가 비디오 피드를 수신하고, 비디오 피드가 수신됨에 따라 비디오 피드를 실시간으로 처리하며, 지식 베이스의 질의(query), 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크의 프리젠테리션을 가능하게 하도록 구성된 그래픽 사용자 인터페이스(GUI)(1041)를 생성하도록 하는 실행 가능한 명령을 저장하는 메모리(902)를 구비한 장치로서,
비디오 피드에서의 물체 탐지 및 인식을 수행하여 그 안의 물체를 탐지 및 분류하고, 적어도 물체의 일부의 활동을 탐지 및 분류하기 위해 활동 인식을 수행하며, 비디오 피드에서 분류된 물체 및 분류된 활동을 출력하고;
분류된 물체 및 활동으로부터 비디오 피드를 기술하는 자연 언어 텍스트를 생성하며;
분류된 물체를 나타내는 정점, 정점을 연결하고 분류된 물체간의 시맨틱 관계, 적어도 분류된 활동의 각각의 활동에 대응하는 시맨틱 관계의 일부를 나타내는 에지를 가진 그래프를 포함하는 시맨틱 네트워크를 생성하며;
비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크를 지식 베이스에 저장하도록 된 장치를 포함하는 것을 특징으로 하는 장치(900).
제1항에 있어서, 비디오 피드를 수신하도록 된 장치는 다수의 소스로부터 비디오 피드를 수신하는 것을 포함하며, 다수의 소스의 적어도 일부는 이동 소스인 것을 특징으로 하는 장치(900).
제1항 또는 제2항에 있어서, 비디오 피드를 처리하도록 된 장치는 각각의 지리적 위치에 지리적으로 등록하고, 분류된 물체를 분류된 물체 중 이동하는 물체의 각각의 궤적을 포함하는 것을 더 포함하되,
GUI(1041)는 각각의 지리적 위치에서 분류된 물체를 식별하고 분류된 물체 중 이동하는 물체의 각각의 궤적을 식별하여 비디오 피드에서 장면의 항공 이미지 또는 맵을 제시하도록 더 구성된 것을 특징으로 하는 장치(900).
제1항 또는 제2항에 있어서, 물체 탐지 및 인식을 수행하도록 된 장치는 분류된 물체에 각각의 고유 식별자를 할당하는 것을 포함하고, GUI(1041)에서의 비디오 피드의 선택의 프리젠테이션은 비디오 피드에서의 분류된 물체를 식별하는 것 및 각각의 고유 식별자를 포함하는 것을 포함하는 것을 특징으로 하는 장치(900).
제1항 또는 제2항에 있어서, 적어도 물체의 일부가 이동하는 물체이고, 물체 탐지 및 인식을 수행하도록 된 장치는 모션 보상, 배경 제거 및 컨볼루셔널 신경망을 이용하여 이동하는 물체를 탐지하여 분류하는 것을 포함하는 것을 특징으로 하는 장치(900).
제1항 또는 제2항에 있어서, 활동 인식을 수행하도록 된 장치는 분류된 물체들 중 단일의 물체, 분류된 물체들 중 다수의 물체, 또는 하나 이상의 분류된 물체와 비디오 피드의 지리적 영역 사이의 상호 작용만을 포함하는 것으로서 적어도 활동의 일부를 탐지하여 분류하는 것을 포함하는 것을 특징으로 하는 장치(900).
제1항 또는 제2항에 있어서, GUI(1041)를 생성하도록 된 장치는 사용자 지정 물체와 비디오 피드 내의 하나 이상의 분류된 물체들 사이의 유사성에 기초하여 지식 베이스의 질의를 가능하게 하도록 구성된 GUI를 생성하는 것을 포함하는 것을 특징으로 하는 장치(900).
지능형 비디오 분석의 방법(800)으로서,
비디오 피드를 수신하는 단계(801);
비디오 피드가 수신됨에 따라 비디오 피드를 실시간으로 처리하는 단계(802); 및
지식 베이스의 질의, 비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크의 프리젠테리션을 가능하게 하도록 구성된 그래픽 사용자 인터페이스(GUI)(1041)를 생성하는 단계(803)를 구비하되,
비디오 피드를 실시간으로 처리하는 단계(802)가,
비디오 피드에서의 물체 탐지 및 인식을 수행하여 그 안의 물체를 탐지 및 분류하고, 적어도 물체의 일부의 활동을 탐지 및 분류하기 위해 활동 인식을 수행하며, 비디오 피드에서 분류된 물체 및 분류된 활동을 출력하는 단계(8021);
분류된 물체 및 활동으로부터 비디오 피드를 기술하는 자연 언어 텍스트를 생성하는 단계(8022);
분류된 물체를 나타내는 정점, 정점을 연결하고 분류된 물체간의 시맨틱 관계, 적어도 분류된 활동의 각각의 활동에 대응하는 시맨틱 관계의 일부를 나타내는 에지를 가진 그래프를 포함하는 시맨틱 네트워크를 생성하는 단계(8023); 및
비디오 피드, 분류된 물체 및 분류된 활동, 자연 언어 텍스트 및 시맨틱 네트워크를 지식 베이스에 저장하는 단계(8024)를 포함하는 것을 특징으로 하는 방법(800).
제8항에 있어서, 비디오 피드를 수신하는 단계(801)는 다수의 소스로부터 비디오 피드를 수신하는 단계를 포함하며, 적어도 다수의 소스의 일부는 이동 소스인 것을 특징으로 하는 방법(800).
제8항 또는 제9항에 있어서, 비디오 피드를 처리하는 단계(802)는, 각각의 지리적 위치에 지리적으로 등록하는 단계, 및 분류된 물체를 분류된 물체 중 이동하는 물체의 각각의 궤적을 포함하는 단계를 더 포함하되,
GUI(1041)는 각각의 지리적 위치에서 분류된 물체를 식별하고 분류된 물체 중 이동하는 물체의 각각의 궤적을 식별하여 비디오 피드에서 장면의 항공 이미지 또는 맵을 제시하도록 더 구성된 것을 특징으로 하는 방법(800).
제8항 또는 제9항에 있어서, 물체 탐지 및 인식을 수행하는 단계(8021)는, 분류된 물체에 각각의 고유 식별자를 할당하는 단계를 포함하고, GUI(1041)에서의 비디오 피드의 선택의 프리젠테이션은 비디오 피드에서의 분류된 물체를 식별하는 것 및 각각의 고유 식별자를 포함하는 것을 포함하는 것을 특징으로 하는 방법(800).
제8항 또는 제9항에 있어서, 적어도 물체의 일부가 이동하는 물체이고, 물체 탐지 및 인식을 수행하는 단계(8021)는 모션 보상, 배경 제거 및 컨볼루셔널 신경망을 이용하여 이동하는 물체를 탐지하여 분류하는 단계를 포함하는 것을 특징으로 하는 방법(800).
제8항 또는 제9항에 있어서, 활동 인식을 수행하는 단계(8021)는, 분류된 물체들 중 단일의 물체, 분류된 물체들 중 다수의 물체, 또는 하나 이상의 분류된 물체와 비디오 피드의 지리적 영역 사이의 상호 작용만을 포함하는 것으로서 적어도 활동의 일부를 탐지하여 분류하는 단계를 포함하는 것을 특징으로 하는 방법(800).
제8항 또는 제9항에 있어서, GUI(1041)를 생성하는 단계는, 사용자 지정 물체와 비디오 피드 내의 하나 이상의 분류된 물체들 사이의 유사성에 기초하여 지식 베이스의 질의를 가능하게 하도록 구성된 GUI를 생성하는 단계를 포함하는 것을 특징으로 하는 방법(800).