KR102553763B1

KR102553763B1 - 비디오 이벤트 인식 방법, 장치, 전자 기기 및 기록 매체

Info

Publication number: KR102553763B1
Application number: KR1020210100015A
Authority: KR
Inventors: 치 왕; 즈판 펑; 후 양; 펑 허; 춘광 차이; 용 주
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-07-29
Filing date: 2021-07-29
Publication date: 2023-07-07
Also published as: US20220036085A1; EP3945456A1; CN112001265B; JP2022027629A; KR20220014865A; JP7242994B2; CN112001265A; EP3945456B1; US11557120B2

Abstract

본 발명은 비디오 이벤트 인식 방법, 장치, 전자 기기 및 기록 매체를 개시하는 바, 지식 지도, 심층 학습 및 컴퓨터 시각 분야에 관한 것이다. 당해 방법은, 비디오 이벤트 지도를 구축하는 것 - 비디오 이벤트 지도 중의 임의의 이벤트는 각각 이벤트의 M 개의 아규먼트 롤 및 각 아규먼트 롤의 아규먼트를 포함하고, M은 1보다 큰 양의 정수임 -; 인식될 비디오에 대해 당해 비디오에 대응하는 인식될 이벤트의 M 개의 아규먼트 롤의 아규먼트를 취득하는 것; 및 취득한 아규먼트에 기반하여 비디오 이벤트 지도에서 하나의 이벤트를 인식된 당해 비디오에 대응하는 이벤트로 선택하는 것을 포함한다. 본 발명의 상기 방안을 적용하면 정확하고 효율적인 비디오 이벤트 인식을 실현할 수 있다.

Description

비디오 이벤트 인식 방법, 장치, 전자 기기 및 기록 매체 {VIDEO EVENT RECOGNITION METHOD AND DEVICE, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM}

본 발명은 컴퓨터 애플리케이션 기술에 관한 것인 바, 특히 지식 지도(knowledge graph), 심층 학습(deep learning) 및 컴퓨터 시각(computer vision) 분야의 비디오 이벤트 인식 방법, 장치, 전자 기기 및 기록 매체에 관한 것이다.

정보 시대의 비디오에 대한 폭발적인 수요에 따라, 비디오 이벤트 인식 (비디오 이벤트 이해라고도 불림)과 같은 비디오 이해가 하나의 중요한 기술 수요로 되고 있다. 비디오 이벤트 인식의 주된 목적은, 비디오의 깊은 수준의 콘텐츠를 이해하는 것인 바, 비디오에서 발생한 이벤트에 대해 해석 및 추론을 실행함으로써, 깊은 수준의 콘텐츠를 이해하는 목적을 실현한다.

현재 비디오에 대한 인식은 대부분 비디오 동작 인식(video action recognition) 또는 비디오 시나리오 인식(video scene recognition) 등인 바, 아직 해당하는 비디오 이벤트 인식(video event recognition) 방식이 없다.

본 발명은 비디오 이벤트 인식 방법, 장치, 전자 기기 및 기록 매체를 제공한다.

비디오 이벤트 인식 방법에 있어서,

비디오 이벤트 지도를 구축하는 것 - 상기 비디오 이벤트 지도 중의 임의의 이벤트는 각각 상기 이벤트의 M 개의 아규먼트 롤 및 각 아규먼트 롤의 아규먼트를 포함하고, M은 1보다 큰 양의 정수임 -;

인식될 비디오에 대해 상기 비디오에 대응하는 인식될 이벤트의 상기 M 개의 아규먼트 롤의 아규먼트를 취득하는 것;

취득한 아규먼트에 기반하여 상기 비디오 이벤트 지도에서 하나의 이벤트를 인식된 상기 비디오에 대응하는 이벤트로 선택하는 것을 포함한다.

비디오 이벤트 인식 장치에 있어서,

지도 구축 모듈 및 이벤트 인식 모듈을 구비하며;

상기 지도 구축 모듈은 비디오 이벤트 지도를 구축하되, 상기 비디오 이벤트 지도 중의 임의의 이벤트는 각각 상기 이벤트의 M 개의 아규먼트 롤 및 각 아규먼트 롤의 아규먼트를 포함하고, M은 1보다 큰 양의 정수이며,

상기 이벤트 인식 모듈은 인식될 비디오에 대해 상기 비디오에 대응하는 인식될 이벤트의 상기 M 개의 아규먼트 롤의 아규먼트를 취득하고, 취득한 아규먼트에 기반하여 상기 비디오 이벤트 지도에서 하나의 이벤트를 인식된 상기 비디오에 대응하는 이벤트로 선택한다.

전자 기기에 있어서,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어 상기 적어도 하나의 프로세서로 하여금 상기의 방법을 실행하도록 한다.

컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서,

상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상기의 방법을 실행하도록 한다.

본 발명의 일 실시예는 아래의 이점 또는 유익한 효과를 가진다. 지식 지도와 비디오 이해를 결합시켜, 비디오 이벤트 지도를 구축하며 (여기서의 이벤트는 각각 복수의 아규먼트 롤 및 대응하는 아규먼트를 포함함), 인식될 비디오에 대응하는 인식될 이벤트의 해당하는 각 아규먼트 롤의 아규먼트를 취득하며, 취득한 아규먼트에 기반하여 비디오 이벤트 지도에서 이벤트를 선택함으로써, 정확하고 효율적인 비디오 이벤트 인식을 실현하였다.

여기에 설명된 내용은 본 발명의 실시예의 키 포인트 또는 중요한 특징을 나타냄을 의도하지 않으며, 본 발명의 범위를 한정하려는 것도 아님을 이해해야 한다. 본 발명의 기타 특징은 아래의 명세서를 통해 이해가 용이해질 것이다.

도면은 본 구성을 더 잘 이해하도록 하기 위한 것이며, 본 발명에 대한 한정을 이루지 않는다.
도 1은 본 발명은 상기 비디오 이벤트 인식 방법의 실시예의 플로우 차트이다.
도 2는 본 발명은 상기 컨볼루션 조작의 제1 모식도이다.
도 3은 본 발명은 상기 컨볼루션 조작의 제2 모식도이다.
도 4는 본 발명은 상기 취득한 이벤트 맵에 대응하는 맵 임베딩 표현 및 계산 유사도의 과정의 모식도이다.
도 5는 본 발명은 상기 비디오 이벤트 인식 방법의 전반적인 실현 과정의 모식도이다.
도 6은 본 발명은 상기 비디오 이벤트 인식 장치(60)의 실시예의 구성의 구조 모식도이다.
도 7은 본 발명의 실시예에 따른 상기 방법의 전자 기기의 블럭도이다.

이하, 도면을 참조하여 본 발명의 시범적인 실시예를 설명하는 바, 본 발명에 대한 이해를 돕기 위해 여기에는 본 발명 실시예의 다양한 세부 사항이 포함되며, 이러한 세부 사항을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성 및 간결성을 위하여 이하의 설명에서는 잘 알려진 기능 및 구조의 설명을 생략하였다.

또한, 본 명세서 중의 “및/또는”의 용어는 단지 관련 대상의 관련 관계를 설명하기 위한 것으로, 세 가지 관계가 존재할 수 있음을 나타내는 바, 예를 들면 A 및/또는 B는 A가 단독으로 존재하는 것, A와 B가 동시에 존재하는 것, 및 B가 단독으로 존재하는 것과 같은 세 가지 경우가 있음을 이해해야 한다. 또한, 본 명세서 중의 문자인 “/”는 일반적으로 전후 관련 대상이 “또는”의 관계임을 나타낸다.

도 1은 본 발명은 상기 비디오 이벤트 인식 방법의 실시예의 플로우 차트이다. 도 1에 나타낸 바와 같이, 이하의 구체적인 실현 방식을 포함한다.

101에 있어서, 비디오 이벤트 지도(video event graph)를 구축하되, 비디오 이벤트 지도 중의 임의의 이벤트는 각각 이벤트의 M 개의 아규먼트 롤(argument role) 및 각 아규먼트 롤의 아규먼트(argument)를 포함하고, M은 1보다 큰 양의 정수이다.

서로 다른 아규먼트 롤을 이벤트의 서로 다른 속성으로 이해하고, 이에 따라, 아규먼트를 속성 값으로 이해할 수 있다. 예를 들면 아규먼트 롤이 “공간 시나리오”일 경우, 대응하는 아규먼트는 “실외(outdoor)”, “복숭아 숲(peach forest")” 등일 수 있다.

102에 있어서, 인식될 비디오에 대해 당해 비디오에 대응하는 인식될 이벤트의 M 개의 아규먼트 롤의 아규먼트를 취득한다.

인식될 이벤트이란 인식될 비디오에 대응하는 이벤트를 의미하며, 당해 이벤트의 상기 M 개의 아규먼트 롤의 아규먼트를 취득할 수 있다.

103에 있어서, 취득한 아규먼트에 기반하여 비디오 이벤트 지도에서 하나의 이벤트를 인식된 당해 비디오에 대응하는 이벤트로 선택한다.

취득한 아규먼트에 기반하여, 비디오 이벤트 지도에서 하나의 이벤트를 선택하고, 당해 이벤트를 인식된 인식될 비디오에 대응하는 이벤트로 설정할 수 있는 바, 즉 인식될 비디오의 이벤트 인식 결과로 설정할 수 있다.

이로부터 알 수 있듯이, 상기 실시예에 있어서, 지식 지도와 비디오 이해를 결합시켜, 비디오 이벤트 지도를 구축하며 (여기서의 이벤트는 각각 복수의 아규먼트 롤 및 대응하는 아규먼트를 포함함), 인식될 비디오에 대응하는 인식될 이벤트의 해당하는 각 아규먼트 롤의 아규먼트를 취득하며, 취득한 아규먼트에 기반하여 비디오 이벤트 지도에서 이벤트를 선택함으로써, 정확하고 효율적인 비디오 이벤트 인식을 실현하였다.

비디오 이벤트 지도를 어떻게 구축하는 가는 종래 기술인 바, 예를 들면 자동화 추출 및 지도 구축 기술을 채용하여 실현할 수 있다. 비디오 이벤트 지도는 주요하게 서로 다른 이벤트 및 이벤트에 포함된 주요 아규먼트 롤과 아규먼트 등을 정의하고 규제한다. 예를 들면 101에 기재된 바와 같이, 하나의 이벤트는 M 개의 아규먼트 롤을 포함할 수 있다. 예를 들면, M의 값은 5일 수 있으며, 5개의 아규먼트 롤은 각각 공간 시나리오(scene), 동작(action), 인물(person), 물체(object) 및 연관어(term)일 수 있다.

“도원결의(복숭아 밭에서 의형제를 맺음, 桃園結義)”의 이벤트를 예로 들면, 여기에 포함된 아규먼트 롤 및 아규먼트는 표 1에 나타낸 바와 같을 수 있다.

<“도원결의” 이벤트 중에 포함된 아규먼트 롤 및 아규먼트>

예를 들면 102에 기재된 바와 같이, 인식될 비디오에 대해 인식될 비디오에 대응하는 인식될 이벤트의 M 개의 아규먼트 롤의 아규먼트를 취득할 수 있다. 예를 들면, 인식될 이벤트의 공간 시나리오 아규먼트 롤의 아규먼트, 동작 아규먼트 롤의 아규먼트, 인물 아규먼트 롤의 아규먼트, 물체 아규먼트 롤의 아규먼트 및 연관어 아규먼트 롤의 아규먼트를 각각 취득할 수 있다.

여기서, 인식될 비디오에 대해 시각적 이해를 실행함으로써, 인식될 이벤트의 공간 시나리오 아규먼트 롤의 아규먼트, 동작 아규먼트 롤의 아규먼트, 인물 아규먼트 롤의 아규먼트 및 물체 아규먼트 롤의 아규먼트를 얻고, 인식될 비디오에 대응하는 텍스트에 대해 텍스트 이해를 실행함으로써, 인식될 이벤트의 연관어 아규먼트 롤의 아규먼트를 얻을 수 있다.

시각적 이해는 주요하게 기초적인 시각 관련의 요소 추출과 인식을 실현하는 바, 구체적으로, 인식될 비디오에 대해 공간 시나리오 인식(Scene Recognition)을 실행함으로써, 인식될 이벤트의 공간 시나리오 아규먼트 롤의 아규먼트를 얻고, 인식될 비디오에 대해 동작 인식(Action Recognition)을 실행함으로써, 인식될 이벤트의 동작 아규먼트 롤의 아규먼트를 얻으며, 인식될 비디오에 대해 얼굴 인식(Face Recognition)을 실행함으로써, 인식될 이벤트의 인물 아규먼트 롤의 아규먼트를 얻고, 인식될 비디오에 대해 통용 물체 인식(Object Recognition)을 실행함으로써, 인식될 이벤트의 물체 아규먼트 롤의 아규먼트를 얻을 수 있다.

여기서, 공간 시나리오 인식은 인식될 비디오의 공간 시나리오를 인식하는데 사용되며, 구체적으로는 어떠한 공간 시나리오를 포함하는지는 실제 수요에 따라 결정될 수 있는 바, 예를 들면 표 2에 나타낸 바와 같다.

<공간 시나리오>

동작 인식은 비디오에 출현하는 동작을 인식하는데 사용되며, 구체적으로 어떠한 동작을 포함하는지는 실제 수요에 따라 결정될 수 있는 바, 예를 들면 표 3에 나타낸 바와 같다.

<동작>

통상적인 물체 인식은 비디오에 출현하는 물체의 명칭을 인식하는데 사용되며, 예를 들면 나무, 상 등이다. 얼굴 인식은 비디오에 출현하는 인물을 인식하는데 사용된다.

어떻게 공간 시나리오 인식, 동작 인식, 통상적인 물체 인식 및 얼굴 인식을 실행하는 가는 모두 종래 기술이다.

예를 들면 상기 시각적 이해 이외에, 인식될 비디오에 대응하는 텍스트에 대해 텍스트 이해를 실행함으로써, 인식될 이벤트의 연관어(relevant word) 아규먼트 롤의 아규먼트를 얻을 수도 있다. 예를 들면 각각 텍스트에 대해 엔티티 인식 및 키 포인트 단어 추출을 실행하여, 엔티티 인식 결과 및 키 포인트 단어 추출 결과를 인식될 이벤트의 연관어 아규먼트 롤의 아규먼트로 설정할 수 있다.

인식될 비디오에 대응하는 텍스트는 인식될 비디오의 제목 텍스트, 인식될 비디오의 설명 정보 (예를 들면 프로필 정보 등) 텍스트, 인식될 비디오의 오디오를 변환하여 얻은 텍스트, 인식될 비디오의 자막을 변환하여 얻은 텍스트 등 중의 하나 또는 임의의 조합을 포함할 수 있으나 이에 한정되지 않는다. 여기서, 광학적 문자 인식 (OCR, Optical Character Recognition)기술을 통해 자막에 대응하는 텍스트를 얻을 수 있으며, 자동 음성 인식 (ASR, Automatic Speech Recognition)기술을 통해 오디오에 대응하는 텍스트를 얻을 수 있다.

엔티티 인식은 텍스트 중의 엔티티를 인식하는 것이고, 키 포인트 단어 추출은 텍스트 중의 키 포인트 단어를 추출하는 것이다. 엔티티 인식 및 키 포인트 단어 추출의 구체적인 실현은 모두 종래 기술이다.

상기 처리를 통해 비디오 모드 및 텍스트 모드 등 서로 다른 모드의 요소의 추출을 실현하였으며, 후속에서 추출한 다중 모드 정보를 융합시켜, 인식될 비디오에 대응하는 이벤트를 정확하게 인식함으로써, 이벤트 인식 결과의 정확성을 향상시켰다.

예를 들면 (103)에 기재된 바와 같이, 취득한 인식될 이벤트의 M 개의 아규먼트 롤의 아규먼트에 기반하여, 비디오 이벤트 지도에서 하나의 이벤트를 선택하여, 인식된 인식될 비디오에 대응하는 이벤트로 설정할 수 있다.

구체적으로, 우선 취득한 아규먼트에 기반하여 하나의 이벤트 맵을 구축할 수 있으며, 이벤트 맵은 제3 계층 노드를 포함하되, 여기서, 제1 계층 노드의 수량은 하나이고, 인식될 이벤트에 대응되며, 제2 계층 노드의 수량은 M 개이고, 각 제2 계층 노드는 각각 하나의 아규먼트 롤에 대응되며, 제3 계층 노드의 수량은 M 개의 아규먼트 롤의 아규먼트 수량의 합과 같고, 각 제3 계층 노드는 각각 하나의 아규먼트에 대응되며, 각 제2 계층 노드는 각각 제1 계층 노드와 연결되고, 각 제3 계층 노드는 각각 자신이 소속되는 아규먼트 롤에 대응하는 제2 계층 노드와 연결된다. 그 다음, 이벤트 맵에 대응하는 맵 임베딩(graph embedding)표현을 취득하고, 이벤트 맵에 대응하는 맵 임베딩 표현 (즉 인식될 이벤트 대응하는 맵 임베딩 표현)과 비디오 이벤트 지도 중의 각 이벤트 대응하는 맵 임베딩 표현 사이의 유사도를 각각 계산하며, 유사도가 제일 높은 이벤트를 선택된 이벤트로 설정할 수 있다. 인식될 이벤트가 미지의 이벤트이므로, 실제 응용에 있어서, 인식될 이벤트 대응하는 노드 콘텐츠가 비어 있다고 간주할 수 있다.

후속의 처리 방식에 대한 이해의 돕기 위하여, 우선 컨볼루션 신경망(CNN, Convolutional Neural Networks)의 이미지에 대한 적용을 소개하기로 한다. 도 2는 본 발명의 컨볼루션 조작의 제1 모식도이다. 도 2에 나타낸 바와 같이, 왼쪽에 나타낸 이미지에 나타낸 것은 하나의 이미지의 신경망 계층 중의 컨볼루션 조작 과정인 바, 제일 하부의 계층은 입력된 특징 맵 (또는 원본 이미지)이다. 하나의 컨볼루션 (여기서 나타낸 것은 하나의 3*3의 컨볼루션 커널인 바, 즉 receptive filed=9임)조작을 통해, 하나의 컨볼루션 후의 특징 맵을 출력한다. 도 3은 본 발명의 컨볼루션 조작의 제2 모식도이다. 도 3에 나타낸 바와 같이, (a)부분의 각 이미지 중에서, 아래층의 9 개의 픽셀은 맨 윗층의 하나의 픽셀에 가중치가 부여되어 매핑되며, 임의의 하나의 컨볼루션을 가지는 영역을 모두 하나의 중심 노드(node) 및 그 인접 영역 노드의 집합으로 간주할 수 있다. 최종적으로 하나의 값으로 가중치가 부여되어 매핑된다. 따라서, (b)부분의 입력 특징 맵을 하나의 사각형의 그리드(grid)맵 중에서 일부 노드를 결정하여 당해 이미지를 나타내고 또한 정규화된 영역 맵을 구축하는 것으로 간주할 수 있다(이 영역 맵이 바로 컨볼루션 커널의 영역 즉 수용 필드 (receptive filed)임).

상기의 발상에 기반하여, 본 발명에 있어서, 이벤트 맵에 대응하는 맵 임베딩 표현을 취득할 때, 우선 이벤트 맵의 각 노드 중에서 N (N은 1보다 큰 양의 정수인 동시에 이벤트 맵 중에 포함된 노드 수보다 작음) 개의 중심 노드를 선택한 후, 임의의 중심 노드에 대해, 각각 당해 중심 노드의 인접 영역 노드를 취득하고(인접 영역 노드는 당해 중심 노드와 연결된 노드임), 당해 중심 노드와 인접 영역 노드로 구성된 서브 맵에 대응하는 벡터 표현을 결정하는 처리를 실행하며, 얻은 각 벡터 표현을 컨볼루션 신경망에 입력함으로써 이벤트 맵에 대응하는 맵 임베딩 표현을 얻을 수 있다.

이벤트 맵에 대해, 우선 폭 N을 결정하여, 선택하려는 중심 노드의 개수 즉 수용 필드의 개수를 나타낼 필요가 있다. 예를 들면, 4 개의 주요한 아규먼트 롤에 대응하는 노드를 중심 노드로 선택할 수 있다. 예를 들면 공간 시나리오 아규먼트 롤에 대응하는 노드, 동작 아규먼트 롤에 대응하는 노드, 물체 아규먼트 롤에 대응하는 노드 및 연관어 아규먼트 롤에 대응하는 노드를 선택된 4 개 중심 노드로 설정할 수 있다.

이어서, 각 중심 노드의 인접 영역 노드를 각각 취득하는 바, 즉 임의의 중심 노드에 대해, 각각 당해 중심 노드와 연결된 노드를 당해 중심 노드의 인접 영역 노드로 설정할 수 있다. 중심 노드가 제2 계층 노드이기에, 그 인접 영역 노드 중에는 제1 계층 노드 및 제3 계층 노드를 반드시 포함하게 된다.

또한, 정규화 처리를 더 실행할 수 있는 바, 구체적으로, 임의의 중심 노드에 대해, 취득한 당해 중심 노드의 인접 영역 노드의 수량 P가 K보다 작으면, K-P 개의 더미 노드를 보충하고(K는 1보다 큰 양의 정수임), 보충된 더미 노드도 당해 중심 노드의 인접 영역 노드로 설정할 수 있으며, 취득한 당해 중심 노드의 인접 영역 노드의 수량 P가 K보다 크면, 소정의 규칙에 따라 취득한 당해 중심 노드의 각 인접 영역 노드를 정렬하며, 정렬 후 제K+1위 및 그 후에 위치한 인접 영역 노드를 폐기할 수 있다.

K의 구체적인 값은 실제 수요에 따라 결정될 수 있다. K의 값이 4인 예를 들면, 임의의 중심 노드에 대해, 3 개의 인접 영역 노드가 취득되었다고 가정하면, 1 개의 더미 노드를 보충할 필요가 있다. 6 개의 인접 영역 노드가 취득되었다고 가정하면, 6 개 인접 영역 노드를 정렬하여, 제5위 및 제6위에 위치한 노드를 폐기할 필요가 있다. 더미 노드는 기본값으로 설정할 수 있다 .

어떻게 각 인접 영역 노드를 정렬하는지에 대해 한정하지 않는 바, 예를 들면, 소정의 방식에 따라 각 인접 영역 노드의 신뢰도를 각각 취득하며, 신뢰도 내림차순으로 정렬할 수 있다. 일반적으로, 인접 영역 노드 중의 제1 계층 노드를 유지하고, 인접 영역 노드 중의 일부 제3 계층 노드를 폐기할 수 있다.

임의의 중심 노드에 대해, 또한 당해 중심 노드와 그 인접 영역 노드로 구성된 서브 맵에 대응하는 벡터 표현을 결정할 수 있다. 예를 들면 사전에 설정의 매핑 방식을 채용하여, 당해 서브 맵을 벡터 표현으로 매핑할 수 있는 바, 상기 매핑 방식이 구체적으로 어떤 유형의 방식인지에 대해 한정하지 않는다.

이렇게 함으로써, 각 중심 노드에 대해, 모두 대응하는 벡터 표현을 얻을 수 있으며, 얻은 각 벡터 표현을 컨볼루션 신경망 (예를 들면 2계층의 컨볼루션 신경망)에 입력함으로써 이벤트 맵에 대응하는 맵 임베딩 표현을 얻을 수 있다.

동일한 맵 임베딩 표현 취득 방법에 따라, 비디오 이벤트 지도 중의 각 이벤트 대응하는 맵 임베딩 표현을 각각 취득하고, 이벤트 맵에 대응하는 맵 임베딩 표현과 비디오 이벤트 지도 중의 각 이벤트 대응하는 맵 임베딩 표현 사이의 유사도를 각각 계산하며, 유사도가 제일 높은 이벤트를 선택된 이벤트로 설정할 수 있는 바, 즉 인식될 비디오에 대응하는 이벤트로 설정할 수 있다.

상기 설명에 기반하여, 도 4는 본 발명은 상기 취득한 이벤트 맵에 대응하는 맵 임베딩 표현 및 계산 유사도의 과정의 모식도이다. 도 4에 나타낸 바와 같이, 이벤트 맵의 제2 계층 노드 중의 제3 계층 노드의 예를 들면, 당해 노드가 중심 노드로 선택되었다고 가정하면, 그 인접 영역 노드는 제1 계층 노드 및 당해 중심 노드와 연결된 2개의 제3 계층 노드를 포함할 수 있다. K의 값이 4이다고 가정하면, 하나의 더미 노드를 보충할 필요가 있다.

상기 처리에 있어서, 맵 임베딩을 이벤트 지식 표현에 적용하고, 또한 컨볼루션 신경망을 결합시켜 복잡한 추론 기술을 구축함으로써, 비디오 이벤트 인식 결과의 정확성을 향상시켰다.

도 5는 본 발명은 상기 비디오 이벤트 인식 방법의 전반적인 실현 과정의 모식도이다. 도 5에 나타낸 바와 같이, 지식 융합 & 복잡한 추론이란, 취득한 아규먼트에 기반하여 이벤트 맵을 구축하고, 이벤트 맵에 대응하는 맵 임베딩 표현을 취득하며, 맵 임베딩 표현 사이의 유사도를 계산하여 최종 인식 결과를 얻는 과정을 의미한다.

전술한 방법의 실시예의 경우, 설명의 간소화를 위하여 일련의 동작 조합으로 표현하였지만, 당업자는 본 발명이 설명된 동작의 순서에 한정되지 않음을 알 수 있는 바, 이는 본 발명에 따르면 일부 단계는 기타 순서로 실행되거나 또는 동시에 실행될 수 있기 때문임을 설명할 필요가 있다. 그리고, 당업자는 또한 명세서 중에 설명된 실시예는 모두 바람직한 실시예에 해당하며, 언급된 동작 및 모듈은 본 발명에 있어서 반드시 필요한 것이 아님을 알아야 한다.

본 발명의 상기 방안의 적용 시나리오를 아래와 같이 예를 들어 설명할 수 있다.

1) 비디오 검색 시나리오에 있어서, 비디오의 이벤트를 어떻게 라벨링하여, 비디오 검색 리콜을 실행하는가;

2) 비디오 추천 시나리오에 있어서, 사용자 관심점과 비디오의 이벤트를 어떻게 관련시켜 해석하여 해당하는 비디오 추천을 실행하는가;

3) 엔터프라이즈 (ToB) 시나리오에 있어서, 도난, 싸움 등 이벤트를 어떻게 인식하는가.

이상은 방법의 실시예에 관한 설명이며, 이하 장치의 실시예를 통해 본 발명의 상기 방안에 대해 더 설명하기로 한다.

도 6은 본 발명은 상기 비디오 이벤트 인식 장치(60)의 실시예의 구성의 구조 모식도이다. 도 6에 나타낸 바와 같이, 상기 비디오 이벤트 인식 장치(60)는 지도 구축 모듈(601) 및 이벤트 인식 모듈(602)을 구비한다.

지도 구축 모듈(601)은, 비디오 이벤트 지도를 구축하되, 비디오 이벤트 지도 중의 임의의 이벤트는 각각 이벤트의 M 개의 아규먼트 롤 및 각 아규먼트 롤의 아규먼트를 포함하고, M은 1보다 큰 양의 정수이다.

이벤트 인식 모듈(602)은, 인식될 비디오에 대해 당해 비디오에 대응하는 인식될 이벤트의 M 개의 아규먼트 롤의 아규먼트를 취득하고, 취득한 아규먼트에 기반하여 비디오 이벤트 지도에서 하나의 이벤트를 인식된 당해 비디오에 대응하는 이벤트로 선택한다.

M 개의 아규먼트 롤은 공간 시나리오, 동작, 인물, 물체 및 연관어를 포함할 수 있다.

이벤트 인식 모듈(602)은, 인식될 비디오에 대해 시각적 이해를 실행함으로써, 인식될 이벤트의 공간 시나리오 아규먼트 롤의 아규먼트, 동작 아규먼트 롤의 아규먼트, 인물 아규먼트 롤의 아규먼트 및 물체 아규먼트 롤의 아규먼트를 얻고, 인식될 비디오에 대응하는 텍스트에 대해 텍스트 이해를 실행함으로써, 인식될 이벤트의 연관어 아규먼트 롤의 아규먼트를 얻을 수 있다.

구체적으로, 이벤트 인식 모듈(602)은, 인식될 비디오에 대해 공간 시나리오 인식을 실행하여, 인식될 이벤트의 공간 시나리오 아규먼트 롤의 아규먼트를 얻고, 인식될 비디오에 대해 동작 인식을 실행하여, 인식될 이벤트의 동작 아규먼트 롤의 아규먼트를 얻으며, 인식될 비디오에 대해 얼굴 인식을 실행하여, 인식될 이벤트의 인물 아규먼트 롤의 아규먼트를 얻고, 인식될 비디오에 대해 통상적인 물체 인식을 실행하여, 인식될 이벤트의 물체 아규먼트 롤의 아규먼트를 얻는다.

이벤트 인식 모듈(602)은 또한 인식될 비디오에 대응하는 텍스트에 대해 엔티티 인식 및 키 포인트 단어 추출을 실행하여, 인식될 이벤트의 연관어 아규먼트 롤의 아규먼트를 얻는다.

이벤트 인식 모듈(602)은, 취득한 아규먼트에 기반하여 이벤트 맵을 구축하되, 이벤트 맵은 3계층 노드를 포함할 수 있고, 여기서, 제1 계층 노드의 수량은 하나이고, 인식될 이벤트에 대응되며, 제2 계층 노드의 수량은 M 개이고, 각 제2 계층 노드는 각각 하나의 아규먼트 롤에 대응되며, 제3 계층 노드의 수량은 M 개의 아규먼트 롤의 아규먼트 수량의 합과 같고, 각 제3 계층 노드는 각각 하나의 아규먼트에 대응되며, 각 제2 계층 노드는 각각 제1 계층 노드와 연결되고, 각 제3 계층 노드는 각각 자신이 소속되는 아규먼트 롤에 대응하는 제2 계층 노드와 연결된다. 또한, 이벤트 맵에 대응하는 맵 임베딩 표현을 취득하고, 이벤트 맵에 대응하는 맵 임베딩 표현과 비디오 이벤트 지도 중의 각 이벤트 대응하는 맵 임베딩 표현 사이의 유사도를 각각 계산하며, 유사도가 제일 높은 이벤트를 선택된 이벤트로 설정한다.

구체적으로, 이벤트 인식 모듈(602)은, 이벤트 맵의 각 노드 중에서 N 개의 중심 노드를 선택하며(N은 1보다 큰 양의 정수인 동시에 이벤트 맵 중에 포함된 노드 수보다 작음), 또한, 임의의 중심 노드에 대해, 각각 당해 중심 노드의 인접 영역 노드를 취득하고(인접 영역 노드는 당해 중심 노드와 연결된 노드임), 당해 중심 노드와 인접 영역 노드로 구성된 서브 맵에 대응하는 벡터 표현을 결정하는 처리를 실행하며, 얻은 각 벡터 표현을 컨볼루션 신경망에 입력하여 이벤트 맵에 대응하는 맵 임베딩 표현을 얻는다.

여기서, 이벤트 인식 모듈(602)은, 공간 시나리오 아규먼트 롤에 대응하는 노드, 동작 아규먼트 롤에 대응하는 노드, 물체 아규먼트 롤에 대응하는 노드 및 연관어 아규먼트 롤에 대응하는 노드를 중심 노드로 설정한다.

임의의 중심 노드에 대해, 이벤트 인식 모듈(602)은 또한 취득한 당해 중심 노드의 인접 영역 노드의 수량 P가 K보다 작으면, K-P 개의 더미 노드를 보충하고(K는 1보다 큰 양의 정수임), 보충된 더미 노드도 당해 중심 노드의 인접 영역 노드로 설정하며, 취득한 당해 중심 노드의 인접 영역 노드의 수량 P가 K보다 크면, 소정의 규칙에 따라 취득한 당해 중심 노드의 각 인접 영역 노드를 정렬하며, 정렬 후 제K+1위 및 그 후에 위치한 인접 영역 노드를 폐기한다.

도 6에 나타낸 장치의 실시예의 구체적인 작업 흐름은 전술한 방법의 실시예의 관련 설명을 참조할 수 있는 바, 더 이상 반복적으로 설명하지 않는다.

결론적으로, 본 발명의 장치의 실시예의 상기 방안을 채용하면, 지식 지도와 비디오 이해를 결합시켜, 비디오 이벤트 지도를 구축하며 (여기서의 이벤트는 각각 복수의 아규먼트 롤 및 대응하는 아규먼트를 포함함), 인식될 비디오에 대응하는 인식될 이벤트의 해당하는 각 아규먼트 롤의 아규먼트를 취득하며, 취득한 아규먼트에 기반하여 비디오 이벤트 지도에서 이벤트를 선택함으로써, 정확하고 효율적인 비디오 이벤트 인식을 실현할 수 있다. 또한 비디오 모드 및 텍스트 모드 등의 서로 다른 모드의 요소에 대한 추출을 실현하고, 추출한 다중 모드 정보를 융합시킴으로써, 비디오 이벤트 인식 결과의 정확성을 더 한층 향상시킬 수 있다. 또한, 맵을 이벤트 지식 표현에 임베딩하여 응용하며, 컨볼루션 신경망이 구축한 복잡한 추론 기술에 결합시킴으로써, 비디오 이벤트 인식 결과의 정확성을 더 한층 향상시킬 수 있다. 또한, 각 모듈이 고도로 분리되어 있기에, 강렬한 확장성 등을 가진다.

본 발명의 실시예에 따르면, 본 발명은 전자 기기 및 판독 가능 기록 매체를 더 제공한다.

도 7은 본 발명에 따른 실시예의 상기 방법을 실현하는 전자 기기의 블럭도이다. 전자 기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자 기기는 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일 뿐이며, 본 명세서에서 설명하거나 및/또는 요구하는 본 발명의 실현을 한정하려는 것이 아니다.

도 7에 나타낸 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(Y01), 메모리(Y02) 및 각 구성 요소를 연결하기 위한 인터페이스를 구비하며, 당해 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서 전자 기기 내에서 수행되는 명령에 대해 처리를 실행할 수 있으며, 메모리 내에 기억되어 외부 입력/출력 장치 (예를 들면 인터페이스에 연결된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각 기기는 부분적인 필요한 조작 (예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 7에서는 하나의 프로세서(Y01)의 예를 들었다.

메모리(Y02)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기억 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 발명에 의해 제공되는 상기 방법을 수행하도록 한다. 본 발명의 비 일시적 컴퓨터 판독 가능 기억 매체는 컴퓨터 명령을 기억하며, 당해 컴퓨터 명령은 컴퓨터로 하여금 본 발명에 의해 제공되는 상기 방법을 수행하도록 한다.

메모리(Y02)는 일종의 비 일시적 컴퓨터 판독 가능 기억 매체로서, 비 일시적 소프트웨어 프로그램을 기억하는데 사용될 수 있는 바, 예를 들면 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈, 본 발명 실시예 중의 상기 방법 대응하는 프로그램 명령/모듈을 기억하는데 사용될 수 있다. 프로세서(Y01)는 메모리 (Y02) 내에 기억된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 수행하는 바, 즉 상술한 방법 실시예 중의 상기 방법을 실현한다.

메모리(Y02)는 프로그램 기억 영역 및 데이터 기억 영역을 포함할 수 있으며, 여기서, 프로그램 기억 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램을 기억할 수 있고, 데이터 기억 영역은 상기 방법을 실현하는 전자 기기의 사용을 통해 생성된 데이터 등을 기억할 수 있다. 또한, 메모리(Y02)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있는 바, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(Y02)는 선택적으로 프로세서(Y01)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 상기 방법을 실현하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 실예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

상기 방법을 실현하는 전자 기기는 입력 장치(Y03) 및 출력 장치(Y04)를 더 포함할 수 있다. 프로세서(Y01), 메모리(Y02), 입력 장치(Y03) 및 출력 장치(Y04)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 7에서는 버스를 통해 연결하는 예를 들었다.

입력 장치(Y03)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 상기 방법을 실현하는 전자 기기의 사용자 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치(Y04)는 디스플레이 기기, 보조 조명 장치 (예를 들면 LED) 및 촉각 피드백 장치 (예를 들면 진동 모터) 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 등 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 다양한 실시 방법은 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 당해 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 기억 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 당해 기억 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 계산 프로그램 (프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림)은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치 (예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. “기계 판독 가능 신호”와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 당해 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치 (예를 들면 CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 키보드와 포인팅 장치 (예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 유저는 당해 키보드 및 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백 (예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백)일 수 있으며, 또한 임의의 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함함)를 통해 유저로부터의 입력을 수신할 수 있다.

여기서 설명하는 시스템 및 기술을 백엔드 구성 요소를 포함하는 계산 시스템 (예를 들면 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 계산 시스템 (예를 들면 응용 서버), 또는 프런트 엔드 구성 요소를 포함하는 계산 시스템 (예를 들면 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 유저 컴퓨터인 바, 유저는 당해 그래픽 유저 인터페이스 또는 당해 웹 브라우저를 통해 여기서 설명하는 시스템 및 기술의 실시 방식과 대화함), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트 엔드 구성 요소의 임의의 조합을 포함하는 계산 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신 (예를 들면, 통신 네트워크)을 통해 시스템의 구성 요소를 상호 연결할 수 있다. 통신 네트워크의 예는 근거리 통신망, 광역 통신망, 블록 체인 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 실행한다. 해당되는 컴퓨터 상에서 운행되고, 또한 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다. 서버는 클라우드 서버일 수 있으며, 클라우드 계산 서버 또는 클라우드 호스트라고도 불리우며, 라우드 계산 서비스 시스템 중의 호스트 제품으로써, 기존의 물리적 호스트와 VPS 서비스에 존재하는 어려운 관리 및 약한 사업 확장의 단점을 해결하였다.

상기에 나타낸 다양한 형태의 흐름을 이용하여 것을 재정렬, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각 것은 병렬로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 발명이 개시하는 기술안이 원하는 결과를 실현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.

상술한 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 실행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

비디오 이벤트 인식 방법에 있어서,
비디오 이벤트 지도를 구축하는 단계 - 상기 비디오 이벤트 지도 중의 임의의 이벤트는 각각 상기 이벤트의 M 개의 아규먼트 롤(argument role) 및 각 아규먼트 롤의 아규먼트를 포함하고, M은 1보다 큰 양의 정수임 -;
인식될 비디오에 대해 상기 비디오에 대응하는 인식될 이벤트의 상기 M 개의 아규먼트 롤의 아규먼트를 취득하는 단계; 및
취득한 아규먼트에 기반하여 상기 비디오 이벤트 지도에서 하나의 이벤트를 인식된 상기 비디오에 대응하는 이벤트로 선택하는 단계를 포함하되,
상기 취득한 아규먼트에 기반하여 상기 비디오 이벤트 지도에서 하나의 이벤트를 선택하는 단계는,
취득한 아규먼트에 기반하여 이벤트 맵을 구축하는 단계 - 상기 이벤트 맵은 3계층 노드를 포함하되, 여기서, 제1 계층 노드의 수량은 하나이고, 상기 인식될 이벤트에 대응되며, 제2 계층 노드의 수량은 M 개이고, 각 제2 계층 노드는 각각 하나의 아규먼트 롤에 대응되며, 제3 계층 노드의 수량은 M 개의 아규먼트 롤의 아규먼트 수량의 합과 같고, 각 제3 계층 노드는 각각 하나의 아규먼트에 대응되며, 각 제2 계층 노드는 각각 상기 제1 계층 노드와 연결되고, 각 제3 계층 노드는 각각 자신이 소속되는 아규먼트 롤에 대응하는 제2 계층 노드와 연결됨 -; 및
상기 이벤트 맵에 대응하는 맵 임베딩 표현을 취득하고, 상기 이벤트 맵에 대응하는 맵 임베딩 표현과 상기 비디오 이벤트 지도 중의 각 이벤트 대응하는 맵 임베딩 표현 사이의 유사도를 각각 계산하며, 유사도가 제일 높은 이벤트를 선택된 이벤트로 설정하는 단계를 포함하고,
상기 이벤트 맵에 대응하는 맵 임베딩 표현을 취득하는 단계는,
상기 이벤트 맵의 각 노드 중에서 N 개의 중심 노드를 선택하는 단계 - N은 1보다 큰 양의 정수인 동시에 상기 이벤트 맵 중에 포함된 노드 수보다 작음 -;
임의의 중심 노드에 대해, 각각 상기 중심 노드의 인접 영역 노드를 취득하고, 상기 중심 노드와 상기 인접 영역 노드로 구성된 서브 맵에 대응하는 벡터 표현을 결정하는 처리를 실행하는 단계 - 상기 인접 영역 노드는 상기 중심 노드와 연결된 노드임 -; 및
얻은 각 벡터 표현을 컨볼루션 신경망에 입력하여 상기 이벤트 맵에 대응하는 맵 임베딩 표현을 얻는 단계를 포함하는
비디오 이벤트 인식 방법.
제1항에 있어서,
상기 M 개의 아규먼트 롤은 공간 시나리오 아규먼트 롤, 동작 아규먼트 롤, 인물 아규먼트 롤, 물체 아규먼트 롤 및 연관어 아규먼트 롤을 포함하는
비디오 이벤트 인식 방법.
제2항에 있어서,
상기 비디오에 대응하는 인식될 이벤트의 상기 M 개의 아규먼트 롤의 아규먼트를 각각 취득하는 단계는,
상기 비디오에 대해 시각적 이해를 실행하여, 상기 인식될 이벤트의 상기 공간 시나리오 아규먼트 롤의 아규먼트, 상기 동작 아규먼트 롤의 아규먼트, 상기 인물 아규먼트 롤의 아규먼트 및 상기 물체 아규먼트 롤의 아규먼트를 얻는 단계; 및
상기 비디오에 대응하는 텍스트에 대해 텍스트 이해를 실행하여, 상기 인식될 이벤트의 상기 연관어 아규먼트 롤의 아규먼트를 얻는 단계를 포함하는
비디오 이벤트 인식 방법.
제3항에 있어서,
상기 비디오에 대해 시각적 이해를 실행하여, 상기 인식될 이벤트의 공간 시나리오 아규먼트 롤의 아규먼트, 동작 아규먼트 롤의 아규먼트, 인물 아규먼트 롤의 아규먼트 및 물체 아규먼트 롤의 아규먼트를 얻는 단계는,
상기 비디오에 대해 공간 시나리오 인식을 실행하여, 상기 인식될 이벤트의 상기 공간 시나리오 아규먼트 롤의 아규먼트를 얻는 단계;
상기 비디오에 대해 동작 인식을 실행하여, 상기 인식될 이벤트의 상기 동작 아규먼트 롤의 아규먼트를 얻는 단계;
상기 비디오에 대해 얼굴 인식을 실행하여, 상기 인식될 이벤트의 상기 인물 아규먼트 롤의 아규먼트를 얻는 단계; 및
상기 비디오에 대해 통용 물체 인식을 실행하여, 상기 인식될 이벤트의 상기 물체 아규먼트 롤의 아규먼트를 얻는 단계를 포함하는
비디오 이벤트 인식 방법.
제3항에 있어서,
상기 비디오에 대응하는 텍스트에 대해 텍스트 이해를 실행하여, 상기 인식될 이벤트의 상기 연관어 아규먼트 롤의 아규먼트를 얻는 단계는,
상기 텍스트에 대해 엔티티 인식 및 키 포인트 단어 추출을 실행하여, 상기 인식될 이벤트의 상기 연관어 아규먼트 롤의 아규먼트를 얻는 단계를 포함하는
비디오 이벤트 인식 방법.
제2항에 있어서,
상기 이벤트 맵의 각 노드 중에서 N 개의 중심 노드를 선택하는 단계는,
상기 공간 시나리오 아규먼트 롤에 대응하는 노드, 상기 동작 아규먼트 롤에 대응하는 노드, 상기 물체 아규먼트 롤에 대응하는 노드 및 상기 연관어 아규먼트 롤에 대응하는 노드를 상기 중심 노드로 설정하는 단계를 포함하는
비디오 이벤트 인식 방법.
제1항에 있어서,
임의의 중심 노드에 대해, 취득한 상기 중심 노드의 인접 영역 노드의 수량 P가 K보다 작으면, K-P 개의 더미 노드를 보충하는 단계 - K는 1보다 큰 양의 정수이고, 보충된 더미 노드도 상기 중심 노드의 인접 영역 노드로 설정함-; 및
취득한 상기 중심 노드의 인접 영역 노드의 수량 P가 K보다 크면, 소정의 규칙에 따라 취득한 상기 중심 노드의 각 인접 영역 노드를 정렬하고, 정렬 후 제K+1위 및 그 후에 위치한 인접 영역 노드를 폐기하는 단계를 포함하는
비디오 이벤트 인식 방법.
비디오 이벤트 인식 장치에 있어서,
지도 구축 모듈 및 이벤트 인식 모듈을 구비하며;
상기 지도 구축 모듈은 비디오 이벤트 지도를 구축하되, 상기 비디오 이벤트 지도 중의 임의의 이벤트는 각각 상기 이벤트의 M 개의 아규먼트 롤 및 각 아규먼트 롤의 아규먼트를 포함하고, M은 1보다 큰 양의 정수이며,
상기 이벤트 인식 모듈은 인식될 비디오에 대해 상기 비디오에 대응하는 인식될 이벤트의 상기 M 개의 아규먼트 롤의 아규먼트를 취득하고, 취득한 아규먼트에 기반하여 상기 비디오 이벤트 지도에서 하나의 이벤트를 인식된 상기 비디오에 대응하는 이벤트로 선택하되,
상기 이벤트 인식 모듈은 취득한 아규먼트에 기반하여 이벤트 맵을 구축하되, 상기 이벤트 맵은 3계층 노드를 포함하며, 여기서, 제1 계층 노드의 수량은 하나이고, 상기 인식될 이벤트에 대응되며, 제2 계층 노드의 수량은 M 개이고, 각 제2 계층 노드는 각각 하나의 아규먼트 롤에 대응되며, 제3 계층 노드의 수량은 M 개의 아규먼트 롤의 아규먼트 수량의 합과 같고, 각 제3 계층 노드는 각각 하나의 아규먼트에 대응되며, 각 제2 계층 노드는 각각 상기 제1 계층 노드와 연결되고, 각 제3 계층 노드는 각각 자신이 소속되는 아규먼트 롤에 대응하는 제2 계층 노드와 연결되며, 상기 이벤트 맵에 대응하는 맵 임베딩 표현을 취득하고, 상기 이벤트 맵에 대응하는 맵 임베딩 표현과 상기 비디오 이벤트 지도 중의 각 이벤트 대응하는 맵 임베딩 표현 사이의 유사도를 각각 계산하며, 유사도가 제일 높은 이벤트를 선택된 이벤트로 설정하고,
상기 이벤트 인식 모듈은 상기 이벤트 맵의 각 노드 중에서 N 개의 중심 노드를 선택하고, 임의의 중심 노드에 대해, 각각 상기 중심 노드의 인접 영역 노드를 취득하고, 상기 중심 노드와 상기 인접 영역 노드로 구성된 서브 맵에 대응하는 벡터 표현을 결정하는 처리를 실행하며, 얻은 각 벡터 표현을 컨볼루션 신경망에 입력하여 상기 이벤트 맵에 대응하는 맵 임베딩 표현을 얻되, 상기 인접 영역 노드는 상기 중심 노드와 연결된 노드이고, N은 1보다 큰 양의 정수인 동시에 상기 이벤트 맵 중에 포함된 노드 수보다 작은
비디오 이벤트 인식 장치.
제8항에 있어서,
상기 M 개의 아규먼트 롤은 공간 시나리오 아규먼트 롤, 동작 아규먼트 롤, 인물 아규먼트 롤, 물체 아규먼트 롤 및 연관어 아규먼트 롤을 포함하는
비디오 이벤트 인식 장치.
제9항에 있어서,
상기 이벤트 인식 모듈은 상기 비디오에 대해 시각적 이해를 실행하여, 상기 인식될 이벤트의 상기 공간 시나리오 아규먼트 롤의 아규먼트, 상기 동작 아규먼트 롤의 아규먼트, 상기 인물 아규먼트 롤의 아규먼트 및 상기 물체 아규먼트 롤의 아규먼트를 얻고,
상기 비디오에 대응하는 텍스트에 대해 텍스트 이해를 실행하여, 상기 인식될 이벤트의 상기 연관어 아규먼트 롤의 아규먼트를 얻는
비디오 이벤트 인식 장치.
제10항에 있어서,
상기 이벤트 인식 모듈은 상기 비디오에 대해 공간 시나리오 인식을 실행하여, 상기 인식될 이벤트의 상기 공간 시나리오 아규먼트 롤의 아규먼트를 얻고, 상기 비디오에 대해 동작 인식을 실행하여, 상기 인식될 이벤트의 상기 동작 아규먼트 롤의 아규먼트를 얻으며, 상기 비디오에 대해 얼굴 인식을 실행하여, 상기 인식될 이벤트의 상기 인물 아규먼트 롤의 아규먼트를 얻고, 상기 비디오에 대해 통용 물체 인식을 실행하여, 상기 인식될 이벤트의 상기 물체 아규먼트 롤의 아규먼트를 얻는
비디오 이벤트 인식 장치.
제10항에 있어서,
상기 이벤트 인식 모듈은 상기 텍스트에 대해 엔티티 인식 및 키 포인트 단어 추출을 실행하여, 상기 인식될 이벤트의 상기 연관어 아규먼트 롤의 아규먼트를 얻는
비디오 이벤트 인식 장치.
제9항에 있어서,
상기 이벤트 인식 모듈은 상기 공간 시나리오 아규먼트 롤에 대응하는 노드, 상기 동작 아규먼트 롤에 대응하는 노드, 상기 물체 아규먼트 롤에 대응하는 노드 및 상기 연관어 아규먼트 롤에 대응하는 노드를 상기 중심 노드로 설정하는
비디오 이벤트 인식 장치.
제8항에 있어서,
상기 이벤트 인식 모듈은 또한 임의의 중심 노드에 대해, 취득한 상기 중심 노드의 인접 영역 노드의 수량 P가 K보다 작으면, K-P 개의 더미 노드를 보충하고, 보충된 더미 노드도 상기 중심 노드의 인접 영역 노드로 설정하며, 취득한 상기 중심 노드의 인접 영역 노드의 수량 P가 K보다 크면, 소정의 규칙에 따라 취득한 상기 중심 노드의 각 인접 영역 노드를 정렬하고, 정렬 후 제K+1위 및 그 후에 위치한 인접 영역 노드를 폐기하되, K는 1보다 큰 양의 정수인
비디오 이벤트 인식 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제7항 중 어느 한 항에 기재된 방법을 수행하도록 하는
전자 기기.
컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제7항 중 어느 한 항에 기재된 방법을 수행하도록 하는
기록 매체.
비 일시적 컴퓨터 판독 가능 기록 매체에 기록되어 있는 프로그램에 있어서,
상기 프로그램은 상기 컴퓨터로 하여금 제1항 내지 제7항 중 어느 한 항에 기재된 방법을 수행하도록 하는
비 일시적 컴퓨터 판독 가능 기록 매체에 기록되어 있는 프로그램.
삭제
삭제
삭제
삭제