KR102229261B1

KR102229261B1 - 복수 개의 카메라 모듈들을 이용한 객체 관련 상황 요약 장치 및 방법

Info

Publication number: KR102229261B1
Application number: KR1020190172740A
Authority: KR
Inventors: 서동환; 배주원; 김원열; 이수환
Original assignee: 한국해양대학교 산학협력단
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2021-03-17

Abstract

다양한 실시예들에 따른 전자 장치 및 그의 동작 방법은, 특정 객체와 관련된 상황을 요약하기 위한 것으로, 복수 개의 영상 촬영 장치들을 통해 각각 촬영되는 영상들을 기반으로 각각 생성되는 객체와 관련된 문장들을 획득하고, 영상들이 각각 획득된 시점들을 나타내는 시간 정보와 영상 촬영 장치들에 각각 매핑된 위치들을 나타내는 공간 정보를 기반으로, 객체에 대해 문장들을 요약하도록 구성될 수 있다.

Description

복수 개의 카메라 모듈들을 이용한 객체 관련 상황 요약 장치 및 방법{APPARATUS AND METHOD FOR SUMMARIZING OBJECT CONDITIONS REATED TO OBJECT USING A PLURALITY OF CAMERA MODULES}

다양한 실시예들은 복수 개의 카메라 모듈들을 이용한 객체 관련 상황 요약 장치 및 방법에 관한 것이다.

일반적으로 캡셔닝 기술은 영상을 요약하여 문장을 만들어 내는 기술이다. 그런데, 이러한 캡셔닝 기술은 영상에 대해 프레임 단위로 요약을 생성할 뿐이다. 이로 인해, 요약으로부터, 특정 객체와 관련된 상황, 즉 등장, 이동, 퇴장 등을 파악하는 것은 불가능하다. 따라서, 상기와 같은 요약이 효율적으로 이용되지 못하는 문제점이 있다.

다양한 실시예들은, 복수의 영상들로부터 객체와 관련된 상황을 종합적으로 요약할 수 있는 전자 장치 및 그의 동작 방법을 제공한다.

다양한 실시예들은, 객체와 관련된 상황을 특정 시간 범위로 파악할 수 있도록 객체와 관련된 상황을 요약할 수 있는 전자 장치 및 그의 동작 방법을 제공한다.

다양한 실시예들은, 용이하게 검색 가능하여 효율적으로 이용될 수 있도록 객체와 관련된 상황을 요약할 수 있는 전자 장치 및 그의 동작 방법을 제공한다.

다양한 실시예들에 따른 전자 장치의 동작 방법은, 특정 객체와 관련된 상황을 요약하기 위한 것으로, 복수 개의 영상 촬영 장치들을 통해 각각 촬영되는 영상들을 기반으로 각각 생성되는 객체와 관련된 문장들을 획득하는 동작, 및 상기 영상들이 각각 획득된 시점들을 나타내는 시간 정보와 상기 영상 촬영 장치들에 각각 매핑된 위치들을 나타내는 공간 정보를 기반으로, 상기 객체에 대해 상기 문장들을 요약하는 동작을 포함할 수 있다.

다양한 실시예들에 따른 전자 장치는, 특정 객체와 관련된 상황을 요약하기 위한 것으로, 복수 개의 영상 촬영 장치들과 각각 통신하도록 구성되는 통신 모듈, 및 상기 통신 모듈과 연결되어 동작하는 프로세서를 포함하고, 상기 프로세서는, 상기 영상 촬영 장치들을 통해 각각 촬영되는 영상들을 기반으로 각각 생성되는 객체와 관련된 문장들을 획득하고, 상기 영상들이 각각 획득된 시점들을 나타내는 시간 정보와 상기 영상 촬영 장치들에 각각 매핑된 위치들을 나타내는 공간 정보를 기반으로, 상기 객체에 대해 상기 문장들을 요약하도록 구성될 수 있다.

다양한 실시예들에 따르면, 전자 장치는 복수 개의 카메라 모듈들을 통해 촬영되는 영상들로부터 객체와 관련된 상황을 종합적으로 요약할 수 있다. 즉 전자 장치는 객체의 발생으로부터 소멸까지의 시간 범위로 객체와 관련된 상황을 요약할 수 있다. 이를 통해, 전자 장치의 사용자는 객체와 관련된 상황을 해당 범위로 파악할 수 있으므로, 객체와 관련된 상황이 효율적으로 이용될 수 있다. 아울러, 전자 장치는 객체와 관련된 상황을 문장으로 요약하기 때문에, 전자 장치의 사용자는 텍스트를 기반으로 객체와 관련된 상황을 검색할 수 있다. 이에 따라, 객체와 관련된 이용 효율성이 증대될 수 있다.

도 1은 다양한 실시예들에 따른 시스템을 도시하는 도면이다.
도 2는 제 1 실시예에 따른 시스템의 신호 흐름을 도시하는 도면이다.
도 3a는 제 1 실시예에 따른 시스템에서 영상 촬영 장치들과 서버의 내부 구성을 도시하는 도면이다.
도 3b는 도 3a의 문장 생성부를 도시하는 도면이다.
도 3c는 서버(120)에 저장된 객체 정보를 설명하기 위한 도면이다.
도 3d는 서버(120)에 저장되는 문장을 설명하기 위한 도면이다.
도 4는 제 2 실시예에 따른 시스템의 신호 흐름을 도시하는 도면이다.
도 5a는 제 2 실시예에 따른 시스템에서 영상 촬영 장치들과 서버의 내부 구성을 도시하는 도면이다.
도 5b는 도 5a의 문장 생성부를 도시하는 도면이다.
도 6은 다양한 실시예들에 따른 시스템에서 전자 장치의 문장 생성 동작 절차를 도시하는 도면이다.
도 7은 다양한 실시예들에 따른 시스템에서 전자 장치의 문장 요약 동작 절차를 도시하는 도면이다.

이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.

도 1은 다양한 실시예들에 따른 시스템(100)을 도시하는 도면이다.

도 1을 참조하면, 다양한 실시예들에 따른 시스템(100)은 복수 개의 영상 촬영 장치(110)들과 서버(120)를 포함할 수 있다.

영상 촬영 장치(110)들은 미리 정해진 영역 내에 분산되어 배치될 수 있다. 이 때 영상 촬영 장치(110)들은 미리 정해진 위치들에 각각 설치될 수 있다. 그리고 각 영상 촬영 장치(110)는 영상을 촬영할 수 있다. 이 때 각 영상 촬영 장치(110)는 각각의 위치에 매핑된 위치의 공간에 대한 영상을 촬영할 수 있다. 예를 들면, 영상 촬영 장치(110)들은 CCTV(closed circuit television)를 포함할 수 있다.

서버(120)는 영상 촬영 장치(110)들과 유선 또는 무선으로 각각 연결될 수 있다. 그리고 서버(120)는 영상 촬영 장치(110)들을 통해 각 객체와 관련된 상황을 요약할 수 있다. 여기서, 객체와 관련된 상황은 객체의 발생으로부터 소멸까지의 기록을 나타내며, 예컨대 시간에 따른 객체의 이동 경로를 나타낼 수 있다. 이 때 서버(120)는 객체와 관련된 상황을 텍스트, 즉 적어도 하나의 문장으로 요약할 수 있다.

다양한 실시예들에 따르면, 영상 촬영 장치(110)들은, 제 1 영상 촬영 장치(도 2 및 도 4의 111)와 제 2 영상 촬영 장치(도 2 및 도 4의 112)를 포함할 수 있다. 이하에서, 영상 촬영 장치(110)들 중에서 제 1 영상 촬영 장치(111)와 제 2 영상 촬영 장치(112)는, 특정 객체를 기준으로 정의될 수 있다. 제 1 영상 촬영 장치(111)는 특정 객체의 발생 시, 해당 객체를 포함하는 제 1 영상을 촬영한 영상 촬영 장치(110)를 나타내고, 제 2 영상 촬영 장치(112)는 해당 객체의 소멸 시, 해당 객체를 포함하는 제 2 영상을 촬영한 영상 촬영 장치(110)를 나타낼 수 있다. 일 실시예에 따르면, 객체를 기준으로, 제 1 영상 촬영 장치(111)와 제 2 영상 촬영 장치(112) 사이에서 적어도 하나의 다른 영상 촬영 장치(110)가 추가적으로 정의될 수도 있다. 다른 영상 촬영 장치(110)는 객체의 이동 경로 상에 존재할 수 있다.

도 2는 제 1 실시예에 따른 시스템(100)의 신호 흐름을 도시하는 도면이다.

도 2를 참조하면, 제 1 영상 촬영 장치(111)가 211 동작에서 제 1 영상을 획득할 수 있다. 이 때 특정 객체가 제 1 영상 촬영 장치(111)에 매핑된 위치에 존재하는 경우, 제 1 영상이 객체를 포함할 수 있다. 그리고, 제 1 영상 촬영 장치(111)는, 제 1 영상과 함께, 제 1 영상이 촬영된 시점을 검출할 수 있다.

제 1 영상 촬영 장치(111)는 213 동작에서 제 1 영상으로부터 객체를 검출할 수 있다. 이 때 제 1 영상 촬영 장치(111)는 제 1 영상으로부터 객체를 인식할 뿐 아니라, 객체로부터 검출되는 적어도 하나의 특징점을 기반으로 객체를 분류할 수 있다. 그리고, 제 1 영상 촬영 장치(111)는 객체에 식별 정보를 부여할 수 있다.

제 1 영상 촬영 장치(111)는 215 동작에서 제 1 영상을 기반으로, 객체에 대한 제 1 문장을 생성할 수 있다. 이 때 제 1 영상 촬영 장치(111)는, 객체, 객체의 특징점, 제 1 영상이 촬영된 시점 또는 제 1 영상 촬영 장치(111)에 매핑된 위치 중 적어도 어느 하나를 표현하도록, 제 1 문장을 생성할 수 있다.

제 1 영상 촬영 장치(111)는 217 동작에서 제 1 문장을 서버(120)에 전송할 수 있다. 이 때 제 1 영상 촬영 장치(111)는 객체에 대한 식별 정보와 함께, 제 1 문장을 전송할 수 있다. 이를 통해, 서버(120)가 217 동작에서 제 1 영상 촬영 장치(111)로부터 제 1 문장을 수신할 수 있다.

서버(120)는 219 동작에서 객체에 대응하여 제 1 문장을 저장할 수 있다. 이 때 서버(120)는 객체의 식별 정보에 대응하여, 제 1 문장을 저장할 수 있다.

도시되지는 않았으나, 적어도 하나의 다른 영상 촬영 장치(110)가 제 1 영상 촬영 장치(111)와 유사하게 동작할 수 있다. 이를 통해, 다른 영상 촬영 장치(110)는 객체에 대한 다른 문장을 생성하고, 다른 문장을 서버(120)에 전송할 수 있다. 이때 다른 영상 촬영 장치(110)는 객체에 식별 정보를 부여하고, 객체의 식별 정보와 함께, 다른 문장을 전송할 수 있다. 이에 따라, 서버(120)가 객체에 대응하여 적어도 하나의 다른 문장을 추가적으로 저장할 수 있다. 이 때 서버(120)는 객체의 식별 정보에 대응하여, 다른 문장을 저장할 수 있다.

제 2 영상 촬영 장치(112)가 221 동작에서 제 2 영상을 획득할 수 있다. 이 때 특정 객체가 제 2 영상 촬영 장치(112)에 매핑된 위치에 존재하는 경우, 제 2 영상이 객체를 포함할 수 있다. 그리고, 제 2 영상 촬영 장치(112)는, 제 2 영상과 함께, 제 2 영상이 촬영된 시점을 검출할 수 있다.

제 2영상 촬영 장치(112)는 223 동작에서 제 2 영상으로부터 객체를 검출할 수 있다. 이 때 제 2 영상 촬영 장치(112)는 제 2 영상으로부터 객체를 인식할 뿐 아니라, 객체로부터 검출되는 적어도 하나의 특징점을 기반으로 객체를 분류할 수 있다. 그리고, 제 2 영상 촬영 장치(112)는 객체에 식별 정보를 부여할 수 있다.

제 2 영상 촬영 장치(112)는 225 동작에서 제 2 영상을 기반으로, 객체에 대한 제 2 문장을 생성할 수 있다. 이 때 제 2 영상 촬영 장치(112)는, 객체, 객체의 특징점, 제 2 영상이 촬영된 시점 또는 제 2 영상 촬영 장치(112)에 매핑된 위치 중 적어도 어느 하나를 표현하도록, 제 2 문장을 생성할 수 있다.

제 2 영상 촬영 장치(112)는 227 동작에서 제 2 문장을 서버(120)에 전송할 수 있다. 이 때 제 2 영상 촬영 장치(112)는 객체에 대한 식별 정보와 함께, 제 2 문장을 전송할 수 있다. 이를 통해, 서버(120)가 227 동작에서 제 2 영상 촬영 장치(112)로부터 제 2 문장을 수신할 수 있다.

서버(120)는 229 동작에서 객체에 대응하여 제 2 문장을 저장할 수 있다. 이 때 서버(120)는 객체의 식별 정보에 대응하여, 제 2 문장을 저장할 수 있다.

서버(120)는 231 동작에서 객체에 대응하는 복수 개의 문장들을 요약할 수 있다. 이를 위해, 서버(120)는 동일하거나, 유사한 객체와 관련된 문장들을 결정할 수 있다. 이 때 서버(120)는 영상 촬영 장치(110)들로부터 수신된 식별 정보를 기반으로, 동일하거나 유사한 객체를 검출할 수 있다. 그리고, 서버(120)는 동일하거나, 유사한 객체와 관련된 문장들을 분석할 수 있다. 이에 따라, 서버(120)는 동일하거나, 유사한 객체와 관련된 문장들 중 적어도 일부를 조합하여, 객체와 관련된 요약을 생성할 수 있다.

이에 따라, 서버(120)는 사용자로부터 입력되는 텍스트, 예컨대 적어도 하나의 검색어를 기반으로, 객체와 관련된 요약을 검색할 수 있다.

도 3a는 제 1 실시예에 따른 시스템(100)에서 영상 촬영 장치(110)들과 서버(120)의 내부 구성을 도시하는 도면이다. 도 3b는 도 3a의 문장 생성부(341)를 도시하는 도면이다. 도 3c는 서버(120)에 저장된 객체 정보를 설명하기 위한 도면이다. 도 3d는 서버(120)에 저장되는 문장을 설명하기 위한 도면이다.

도 3a를 참조하면, 제 1 실시예에 따른 각 영상 촬영 장치(110)는 카메라 모듈(310), 통신 모듈(320), 메모리(330) 및 프로세서(340)를 포함할 수 있다.

카메라 모듈(310)은 영상을 촬영할 수 있다. 이 때 카메라 모듈(310)는 영상 촬영 장치(110)에 매핑된 위치에 대해 영상을 촬영할 수 있다. 여기서, 특정 객체가 영상 촬영 장치(110)에 매핑된 위치에 존재하는 경우, 영상이 객체를 포함할 수 있다. 예를 들면, 카메라 모듈(310)은 렌즈, 이미지 센서, 이미지 시그널 프로세서 또는 플래시 중 적어도 어느 하나를 포함할 수 있다.

통신 모듈(320)은 영상 촬영 장치(110)에서 외부 장치(예: 서버(120))와 통신을 수행할 수 있다. 통신 모듈(320)은 영상 촬영 장치(110)와 외부 장치 간 통신 채널을 수립하고, 통신 채널을 통하여, 외부 장치와 통신을 수행할 수 있다. 통신 모듈(320)은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 무선 통신 모듈은 원거리 통신망 또는 근거리 통신망 중 적어도 어느 하나를 통하여 외부 장치와 통신을 수행할 수 있다.

메모리(330)는 영상 촬영 장치(110)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(330)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(330)에 소프트웨어로서 저장될 수 있다. 메모리(330)는 영상 촬영 장치(110)에 매핑된 위치에 대한 정보를 저장할 수 있을 수 있다.

프로세서(340)는 메모리(330)의 프로그램을 실행하여, 영상 촬영 장치(110)의 적어도 하나의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 프로세서(340)는 카메라 모듈(310)을 통해 촬영되는 영상을 획득할 수 있다. 이 때 프로세서(340)는, 영상이 촬영된 시점을 검출할 수 있다. 그리고, 프로세서(340)는 영상 내 객체와 관련된 문장을 생성할 수 있다. 또한, 프로세서(340)는 통신 모듈(320)을 통해, 문장을 서버(120)에 전송할 수 있다. 이를 위해, 프로세서(340)는 문장 생성부(341)를 포함할 수 있다. 문장 생성부(341)는 영상으로부터 객체를 검출하고, 영상을 기반으로, 객체에 대한 문장을 생성할 수 있다. 예를 들면, 문장 생성부(341)는, 도 3b에 도시된 바와 같이 객체 인식부(343), 객체 분류부(345) 및 이미지 캡션부(347)를 포함할 수 있다.

객체 인식부(343)는 영상으로부터 객체를 인식할 수 있다. 이 때 객체 인식부(343)는 영상으로부터 미리 정해진 유형의 객체를 인식할 수 있다. 예를 들면, 정해진 유형은 사람일 수 있으며, 객체 인식부(343)는 사람에 해당하는 객체를 인식할 수 있다.

객체 분류부(345)는 객체를 분류할 수 있다. 이를 위해, 객체 분류부(345)는 객체에 대해 적어도 하나의 특징점을 검출할 수 있다. 예를 들면, 객체 분류부(345)는 얼굴 인식을 통해, 객체로부터 특징점을 검출할 수 있다. 그리고 객체 분류부(345)는 특징점을 기반으로, 객체를 분류할 수 있다. 이 때 객체 분류부(345)는 객체에 식별 정보를 부여할 수 있다. 예를 들면, 객체 분류부(345)를 서버(120)를 통해 특징점을 기반으로, 객체의 식별 정보를 검색할 수 있다. 여기서, 객체의 특징점이 서버(120)에 미리 저장되어 있으면, 객체 분류부(345)는 서버(120)로부터 수신되는 식별 정보를 객체에 부여할 수 있다. 한편, 객체의 특징점이 서버(120)에 저장되어 있지 않으면, 객체 분류부(345)는 임의의 식별 정보를 객체에 부여할 수 있다.

이미지 캡션부(347)는 객체와 관련된 문장을 생성할 수 있다. 이미지 캡션부(347)는 객체, 객체의 특징점, 영상이 촬영된 시점 또는 영상 촬영 장치(110)에 매핑된 위치 중 적어도 어느 하나를 표현하도록, 문장을 생성할 수 있다. 그리고 이미지 캡션부(347)는 문장을 서버(120)에 전송할 수 있다. 이 때 이미지 캡션부(347)는 객체의 식별 정보와 함께, 문장을 전송할 수 있다.

제 1 실시예에 따른 서버(120)는, 입력 모듈(350), 출력 모듈(360), 통신 모듈(370), 메모리(380) 및 프로세서(390)를 포함할 수 있다.

입력 모듈(350)은 서버(120)의 적어도 하나의 구성 요소에 사용될 명령을 입력할 수 있다. 예를 들면, 입력 모듈(350)은 마이크로폰(microphone), 마우스(mouse) 또는 키보드(keyboard) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 입력 모듈(350)은 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 어느 하나를 포함할 수 있다.

출력 모듈(360)은 서버(120)의 외부로 정보를 제공할 수 있다. 출력 모듈(140)은 정보를 시각적으로 제공하는 표시 모듈 또는 정보를 청각적으로 제공하는 오디오 모듈 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 표시 모듈은 디스플레이, 홀로그램 장치 또는 프로젝터 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 표시 모듈은 입력 모듈의 터치 회로 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 어느 하나와 조립되어, 터치 스크린으로 구현될 수 있다.

통신 모듈(370)은 서버(120)에서 외부 장치(예: 영상 촬영 장치(110))와 통신을 수행할 수 있다. 통신 모듈(370)은 서버(120)와 외부 장치 간 통신 채널을 수립하고, 통신 채널을 통하여, 외부 장치와 통신을 수행할 수 있다. 통신 모듈(370)은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 무선 통신 모듈은 원거리 통신망 또는 근거리 통신망 중 적어도 어느 하나를 통하여 외부 장치와 통신을 수행할 수 있다.

메모리(380)는 서버(120)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(380)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(380)에 소프트웨어로서 저장될 수 있다. 메모리(380)는 적어도 하나의 객체에 대한 특징점과 식별 정보를 상호에 매칭시켜, 저장하고 있을 수 있다. 예를 들면, 메모리(380)는, 도 3c에 도시된 바와 같이 각 객체에 대한 식별 정보(ID)를 저장하고, 각 특징점을 나타내는 태그 또는 모든 특징점이 딥코딩 모델로 인코딩된 특징 맵(map) 중 적어도 어느 하나로 저장할 수 있다.

프로세서(390)는 메모리(330)의 프로그램을 실행하여, 영상 촬영 장치(110)의 적어도 하나의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 프로세서(390)는 통신 모듈(370)을 통해, 영상 촬영 장치(110)들로부터 문장들을 각각 수신할 수 있다. 그리고, 프로세서(390)는 메모리(380)에 문장들을 저장할 수 있다. 이 때 프로세서(390)는 각 객체와 관련된 문장들을 구분하고, 도 3d에 도시된 바와 같이 각 객체에 대응하여 문장들을 저장할 수 있다. 이를 위해, 프로세서(390)는 동일하거나, 유사한 객체와 관련된 문장들을 결정할 수 있다. 이 때 프로세서(390)는 영상 촬영 장치(110)들로부터 수신된 식별 정보를 기반으로, 동일하거나 유사한 객체를 검출할 수 있다. 또한, 프로세서(390)는 동일하거나, 유사한 객체와 관련된 문장들을 요약할 수 있다. 이를 위해, 프로세서(390)는 문장 요약부(399)를 포함할 수 있다. 문자 요약부(399)는 동일하거나, 유사한 객체와 관련된 문장들을 분석할 수 있다. 이에 따라, 문자 요약부(399)는 동일하거나, 유사한 객체와 관련된 문장들 중 적어도 일부를 조합하여, 객체와 관련된 요약을 생성할 수 있다.

도 4는 제 2 실시예에 따른 시스템(100)의 신호 흐름을 도시하는 도면이다.

도 4를 참조하면, 제 1 영상 촬영 장치(111)가 411 동작에서 제 1 영상을 획득할 수 있다. 이 때 특정 객체가 제 1 영상 촬영 장치(111)에 매핑된 위치에 존재하는 경우, 제 1 영상이 객체를 포함할 수 있다. 그리고, 제 1 영상 촬영 장치(111)는, 제 1 영상과 함께, 제 1 영상이 촬영된 시점을 검출할 수 있다.

제 1 영상 촬영 장치(111)는 413 동작에서 제 1 영상을 서버(120)에 전송할 수 있다. 이 때 제 1 영상 촬영 장치(111)는, 제 1 영상이 촬영된 시점 및 제 1 영상 촬영 장치(111)에 매핑된 위치와 함께, 제 1 영상을 전송할 수 있다. 이를 통해, 서버(120)가 413 동작에서 제 1 영상 촬영 장치(111)로부터 제 1 영상을 수신할 수 있다.

서버(120)는 415 동작에서 제 1 영상으로부터 객체를 검출할 수 있다. 이 때 서버(120)는 제 1 영상으로부터 객체를 인식할 뿐 아니라, 객체로부터 검출되는 적어도 하나의 특징점을 기반으로 객체를 분류할 수 있다. 그리고, 서버(120)는 객체에 식별 정보를 부여할 수 있다.

서버(120)는 417 동작에서 제 1 영상을 기반으로, 객체에 대한 제 1 문장을 생성할 수 있다. 이 때 서버(120)는, 객체, 객체의 특징점, 제 1 영상이 촬영된 시점 또는 제 1 영상 촬영 장치(111)에 매핑된 위치 중 적어도 어느 하나를 표현하도록, 제 1 문장을 생성할 수 있다.

서버(120)는 419 동작에서 객체에 대응하여 제 1 문장을 저장할 수 있다. 이 때 서버(120)는 객체의 식별 정보에 대응하여, 제 1 문장을 저장할 수 있다.

도시되지는 않았으나, 적어도 하나의 다른 영상 촬영 장치(110)가 제 1 영상 촬영 장치(111)와 유사하게 동작할 수 있다. 이를 통해, 다른 영상 촬영 장치(110)가 다른 영상을 획득하고, 다른 영상을 서버(120)에 전송할 수 있다. 이에 따라, 서버(120)가 다른 영상을 기반으로, 객체에 대한 다른 문장을 생성할 수 있다. 이때 서버(120)는 객체에 식별 정보를 부여할 수 있다. 이에 따라, 서버(120)가 객체에 대응하여 적어도 하나의 다른 문장을 추가적으로 저장할 수 있다. 이 때 서버(120)는 객체의 식별 정보에 대응하여, 다른 문장을 저장할 수 있다.

제 2 영상 촬영 장치(112)가 421 동작에서 제 2 영상을 획득할 수 있다. 이 때 특정 객체가 제 2 영상 촬영 장치(112)에 매핑된 위치에 존재하는 경우, 제 2 영상이 객체를 포함할 수 있다. 그리고, 제 2 영상 촬영 장치(112)는, 제 2 영상과 함께, 제 2 영상이 촬영된 시점을 검출할 수 있다.

제 2 영상 촬영 장치(112)는 423 동작에서 제 2 영상을 서버(120)에 전송할 수 있다. 이 때 제 2 영상 촬영 장치(112)는, 제 2 영상이 촬영된 시점 및 제 2 영상 촬영 장치(112)에 매핑된 위치와 함께, 제 2 영상을 전송할 수 있다. 이를 통해, 서버(120)가 423 동작에서 제 2 영상 촬영 장치(112)로부터 제 2 영상을 수신할 수 있다.

서버(120)는 425 동작에서 제 2 영상으로부터 객체를 검출할 수 있다. 이 때 서버(120)는 제 2 영상으로부터 객체를 인식할 뿐 아니라, 객체로부터 검출되는 적어도 하나의 특징점을 기반으로 객체를 분류할 수 있다. 그리고, 서버(120)는 객체에 식별 정보를 부여할 수 있다.

서버(120)는 427 동작에서 제 2 영상을 기반으로, 객체에 대한 제 2 문장을 생성할 수 있다. 이 때 서버(120)는, 객체, 객체의 특징점, 제 2 영상이 촬영된 시점 또는 제 2 영상 촬영 장치(112)에 매핑된 위치 중 적어도 어느 하나를 표현하도록, 제 2 문장을 생성할 수 있다.

서버(120)는 429 동작에서 객체에 대응하여 제 2 문장을 저장할 수 있다. 이 때 서버(120)는 객체의 식별 정보에 대응하여, 제 2 문장을 저장할 수 있다.

서버(120)는 431 동작에서 객체에 대응하는 복수 개의 문장들을 요약할 수 있다. 이를 위해, 서버(120)는 동일하거나, 유사한 객체와 관련된 문장들을 결정할 수 있다. 이 때 서버(120)는 식별 정보를 기반으로, 동일하거나 유사한 객체를 검출할 수 있다. 그리고, 서버(120)는 동일하거나, 유사한 객체와 관련된 문장들을 분석할 수 있다. 이에 따라, 서버(120)는 동일하거나, 유사한 객체와 관련된 문장들 중 적어도 일부를 조합하여, 객체와 관련된 요약을 생성할 수 있다.

도 5a는 제 2 실시예에 따른 시스템(100)에서 영상 촬영 장치(110)들과 서버(120)의 내부 구성을 도시하는 도면이다. 도 5b는 도 5a의 문장 생성부(591)를 도시하는 도면이다. 이 때 도 3c 및 도 3d도 제 2실시예에 따른 시스템(100)에 동일하게 적용될 수 있다.

도 5a를 참조하면, 제 2 실시예에 따른 각 영상 촬영 장치(110)는 카메라 모듈(510), 통신 모듈(520), 메모리(530) 및 프로세서(540)를 포함할 수 있다.

카메라 모듈(510)은 영상을 촬영할 수 있다. 이 때 카메라 모듈(510)는 영상 촬영 장치(110)에 매핑된 위치에 대해 영상을 촬영할 수 있다. 여기서, 특정 객체가 영상 촬영 장치(110)에 매핑된 위치에 존재하는 경우, 영상이 객체를 포함할 수 있다. 예를 들면, 카메라 모듈(510)은 렌즈, 이미지 센서, 이미지 시그널 프로세서 또는 플래시 중 적어도 어느 하나를 포함할 수 있다.

통신 모듈(520)은 영상 촬영 장치(110)에서 외부 장치(예: 서버(120))와 통신을 수행할 수 있다. 통신 모듈(520)은 영상 촬영 장치(110)와 외부 장치 간 통신 채널을 수립하고, 통신 채널을 통하여, 외부 장치와 통신을 수행할 수 있다. 통신 모듈(520)은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 무선 통신 모듈은 원거리 통신망 또는 근거리 통신망 중 적어도 어느 하나를 통하여 외부 장치와 통신을 수행할 수 있다.

메모리(530)는 영상 촬영 장치(110)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(530)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(530)에 소프트웨어로서 저장될 수 있다. 메모리(530)는 영상 촬영 장치(110)에 매핑된 위치에 대한 정보를 저장할 수 있을 수 있다.

프로세서(540)는 메모리(530)의 프로그램을 실행하여, 영상 촬영 장치(110)의 적어도 하나의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 프로세서(540)는 카메라 모듈(510)을 통해 촬영되는 영상을 획득할 수 있다. 이 때 프로세서(540)는, 영상이 촬영된 시점을 검출할 수 있다. 그리고, 프로세서(540)는 통신 모듈(520)을 통해, 영상을 서버(120)에 전송할 수 있다.

제 2 실시예에 따른 서버(120)는, 입력 모듈(550), 출력 모듈(560), 통신 모듈(570), 메모리(580) 및 프로세서(590)를 포함할 수 있다.

입력 모듈(550)은 서버(120)의 적어도 하나의 구성 요소에 사용될 명령을 입력할 수 있다. 예를 들면, 입력 모듈(550)은 마이크로폰(microphone), 마우스(mouse) 또는 키보드(keyboard) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 입력 모듈(550)은 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 어느 하나를 포함할 수 있다.

출력 모듈(560)은 서버(120)의 외부로 정보를 제공할 수 있다. 출력 모듈(140)은 정보를 시각적으로 제공하는 표시 모듈 또는 정보를 청각적으로 제공하는 오디오 모듈 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 표시 모듈은 디스플레이, 홀로그램 장치 또는 프로젝터 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 표시 모듈은 입력 모듈의 터치 회로 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 어느 하나와 조립되어, 터치 스크린으로 구현될 수 있다.

통신 모듈(570)은 서버(120)에서 외부 장치(예: 영상 촬영 장치(110))와 통신을 수행할 수 있다. 통신 모듈(570)은 서버(120)와 외부 장치 간 통신 채널을 수립하고, 통신 채널을 통하여, 외부 장치와 통신을 수행할 수 있다. 통신 모듈(570)은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 어느 하나를 포함할 수 있다. 예를 들면, 무선 통신 모듈은 원거리 통신망 또는 근거리 통신망 중 적어도 어느 하나를 통하여 외부 장치와 통신을 수행할 수 있다.

메모리(580)는 서버(120)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(580)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다. 데이터는 프로그램 또는 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(580)에 소프트웨어로서 저장될 수 있다. 메모리(580)는 적어도 하나의 객체에 대한 특징점과 식별 정보를 상호에 매칭시켜, 저장하고 있을 수 있다. 예를 들면, 메모리(580)는, 도 3c에 도시된 바와 같이 각 객체에 대한 식별 정보(ID)를 저장하고, 각 특징점을 나타내는 태그 또는 모든 특징점이 딥코딩 모델로 인코딩된 특징 맵(map) 중 적어도 어느 하나로 저장할 수 있다.

프로세서(590)는 메모리(530)의 프로그램을 실행하여, 영상 촬영 장치(110)의 적어도 하나의 구성 요소를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 프로세서(590)는 통신 모듈(570)을 통해, 영상 촬영 장치(110)들로부터 영상들을 각각 수신할 수 있다. 그리고, 프로세서(590)는 영상 내 객체와 관련된 문장을 생성할 수 있다. 또한, 프로세서(590)는 메모리(580)에 문장들을 저장할 수 있다. 이 때 프로세서(590)는 각 객체와 관련된 문장들을 구분하고, 도 3d에 도시된 바와 같이 각 객체에 대응하여 문장들을 저장할 수 있다. 이를 위해, 프로세서(590)는 동일하거나, 유사한 객체와 관련된 문장들을 결정할 수 있다. 이 때 프로세서(590)는 영상 촬영 장치(110)들로부터 수신된 식별 정보를 기반으로, 동일하거나 유사한 객체를 검출할 수 있다. 또한, 프로세서(590)는 동일하거나, 유사한 객체와 관련된 문장들을 요약할 수 있다. 이를 위해, 프로세서(590)는 문장 생성부(591) 및 문장 요약부(599)를 포함할 수 있다.

문장 생성부(591)는 영상으로부터 객체를 검출하고, 영상을 기반으로, 객체에 대한 문장을 생성할 수 있다. 예를 들면, 문장 생성부(591)는, 도 5b에 도시된 바와 같이 객체 인식부(593), 객체 분류부(595) 및 이미지 캡션부(597)를 포함할 수 있다.

객체 인식부(593)는 영상으로부터 객체를 인식할 수 있다. 이 때 객체 인식부(593)는 영상으로부터 미리 정해진 유형의 객체를 인식할 수 있다. 예를 들면, 정해진 유형은 사람일 수 있으며, 객체 인식부(593)는 사람에 해당하는 객체를 인식할 수 있다.

객체 분류부(595)는 객체를 분류할 수 있다. 이를 위해, 객체 분류부(595)는 객체에 대해 적어도 하나의 특징점을 검출할 수 있다. 예를 들면, 객체 분류부(595)는 얼굴 인식을 통해, 객체로부터 특징점을 검출할 수 있다. 그리고 객체 분류부(595)는 특징점을 기반으로, 객체를 분류할 수 있다. 이 때 객체 분류부(595)는 객체에 식별 정보를 부여할 수 있다. 예를 들면, 객체 분류부(595)를 특징점을 기반으로, 메모리(580)로부터 객체의 식별 정보를 검색할 수 있다. 여기서, 객체의 특징점이 메모리(580)에 미리 저장되어 있으면, 객체 분류부(595)는 메모리(580)의 식별 정보를 객체에 부여할 수 있다. 한편, 객체의 특징점이 메모리(580)에 저장되어 있지 않으면, 객체 분류부(595)는 임의의 식별 정보를 객체에 부여할 수 있다.

이미지 캡션부(597)는 객체와 관련된 문장을 생성할 수 있다. 이미지 캡션부(597)는 객체, 객체의 특징점, 영상이 촬영된 시점 또는 영상 촬영 장치(110)에 매핑된 위치 중 적어도 어느 하나를 표현하도록, 문장을 생성할 수 있다. 그리고 이미지 캡션부(597)는 문장을 메모리(580)에 저장할 수 있다. 이 때 이미지 캡션부(597)는 객체의 식별 정보와 함께, 문장을 저장할 수 있다.

문자 요약부(599)는 동일하거나, 유사한 객체와 관련된 문장들을 분석할 수 있다. 이에 따라, 문자 요약부(599)는 동일하거나, 유사한 객체와 관련된 문장들 중 적어도 일부를 조합하여, 객체와 관련된 요약을 생성할 수 있다.

도 6은 다양한 실시예들에 따른 시스템(100)에서 전자 장치(영상 촬영 장치(110), 서버(120))의 문장 생성 동작 절차를 도시하는 도면이다.

도 6을 참조하면, 전자 장치(110, 120)는 610 동작에서 각 영상을 획득할 수 있다. 이 때 전자 장치(110, 120)는, 영상이 촬영된 시점을 검출할 수 있다. 제 1 실시예에 따르면, 영상 촬영 장치(110)는 카메라 모듈(310)을 통해 촬영되는 영상을 획득할 수 있다. 제 2 실시예에 따르면, 서버(120)는 영상 촬영 장치(110)로부터 수신되는 영상을 획득할 수 있다. 이를 위해, 영상 촬영 장치(110)는 카메라 모듈(310)을 통해 촬영되는 영상을 서버(120)에 전송할 수 있다.

전자 장치(110, 120)는 620 동작에서 영상 내에서 객체를 인식할 수 있다. 이 때 문장 생성부(341, 591)의 객체 인식부(343, 593)는 영상으로부터 미리 정해진 유형의 객체를 인식할 수 있다. 예를 들면, 정해진 유형은 사람일 수 있으며, 객체 인식부(343, 593)는 사람에 해당하는 객체를 인식할 수 있다.

전자 장치(110, 120)는 630 동작에서 객체를 분류할 수 있다. 이를 위해, 문장 생성부(341, 591)의 객체 분류부(345, 595)는 객체에 대해 적어도 하나의 특징점을 검출할 수 있다. 예를 들면, 객체 분류부(345, 595)는 얼굴 인식을 통해, 객체로부터 특징점을 검출할 수 있다. 그리고 객체 분류부(345, 595)는 특징점을 기반으로, 객체를 분류할 수 있다. 이 때 객체 분류부(345, 595)는 객체에 식별 정보를 부여할 수 있다. 예를 들면, 객체 분류부(345, 595)를 서버(120)를 통해 특징점을 기반으로, 객체의 식별 정보를 검색할 수 있다. 여기서, 객체의 특징점이 서버(120)에 미리 저장되어 있으면, 객체 분류부(345, 595)는 서버(120)로부터 수신되는 식별 정보를 객체에 부여할 수 있다. 한편, 객체의 특징점이 서버(120)에 저장되어 있지 않으면, 객체 분류부(345, 595)는 임의의 식별 정보를 객체에 부여할 수 있다. 일 예로, 객체 분류부(345, 595)는 객체의 특징점을 기반으로 객체에 대한 수식어구를 생성하여, 이를 식별 정보로 부여할 수 있다. 다른 예로, 객체 분류부(345, 595)는 임의로 정해진 일련번호 또는 임의로 정해진 단어 조합을 식별 정보로 부여할 수 있다.

전자 장치(110, 120)는 640 동작에서 영상을 기반으로, 객체와 관련된 문장을 생성할 수 있다. 문장 생성부(341, 591)의 이미지 캡션부(347, 597)는 객체, 객체의 특징점, 영상이 촬영된 시점 또는 영상 촬영 장치(110)에 매핑된 위치 중 적어도 어느 하나를 표현하도록, 문장을 생성할 수 있다. 제 1 실시예에 따르면, 영상 촬영 장치(110)가 문장을 생성하여, 문장을 서버(120)에 전송할 수 있다. 여기서, 이미지 캡션부(347)는 객체의 식별 정보와 함께, 문장을 전송할 수 있다. 제 2 실시예에 따르면, 서버(120)가 직접적으로 문장을 생성할 수 있다.

이를 통해, 서버(120)가 영상 촬영 장치(110)로부터 수신되는 문장을 저장할 수 있다. 여기서, 서버(120)는 객체의 식별 정보에 대응하여, 제 1 문장을 저장할 수 있다. 문장을 저장할 수 있다. 여기서, 서버(120)는 객체의 식별 정보에 대응하여, 제 1 문장을 저장할 수 있다.

도 7은 다양한 실시예들에 따른 시스템(100)에서 전자 장치(서버(120))의 문장 요약 동작 절차를 도시하는 도면이다.

도 7을 참조하면, 서버(120)는 710 동작에서 객체와 관련된 문장을 획득할 수 있다. 제 1 실시예에 따르면, 서버(120)는 영상 촬영 장치(110)로부터 객체와 관련된 문장을 수신할 수 있다. 제 2 실시예에 따르면, 서버(120)는 객체와 관련된 문장을 직접적으로 생성함으로써, 획득할 수 있다.

서버(120)는 720 동작에서 객체와 관련된 문장을 저장할 수 있다. 프로세서(390, 590)는 메모리(380, 580)에 문장들을 저장할 수 있다. 이 때 프로세서(390, 590)는 각 객체와 관련된 문장들을 구분하고, 각 객체에 대응하여 문장들을 저장할 수 있다. 이를 위해, 프로세서(390, 590)는 동일하거나, 유사한 객체와 관련된 문장들을 결정할 수 있다. 이 때 프로세서(390, 590)는 영상 촬영 장치(110)들로부터 수신된 식별 정보를 기반으로, 동일하거나 유사한 객체를 검출할 수 있다.

서버(120)는, 730 동작에서 미리 정해진 시간이 경과되는 지의 여부를 판단할 수 있다. 이 때 프로세서(390, 590)는, 가장 최근에 문장을 수신한 시점으로부터 정해진 시간이 경과되는 지의 여부를 판단할 수 있다.

730 동작에서 정해진 시간이 경과되기 전에, 서버(120)는 735 동작에서 객체와 관련된 문장을 추가적으로 획득할 수 있다. 이에 대응하여, 서버(120)는 720 동작으로 복귀할 수 있다. 그리고 서버(120)는 720 동작, 730 동작 또는 735 동작 중 적어도 어느 하나를 반복하여 수행할 수 있다. 즉 730 동작에서 정해진 시간이 경과될 때까지, 서버(120)는 추가적으로 획득되는 객체에 관련된 문장들을 저장할 수 있다.

한편, 730 동작에서 추가적인 문장의 수신 없이, 정해진 시간이 경과되면, 서버(120)는 740 동작에서 객체와 관련된 문장들을 요약할 수 있다. 서버(120)는, 문장들과 각각 연관되는 영상들이 획득된 시점들을 나타내는 시간 정보와 영상 촬영 장치(110)들에 각각 매핑된 위치들을 나타내는 공간 정보를 기반으로, 객체에 대해 문장들을 요약할 수 있다. 프로세서(390, 590)는 동일하거나, 유사한 객체와 관련된 문장들을 요약할 수 있다. 이 때 문자 요약부(399, 599)는 동일하거나, 유사한 객체와 관련된 문장들을 분석할 수 있다. 이에 따라, 문자 요약부(399, 599)는 동일하거나, 유사한 객체와 관련된 문장들 중 적어도 일부를 조합하여, 객체와 관련된 요약을 생성할 수 있다. 이 때 문자 요약부(399, 599)는 문장들과 각각 연관되는 영상들이 획득된 시점들 중 초기(최초) 시점에 획득된 영상의 문장을 선택할 수 있다. 그리고, 문자 요약부(399, 599)는 초기 시점으로부터 미리 정해진 시간 간격을 단위로, 문장들 중 적어도 어느 하나를 선택할 수 있다. 또한, 문자 요약부(399, 599)는 시점들 중 종료(최후) 시점에 획득된 영상의 문장을 선택할 수 있다. 이를 통해, 문자 요약부(399, 599)는 선택된 문장들을 조합하여, 객체와 관련된 요약을 생성할 수 있다. 즉 문자 요약부(399, 599)는 객체의 발생으로부터 소멸까지의 기록, 예컨대 시간에 따른 객체의 이동 경로를 텍스트, 즉 적어도 하나의 문장으로 요약할 수 있다. 이를 위해, 문자 요약부(399, 599)는 선택된 문장들로부터 적어도 하나의 단어를 삭제 또는 변경할 수 있으며, 단어들의 순서를 변경할 수도 있다.

서버(120)는 750 동작에서 객체와 관련된 요약을 저장할 수 있다. 프로세서(390, 590)는 메모리(380, 580)에 객체와 관련된 요약을 저장할 수 있다. 이를 통해, 객체와 관련된 상황으로서, 객체와 관련된 요약이 저장될 수 있다.

이에 따라, 서버(120)는 사용자로부터 입력되는 텍스트, 예컨대 적어도 하나의 검색어를 기반으로, 객체와 관련된 요약을 검색할 수 있다. 일 예로, 입력 모듈(350)을 통해 사용자로부터 검색어가 입력되면, 프로세서(390, 590)는 검색어를 기반으로 객체와 관련된 요약을 검색하고, 출력 모듈(360)을 통해 객체와 관련된 요약을 출력할 수 있다. 다른 예로, 통신 모듈(370, 570)을 통해 외부 장치(미도시)로부터 검색어가 수신되면, 프로세서(390, 590)는 검색어를 기반으로 객체와 관련된 요약을 검색하고, 통신 모듈(370, 570)을 통해 외부 장치로 객체와 관련된 요약을 전송할 수 있다.

다양한 실시예들에 따른 전자 장치(서버(120))의 동작 방법은, 객체 관련 상황 요약을 위한 것으로, 복수 개의 영상 촬영 장치들을 통해 각각 촬영되는 영상들을 기반으로 각각 생성되는 객체와 관련된 문장들을 획득하는 동작, 및 영상들이 각각 획득된 시점들을 나타내는 시간 정보와 영상 촬영 장치(110)들에 각각 매핑된 위치들을 나타내는 공간 정보를 기반으로, 객체에 대해 문장들을 요약하는 동작을 포함할 수 있다.

제 1 실시예에 따르면, 영상 촬영 장치(110)들 각각은, 각 카메라 모듈(310)을 통해 촬영되는 영상을 획득하고, 획득된 영상으로부터 객체를 인식하고, 인식된 객체로부터 검출되는 적어도 하나의 특징점을 기반으로, 인식된 객체를 분류하고, 획득된 영상을 기반으로, 분류된 객체에 대한 문장을 생성하고, 생성된 문장을 전자 장치(120)에 전송할 수 있다.

제 2 실시예에 따르면, 문장들을 획득하는 동작은, 영상 촬영 장치(110)들 중 어느 하나로부터 각 카메라 모듈(510)을 통해 촬영되는 영상을 수신하는 동작, 획득된 영상으로부터 객체를 인식하는 동작, 인식된 객체로부터 검출되는 적어도 하나의 특징점을 기반으로, 인식된 객체를 분류하는 동작, 및 획득된 영상을 기반으로, 분류된 객체에 대한 문장을 생성하는 동작을 포함할 수 있다.

다양한 실시예들에 따르면, 문장들을 요약하는 동작은, 시점들 중 초기 시점에 획득된 영상의 문장을 선택하는 동작, 초기 시점으로부터 미리 정해진 시간 간격을 단위로, 문장들 중 적어도 어느 하나를 선택하는 동작, 시점들 중 종료 시점에 획득된 영상의 문장을 선택하는 동작, 및 선택된 문장들을 조합하여, 요약을 생성하는 동작을 포함할 수 있다.

제 1 실시예에 따르면, 영상 촬영 장치(110)들 각각은, 특징점이 전자 장치(120)에 미리 저장된 객체의 특징점과 일치하면, 인식된 객체에 대해 저장된 객체의 식별 정보를 부여하고, 특징점이 저장된 객체의 특징점과 일치하지 않으면, 인식된 객체에 임시의 식별 정보를 부여할 수 있다.

제 2 실시예에 따르면, 인식된 객체를 분류하는 동작은, 특징점이 미리 저장된 객체의 특징점과 일치하면, 인식된 객체에 대해 저장된 객체의 식별 정보를 부여하고, 특징점이 미리 저장된 객체의 특징점과 일치하지 않으면, 인식된 객체에 임시의 식별 정보를 부여할 수 있다.

다양한 실시예들에 따르면, 전자 장치(120)의 동작 방법은, 전자 장치(120)의 사용자로부터 입력되는 텍스트를 기반으로, 객체와 관련된 요약을 검색하는 동작을 더 포함할 수 있다.

다양한 실시예들에 따른 전자 장치(서버(120))는, 객체 관련 상황 요약을 위한 것으로, 복수 개의 영상 촬영 장치들과 각각 통신하도록 구성되는 통신 모듈(370, 570), 및 통신 모듈(370, 590)과 연결되어 동작하는 프로세서(390, 590)를 포함할 수 있다.

다양한 실시예들에 따르면, 프로세서(390, 590)는, 영상 촬영 장치들을 통해 각각 촬영되는 영상들을 기반으로 각각 생성되는 객체와 관련된 문장들을 획득하고, 영상들이 각각 획득된 시점들을 나타내는 시간 정보와 영상 촬영 장치(110)들에 각각 매핑된 위치들을 나타내는 공간 정보를 기반으로, 객체에 대해 문장들을 요약하도록 구성될 수 있다.

제 1 실시예에 따르면, 영상 촬영 장치(110)들 각각은, 각 카메라 모듈(310)을 통해 촬영되는 영상을 획득하고, 획득된 영상으로부터 객체를 인식하고, 인식된 객체로부터 검출되는 적어도 하나의 특징점을 기반으로, 인식된 객체를 분류하고, 획득된 영상을 기반으로, 분류된 객체에 대한 문장을 생성하고, 생성된 문장을 전자 장치(120)에 전송하도록 구성될 수 있다.

제 2 실시예에 따르면, 프로세서(590)는, 영상 촬영 장치(110)들 중 어느 하나로부터 각 카메라 모듈(510)을 통해 촬영되는 영상을 수신하고, 획득된 영상으로부터 객체를 인식하고, 인식된 객체로부터 검출되는 적어도 하나의 특징점을 기반으로, 인식된 객체를 분류하고, 획득된 영상을 기반으로, 분류된 객체에 대한 문장을 생성하도록 구성될 수 있다.

다양한 실시예들에 따르면, 프로세서(390, 590)는, 시점들 중 초기 시점에 획득된 영상의 문장을 선택하고, 초기 시점으로부터 미리 정해진 시간 간격을 단위로, 문장들 중 적어도 어느 하나를 선택하고, 시점들 중 종료 시점에 획득된 영상의 문장을 선택하고, 선택된 문장들을 조합하여, 요약을 생성하도록 구성될 수 있다.

제 1 실시예에 따르면, 영상 촬영 장치(110)들 각각은, 특징점이 전자 장치에 미리 저장된 객체의 특징점과 일치하면, 인식된 객체에 대해 저장된 객체의 식별 정보를 부여하고, 특징점이 저장된 객체의 특징점과 일치하지 않으면, 인식된 객체에 임시의 식별 정보를 부여할 수 있다.

제 2 실시예에 따르면, 프로세서(590)는, 특징점이 미리 저장된 객체의 특징점과 일치하면, 인식된 객체에 대해 저장된 객체의 식별 정보를 부여하고, 특징점이 미리 저장된 객체의 특징점과 일치하지 않으면, 인식된 객체에 임시의 식별 정보를 부여할 수 있다.

다양한 실시예들에 따르면, 전자 장치(120)는, 문장을 요약함에 따라 생성되는 객체와 관련된 요약을 저장하도록 구성되는 메모리(390, 590)를 더 포함할 수 있다.

다양한 실시예들에 따르면, 프로세서(390, 590)는, 전자 장치(120)의 사용자로부터 입력되는 텍스트를 기반으로, 요약을 검색하고, 검색된 요약을 출력하도록 구성될 수 있다.

다양한 실시예들에 따르면, 전자 장치(120)는 복수 개의 카메라 모듈(310, 510)들을 통해 촬영되는 영상들로부터 객체와 관련된 상황을 종합적으로 요약할 수 있다. 즉 전자 장치(120)는 객체의 발생으로부터 소멸까지의 시간 범위로 객체와 관련된 상황을 요약할 수 있다. 이를 통해, 전자 장치(120)의 사용자는 객체와 관련된 상황을 해당 범위로 파악할 수 있으므로, 객체와 관련된 상황이 효율적으로 이용될 수 있다. 아울러, 전자 장치(120)는 객체와 관련된 상황을 문장으로 요약하기 때문에, 전자 장치(120)의 사용자는 텍스트를 기반으로 객체와 관련된 상황을 검색할 수 있다. 이에 따라, 객체와 관련된 이용 효율성이 증대될 수 있다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.

본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.

다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성 요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

객체 관련 상황 요약을 위한 전자 장치의 동작 방법에 있어서,
복수 개의 영상 촬영 장치들을 통해 각각 촬영되는 영상들을 기반으로 각각 생성되는 객체와 관련된 문장들을 획득하는 동작; 및
상기 영상들이 각각 획득된 시점들을 나타내는 시간 정보와 상기 영상 촬영 장치들에 각각 매핑된 위치들을 나타내는 공간 정보를 기반으로, 상기 객체에 대해 상기 문장들을 요약하는 동작을 포함하고,
상기 영상 촬영 장치들 각각은,
각 카메라 모듈을 통해 영상을 촬영하고,
상기 촬영된 영상으로부터 객체를 인식하고,
상기 인식된 객체로부터 검출되는 적어도 하나의 특징점을 기반으로, 상기 인식된 객체를 분류하고,
상기 촬영된 영상을 기반으로, 상기 분류된 객체에 대한 문장을 생성하고,
상기 생성된 문장을 상기 전자 장치에 전송하고,
상기 문장들을 획득하는 동작은,
상기 영상 촬영 장치들로부터 상기 문장들을 수신함으로써, 상기 문장들을 획득하는 방법.
삭제
삭제
제 1 항에 있어서, 상기 문장들을 요약하는 동작은,
상기 시점들 중 초기 시점에 획득된 영상의 문장을 선택하는 동작;
상기 초기 시점으로부터 미리 정해진 시간 간격을 단위로, 상기 문장들 중 적어도 어느 하나를 선택하는 동작;
상기 시점들 중 종료 시점에 획득된 영상의 문장을 선택하는 동작; 및
상기 선택된 문장들을 조합하여, 요약을 생성하는 동작을 포함하는 방법.
제 1 항에 있어서, 상기 영상 촬영 장치들 각각은,
상기 특징점이 상기 전자 장치에 미리 저장된 객체의 특징점과 일치하면, 상기 인식된 객체에 대해 상기 저장된 객체의 식별 정보를 부여하고,
상기 특징점이 상기 저장된 객체의 특징점과 일치하지 않으면, 상기 인식된 객체에 임시의 식별 정보를 부여하는 방법.
삭제
제 1 항에 있어서,
상기 전자 장치의 사용자로부터 입력되는 텍스트를 기반으로, 상기 객체와 관련된 요약을 검색하는 동작을 더 포함하는 방법.
객체 관련 상황 요약을 위한 전자 장치에 있어서,
복수 개의 영상 촬영 장치들과 각각 통신하도록 구성되는 통신 모듈; 및
상기 통신 모듈과 연결되어 동작하는 프로세서를 포함하고,
상기 프로세서는,
상기 영상 촬영 장치들을 통해 각각 촬영되는 영상들을 기반으로 각각 생성되는 객체와 관련된 문장들을 획득하고,
상기 영상들이 각각 획득된 시점들을 나타내는 시간 정보와 상기 영상 촬영 장치들에 각각 매핑된 위치들을 나타내는 공간 정보를 기반으로, 상기 객체에 대해 상기 문장들을 요약하도록 구성되고,
상기 영상 촬영 장치들 각각은,
각 카메라 모듈을 통해 영상을 촬영하고,
상기 촬영된 영상으로부터 객체를 인식하고,
상기 인식된 객체로부터 검출되는 적어도 하나의 특징점을 기반으로, 상기 인식된 객체를 분류하고,
상기 촬영된 영상을 기반으로, 상기 분류된 객체에 대한 문장을 생성하고,
상기 생성된 문장을 상기 전자 장치에 전송하도록 구성되고,
상기 프로세서는,
상기 영상 촬영 장치들로부터 상기 문장들을 수신함으로써, 상기 문장들을 획득하도록 구성되는 장치.
삭제
삭제
제 8 항에 있어서, 상기 프로세서는,
상기 시점들 중 초기 시점에 획득된 영상의 문장을 선택하고,
상기 초기 시점으로부터 미리 정해진 시간 간격을 단위로, 상기 문장들 중 적어도 어느 하나를 선택하고,
상기 시점들 중 종료 시점에 획득된 영상의 문장을 선택하고,
상기 선택된 문장들을 조합하여, 요약을 생성하도록 구성되는 장치.
제 8 항에 있어서, 상기 영상 촬영 장치들 각각은,
상기 특징점이 상기 전자 장치에 미리 저장된 객체의 특징점과 일치하면, 상기 인식된 객체에 대해 상기 저장된 객체의 식별 정보를 부여하고,
상기 특징점이 상기 저장된 객체의 특징점과 일치하지 않으면, 상기 인식된 객체에 임시의 식별 정보를 부여하는 장치.
삭제
제 8 항에 있어서,
상기 문장을 요약함에 따라 생성되는 상기 객체와 관련된 요약을 저장하도록 구성되는 메모리를 더 포함하고,
상기 프로세서는,
상기 전자 장치의 사용자로부터 입력되는 텍스트를 기반으로, 상기 요약을 검색하고,
상기 검색된 요약을 출력하도록 구성되는 장치.