KR20180049786A

KR20180049786A - 데이터 인식 모델 구축 장치 및 이의 데이터 인식 모델 구축 방법과, 데이터 인식 장치 및 이의 데이터 인식 방법

Info

Publication number: KR20180049786A
Application number: KR1020170104312A
Authority: KR
Inventors: 김지만; 박찬종; 양도준; 이현우
Original assignee: 삼성전자주식회사
Priority date: 2016-11-03
Filing date: 2017-08-17
Publication date: 2018-05-11
Also published as: EP3532990A1; CN109906457A; KR102414602B1; EP3532990A4

Abstract

본 개시의 데이터 인식 모델 구축 장치는, 동영상을 입력 받는 동영상 입력부, 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 복수의 공통 영역들을 기초로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성하는 이미지 합성부, 생성된 합성 이미지를 이용하여 데이터 인식 모델을 학습시키는 모델 학습부, 및 상기 학습된 데이터 인식 모델을 저장하는 모델 저장부를 포함한다.

Description

데이터 인식 모델 구축 장치 및 이의 데이터 인식 모델 구축 방법과, 데이터 인식 장치 및 이의 데이터 인식 방법{DATA RECOGNITION MODEL CONSTRUCTION APPARATUS AND METHOD FOR CONSTRUCTING DATA RECOGNITION MODEL THEREOF, AND DATA RECOGNITION APPARATUS AND METHOD FOR RECOGNIZING DATA THEREOF}

본 개시는 학습 데이터를 이용하여 데이터 인식 모델을 구축하는 장치 및 방법에 관한 것이다. 또한, 본 개시는 구축된 데이터 인식 모델을 이용하여 데이터를 인식하는 장치 및 방법에 관한 것이다.

또한, 본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공 지능(Artificial Intelligence, AI) 시스템 및 그 응용에 관한 것이다.

컴퓨터, 스마트폰 등의 정보 기기의 보급으로 인하여 디지털 컴퓨터의 응용 및 디지털 신호처리 기술이 발전하게 되었다.

특히, 근래에는 인공 지능, 영상인식(Video/Motion Recognition), 딥러닝(Deep learning), 기계학습(Machine Learning) 등의 기술이 발전함으로써, 음성, 이미지, 동영상 또는 텍스트와 같은 데이터를 자동(Automation)으로 인식하여 데이터와 연관된 정보를 제공하거나 데이터와 관련된 서비스를 제공하는 지능형 서비스(Intelligent Service)가 다양한 분야에서 사용되고 있다.

인공 지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 룰(rule) 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 룰 기반 스마트 시스템은 점차 딥러닝 기반 인공 지능 시스템으로 대체되고 있다.

인공 지능 기술은 기계학습(예로, 딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.

인공 지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.

데이터를 인식하는 데이터 인식 모델을 구축하기 위해서는 학습 데이터가 요구된다. 특히, 동영상을 이용하여 데이터 인식 모델을 학습시키는 경우, 동영상을 구성하는 프레임(frame)들 각각이 학습 데이터로 이용될 수 있다.

이 경우, 동영상을 구성하는 전체 프레임들을 대상으로 데이터 인식 모델을 학습시키는 경우, 다량의 정보 처리가 요구될 수 있으며, 또한 프레임들이 저장될 대용량의 저장 공간이 요구될 수 있다.

또한, 프레임들 각각이 개별로 학습 데이터로서 사용됨에 따라, 프레임들 간의 연관 정보가 누락된 상태로 데이터 인식 모델이 학습될 수가 있다.

이에 따라, 본 개시는, 학습에 소요되는 소요 시간을 단축하고, 또한, 학습 데이터가 저장되는 저장 공간을 줄이며, 프레임들 간의 연관성을 고려하여 학습을 수행하기 위한 장치 및 방법을 제공하는 것을 목적으로 한다.

그밖에, 본 개시에서 해결하고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급하지 않은 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야의 통상의 지식을 가진 자에게 명확하게 이해될 수 있다.

일 실시예에 따르면, 데이터 인식 모델 구축 장치는, 동영상을 입력 받는 동영상 입력부, 상기 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 상기 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성하는 이미지 합성부, 상기 합성 이미지를 이용하여 데이터 인식 모델을 학습시키는 모델 학습부, 및 상기 학습된 데이터 인식 모델을 저장하는 모델 저장부를 포함할 수 있다.

일 실시예에 따르면, 데이터 인식 장치는, 동영상을 입력 받는 동영상 입력부, 동영상을 구성하는 복수의 이미지들의 각각에 포함된 공통 영역을 기초로, 상기 복수의 이미지들을 중첩하여 합성 이미지를 생성하는 이미지 합성부, 및 상기 생성된 합성 이미지를 데이터 인식 모델에 적용하여 상기 동영상의 인식 결과를 제공하는 인식 결과 제공부를 포함할 수 있다.

일 실시예에 따르면, 전자 장치는, 동영상을 입력 받는 동영상 입력부, 동영상을 구성하는 복수의 이미지들의 각각에 포함된 공통 영역을 기초로, 상기 복수의 이미지들을 중첩하여 합성 이미지를 생성하는 이미지 합성부, 상기 생성된 합성 이미지를 데이터 인식 모델에 적용하여 상기 동영상의 인식 결과를 제공하는 인식 결과 제공부, 및 상기 동영상의 인식 결과에 기초한 서비스를 제공하는 서비스 제공부를 포함할 수 있다.

일 실시예에 따르면, 데이터 인식 모델 구축 장치가 데이터 인식 모델을 구축하는 방법은, 동영상을 입력 받는 동작, 상기 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 상기 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성하는 동작, 상기 생성된 합성 이미지를 이용하여 데이터 인식 모델을 학습시키는 동작, 및 상기 학습된 데이터 인식 모델을 저장하는 동작을 포함할 수 있다.

일 실시예에 따르면, 데이터 인식 장치가 데이터를 인식하는 방법은, 동영상을 입력 받는 동작, 동영상을 구성하는 복수의 이미지들의 각각에 포함된 공통 영역을 기초로, 상기 복수의 이미지들을 중첩하여 하나의 합성 이미지를 생성하는 동작, 및 상기 생성된 합성 이미지를 데이터 인식 모델에 적용하여 상기 동영상의 인식 결과를 제공하는 동작을 포함할 수 있다.

일 실시예에 따르면, 본 개시의 일 실시예에 따른 컴퓨터로 판독 가능한 비휘발성 기록매체는, 동영상을 입력 받는 동작, 상기 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 상기 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성하는 동작, 상기 생성된 합성 이미지를 이용하여 데이터 인식 모델을 학습시키는 동작, 및 상기 학습된 데이터 인식 모델을 저장하는 동작을 전자 장치가 수행하도록 하는 프로그램을 저장할 수 있다.

일 실시예에 따르면, 본 개시의 일 실시예에 따른 컴퓨터로 판독 가능한 비휘발성 기록매체는, 동영상을 입력 받는 동작, 동영상을 구성하는 복수의 이미지들의 각각에 포함된 공통 영역을 기초로, 상기 복수의 이미지들을 중첩하여 하나의 합성 이미지를 생성하는 동작, 및 상기 생성된 합성 이미지를 데이터 인식 모델에 적용하여 상기 동영상의 인식 결과를 제공하는 동작을 전자 장치가 수행하도록 하는 프로그램을 저장할 수 있다.

본 개시에 따르면, 합성된 이미지를 학습 데이터로서 이용함에 따라, 동영상을 구성하는 프레임들 간의 연관 정보를 고려한 데이터 인식 모델 구축이 가능하다.

또한, 동영상을 구성하는 전체 프레임들이 아닌, 복수의 프레임들이 합성된 합성 이미지들이 학습 데이터로서 이용되어, 학습에 소요되는 시간이 단축되고, 또한 학습 데이터를 저장하는 저장 공간이 절약될 수 있다.

그 밖에, 본 개시에서 얻을 수 있는 효과는 언급한 효과들로 제한되지 않으며, 언급하지 않은 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있다.

도 1a 및 도 1b는 일 실시예에 따른 데이터 인식 모델 구축 장치의 블록도들이다.
도 2a 및 도 2b는 일 실시예에 따른 데이터 인식 장치의 블록도들이다.
도 3는 일 실시예에 따른 동영상의 인식 결과에 기초한 서비스를 제공하는 과정을 나타내는 도면이다.
도 4 내지 도 6은 일 실시예에 따른 이미지 합성부의 처리 과정을 나타내는 도면들이다.
도 8a는 일 실시예에 따른 데이터 인식 모델 구축 장치가 데이터 인식 모델을 구축하는 방법을 나타내는 흐름도이다.
도 8b는 본 개시의 일 실시예에 따른, 전자 장치와 서버를 포함하는 시스템이 데이터 인식 모델을 구축하는 방법을 나타내는 흐름도이다.
도 9a는 본 개시의 일 실시예에 따른 데이터 인식 장치가 데이터 인식하는 방법을 나타내는 흐름도이다.
도 9b는 본 개시의 일 실시예에 따른, 전자 장치와 서버를 포함하는 시스템이 데이터를 인식하는 방법을 나타내는 흐름도이다.
도 10a는 본 개시의 일 실시예에 따른 전자 장치가 서비스를 제공하는 방법을 나타내는 흐름도이다.
도 10b 및 도 10c는 본 개시의 일 실시예에 따른, 전자 장치와 서버를 포함하는 시스템이 서비스를 제공하는 방법을 나타내는 흐름도이다.
도 11 및 도 12는 본 개시의 다양한 실시예에 따른 전자 장치의 프로세서의 다양한 실시예를 설명하기 위한 도면이다.

이하, 본 개시의 다양한 실시예들이 첨부된 도면을 참조하여 기재된다. 실시예 및 이에 사용된 용어들은 본 개시에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 개시에서, "A 또는 B" 또는 "A 및/또는 B 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1," "제 2," "첫째," 또는 "둘째,"등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.

본 개시에서, "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다. 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다.

예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)를 의미할 수 있다.

본 개시의 다양한 실시예들에 따른 전자 장치는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player), MP3 플레이어, 의료기기, 카메라, 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다.

어떤 실시예들에서, 전자 장치는, 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSync^TM, 애플TV^TM, 또는 구글 TV^TM), 게임 콘솔(예: Xbox^TM, PlayStation^TM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

다른 실시예에서, 전자 장치는, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션 장치, 위성 항법 시스템(GNSS(global navigation satellite system)), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트 장치, 선박용 전자 장비(예: 선박용 항법 장치, 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛(head unit), 산업용 또는 가정용 로봇, 드론(drone), 금융 기관의 ATM, 상점의 POS(point of sales), 또는 사물 인터넷 장치 (예: 전구, 각종 센서, 스프링클러 장치, 화재 경보기, 온도조절기, 가로등, 토스터, 운동기구, 온수탱크, 히터, 보일러 등) 중 적어도 하나를 포함할 수 있다. 어떤 실시예에 따르면, 전자 장치는 가구, 건물/구조물 또는 자동차의 일부, 전자 보드(electronic board), 전자 사인 수신 장치(electronic signature receiving device), 프로젝터, 또는 각종 계측 기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 다양한 실시예에서, 전자 장치는 플렉서블하거나, 또는 전술한 다양한 장치들 중 둘 이상의 조합일 수 있다. 본 개시의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다. 본 개시에서, 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공 지능 전자 장치)를 지칭할 수 있다.

본 개시에서 후술할 데이터 인식 모델 구축 장치(100)의 적어도 일부 및 데이터 인식 장치(200)의 적어도 일부는 소프트웨어 모듈로 구현되거나 하드웨어 칩 형태로 제작되어 전술한 각종 전자 장치에 탑재될 수 있다. 예로, 데이터 인식 모델 구축 장치(100) 및 데이터 인식 장치(200)는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다. 이 때, 인공 지능을 위한 전용 하드웨어 칩은 확률 연산에 특화된 전용 프로세서로서, 기존의 범용 프로세서보다 병렬처리 성능이 높아 기계 학습과 같은 인공 지능 분야의 연산 작업을 빠르게 처리할 수 있다. 데이터 인식 모델 구축 장치(100) 및 데이터 인식 장치(200)가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다. 이하, 데이터 인식 모델 구축 장치(100) 및 데이터 인식 장치(200)의 실시예들을 도면들을 참고하여 자세히 설명하도록 한다.

도 1a는 일 실시예에 따른 데이터 인식 모델 구축 장치(100)의 블록도이다. 데이터 인식 모델 구축 장치(100)는 상황 판단(예를 들어, 이미지 분석)을 위한 기준을 학습하여 데이터 인식 모델을 구축할 수 있다.

데이터 인식 모델 구축 장치(100)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 데이터 인식 모델 구축 장치(100)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다

데이터 인식 모델 구축 장치(100)로 입력되는 학습 데이터의 종류에는 음성 데이터, 영상 데이터, 텍스트 데이터, 생체 신호 데이터 등이 포함되나, 특별히 예시된 바에 국한되지 않으며 그 밖의 인식 모델을 이용하여 분류 가능한 모든 데이터를 포함할 수 있다.

다만, 본 개시에서는 동영상 데이터(또는, 동영상)를 주된 예로 설명하기로 한다.

도 1a를 참조하면, 데이터 인식 모델 구축 장치(100)는 동영상 입력부(110), 이미지 합성부(120), 모델 학습부(140) 및 모델 저장부(150)를 포함할 수 있다. 한편, 전술한 구성요소는 소프트웨어 모듈로 구현되거나 또는 하드웨어 모듈(예로, 하드웨어 칩) 형태로 제작될 수 있으며, 전술한 구성 요소의 둘 이상이 하나의 구성요소로 구현되어 소프트웨어 모듈로 구현되거나 또는 하드웨어 모듈 형태로 제작될 수도 있다.

동영상 입력부(110)는 동영상을 입력 받을 수 있다. 동영상은 복수의 이미지(또는, 프레임(frame))들로 구성될 수 있다.

일 예로, 동영상 입력부(110)는 데이터 인식 모델 구축 장치(100)가 탑재된 전자 장치의 카메라, 또는 데이터 인식 모델 구축 장치(100)가 탑재된 전자 장치와 통신 가능한 외부의 카메라(예로, CCTV 또는 블랙박스 등)를 통하여 동영상을 입력 받을 수 있다. 여기서, 카메라는 하나 이상의 이미지 센서(예: 전면 센서 또는 후면 센서), 렌즈, 이미지 시그널 프로세서(ISP), 또는 플래시(예: LED 또는 xenon lamp 등)를 포함할 수 있다.

이미지 합성부(120)는 입력된 동영상의 적어도 일부를 구성하는 복수의 이미지(또는 프레임(frame))들 각각에 포함된 공통 영역을 기초로, 복수의 이미지들의 적어도 일부를 중첩하여 하나의 합성 이미지를 생성할 수 있다. 이 경우, 하나의 동영상에서 복수 개의 합성 이미지들이 생성될 수도 있다.

공통 영역은, 복수의 이미지들 각각에서 동일 또는 유사한 공통 오브젝트(예로, 물체, 동식물 또는 사람 등)를 포함한 영역이 될 수 있다. 또는, 공통 영역은, 복수의 이미지들 각각에서 색, 음영, RGB 값 또는 CMYK 값 등이 동일 또는 유사한 영역이 될 수 있다.

전술한 공통 영역에 대한 상세한 예는, 후술될 각각의 실시 예에서 좀더 자세히 설명될 예정이다.

다시, 도 1a를 참조하면, 복수의 이미지들은 제1 내지 제4 이미지들(121,122,123,124)이 될 수 있다.

이 경우, 이미지 합성부(120)는 제1 내지 제4 이미지들(121~124)로부터 복수의 공통 영역들(121a,122a,123a,124a)을 추출할 수 있다. 이 경우, 공통 영역은 예로, 스포츠를 즐기는 사람을 포함하는 영역이 될 수 있다.

예로, 이미지 합성부(120)는 분할(segmentation) 기법을 이용하여 복수의 이미지들에 포함된 공통 오브젝트를 결정하고, 미리 지정된 일정 프레임 간격(예로, 초당 10 내지 60 프레임)의 복수의 이미지들을 선정하여, 이들로부터 공통 오브젝트가 포함된 복수의 공통 영역들을 추출할 수 있다.

또는, 이미지 합성부(120)는 분할 기법을 이용하여 복수의 이미지들에 포함된 공통 오브젝트를 결정하고, 공통 오브젝트의 모양의 변화가 큰 복수의 이미지들을 선정하여, 이들로부터 공통 오브젝트가 포함된 복수의 공통 영역들을 추출할 수 있다.

또는, 이미지 합성부(120)는 이동 오브젝트 감지(moving object detection) 기법을 이용하여, 복수의 이미지들로부터 움직임의 크기가 일정 벡터 이상인 공통 영역을 결정하고, 미리 지정된 일정 프레임 간격(예로, 초당 10 내지 60 프레임)의 복수의 이미지들로부터 복수의 공통 영역들을 추출할 수 있다.

또는, 이미지 합성부(120)는 이동 오브젝트 감지 기법을 이용하여, 복수의 이미지들로부터 움직임의 크기가 일정 벡터 이상인 공통 영역을 결정하고, 움직임의 변화가 큰 복수의 이미지들로부터 복수의 공통 영역들을 추출할 수 있다.

그 밖에, 이미지 합성부(120)가 공통 영역들을 추출하는 방식은, 전술한 기법들에 제한되지 않고, 당업자에게 알려진 다양한 영역 추출 기법들을 이용하여 복수의 이미지들 각각으로부터 복수의 공통 영역들을 추출할 수 있다.

제1 내지 제4 이미지들(121~124)로부터 복수의 공통 영역들(121a~124a)들이 추출되면, 이미지 합성부(120)는 추출된 복수의 공통 영역들(121a~124a)을 중첩하여 합성 이미지(125)를 생성할 수 있다. 이 경우, 이미지 합성부(120)는 합성 이미지(125)에서 추출된 공통 영역을 제외한 배경 영역은 단일 색(예로, 검은색)으로 처리할 수 있다.

도 1a의 모델 학습부(140)는 학습 데이터로서 이미지 합성부(120)에서 생성된 합성 이미지를 입력 받을 수 있다.

그 밖에, 모델 학습부(140)는 예컨대, 음성 데이터, 영상 데이터, 텍스트 데이터 또는 생체 신호 데이터 등을 더 입력 받을 수도 있다.

또한, 모델 학습부(140)는 데이터 인식 모델의 학습을 위하여 입력된 합성 이미지에 대응하는 동영상의 분류 결과(또는, 정답 정보)를 학습 데이터로서 더 입력 받을 수도 있다. 이 경우, 동영상의 분류 결과는, 사람의 의하여 수동으로 생성될 수도 있고, 기존의 영상 처리 기법에 따라 자동으로 생성될 수도 있다. 또는, 동영상의 부가 정보(예로, 태그, 메타 데이터, 리뷰 정보 등)로부터 자동으로 획득될 수도 있다.

데이터 인식 모델의 학습을 위한 동영상의 분류 결과는, 텍스트, 음성, 또는 이미지 등으로 제공될 수 있다. 동영상의 분류 결과는, 예로, 동영상의 포함된 오브젝트(예로, 사람)의 상태 정보, 오브젝트 주변의 상태 정보 등이 될 수 있다. 구체적으로, 동영상의 상태 정보는 운동 중, 긴급 상황, 쉬는 중, 식사 중 또는 수면 중 등과 같은 사람의 상태 정보가 될 수 있으나 전술한 예에 한정되는 것은 아니다.

모델 학습부(140)는 데이터 인식 모델 구축 장치(100)뿐만 아니라 데이터 인식 장치(200)가 탑재된 전자 장치의 입력 기기(예: 마이크로폰, 카메라 또는 센서 등)를 통해 추가적인 학습 데이터를 더 입력 받을 수 있다. 또는, 모델 학습부(140)는 데이터 인식 장치(200)가 탑재된 전자 장치와 통신하는 외부 장치를 통해 추가적인 학습 데이터를 더 입력 받을 수 있다.

도 1a의 모델 학습부(140)는 입력 받은 합성 이미지를 이용하여 데이터 인식 모델을 학습시킬 수 있다.

이 경우, 데이터 인식 모델은 미리 구축된 모델일 수 있다. 예로, 데이터 인식 모델은 기본 학습 데이터(예로, 샘플 이미지 등)을 입력 받아 미리 구축된 모델일 수 있다.

데이터 인식 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다.

데이터 인식 모델은, 예로 신경망(Neural Network)을 기반으로 하는 모델(141)일 수 있다.

데이터 인식 모델은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있다. 데이터 인식 모델은 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고 받는 시냅틱(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다. 데이터 인식 모델은, 일 예로, 신경망 모델, 또는 신경망 모델에서 발전한 딥 러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 깊이(또는, 레이어)에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 데이터 인식 모델에는, 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델들이 포함될 수 있으며, 전술한 예에 특별히 한정되지는 않는다.

다양한 실시예에 따르면, 모델 학습부(140)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 합성 이미지와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예로, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.

다양한 실시예에 따르면, 모델 학습부(140)는, 예로, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.

데이터 인식 모델이 학습되면, 도 1a의 모델 저장부(150)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 저장부(150)는 학습된 데이터 인식 모델을 데이터 인식 모델 구축 장치(100)가 탑재되는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 저장부(150)는 학습된 데이터 인식 모델을 후술할 데이터 인식 장치(200)가 탑재되는 전자 장치의 메모리에 저장할 수 있다. 또는, 모델 저장부(150)는 학습된 데이터 인식 모델을 유선 또는 무선 네트워크로 연결되는 외부에 위치한 서버의 메모리에 저장할 수도 있다.

이 경우, 학습된 데이터 인식 모델이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다. 메모리에 대한 구체적인 예는, 후술할 도 7의 메모리(150)를 통하여 설명될 예정이다.

도 1b는 다른 일 실시예에 따른 데이터 인식 모델 구축 장치(100)의 블록도이다.

도 1b를 참조하면, 데이터 인식 모델 구축 장치(100)는 동영상 입력부(110), 이미지 합성부(120), 모델 학습부(140), 모델 저장부(150) 및 모델 평가부(160)를 포함할 수 있다.

도 1b에서, 동영상 입력부(110), 이미지 합성부(120), 모델 학습부(140) 및 모델 저장부(150)는 도 1a를 참조하여 자세히 설명하였으므로 이하 자세한 설명은 생략한다.

모델 평가부(160)는 학습된 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(130)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 동영상 자체 또는 동영상으로부터 생성된 합성 이미지가 될 수 있다.

예를 들어, 모델 평가부(160)는 평가 데이터에 대한 학습된 데이터 인식 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 인식 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(160)는 학습된 데이터 인식 모델이 적합하지 않은 것으로 평가할 수 있다.

한편, 학습된 데이터 인식 모델이 복수 개가 존재하는 경우, 모델 평가부(160)는 각각의 학습된 동영 인식 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 인식 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(160)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 인식 모델로서 결정할 수 있다.

다양한 실시예에 따르면, 데이터 인식 모델 구축 장치(100)는 동영상을 입력 받는 동영상 입력부(110), 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성하는 이미지 합성부(120), 생성된 합성 이미지를 이용하여 데이터 인식 모델을 학습시키는 모델 학습부(140) 및 학습된 데이터 인식 모델을 저장하는 모델 저장부(150)를 포함할 수 있다.

다양한 실시예에 따르면, 이미지 합성부(120)는 복수의 이미지들 각각으로부터 복수의 공통 영역들을 추출하고, 추출된 복수의 공통 영역들을 중첩하여 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 이미지 합성부(120)는 공통 영역의 무게 중심을 기준으로 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 이미지 합성부(120)는 복수의 이미지들 각각에 포함된 공통 영역 및 공통 영역의 주변에 배경 영역을 중첩하여 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 이미지 합성부(120)는 복수의 이미지들 각각에서 동영상을 촬영한 카메라의 움직임을 보상하고, 카메라의 움직임이 보상된 복수의 이미지들의 각각에 포함된 공통 영역을 기초로, 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 데이터 인식 모델 구축 장치(100)는 동영상 또는 합성 이미지를 이용하여 학습된 데이터 인식 모델을 평가하는 모델 평가부(160)를 더 포함할 수 있다.

도 2a는 일 실시예에 따른 데이터 인식 장치(200)의 블록도이다. 데이터 인식 장치(200)는 데이터에 기초한 상황 판단(예를 들어, 동영상 분석 등)을 수행할 수 있다. 데이터 인식 장치(200)는 학습된 데이터 인식 모델을 이용하여, 소정의 데이터로부터 상황을 인식할 수 있다. 데이터 인식 장치(200)는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델을 이용함으로써, 소정의 데이터에 기초한 소정의 상황을 판단할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델에 의해 출력된 결과 값은, 데이터 인식 모델을 갱신하는데 이용될 수 있다.

데이터 인식 장치(200)가 인식할 수 있는 데이터의 종류에는 음성 데이터, 영상 데이터, 텍스트 데이터, 생체 신호 데이터 등이 포함되나, 특별히 예시된 바에 국한되지 않으며 그 밖의 인식 모델을 이용하여 분류 가능한 모든 데이터를 포함할 수 있다.

다만, 본 개시에서는 동영상 데이터(또는, 동영상)를 주된 예로 들어 설명하기로 한다.

도 2a를 참조하면, 데이터 인식 장치(200)는 동영상 입력부(210), 이미지 합성부(220), 인식 결과 제공부(240)를 포함할 수 있다.

동영상 입력부(210)는 동영상을 입력 받을 수 있다. 동영상은 복수의 이미지(또는, 프레임)들로 구성될 수 있다.

일 예로, 동영상 입력부(210)는 사용자로부터 인식할 동영상을 입력 받을 수 있다.

예를 들어, 사용자는 자신이 소지하고 있는 전자 장치에 기 저장된 동영상들 중에서 인식할 동영상을 선택하고, 선택된 동영상이 동영상 입력부(210)로 제공되도록 제어할 수 있다. 또는, 사용자는 전자 장치의 카메라 어플리케이션을 실행하여, 전자 장치의 카메라를 통하여 촬영된 동영상이 동영상 입력부(210)로 제공되도록 제어할 수 있다.

또는, 동영상 입력부(210)는 데이터 인식 장치(200)가 탑재된 전자 장치의 카메라, 또는 데이터 인식 장치(200)가 탑재된 전자 장치와 통신 가능한 외부의 카메라(예로, CCTV 또는 블랙박스 등)를 통하여 동영상을 입력 받을 수 있다.

이미지 합성부(220)는 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 복수의 이미지들의 적어도 일부를 중첩하여 하나의 합성 이미지를 생성할 수 있다.

이미지 합성부(220)는 제1 내지 제4 이미지들(221,222,223,224)로부터 복수의 공통 영역들(221a,222b,223c,224d)을 추출할 수 있다. 다음으로, 이미지 합성부(220)는 추출된 복수의 공통 영역들(221a~224d)을 중첩하여 합성 이미지(225)를 생성할 수 있다.

이미지 합성부(220)가 동영상으로부터 합성 이미지(225)를 생성하는 과정은, 전술한 도 1a의 이미지 합성부(120)가 동영상으로부터 합성 이미지를 생성하는 과정에 대응됨으로 중복되는 설명은 생략한다.

도 2a의 인식 결과 제공부(240)는 인식 데이터로서 이미지 합성부(220)에서 생성된 합성 이미지를 입력 받을 수 있다.

그 밖에, 인식 결과 제공부(240)는 예컨대, 음성 데이터, 영상 데이터, 텍스트 데이터 또는 생체 신호 데이터 등을 더 입력 받을 수도 있다.

인식 결과 제공부(240)는 합성 이미지를 학습된 데이터 인식 모델에 적용하여 동영상의 인식 결과를 제공할 수 있다.

인식 결과 제공부(240)는 데이터의 인식 목적에 따른 인식 결과를 사용자에게 제공할 수 있다. 동영상의 인식 결과는 텍스트, 음성, 동영상, 이미지 또는 명령어(예로, 어플리케이션 실행 명령어, 모듈 기능 실행 명령어 등) 등으로 제공될 수 있다.

일 예로, 인식 결과 제공부(240)는 동영상에 포함된 오브젝트의 인식 결과를 제공 할 수 있다. 인식 결과는, 예로, 동영상의 포함된 오브젝트(예로, 사람)의 상태 정보, 오브젝트의 주변 상태 정보 등이 될 수 있다.

인식 결과 제공부(240)는 오브젝트의 상태 정보로서 '운동 중(241)','긴급 상황(242)','쉬는 중(243)', '식사 중(244)'또는'수면 중(245)' 등의 동영상에 포함된 사람의 상태 정보를 텍스트, 음성, 동영상, 이미지 또는 명령어 등으로 제공할 수 있다.

인식 결과 제공부(240)는 데이터 인식 장치(200)가 탑재된 전자 장치의 센서로부터 획득된 센싱 값을 추가적으로 이용하여 인식 결과를 판단할 수 있다. 구체적으로, 인식 결과 제공부(240)는 위치 정보를 획득할 수 있는 센서로부터 획득된 센싱 값(예를 들어, GPS 정보, 네트워크 연결 정보 등)을 이용하여 데이터 인식 장치(200)의 위치 정보를 판단할 수 있다. 그리고, 인식 결과 제공부(240)는 위치 정보를 고려하여 인식 결과를 판단할 수 있다.

예를 들어, 데이터 인식 장치(200)의 위치가 휘트니트 센터나 운동장인 경우, 인식 결과 제공부(240)는 인식 결과가 "운동 중"일 가능성을 높게 판단할 수 있다. 또한, 인식 결과 제공부(240)는 센서로부터 획득된 센싱 값을 바탕으로 영상에 포함된 오브젝트 정보를 감지하여 인식 결과를 판단할 수 있다. 예를 들어, 인식 결과 제공부(240)는 동영상에 포함된 QR 코드나 바코드의 판독 결과를 추가적으로 이용하여 인식 결과를 판단할 수도 있다.

서비스 제공부(250)는 동영상의 인식 결과에 기초한 서비스를 제공할 수 있다.

서비스 제공부(250)는 소프트웨어 모듈로 구현되거나 하드웨어 칩 형태로 제작되어 전술한 각종 전자 장치에 탑재될 수 있다.

서비스 제공부(250)가 탑재된 전자 장치는 데이터 인식 장치(200)가 탑재된 전자 장치와 동일한 장치일 수도 있고, 별개의 장치일 수도 있다. 서로 별개의 전자 장치에 탑재된 경우, 서비스 제공부(250)가 탑재된 전자 장치 및 데이터 인식 장치(200)가 탑재된 전자 장치는 유선 또는 무선 네트워크를 통하여 연결될 수 있다. 이 경우, 데이터 인식 장치(200)에서 출력된 동영상의 인식 결과를 서비스 제공부(250)가 탑재된 전자 장치가 수신하여 동영상의 인식 결과에 기초한 서비스를 제공할 수도 있다.

서비스 제공부(250)는 인식 결과에 기반한 서비스를 제공할 적어도 하나의 어플리케이션 또는 운영 체계의 일부를 포함할 수도 있다. 또는, 서비스 제공부(250)는 인식 결과와 관련된 전자 장치의 어플리케이션을 연계하여 실행할 수도 있다.

예를 들어, 동영상 인식 결과가 '운동 중'(241)인 경우, 서비스 제공부(250)는 운동을 코칭(coaching)하는 서비스(301)를 제공할 수 있다. 예로, 서비스 제공부(250)는 사용자의 전면에 위치한 디스플레이 장치에서 운동을 코칭하는 영상이 표시되도록 디스플레이 장치를 제어할 수 있다.

다른 예로, 동영상 인식 결과가 '긴급 상황'인 경우, 서비스 제공부(250)는 긴급 알람을 발생하는 서비스를 제공할 수 있다. 예로, 서비스 제공부(250)는 긴급한 상황임을 나타내는 알람 정보를 긴급 재난 시스템 또는 건강 관리 시스템 등으로 전송할 수 있다.

도 2b는 다른 일 실시예에 따른 데이터 인식 장치(200)의 블록도이다.

도 2b를 참조하면, 데이터 인식 장치(200)는 동영상 입력부(210), 이미지 합성부(220), 인식 결과 제공부(240) 및 모델 갱신부(250)를 포함할 수 있다. 도 2b에서, 동영상 입력부(210), 이미지 합성부(220) 및 인식 결과 제공부(240)는 도 2a를 참조하여 자세히 설명하였으므로 이하 자세한 설명은 생략한다.

모델 갱신부(250)는 인식할 데이터가 입력이 되면, 탑재되어 있는 데이터 인식 모델을 그대로 사용할지 아니면 갱신이 필요한지 여부를 판단하고, 판단 결과에 따라 데이터 인식 모델을 갱신할 수 있다.

예를 들면, 모델 갱신부(250)는 미리 구축되어 있는 데이터 인식 모델의 학습에 이용된 기본 학습 데이터와, 새롭게 입력된 동영상 또는 합성 이미지와의 관련성 등을 분석하여 갱신 여부를 판단할 수 있다. 이때, 관련성은 동영상 또는 합성 이미지가 생성된 지역, 동영상 또는 합성 이미지가 생성된 시간, 동영상 또는 합성 이미지의 크기, 동영상 또는 합성 이미지의 장르, 동영상 또는 합성 이미지의 생성자, 동영상 또는 합성 이미지 내의 오브젝트, 동영상 또는 합성 이미지가 입력된 지역, 동영상 또는 합성 이미지가 입력된 시간, 동영상 또는 합성 이미지를 제공한 전자 장치의 종류, 동영상 또는 합성 이미지를 제공한 어플리케이션 또는 운영체계의 종류 등에 기초하여 결정될 수 있다. 모델 갱신부(250)는 이하 예를 들어 설명하는 바와 같이 기본 학습 데이터와 인식할 데이터 간의 관련성이 낮은 경우 갱신이 필요하다고 판단할 수 있다.

예를 들어, 데이터 인식 모델이 한국에서 생성된 동영상을 기본 학습 데이터로 하여 구축이 된 상황에서, 입력된 동영상이 외국에서 생성된 동영상인 경우, 모델 갱신부(250)는 동영상과 기본 학습 데이터와의 관련성이 낮다고 판단하여 데이터 인식 모델의 갱신이 필요하다고 판단할 수 있다.

다른 예로, 모델 갱신부(250)는 범지구적 위성 항법 시스템(Global Navigation Satellite System, GNSS), 셀 아이디(cell-ID) 방식 및 무선 랜(LAN) 접속 위치 감지 방식 등을 이용하여 동영상이 입력된 장소를 파악하고, 기본 학습 데이터가 동영상이 입력된 장소에 맞는 상황을 반영하고 있지 않으면 관련성이 낮다고 판단하여 인식 모델의 갱신이 필요하다고 판단할 수 있다. 이러한 예시들은 이해의 편의를 돕기 위한 것으로 예시된 바에 특별히 한정되지 않으며 다양한 상황으로 확장이 가능하다.

또 다른 예로, 모델 갱신부(250)는 현재 탑재되어 있는 데이터 인식 모델의 인식 정확도를 기반으로 갱신 여부를 판단할 수 있다. 이때, 모델 갱신부(250)는 이전에 일정 기간 동안 그 인식 모델을 사용하여 인식한 결과를 기반으로 인식 정확도를 판단할 수 있으며, 판단된 인식 정확도가 소정 기준(예: 평균 80%)을 만족하지 못하는 경우 데이터 인식 모델의 갱신이 필요하다고 판단할 수 있다. 이때, 소정 기준은 데이터 인식 모델이 주로 이용되는 분야 등을 기반으로 미리 설정될 수 있다.

또 다른 예로, 모델 갱신부(250)는 인식 결과 제공부(240)의 인식 결과에 대한 사용자의 응답을 기반으로 현재 데이터 인식 모델의 갱신 여부를 판단할 수 있다. 예를 들어, 인식 결과 제공부(240)가 데이터 인식 모델을 이용하여 인식 결과를 출력하면, 모델 갱신부(250)는 그 인식 결과가 정확한지를 문의하는 질의를 사용자에게 제시하고, 그 질의에 대한 사용자의 응답을 기반으로 갱신 여부를 판단할 수 있다.

모델 갱신부(250)는 판단 결과, 현재 탑재되어 있는 데이터 인식 모델의 갱신이 필요하다고 판단되면, 미리 설정된 다양한 방법을 이용하여 데이터 인식 모델을 갱신할 수 있다.

예로, 모델 갱신부(250)는 이전에 일정 기간 동안 데이터 인식 모델에 입력된 학습 데이터를 추가 학습 데이터로 이용하여 데이터 인식 모델을 직접 갱신할 수 있다. 이 경우, 모델 갱신부(250)는 추가 학습 데이터를 사용자 또는 데이터 인식 모델 구축 장치(100)로 요청할 수도 있다.

또는, 데이터 인식 장치(200)가 데이터 인식 모델 구축 장치(100)와 유무선 네트워크로 연결된 경우, 모델 갱신부(250)는 데이터 인식 모델의 인식 정확도 등에 관한 정보 또는 이전에 일정 기간 동안 데이터 인식 모델에 입력된 학습 데이터 등을 데이터 인식 모델 구축 장치(100)에 전송하고, 데이터 인식 모델 구축 장치(100)로부터 신규 데이터 인식 모델을 수신하여, 이용 중인 데이터 인식 모델을 갱신할 수 있다.

다양한 실시예에 따르면, 데이터 인식 장치(200)는 동영상을 입력 받는 동영상 입력부(210), 동영상을 구성하는 복수의 이미지들의 각각에 포함된 공통 영역을 기초로, 상기 복수의 이미지들을 중첩하여 하나의 합성 이미지를 생성하는 이미지 합성부(220), 생성된 합성 이미지를 데이터 인식 모델에 적용하여 동영상의 인식 결과를 제공하는 인식 결과 제공부(240)를 포함할 수 있다.

다양한 실시예에 따르면, 이미지 합성부(220)는 복수의 이미지들 각각으로부터 공통 영역을 추출하고, 추출된 복수의 공통 영역들을 중첩하여 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 이미지 합성부(220)는 공통 영역의 무게 중심을 기준으로 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 이미지 합성부(220)는 복수의 이미지들 각각에서 공통 영역 및 공통 영역의 주변에 배경 영역을 중첩하여 합성 이미지를 생성할 수도 있다.

다양한 실시예에 따르면, 이미지 합성부(220)는 복수의 이미지들 각각에서 동영상을 촬영한 카메라의 움직임을 보상하고, 카메라의 움직임이 보상된 복수의 이미지들의 각각에 포함된 공통 영역을 기초로 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 데이터 인식 장치(200)는 데이터 인식 모델의 갱신 여부를 판단하여, 판단 결과에 따라 상기 데이터 인식 모델을 갱신하는 모델 갱신부(250)를 더 포함할 수 있다.

다양한 실시예에 따르면, 전자 장치는 데이터 인식 장치(200) 및 데이터 인식 장치(200)가 제공하는 동영상의 인식 결과에 기초한 서비스를 제공하는 서비스 제공부(250)를 포함할 수 있다.

도 3은 일 실시예에 따른 동영상의 인식 결과에 기초한 서비스를 제공하는 과정을 나타내는 도면이다.

도 3에서, 데이터 인식 장치(200)는 소프트웨어 모듈 또는 하드웨어 칩(예로, AI 프로세서)(321)로 구현되어 전자 장치(320)에 탑재된 상태일 수 있다. 여기서, 데이터 인식 장치(200)가 탑재된 전자 장치(320)는 전술한 각종 전자 장치들이 될 수 있다.

이러한 상황에서, 외부 장치(예로, IoT(Internet of Things) 장치)(310)는 카메라(311)를 이용하여 외부 장치의 주변의 환경을 촬영하고, 촬영된 동영상을 전자 장치(320)로 전송할 수 있다. 전자 장치(320)는 데이터 인식 장치(200)를 이용하여 수신된 동영상을 인식하고, 동영상 인식 결과를 서비스 제공부(250)로 전송할 수 있다. 이 경우, 전자 장치(420)는 동영상 인식 결과뿐만 아니라 촬영된 동영상 또는 동영상으로부터 생성된 합성 이미지를 서비스 제공부(250)로 더 전송할 수 있다.

서비스 제공부(250)는 데이터 인식 장치(200)가 탑재된 전자 장치(320)에 마련될 수도 있고, 또는 별도의 전자 장치들(340,350)에 마련될 수 있다.

서비스 제공부(250)는 제공된 동영상의 인식 결과에 기초한 서비스를 제공할 수 있다. 또는, 서비스 제공부(250)는 수신된 동영상 및 합성 이미지를 이용하여, 인식 결과에 대응하는 서비스를 제공할 수 있다.

예로, 동영상의 인식 결과가 동영상에 포함된 사람이 "긴급 상황"임을 나타내는 상태 정보(331)인 경우, 서비스 제공부(250)는 '긴급 상황'에 기초한 서비스를 제공할 수 있다. 예로, 서비스 제공부(250)는 사용자가 소지하고 있는 휴대 단말(340)로부터 현재 시각 및 장소에 관한 정보(341)를 획득할 수 있다. 또는, 서비스 제공부(250)는 수신된 동영상 및 합성 이미지로부터 시각 및 장소에 관한 정보를 획득할 수 있다.

다음으로, 서비스 제공부(240)는 알람 어플리케이션(345)를 이용하여, 알람 어플리케이션(345)이 획득된 시각 및 장소 정보(341)에 기반한 '긴급 상황'을 알리도록 제어할 수 있다.

이 경우, 알람 어플리케이션(345)은, 데이터 인식 장치(200)가 탑재된 전자 장치(320)에 설치된 어플리케이션일 수도 있고, 또는 시각 및 장소 정보(341)를 제공한 휴대 단말(340)에 설치된 어플리케이션일 수도 있다. 또는, 알람 어플리케이션(345)은 외부에 위치한 긴급 재난 시스템 또는 건강 관리 시스템에 설치된 어플리케이션일 수도 있다.

다른 예로, 동영상의 인식 결과가 동영상에 포함된 사람이 '운동 중'임을 나타내는 상태 정보(332)인 경우, 서비스 제공부(250)는 '운동 중'에 기초한 서비스를 제공할 수 있다. 예로, 서비스 제공부(250)는 사람의 주변에 위치한 디스플레이 장치(350)로부터 모션 정보(351)를 획득할 수 있다. 또는, 서비스 제공부(250)는 수신된 동영상 및 합성 이미지로부터 모션 정보(351)를 획득할 수 있다.

다음으로, 서비스 제공부(250)는 획득된 모션 정보(351)를 코칭 어플리케이션(355)으로 제공하여, 코칭 어플리케이션(355)이 '운동 중'인 사람의 모션에 따른 코칭 서비스를 제공하도록 제어할 수 있다.

이 경우, 코칭 어플리케이션(355)은, 서비스 제공부(250)가 탑재된 전자 장치(320)에 설치된 어플리케이션일 수도 있고, 또는 모션 정보(351)를 제공한 디스플레이 장치(350)에 설치된 어플리케이션일 수도 있다. 또는, 코칭 어플리케이션(355)은 사람의 주변에 위치한 별도의 전자 장치에 설치된 어플리케이션일 수도 있다.

다양한 실시 예에 따르면, 전자 장치(예로, 스마트 폰)에 서비스 제공부(250)가 마련된 경우, 전자 장치는 전자 장치가 제공하는 갤러리 어플리케이션이 제공하는 동영상들을 본 개시의 데이터 인식 모델을 이용하여 자동으로 분류하는 서비스를 제공할 수 있다.

예를 들어, 전자 장치는 갤러리 어플리케이션에 포함된 동영상들을 본 개시의 데이터 인식 장치(200)로 제공할 수 있다. 데이터 인식 장치(200)는 전자 장치에 탑재될 수도 있고, 또는 전자 장치의 외부 장치(예로, 서버)에 탑재될 수도 있다. 데이터 인식 장치(200)는 입력된 동영상들 각각에 대하여 본 개시에 따른 합성 이미지를 생성하고, 이를 데이터 인식 모델에 적용하여 복수의 동영상 인식 결과들을 획득하고, 이들을 서비스 제공부(250)로 제공할 수 있다. 동영상 인식 결과는, 예로, 동영상의 장르, 동영상의 시청자, 동영상의 내용, 동영상의 등장 인물, 동영상에 포함된 오브젝트의 상태 정보 등과 같은 다양한 동영상의 속성들이 될 수 있으며, 전술한 예에 제한되지 않는다.

전자 장치는 제공된 동영상의 인식 결과를 이용하여 갤러리 어플리케이션에 포함된 동영상들을 자동으로 분류할 수 있다. 전자 장치는 동영상 인식 결과에 따라 동일 또는 유사한 속성을 가진 동영상들을 동일한 폴더에 위치시키거나 또는 상기 동영상들에 대응하는 아이콘 또는 썸네일을 화면의 특정 영역으로 이동시키는 등의 자동 분류 작업을 수행할 수 있다.

한편, 동영상이 분류된 인식 결과는 각각의 동영상의 메타 데이터로 삽입될 수도 있다.

다양한 실시 예에 따르면, 전자 장치(예로, 카메라)에 서비스 제공부(250)가 마련된 경우, 전자 장치는 전자 장치가 획득하는 프리뷰(preview) 영상을 촬영하기 위한 촬영 모드를 본 개시의 데이터 인식 모델을 이용하여 자동으로 설정하는 서비스를 제공할 수 있다.

예를 들어, 전자 장치는 렌즈를 통하여 획득되는 프리뷰 영상들을 본 개시의 데이터 인식 장치(200)로 제공할 수 있다. 데이터 인식 장치(200)는 전자 장치에 탑재될 수도 있고, 또는 별도의 장치에 탑재될 수도 있다. 데이터 인식 장치(200)는 입력된 프리뷰 영상에 대하여 본 개시에 따른 합성 이미지를 생성하고, 이를 데이터 인식 모델에 적용하여 동영상 인식 결과를 획득하고, 이를 서비스 제공부(250)로 제공할 수 있다. 동영상 인식 결과는, 예로, 프리뷰 영상이 생성되는 장소 또는 주변의 환경 조건을 고려한 프리뷰 영상의 촬영에 적합한 촬영 모드가 될 수 있다.

전자 장치는 제공된 동영상 인식 결과를 이용하여 프리뷰 영상을 촬영하기 위한 촬영 모드를 자동으로 설정할 수 있다.

다양한 실시예에 따르면, 전자 장치(예로, 재난 시스템)에 서비스 제공부(250)가 마련된 경우, 전자 장치는 긴급 상황을 모니터링하기 위하여, 외부 장치(예로, CCTV)에서 촬영된 동영상이 본 개시의 데이터 인식 모델을 이용하여 인식되면, 인식 결과에 기초하여 긴급 상황 발생 알림 서비스를 제공할 수 있다.

예로, 외부 장치는 주변 상황의 동영상을 본 개시의 데이터 인식 장치(200)로 제공할 수 있다. 데이터 인식 장치(200)는 제공된 주변 상황의 동영상에 대하여 본 개시에 따른 합성 이미지를 생성하고, 이를 데이터 인식 모델에 적용하여 동영상 인식 결과를 획득하고, 이를 서비스 제공부(250)로 제공할 수 있다. 동영상 인식 결과는, 예로, 동영상에 포함된 사람의 상황 정보가 될 수 있다.

전자 장치는 제공된 동영상 인식 결과를 이용하여, 사람의 현재 상황이 사고가 발생한 긴급한 상황인 경우, 사람의 가족 또는 사람의 근처에 위치한 병원으로 긴급 상황을 알리는 알림 서비스를 제공할 수 있다.

다양한 실시예에 따르면, 전자 장치(예로, 홈 게이트웨이 또는 홈 로봇 등)에 서비스 제공부(250)가 마련된 경우, 전자 장치는 댁 내의 사람의 일상 행동을 모니터링하기 위하여, 카메라가 구비된 IoT 장치에서 촬영된 동영상이 본 개시의 데이터 인식 모델을 이용하여 인식되면, 인식 결과에 기초하여 일상 행동에 대한 연계 서비스를 제공할 수 있다.

예로, 댁 내의 사람이 요리를 하는 상황에서, 외부의 IoT 장치는 사람을 촬영한 동영상을 본 개시의 데이터 인식 장치(200)로 제공할 수 있다. 데이터 인식 장치(200)는 제공된 주변 상황의 동영상에 대하여 본 개시에 따른 합성 이미지를 생성하고, 이를 데이터 인식 모델에 적용하여 동영상 인식 결과를 획득하고, 이를 서비스 제공부(250)로 제공할 수 있다. 동영상 인식 결과는, 예로, 사람이 요리를 하는 상황 정보가 될 수 있다.

전자 장치는 제공된 동영상 인식 결과를 이용하여, 요리를 보조할 수 있는 연계 서비스를 제공할 수 있다. 예로, 전자 장치는 요리를 하는 사람이 위치한 주방의 조명을 조절하거나 또는 주방의 근처에 위치한 디스플레이를 통하여 요리법 등을 제공할 수 있다.

다양한 실시예에 따르면, 자동차에 구비된 전자 장치(예로, ECM(Engine control module))에 서비스 제공부(250)가 마련된 경우, 전자 장치는 자동차에 구비된 전방 주시 카메라에서 촬영된 동영상이 본 개시의 데이터 인식 모델을 이용하여 인식되면, 인식 결과에 기초하여 자동차의 브레이크 페달 또는 가속 페달의 구동을 제어하는 서비스를 제공할 수 있다.

예로, 자동차의 전방에 뛰는 보행자가 출현하거나 또는 걷는 보행자가 출현한 상황에서, 자동차의 카메라는 전방을 촬영한 동영상을 본 개시의 데이터 인식 장치(200)로 제공할 수 있다. 데이터 인식 장치(200)는 제공된 전방을 촬영한 동영상에 대하여 본 개시에 따른 합성 이미지를 생성하고, 이를 데이터 인식 모델에 적용하여 동영상 인식 결과를 획득하고, 이를 서비스 제공부(250)로 제공할 수 있다. 동영상 인식 결과는, 예로, 보행자의 보행 상태를 나타내는 상황 정보가 될 수 있다.

전자 장치는 제공된 동영상 인식 결과를 이용하여 자동차의 구동을 제어할 수 있다. 예로, 보행 상태가 보행자가 뛰는 것을 나타내는 경우, 전자 장치는, 자동차의 브레이크 페달의 반응 속도를 민감하게 조절하거나 또는 가속 페달의 반응 속도를 둔감하게 조절할 수 있다. 반면에, 보행 상태가 보행자가 걷는 것을 나타내는 경우, 전자 장치는 자동치의 브레이크 페달의 반응 속도를 둔감하게 조절하거나 또는 가속 페달의 반응 속도를 민감하게 조절할 수 있다.

다양한 실시예에 따르면, 자동차에 구비된 전자 장치(예로, ECM(Engine control module))에 서비스 제공부(250)가 마련된 경우, 전자 장치는 자동차에 구비된 탑승자를 촬영하는 내부 주시 카메라에서 촬영된 동영상이 본 개시의 데이터 인식 모델을 이용하여 인식되면, 인식 결과에 기초하여 자동차의 동작 모드를 안전 주행 모드로 변경하거나 또는 알림 서비스를 제공할 수 있다. 안전 주행 모드는, 예로, 자동차의 속도를 낮추거나, 자동차가 자동 주행하도록 제어하거나 또는 자동차를 강제로 주차시키는 모드 등이 될 수 있다.

예로, 내부 주시 카메라는 운전자 또는 동승자를 촬영한 동영상을 본 개시의 데이터 인식 장치(200)로 제공할 수 있다. 데이터 인식 장치(200)는 제공된 자동차의 내부를 촬영한 동영상에 대하여 본 개시에 따른 합성 이미지를 생성하고, 이를 데이터 인식 모델에 적용하여 동영상 인식 결과를 획득하고, 이를 서비스 제공부(250)로 제공할 수 있다. 동영상 인식 결과는, 예로, 운전자의 운전 상태 또는 동승자의 동승 상태를 나타내는 상황 정보가 될 수 있다.

전자 장치는 제공된 동영상 인식 결과를 이용하여, 자동차의 동작 모드를 안전 주행 모드로 변경하거나 또는 알림 서비스를 제공할 수 있다. 예로, 동영상 인식 결과가 운전자의 운전 상태가 졸음 운전 중인 것을 나타내는 경우, 전자 장치는 자동차의 동작 모드를 안전 주행 모드로 변경하거나 또는 휴식을 유도하는 알림 서비스로서 청각 또는 시각적 UI를 제공할 수 있다.

또 다른 예로, 동영상 인식 결과가 자동차 내에서 긴급 상황(예, 폭행, 강도 사고 등)이 발생 중인 것을 나타내는 경우, 전자 장치는 자동차의 동작 모드를 안전 주행 모드로 변경하거나 또는 긴급 상황을 알리는 메시지를 자동차의 주변의 긴급 상황 대응 센터(예로, 경찰서, 소방서 등)의 시스템으로 전송할 수 있다.

도 4 내지 도 6은, 일 실시예에 따른 이미지 합성부의 처리 과정을 나타내는 도면들이다.

도 4 내지 도 6의 이미지 합성부(420)는, 전술한 도 1a 및 도 1b의 데이터 인식 모델 구축 장치(100)의 이미지 합성부(120) 또는, 도 2a 및 도 2b의 데이터 인식 장치(200)의 이미지 합성부(220)가 될 수 있다.

이미지 합성부(420)가 도 1a 및 도 1b의 이미지 합성부(110)인 경우, 이미지 합성부(420)는 동영상을 입력 받아 하나의 이상의 합성 이미지들을 생성하고, 이를 데이터 인식 모델 구축 장치(100)의 모델 학습부(140)로 전송할 수 있다. 또는, 이미지 합성부(420)가 도 2a 및 도 2b의 이미지 합성부(220)인 경우, 이미지 합성부(420)는 동영상을 입력 받아 하나의 이상의 합성 이미지들을 생성하고, 이를 데이터 인식 장치(200)의 인식 결과 제공부(240)로 전송할 수 있다.

도 4에서, 이미지 합성부(420)는 동영상을 촬영한 카메라의 움직임을 보상할 수 있다.

이미지 합성부(420)는 입력된 동영상을 촬영한 카메라의 촬영 속성에 따라 선택적으로 카메라의 움직임을 보상할 수 있다.

예로, 동영상이 한 지점에 고정된 카메라로 촬영된 경우, 이미지 합성부(420)는 카메라의 움직임 보상을 생략할 수 있다.

이 경우, 동영상이 고정된 카메라로 촬영되는 상황은, 예로, 사람의 움직임이 발생하는 전체 공간을 촬영하는 상황(예로, 요리를 하는 사람을 촬영하거나, 무대에서 춤을 추는 사람을 촬영하는 상황 등), 또는 자리를 이동하지 않은 체로 움직이는 사람을 촬영하는 상황(예로, 골프와 같은 스포츠를 즐기는 사람을 촬영하거나, 팔굽혀 펴기와 같은 정적인 운동을 하는 사람을 촬영하는 상황 등) 등이 될 수 있다.

반면에, 동영상이 움직이는 카메라로 촬영된 경우, 이미지 합성부(420)는 카메라의 움직임 보상을 수행할 수 있다.

이 경우, 동영상이 움직이는 카메라로 촬영되는 상황은, 예로, 카메라가 사람의 동선을 쫓아가면서 촬영하는 상황(예로, 축구하는 사람을 촬영하는 상황 등), 또는 주변 요인으로 인하여 카메라가 흔들리는 상황 등(예로, 바람에 의한 카메라의 흔들림 또는 지진 등의 자연 재해로 인한 흔들림 등)이 될 수 있다.

구체적으로, 도 4에서, 동영상의 적어도 일부를 구성하는 복수의 이미지들은 움직이는 카메라로 촬영된 제1 내지 제4 이미지들(421,422,423,424)이 될 수 있다.

이미지 합성부(420)는 카메라의 움직임의 보상을 위하여, 예로, 광 흐름 예측(optical flow estimation) 기법을 이용하여 이미지를 구성하는 픽셀들의 움직임 경로를 추출하고, 추출된 픽셀들의 움직임 경로에 기초하여 카메라의 움직임 경로를 예측할 수 있다.

이미지 합성부(420)는 예측된 카메라의 움직임 경로와 반대 방향의 움직임을 이미지에 적용하여, 제1 내지 제4 이미지들(421~424)로부터 제1'내지 제4'이미지들(421a,422a,423a,424a)을 생성할 수 있다. 이 경우, 제1'내지 제4'이미지들(421a~424a)의 배경은 고정되고 이미지에 포함된 사람만 이동되도록 나타날 수 있다.

다음으로, 이미지 합성부(110)는 카메라의 움직임이 보상된 제1'내지 제4'이미지들(421a~424a)로부터 복수의 공통 영역들(421b,422b,423b,424b)을 추출할 수 있다.

복수의 공통 영역들(421b~424b)이 추출되면, 이미지 합성부(420)는 추출된 복수의 공통 영역들 중첩하여 합성 이미지(425)를 생성할 수 있다.

이미지 합성부(420)는 생성된 합성 이미지(425)를 데이터 인식 모델 구축 장치(100)의 모델 학습부(140) 또는, 이를 데이터 인식 장치(200)의 인식 결과 제공부(240)로 전송할 수 있다.

도 5에서, 이미지 합성부(420)는 동영상에 포함된 공통 영역 및 상기 공통 영역 주변의 배경 영역을 중첩하여 합성 이미지를 생성할 수도 있다.

이 경우, 이미지 합성부(420)는 입력된 동영상에 포함된 배경 속성에 따라 선택적으로 공통 영역 및 배경 영역을 중첩하여 합성 이미지를 생성할 수 있다.

예로, 동영상에 포함된 배경이, 동영상에 포함된 공통 영역(또는, 공통 오브젝트)과 관련성이 큰 상황(예로, 주변 환경이 사람과 관련성이 큰 스키 또는 스노쿨링을 하는 사람을 촬영하는 상황)에서, 이미지 합성부(420)는 동영상에 포함된 공통 영역 및 상기 공통 영역의 주변에 배경 영역을 중첩하여 합성 이미지를 생성할 수 있다.

또는, 동영상에서 배경에 해당하는 영역의 비율이 작은 상황(예로, 개인의 비중이 큰 탁구 경기를 사람과 탁구대를 기준으로 풀 샷으로 촬영하는 상황)에서, 이미지 합성부(420)는 통하여 동영상에 포함된 공통 영역 및 상기 공통 영역의 주변에 배경 영역을 중첩하여 합성 이미지를 생성할 수 있다.

반면에, 동영상에 포함된 배경이, 동영상에 포함된 공통 영역과 관련성이 작은 상황(예로, 상대방과 악수를 하거나, 뛰거나 또는 걷는 것을 촬영하는 상황)에서, 이미지 합성부(420)는 배경 영역의 합성을 생략하고, 공통 영역만을 중첩하여 합성 이미지를 생성할 수 있다.

또는, 동영상에 배경에 해당하는 영역의 비율이 큰 상황(예로, 여러 사람의 협업하는 축구 경기를 운동장을 기준으로 풀 샷으로 촬영하는 상황)에서, 이미지 합성부(420)는 배경 영역의 합성을 생략하고, 공통 영역만을 중첩하여 합성 이미지를 생성할 수 있다.

구체적으로, 도 5에서, 동영상의 적어도 일부를 구성하는 복수의 이미지들은 공통 영역과 배경 영역의 연관성이 큰 제1 내지 제4 이미지들(521,522,523,524)이 될 수 있다.

이 경우, 이미지 합성부(420)는, 공통 영역 및 배경 영역을 함께 중첩하여 합성 이미지(525)를 생성할 수 있다.

이미지 합성부(420)는 생성된 합성 이미지(525)를 데이터 인식 모델 구축 장치(100)의 모델 학습부(140) 또는, 이를 데이터 인식 장치(200)의 인식 결과 제공부(240)로 전송할 수 있다.

도 6에서, 이미지 합성부(420)는 복수의 공통 영역들의 무게 중심을 기준으로 합성 이미지를 생성할 수도 있다.

이 경우, 이미지 합성부(420)는 복수의 공통 영역(또는, 공통 오브젝트)들의 속성에 따라 선택적으로 무게 중심을 기준으로 합성 이미지를 생성할 수 있다.

예로, 복수의 이미지들 각각의 공통 영역들의 무게 중심의 이동이 적은 상황(예로, 움직임이 적은 골프 또는 요가를 즐기는 사람을 촬영하는 상황)에서, 이미지 합성부(420)는 공통 영역의 무게 중심을 기준으로 복수의 이미지들을 동기화하여 합성 이미지를 생성할 수 있다.

또는, 복수의 이미지들 각각의 공통 영역들의 무게 중심을 동기화하여 합성 이미지를 생성하였을 때, 공통 영역들 간에 무게 중심을 기준으로 움직임의 변화가 예측되는 상황(예로, 요가를 하는 사람을 촬영하는 상황)에서, 이미지 합성부(420)는 공통 영역의 무게 중심을 기준으로 복수의 이미지들을 동기화하여 합성 이미지를 생성할 수 있다.

반면에, 복수의 이미지들 각각의 공통 영역의 무게 중심의 이동이 큰 상황(예로, 움직임이 큰 농구 또는 스케이트를 즐기는 사람을 촬영하는 상황)에서, 이미지 합성부(420)는 동기화 과정을 생략하고 합성 이미지를 생성할 수 있다. 즉, 이미지 합성부(420)는 공통 영역의 이동에 따른 이동 궤적에 관한 정보가 중요한 것으로 판단되는 상황에서는, 동기화 과정을 생략하고 이동 궤적에 관한 정보가 포함된 합성 이미지를 생성할 수 있다.

구체적으로, 도 6에서, 동영상의 적어도 일부를 구성하는 복수의 이미지들은 무게 중심이 이동이 적은 제1 내지 제4 이미지들(621,622,623,624)이 될 수 있다.

이미지 합성부(420)는 복수의 이미지들의 동기화를 위하여, 사람 영역 추출(human segmentation) 기법 또는 움직임 영역 추출(moving object detection) 기법을 이용하여, 제1 내지 제4 이미지들(621~624)로부터 공통 영역들(또는 공통 오브젝트들)(621a,622a,623a,624a)을 추출할 수 있다.

그리고, 이미지 합성부(420)는 추출된 복수의 공통 영역들(621a~624a)의 좌표 값의 평균을 계산하여 복수의 공통 영역들(621a~624a) 각각의 무게 중심들(621a',622a',623a',624a')이 일치하도록 복수의 공통 영역들을 중첩하여 합성 이미지(625)를 생성할 수 있다.

이미지 합성부(420)는 생성된 합성 이미지(625)를 데이터 인식 모델 구축 장치(100)의 모델 학습부(140) 또는, 이를 데이터 인식 장치(200)의 인식 결과 제공부(240)로 전송할 수 있다.

도 7은, 본 개시에 다양한 실시예에 따른 전자 장치의 구성을 나타내는 블록도이다.

도 7의 전자 장치(700)는, 데이터 인식 모델 구축 장치(100)가 탑재되는 전자 장치, 데이터 인식 장치(200)가 탑재되는 전자 장치 또는 서비스 제공부(250)가 탑재되는 전자 장치가 될 수 있다. 또한, 전자 장치(700)는 데이터 인식 모델 구축 장치(100), 데이터 인식 장치(200) 및 서비스 제공부(250) 중 두 개 이상이 탑재되는 전자 장치가 될 수도 있다. 또한, 전자 장치(700)의 프로세서(790)가 데이터 인식 모델 구축 장치(100), 데이터 인식 장치(200) 및 서비스 제공부(250) 중 하나 또는 둘 이상을 포함할 수도 있다.

도 7에 도시된 바와 같이, 전자 장치(700)는 영상 획득부(710), 영상 처리부(720), 디스플레이부(730), 통신부(740), 메모리(750), 오디오 처리부(760), 오디오 출력부(770), 감지부(780) 및 프로세서(790) 중 적어도 하나를 포함할 수 있다. 한편, 도 7에 도시된 전자 장치(700)의 구성은 일 예에 불과하므로, 반드시 전술된 블록도에 한정되는 것은 아니다. 따라서, 전자 장치(700)의 종류 또는 전자 장치(700)의 목적에 따라 도 7에 도시된 전자 장치(700)의 구성의 일부가 생략 또는 변형되거나, 추가될 수도 있음은 물론이다.

영상 획득부(710)는 다양한 소스를 통해 영상 데이터를 획득할 수 있다. 예를 들어, 영상 획득부(710)는 외부 서버로부터 영상 데이터를 수신할 수 있으며, 외부 기기로부터 영상 데이터를 수신할 수 있다. 또는, 영상 획득부(710)는 외부 환경을 촬영하여 영상 데이터를 획득할 수 있다. 예로, 영상 획득부(710)는 전자 장치(700)의 외부 환경을 촬영하는 카메라로 구현될 수 있다. 영상 획득부(710)를 통해 획득된 영상 데이터는 영상 처리부(720)에서 처리될 수 있다.

영상 처리부(720)는 영상 획득부(710)에서 수신한 영상 데이터에 대한 처리를 수행할 수 있다. 영상 처리부(720)에서는 영상 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다.

영상 처리부(720)는 처리된 동영상 데이터를 데이터 인식 모델 구축 장치(100)의 동영상 입력부(110) 또는 데이터 인식 장치(200)의 동영상 입력부(120)로 제공할 수 있다.

디스플레이부(730)는 영상 처리부(720)에서 처리한 영상 데이터를 디스플레이 영역에 디스플레이할 수 있다. 디스플레이부(730)는 플렉서블 디스플레이(flexible display)의 형태로 전자 장치(700)의 전면 영역 및, 측면 영역 및 후면 영역 중 적어도 하나에 결합될 수도 있다. 플렉서블 디스플레이는 종이처럼 얇고 유연한 기판을 통해 손상 없이 휘거나 구부리거나 말 수 있는 것을 특징으로 할 수 있다.

디스플레이부(730)는 터치 감지부(781)과 결합하여 레이어 구조의 터치 스크린으로 구현될 수 있다. 터치 스크린은 디스플레이 기능뿐만 아니라 터치 입력 위치, 터치된 면적뿐만 아니라 터치 입력 압력까지도 검출하는 기능을 가질 수 있고, 또한 실질적인 터치(real-touch)뿐만 아니라 근접 터치(proximity touch)도 검출하는 기능을 가질 수 있다.

디스플레이부(730)는 본 개시의 서비스 제공부(250)의 제어에 의하여 서비스의 제공을 위한 시각적 데이터를 출력할 수 있다.

통신부(740)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행할 수 있다. 통신부(740)는 와이파이칩(741), 블루투스 칩(742), 무선 통신 칩(743), NFC 칩(744) 중 적어도 하나를 포함할 수 있다. 프로세서(790)는 통신부(740)를 이용하여 외부 서버 또는 각종 외부 기기와 통신을 수행할 수 있다.

메모리(750)는 전자 장치(700)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리(750)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(750)는 프로세서(790)에 의해 액세스되며, 프로세서(790)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(750), 프로세서(790) 내 롬(미도시), 램(미도시) 또는 전자 장치(700)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다.

또한, 메모리(750)에는 디스플레이부(730)의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다. 또한, 메모리(750)는 본 개시의 데이터 인식 모델을 저장할 수도 있다.

오디오 처리부(760)는 오디오 데이터에 대한 처리를 수행하는 구성요소이다. 오디오 처리부(760)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 오디오 처리부(760)에서 처리된 오디오 데이터는 오디오 출력부(770)로 출력될 수 있다.

오디오 출력부(770)는 오디오 처리부(760)에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 특히, 오디오 출력부(770)는 스피커로 구현될 수 있으나, 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 출력 단자로 구현될 수 있다.

오디오 출력부(770)는 본 개시의 서비스 제공부(250)의 제어에 의하여 서비스의 제공을 위한 오디오 데이터를 출력할 수 있다.

감지부(780)는 다양한 사용자 인터렉션을 감지한다. 감지부(780)는 전자 장치(700)의 자세 변화, 조도 변화, 가속도 변화 등과 같은 다양한 변화들 중 적어도 하나를 검출하고, 그에 해당하는 전기적 신호를 프로세서(790)로 전달할 수 있다. 즉, 감지부(780)는 전자 장치(700)를 기반으로 이루어지는 상태 변화를 감지하고, 그에 따른 감지 신호를 생성하여 프로세서(790)로 전달할 수 있다.

감지부(780)는 다양한 센서들로 이루어질 수 있으며, 전자 장치(700)의 상태 변화를 검출할 수 있는 모든 형태의 센싱 디바이스(sensing device)들 중 적어도 하나의 디바이스를 포함하여 구성될 수 있다. 예를 들어, 감지부(780)는 터치 센서(Touch Sensor), 가속도 센서(Acceleration Sensor), 자이로 센서(Gyro Sensor), 조도 센서(illuminance sensor), 근접 센서(proximity sensor), 압력 센서(pressure sensor), 노이즈 센서(Noise Sensor)(예컨대, 마이크), 비디오 센서(Video Sensor)(예컨대, 카메라 모듈), 펜 감지 센서 그리고 타이머 등과 같은 다양한 센싱 디바이스들 중 적어도 하나의 센서를 포함하여 구성될 수 있다.

감지부(780)는 감지 목적에 따라, 터치 감지부(781), 움직임 감지부(782) 등으로 구분할 수 있으나, 이에 제한되지 않으며 더 다양한 목적에 따라 구분될 수 있다. 이는, 물리적인 구분을 의미하는 것은 아니며 적어도 하나의 센서들이 결합하여 상기 감지부들(781,782)의 역할을 수행할 수 있다. 또한, 구현 방법에 따라 감지부(780)의 구성 또는 기능의 일부가 프로세서(790)에 포함될 수도 있다.

터치 감지부(781)는 사용자의 손가락 입력을 감지하고, 감지된 터치 신호에 해당하는 터치 이벤트 값을 출력할 수 있다.

움직임 감지부(782)는 가속도 센서(Acceleration sensor), 기울기 센서(tilt sensor), 자이로 센서(Gyro sensor), 자기장 센서(3-axis Magnetic sensor) 중 적어도 하나를 이용하여 전자 장치(700)의 움직임(예를 들어, 회전 움직임, 틸팅 움직임 등)을 감지할 수 있다. 그리고 움직임 감지부(782)는 생성된 전기적 신호를 프로세서(790)로 전달할 수 있다

감지부(780)는 본 개시의 서비스 제공부(250)의 제어에 의하여 사용자의 동작 상태 또는 주변 상태 등을 감지할 수 있다. 서비스 제공부(250)는 동영상의 인식 결과 및 감지된 정보에 기초하여 본 개시에 따른 서비스를 제공할 수 있다.

감지부(780)는 전자 장치(700)의 위치 정보를 감지할 수 있는 GPS 센서 등과 같은 다양한 센서를 더 포함할 수 있다.

프로세서(790)(또는, 제어부)는 메모리(750)에 저장된 각종 프로그램을 이용하여 전자 장치(700)의 전반적인 동작을 제어할 수 있다.

프로세서(790)는 RAM(791), ROM(792), 그래픽 처리부(793), 메인 CPU(794), 제1 내지 n 인터페이스(795-1~795-n), 버스(796)로 구성될 수 있다. 이때, RAM(791), ROM(792), 그래픽 처리부(793), 메인 CPU(794), 제1 내지 n 인터페이스(795-1~795-n) 등은 버스(796)를 통해 서로 연결될 수 있다.

한편, 데이터 인식 모델 구축 장치(100) 및 데이터 인식 장치(200)는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별도의 전자 장치에 탑재될 수도 있다. 예를 들어, 데이터 인식 모델 구축 장치(100) 및 데이터 인식 장치(200) 중 하나는 전자 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 인식 모델 구축 장치(100) 및 데이터 인식 장치(200)는 유선 또는 무선 네트워크를 통하여, 데이터 인식 모델 구축 장치(100)가 구축한 모델 정보를 데이터 인식 장치(200)로 전송할 수도 있고, 데이터 인식 장치(200)로 입력된 데이터가 추가 학습 데이터로서 데이터 인식 모델 구축 장치(100)로 전송될 수도 있다.

예로, 도 11에 도시된 바와 같이, 전자 장치(700)가 데이터 인식 모델 구축 장치(100) 및 데이터 인식 장치(200)를 포함할 수 있다.

또는, 도 12에 도시된 바와 같이, 전자 장치(700)는 데이터 인식 장치(200)를 포함하며, 외부의 서버로(1200)가 데이터 인식 모델 구축 장치(100)를 포함할 수 있다.

도 12를 참조하면, 서버(1200)는 상황 판단을 위한 기준을 학습할 수 있으며, 전자 장치(700)는 서버(1200)에 의한 학습 결과에 기초하여 상황을 판단할 수 있다.

이 경우, 서버(1200)의 모델 학습부(140)는 소정의 상황을 판단하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 상황을 어떻게 판단할 지에 관한 기준을 학습할 수 있다. 모델 학습부(140)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 상황 판단을 위한 기준을 학습할 수 있다.

또한, 전자 장치(700)의 인식 결과 제공부(240)는 입력된 합성 이미지를 서버(1200)에 의해 생성된 데이터 인식 모델에 적용하여 상황을 판단할 수 있다. 예를 들어, 인식 결과 제공부(240)는 입력된 합성 이미지를 서버(1200)에게 전송하고, 서버(1200)가 합성 이미지를 데이터 인식 모델에 적용하여 상황을 판단할 것을 요청할 수 있다. 또한, 인식 결과 제공부(240)는 서버(1200)에 의해 판단된 상황에 관한 정보를 서버(1200)로부터 수신할 수 있다.

또는, 전자 장치(700)의 인식 결과 제공부(240)는 서버(1200)에 의해 생성된 데이터 인식 모델을 서버(1200)로부터 수신하고, 수신된 데이터 인식 모델을 이용하여 상황을 판단할 수 있다. 이 경우, 전자 장치(700)의 인식 결과 제공부(240)는 입력된 합성 이미지를 서버(1200)로부터 수신된 데이터 인식 모델에 적용하여 상황을 판단할 수 있다.

그러나, 이는 일 실시예에 불과할 뿐, 전자 장치(700)가 데이터 인식 모델 구축 장치(100)를 포함할 수 있으며, 외부 장치가 데이터 인식 장치(200)를 포함할 수 있다. 뿐만 아니라, 전자 장치(700)는 동영상 입력부(110), 이미지 합성부(120), 모델 학습부(140), 모델 저장부(150), 모델 평가부(160), 동영상 입력부(210), 이미지 합성부(220), 인식 결과 제공부(240) 및 모델 갱신부(250) 중 적어도 하나를 포함할 수 있다.

도 8a의 일 실시예에 따른 데이터 인식 모델 구축 장치(100)가 데이터 인식 모델을 구축하는 방법을 나타내는 흐름도이다. 이 때, 데이터 인식 모델 구축 장치(100)는 전자 장치(700)일 수 있으나, 이는 일 실시예에 불과할 뿐, 서버(1200)로 구현될 수 있다.

도 8a에서, 데이터 인식 모델 구축 장치(100)는 동영상을 입력 받을 수 있다(S801).

데이터 인식 모델 구축 장치(100)는 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수 있다(S803).

다양한 실시예에 따르면, 데이터 인식 모델 구축 장치(100)는 복수의 이미지들 각각으로부터 복수의 공통 영역들을 추출하고, 추출된 복수의 공통 영역들을 중첩하여 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 데이터 인식 모델 구축 장치(100)는 공통 영역의 무게 중심을 기준으로 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 데이터 인식 모델 구축 장치(100)는 복수의 이미지들에 포함된 공통 영역 및 공통 영역의 주변에 배경 영역을 중첩하여 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 데이터 인식 모델 구축 장치(100)는 복수의 이미지들 각각에서 동영상을 촬영한 카메라의 움직임을 보상하고, 카메라의 움직임이 보상된 복수의 이미지들의 각각에 포함된 공통 영역을 기초로 합성 이미지를 생성할 수 있다.

다시 도 8a에서, 데이터 인식 모델 구축 장치(100)는 생성된 합성 이미지를 이용하여 데이터 인식 모델을 학습시킬 수 있다(S805)

데이터 인식 모델 구축 장치(100)는 학습된 데이터 인식 모델을 저장할 수 있다(S807).

도 8b의 일 실시예에 따른 데이터 인식 모델을 구축하기 위한 시스템이 데이터 인식 모델을 구축하는 방법을 나타내는 흐름도이다. 이 때, 데이터 인식 모델을 구축하기 위한 시스템은 제1 구성 요소(2100) 및 제2 구성 요소(2200)를 포함할 수 있다.

일 예로, 제1 구성 요소(2100)는 전자 장치(700)이고, 제2 구성 요소(2200)는 서버(1200)가 될 수 있다. 또는, 제1 구성 요소(2100)는 범용 프로세서이고, 제2 구성 요소(2200)는 인공 지능 전용 프로세서가 될 수 있다. 또는, 제1 구성 요소(2100)는 적어도 하나의 어플리케이션이 될 수 있고, 제2 구성 요소(2200)는 운영 체제(operating system, OS)가 될 수 있다.

이 경우, 제1 구성 요소(2100) 및 제2 구성 요소(2200) 간에 데이터(예로, 합성 이미지)를 송/수신하기 위한 인터페이스가 정의될 수 있다.

예로, 데이터 인식 모델에 적용할 학습 데이터를 인자 값(또는, 매개 값 또는 전달 값)으로 갖는 API(application program interface) 함수가 정의될 수 있다. 이 경우, 제1 구성 요소(2100)가 상기 API 함수를 호출하여 데이터 인자 값으로 합성 이미지를 입력하면, 상기 API 함수는 합성 이미지를 데이터 인식 모델에 적용할 학습 데이터로서 제2 구성 요소(2200)로 전달할 수 있다.

도 8b에서, 제1 구성 요소(2100)는 동영상을 입력 받을 수 있다(S811).

제1 구성 요소(2100)는 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기반으로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수 있다(S813).

제1 구성 요소(2100)는 생성된 합성 이미지를 제2 구성 요소(2200)로 전송할 수 있다(S815).

제2 구성 요소(2200)는 생성된 합성 이미지를 이용하여 데이터 인식 모델을 학습시킬 수 있다(S817)

제2 구성 요소(2200)는 학습된 데이터 인식 모델을 저장할 수 있다(S819).

한편, 상술한 실시예에서는 제2 구성 요소(2100)가 학습된 데이터 인식 모델을 저장하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 제2 구성 요소(2200)가 학습된 데이터 인식 모델을 제1 구성 요소(2100)로 전송하여 제1 구성 요소(2100)가 데이터 인식 모델을 저장할 수 있다.

또한, 상술한 실시예에서는 제1 구성 요소(2100)가 합성 이미지를 생성하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 제2 구성 요소(2200)가 입력된 동영상을 수신하여, 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수도 있다.

도 9a는 본 개시의 일 실시예에 따른 데이터 인식 장치(200)가 데이터 인식하는 방법을 나타내는 흐름도이다. 이때, 데이터 인식 장치(200)는 전자 장치(700)일 수 있으나, 이는 일 실시예에 불과할 뿐, 서버(1200)로 구현될 수 있다.

도 9a에서, 데이터 인식 장치(200)는 동영상을 입력 받을 수 있다(S901).

데이터 인식 장치(200)는 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수 있다(S903).

다양한 실시예에 따르면, 데이터 인식 장치(200)는 복수의 이미지들 각각으로부터 공통 영역을 추출하고, 추출된 복수의 공통 영역들을 중첩하여 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 데이터 인식 장치(200)는 공통 영역의 무게 중심을 기준으로 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 데이터 인식 장치(200)는 복수의 이미지들에서 공통 영역 및 공통 영역의 주변에 배경 영역을 중첩하여 합성 이미지를 생성할 수 있다.

다양한 실시예에 따르면, 데이터 인식 장치(200)는 복수의 이미지들 각각에서 동영상을 촬영한 카메라의 움직임을 보상하고, 카메라의 움직임이 보상된 복수의 이미지들의 각각에 포함된 공통 영역을 기초로 합성 이미지를 생성할 수 있다.

다시 도 9a에서, 데이터 인식 장치(200)는 생성된 합성 이미지를 데이터 인식 모델에 적용하여 동영상의 인식 결과를 제공할 수 있다(S905).

도 9b는 본 개시의 일 실시예에 따른 데이터 인식 모델을 이용하여 데이터를 인식하기 위한 시스템이 데이터를 인식하는 방법을 나타내는 흐름도이다. 이때, 데이터 인식 모델을 이용하여 데이터를 인식하기 위한 시스템은 제3 구성 요소(2300) 및 제4 구성 요소(2400)를 포함할 수 있다.

일 예로, 제3 구성 요소(2300)는 전자 장치(700)이고, 제4 구성 요소(2400)는 서버(1200)가 될 수 있다. 또는, 제3 구성 요소(2300)는 범용 프로세서이고, 제4 구성 요소(2400)는 인공 지능 전용 프로세서가 될 수 있다. 또는, 제3 구성 요소(2300)는 적어도 하나의 어플리케이션이 될 수 있고, 제4 구성 요소(2400)는 운영 체제가 될 수 있다.

이 경우, 제3 구성 요소(2300) 및 제4 구성 요소(2400) 간에 데이터(예로, 동영상, 합성 이미지 또는 동영상 인식 결과)를 송/수신하기 위한 인터페이스가 정의될 수 있다.

예로, 학습된 데이터 인식 모델에 적용할 인식 데이터를 인자 값(또는, 매개 값 또는 전달 값)으로 갖고, 출력 값으로 데이터 인식 모델의 인식 결과를 갖는 API 함수가 정의될 수 있다. 이 경우, 제3 구성 요소(2300)가 상기 API 함수를 호출하여 데이터 인자 값으로 합성 이미지를 입력하면, 상기 API 함수는 합성 이미지를 데이터 인식 모델에 적용할 학습 데이터로서 제4 구성 요소(2400)로 전달할 수 있다. 그리고, 제4 구성 요소(2400)으로부터 동영상 인식 결과가 수신되면, 제3 구성 요소(2300)는 상기 API 함수의 출력 값으로 동영상 인식 결과를 제공할 수 있다.

도 9b에서, 제3 구성 요소(2300)는 동영상을 입력 받을 수 있다(S911).

제3 구성 요소(2300)는 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기반으로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수 있다(S913).

제3 구성 요소(2300)는 생성된 합성 이미지를 제4 구성 요소(2400)로 전송할 수 있다(S915).

제4 구성 요소(2400)는 생성된 합성 이미지를 데이터 인식 모델에 적용하여 동영상을 인식할 수 있다(S917).

제4 구성 요소(2400)는 동영상 인식 결과를 제3 구성 요소(2300)로 전송할 수 있다(S919)

제3 구성 요소(2300)는 동영상 인식 결과를 제공할 수 있다(S921).

한편, 상술한 실시예에서는 제3 구성 요소(2300)가 합성 이미지를 생성하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 제4 구성 요소(2400)가 입력된 동영상을 수신하여, 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수 있다.

도 10a는 본 개시의 일 실시예에 따른 전자 장치가 서비스를 제공하는 방법을 나타내는 흐름도이다.

도 10a에서, 전자 장치(700)는 데이터 인식 장치(200) 및 서비스 제공부(250)를 포함할 수 있다. 이 때, 데이터 인식 장치(200)는 전자 장치(700)일 수 있으나, 이는 일 실시예에 불과할 뿐, 서버(1200)로 구현될 수 있다.

먼저, 전자 장치(700)는 동영상을 입력 받을 수 있다(S1001).

전자 장치(700)는 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수 있다(S1003).

전자 장치(700)는 생성된 합성 이미지를 데이터 인식 모델에 적용하여 동영상의 인식 결과를 획득할 수 있다(S1005).

전자 장치(700)는 획득된 동영상의 인식 결과에 기초한 서비스를 제공할 수 있다(S1007).

도 10b는 본 개시의 일 실시예에 따른 동영상 인식 모델을 이용하여 데이터를 인식하기 위한 시스템이 서비스를 제공하는 방법을 나타내는 흐름도이다. 이 때, 데이터 인식 모델을 이용하여 데이터를 인식하기 위한 시스템은 제5 구성 요소(2500) 및 제6 구성 요소(2600)를 포함할 수 있다.

일 예로, 제5 구성 요소(2500)는 전자 장치(700)이고, 제6 구성 요소(2600)는 서버(1200)가 될 수 있다. 또는, 제5 구성 요소(2500)는 범용 프로세서이고, 제6 구성 요소(2600)는 인공 지능 전용 프로세서가 될 수 있다. 또는, 제5 구성 요소(2500)는 적어도 하나의 어플리케이션이 될 수 있고, 제6 구성 요소(2600)는 운영 체제가 될 수 있다.

먼저, 제5 구성 요소(2500)는 동영상을 입력 받을 수 있다(S1011).

제5 구성 요소(2500)는 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기반으로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수 있다(S1013).

제5 구성 요소(2500)는 생성된 합성 이미지를 제6 구성 요소(2600)로 전송할 수 있다(S1015).

제6 구성 요소(2600)는 생성된 합성 이미지를 데이터 인식 모델에 적용하여 동영상의 인식 결과를 획득할 수 있다(S1017).

제6 구성 요소(2600)는 획득된 동영상 인식 결과를 제5 구성 요소(2500)로 전송할 수 있다(S1019).

제5 구성 요소(2500)는 동영상 인식 결과에 기초한 서비스를 수행할 수 있다(S1021).

한편, 상술한 실시예에서는 제5 구성 요소(2500)가 합성 이미지를 생성하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 제6 구성 요소(2600)가 입력된 동영상을 수신하여, 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수도 있다.

도 10c는 본 개시의 일 실시예에 따른 동영상 인식 모델을 이용하여 데이터를 인식하기 위한 시스템이 서비스를 제공하는 방법을 나타내는 흐름도이다. 이 때, 데이터 인식 모델을 이용하여 데이터를 인식하기 위한 시스템은 제7 구성 요소(2700) 및 제8 구성 요소(2800)를 포함할 수 있다.

일 예로, 제7 구성 요소(2700)는 전자 장치(700)이고, 제8 구성 요소(2800)는 서버(1200)가 될 수 있다. 또는, 제7 구성 요소(2700)는 범용 프로세서이고, 제8 구성 요소(2800)는 인공 지능 전용 프로세서가 될 수 있다. 또는, 제7 구성 요소(2700)는 적어도 하나의 어플리케이션이 될 수 있고, 제8 구성 요소(2800)는 운영 체제가 될 수 있다.

먼저, 제7 구성 요소(2700)는 동영상을 입력 받을 수 있다(S1031).

제7 구성 요소(2700)는 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기반으로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수 있다(S1033).

제7 구성 요소(2700)는 생성된 합성 이미지를 제8 구성 요소(2800)로 전송할 수 있다(S1035).

제8 구성 요소(2800)는 생성된 합성 이미지를 데이터 인식 모델에 적용하여 동영상의 인식 결과를 획득할 수 있다(S1037).

그리고, 제8 구성 요소(2800)는 획득된 동영상 인식 결과에 기초하여 제공할 서비스를 판단할 수 있다(S1039).

제8 구성 요소(2800)는 판단된 서비스에 관한 정보를 제7 구성 요소(2700)로 전송할 수 있다(S1041).

제7 구성 요소(2700)는 서비스에 관한 정보에 기초한 서비스를 수행할 수 있다(S1043).

한편, 상술한 실시예에서는 제7 구성 요소(2700)가 합성 이미지를 생성하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 제8 구성 요소(2800)가 입력된 동영상을 수신하여, 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성할 수도 있다.

또한, 상술한 실시예에서는, 동영상 인식 결과에 기초하여 서비스를 판단하는 과정은, 룰(rule) 기반 방식으로 수행될 수도 있고, 또는 인공 지능 기술로서 신경망 모델 또는 딥러닝 모델 방식으로 수행될 수도 있다. 이 경우, 제8 구성 요소는 서비스를 판단하도록 설정된 데이터 인식 모델에 동영상 인식 결과를 적용하여 제공할 서비스에 관한 정보를 획득할 수 있다. 이 경우, 서비스에 관한 정보는, 서비스를 수행에 필요한 추천 어플리케이션, 콘텐트, 데이터 및 명령어(예로, 어플리케이션 실행 명령어, 모듈 기능 실행 명령어) 중 적어도 하나를 포함할 수 있다.

동영상 인식 결과를 제공하는 데이터 인식 모델을 제1 데이터 인식 모델로 정의하고, 서비스에 관한 정보를 제공하는 데이터 인식 모델을 제2 데이터 인식 모델로 정의하는 경우, 제1 데이터 인식 모델 및 제2 데이터 인식 모델은 각각 구현될 수도 있고, 제1 데이터 인식 모델 및 제2 데이터 인식 모델이 하나로 통합되어 하나의 데이터 인식 모델(이하, 통합 데이터 인식 모델)로 구현될 수도 있다.

통합 데이터 인식 모델이 구현되는 경우, 도 10c에서, 동작 S1037 및 동작 S1039는 하나의 동작 S1045로 동작할 수 있다.

즉, 제8 구성 요소(2800)는 합성 이미지를 통합 데이터 인식 모델에 적용하여, 사용자에게 제공할 서비스에 관한 정보를 직접 획득할 수도 있다. 또는, 제7 구성 요소(2700)가 합성 이미지를 통합 데이터 인식 모델에 적용하여 사용자에게 제공할 서비스에 관한 정보를 직접 획득할 수도 있다.

이를 위하여, 통합 데이터 인식 모델은, 데이터 인식 모델 구축 장치(100)에서 미리 구축될 수 있다. 통합 데이터 인식 모델은 주기적 또는 필요에 따라 갱신이 가능하며, 통합 데이터 인식 모델의 갱신 조건은, 도 2b의 데이터 인식 모델의 업데이트 갱신 조건에 대응될 수 있음으로 중복되는 설명은 생략한다.

개시된 실시예들은 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어들을 포함하는 S/W 프로그램으로 구현될 수 있다.

컴퓨터는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 개시된 실시예에 따른 동작이 가능한 장치로서, 개시된 실시예들에 따른 엑스선 장치 또는 엑스선 장치와 통신 연결된 외부의 서버를 포함할 수 있다.

컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal), 전류(current)를 포함하지 않으며, 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다. 예로, 비일시적 저장 매체는 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 내장 메모리, 메모리 카드, ROM 또는 RAM 등과 같은 비일시적 판독가능 기록매뿐만 아니라 레지스터, 캐쉬, 버퍼 등과 같이 임시적으로 저장되는 매체를 포함할 수 있다.

또한, 개시된 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)으로 제공될 수 있다.

컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체 또는 판매자 및 구매자 간에 거래되는 상품을 포함할 수 있다.

예를 들어, 컴퓨터 프로그램 제품은 데이터 인식 모델 구축 장치 또는 데이터 인식 장치의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사 또는 전자 마켓의 서버, 또는 중계 서버의 저장매체가 될 수 있다.

이상에서는 본 개시의 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.

100: 데이터 인식 모델 구축 장치
110: 동영상 입력부 120: 이미지 합성부
140: 모델 학습부 150: 모델 저장부
160: 모델 평가부 200: 데이터 인식 장치
210: 동영상 입력부 220: 이미지 합성부
240: 인식 결과 제공부 250: 모델 갱신부

Claims

데이터 인식 모델 구축 장치에 있어서,
동영상을 입력 받는 동영상 입력부;
상기 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 상기 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성하는 이미지 합성부;
상기 생성된 합성 이미지를 이용하여 데이터 인식 모델을 학습시키는 모델 학습부; 및
상기 학습된 데이터 인식 모델을 저장하는 모델 저장부
를 포함하는 데이터 인식 모델 구축 장치.
제1항에 있어서,
상기 이미지 합성부는,
상기 복수의 이미지들 각각으로부터 상기 공통 영역을 추출하고,
상기 추출된 복수의 공통 영역들을 중첩하여 상기 합성 이미지를 생성하는 것
을 특징으로 하는 데이터 인식 모델 구축 장치.
제1항에 있어서,
상기 공통 영역은,
상기 복수의 이미지들 각각에서 동일 또는 유사한 공통 오브젝트를 포함하는 영역인 것
을 특징으로 하는 데이터 인식 모델 구축 장치.
제1항에 있어서,
상기 데이터 인식 모델 구축 장치는,
동영상 또는 합성 이미지를 이용하여 상기 학습된 데이터 인식 모델을 평가하는 모델 평가부
를 더 포함하는 데이터 인식 모델 구축 장치.
제1항에 있어서,
상기 데이터 인식 모델은,
복수의 네트워크 노드들 간의 연결 관계 및 상기 복수의 네트워크 노드들 각각의 가중치에 기반한 연산을 수행하는 신경망 모델 또는 딥러닝 모델인 것
을 특징으로 하는 데이터 인식 모델 구축 장치.
데이터 인식 장치에 있어서,
동영상을 입력 받는 동영상 입력부;
동영상을 구성하는 복수의 이미지들의 각각에 포함된 공통 영역을 기초로 상기 복수의 이미지들을 중첩하여 합성 이미지를 생성하는 이미지 합성부;
상기 생성된 합성 이미지를 학습된 데이터 인식 모델에 적용하여 상기 동영상의 인식 결과를 제공하는 인식 결과 제공부
를 포함하는 데이터 인식 장치.
제6항에 있어서,
상기 이미지 합성부는,
상기 복수의 이미지들 각각으로부터 상기 공통 영역을 추출하고,
상기 추출된 복수의 공통 영역들을 중첩하여 상기 합성 이미지를 생성하는 것
을 특징으로 하는 데이터 인식 장치.
제6항에 있어서,
상기 공통 영역은,
상기 복수의 이미지들 각각에서 동일 또는 유사한 공통 오브젝트를 포함하는 영역인 것
을 특징으로 하는 데이터 인식 장치.
제6항에 있어서,
상기 동영상의 인식 결과는,
상기 동영상에 포함된 오브젝트의 상태 정보 또는 상기 오브젝트의 주변 상태 정보를 포함하는 것
을 특징으로 하는 데이터 인식 장치.
제6항에 있어서,
상기 데이터 인식 모델은,
복수의 네트워크 노드들 간의 연결 관계 및 상기 복수의 네트워크 노드들 각각의 가중치에 기반한 연산을 수행하는 신경망 모델 또는 딥러닝 모델인 것 것
을 특징으로 하는 데이터 인식 장치.
제6항에 있어서,
상기 이미지 합성부는,
상기 공통 영역의 무게 중심을 기준으로 상기 합성 이미지를 생성하는 것
을 특징으로 하는 데이터 인식 장치.
제6항에 있어서,
상기 이미지 합성부는,
상기 복수의 이미지들 각각에 포함된 상기 공통 영역 및 상기 공통 영역의 주변에 배경 영역을 중첩하여 합성 이미지를 생성하는 것
을 특징으로 하는 데이터 인식 장치.
제6항에 있어서,
상기 이미지 합성부는,
상기 복수의 이미지들 각각에서 상기 동영상을 촬영한 카메라의 움직임을 보상하고, 카메라의 움직임이 보상된 복수의 이미지들의 각각에 포함된 공통 영역을 기초로 합성 이미지를 생성하는 것
을 특징으로 하는 데이터 인식 장치.
제6항에 있어서,
상기 데이터 인식 장치는,
상기 데이터 인식 모델의 갱신 여부를 판단하여, 판단 결과에 따라 상기 데이터 인식 모델을 갱신하는 모델 갱신부
를 더 포함하는 데이터 인식 장치.
제6항에 있어서,
상기 동영상의 인식 결과에 기초한 서비스를 제공하는 서비스 제공부
를 더 포함하는 상기 데이터 인식 장치를 포함하는 전자 장치.
데이터 인식 모델 구축 장치가 데이터 인식 모델을 구축하는 방법에 있어서,
동영상을 입력 받는 동작;
상기 동영상의 적어도 일부를 구성하는 복수의 이미지들 각각에 포함된 공통 영역을 기초로, 상기 복수의 이미지들의 적어도 일부를 중첩하여 합성 이미지를 생성하는 동작;
상기 생성된 합성 이미지를 이용하여 데이터 인식 모델을 학습시키는 동작; 및
상기 학습된 데이터 인식 모델을 저장하는 동작
을 포함하는 데이터 인식 모델 구축 방법.
제16항에 있어서,
상기 합성 이미지를 생성하는 동작은,
상기 복수의 이미지들 각각으로부터 상기 공통 영역을 추출하는 동작; 및
상기 추출된 복수의 공통 영역들을 중첩하여 합성 이미지를 생성하는 동작
을 포함하는 데이터 인식 모델 구축 방법.
데이터 인식 장치가 데이터를 인식하는 방법에 있어서,
동영상을 입력 받는 동작;
동영상을 구성하는 복수의 이미지들의 각각에 포함된 공통 영역을 기초로 상기 복수의 이미지들을 중첩하여 하나의 합성 이미지를 생성하는 동작; 및
상기 생성된 합성 이미지를 데이터 인식 모델에 적용하여 상기 동영상의 인식 결과를 제공하는 동작
을 포함하는 데이터 인식 방법.
제18항에 있어서,
상기 합성 이미지를 생성하는 동작은,
상기 복수의 이미지들 각각으로부터 상기 공통 영역을 추출하는 동작; 및
상기 추출된 복수의 공통 영역들을 중첩하여 합성 이미지를 생성하는 동작
을 포함하는 데이터 인식 방법.
제18항에 있어서,
상기 공통 영역은,
상기 복수의 이미지들 각각에서 동일 또는 유사한 공통 오브젝트를 포함하는 영역인 것
을 특징으로 하는 데이터 인식 방법.