KR101760345B1

KR101760345B1 - 동영상 촬영 방법 및 동영상 촬영 장치

Info

Publication number: KR101760345B1
Application number: KR1020100133717A
Authority: KR
Inventors: 김은영; 이승아
Original assignee: 삼성전자주식회사
Priority date: 2010-12-23
Filing date: 2010-12-23
Publication date: 2017-07-21
Also published as: GB2486793A; KR20120071967A; US20120162470A1; US8687076B2; GB201121694D0; GB2486793B

Abstract

본 발명은 화자의 입모양 인식, 또는/및 화자의 음성을 인식하여 화자 영역을 검출하고, 검출한 상기 화자 영역에 대하여 선택적으로 영상 신호 처리를 행하는 동영상 촬영 장치 및 방법을 제공한다. 또한 상기 동영상 촬영 장치 및 방법은 상기 화자 영역을 포함하는 정지 영상을 생성하여 동영상의 북마크로 사용함으로써 동영상 재생시 화자에 따라 선택적으로 재생을 행할 수 있다.

Description

동영상 촬영 방법 및 동영상 촬영 장치{Moving image photographing method and moving image photographing apparatus}

본 발명은 동영상 촬영 방법 및 동영상 촬영 장치에 관한 것이다.

동영상 촬영 시 화면의 이동은 주로 음원의 이동에 따라 움직이는 경우가 많다. 예를 들어, 화자를 동영상으로 촬영하는 경우 상기 화자의 영상에 대해 선택적으로 영상 처리를 행하기 위해서는 사용자의 추가적인 조작 동작이 반드시 필요하였다.

또한, 동영상 재생시에도 특정 피사체가 말하는 모습의 화면을 선택적으로 재생하고자 하는 경우 또는 동영상을 처음부터 재생하거나 임의의 시점부터 재생하여 상기 피사체가 말하는 모습의 화면을 찾아내야 하는 불편함이 있다.

본 발명은 음원의 이동, 예를 들어 화자 영역을 인식 및 검출하여 검출한 상기 화자 영역에 대하여 선택적으로 영상 신호 처리를 행하고, 상기 화자 영역을 포함하는 정지 영상을 생성하여 동영상의 북마크로 사용함으로써 동영상 재생시 화자에 따라 선택적으로 재생을 행할 수 있다.

본 발명은 화자를 피사체로 한 동영상을 입력하는 단계와, 상기 화자의 입모양을 인식하는 단계와, 상기 화자의 입모양이 변하는 경우, 화자 영역을 포함하는 정지 영상을 생성하는 단계를 구비하는 동영상 촬영 방법을 제공한다.

본 발명에 관한 동영상 촬영 방법은 얼굴 인식 알고리즘을 통하여 화자 영역을 특정하는 단계를 더 구비하고, 상기 화자 영역에 대하여 상기 화자의 입모양을 인식할 수 있다.

본 발명에 관한 동영상 촬영 방법은 상기 화자의 음성을 입력하는 단계와, 상기 화자의 음성을 인식하는 단계와, 상기 화자의 음성을 인식하는 경우, 상기 화자 영역에 대하여 영상 신호 처리를 행하는 단계를 더 구비할 수 있다.

본 발명에 관한 동영상 촬영 방법에 있어서, 상기 화자의 음성을 인식하는 단계는, 저장된 음성 데이터와 상기 화자의 음성 데이터를 비교하는 단계와, 저장된 음성 데이터에 상기 화자의 음성 데이터가 대응하는 경우 상기 화자의 음성을 인식하는 것으로 판단하는 단계를 포함할 수 있다.

본 발명에 관한 동영상 촬영 방법에 있어서, 상기 화자 영역에 대하여 영상 신호 처리를 행하는 단계는, 상기 화자 영역에 대하여 자동 아웃 오브 포커싱 처리를 행하는 단계를 포함하고, 상기 정지 영상은 자동 아웃 오브 포커싱 처리가 행해진 상기 화자 영역을 포함할 수 있다.

본 발명에 관한 동영상 촬영 방법에 있어서, 상기 화자 영역에 대하여 영상 신호 처리를 행하는 단계는, 상기 화자 영역에 대하여 주밍(Macro zooming) 처리를 행하는 단계를 포함하고, 상기 정지 영상은 상기 주밍 처리가 행해진 상기 화자 영역을 포함할 수 있다.

본 발명에 관한 동영상 촬영 방법에 있어서, 상기 화자 영역에 대하여 영상 신호 처리를 행하는 단계는, 상기 화자 영역에 대하여 마크로 포커싱(Macro focusing) 처리를 행하는 단계를 포함하고, 상기 정지 영상은 마크로 포커싱 처리가 행해진 상기 화자 영역을 포함할 수 있다.

본 발명에 관한 동영상 촬영 방법에 있어서, 상기 화자 영역이 변하는 경우, 화자 영역들 각각을 포함하는 정지 영상들을 생성할 수 있다.

본 발명에 관한 동영상 촬영 방법은 상기 동영상의 북마크(bookmark) 기능을 하는 상기 정지 영상들을 포함하는 동영상 파일을 생성하는 단계를 더 포함할 수 있다.

또한, 본 발명은 화자를 피사체로 한 동영상을 입력하는 동영상 입력부와, 상기 화자의 입모양을 인식하는 입모양 인식부와, 상기 화자의 입모양이 변하는 경우, 화자 영역을 포함하는 정지 영상을 생성하는 정지 영상 생성부를 구비하는 동영상 촬영 장치를 제공한다.

본 발명에 관한 동영상 촬영 장치는 얼굴 인식 알고리즘을 통하여 화자 영역을 특정하는 얼굴 인식부를 더 구비하고, 상기 입모양 인식부는 상기 화자 영역에 대하여 상기 화자의 입모양을 인식할 수 있다.

본 발명에 관한 동영상 촬영 장치는 상기 화자의 음성을 입력하는 음성 입력부, 상기 화자의 음성을 인식하는 음성 인식부, 상기 화자의 음성을 인식하는 경우, 상기 화자 영역에 대하여 영상 신호 처리를 행하는 영상 신호 처리부를 더 구비할 수 있다.

본 발명에 관한 동영상 촬영 장치에 있어서, 상기 음성 인식부는 저장된 음성 데이터와 상기 화자의 음성 데이터를 비교하는 비교부와, 저장된 음성 데이터에 상기 화자의 음성 데이터가 대응하는 경우, 상기 화자의 음성을 인식하는 것으로 판단하는 판단부를 포함할 수 있다.

본 발명에 관한 동영상 촬영 장치에 있어서, 상기 영상 신호 처리부는 상기 화자 영역에 대하여 자동 아웃 오브 포커싱 처리를 행하고, 상기 정지 영상 생성부는 상기 자동 아웃 오브 포커싱 처리가 행해진 상기 화자 영역을 포함하는 정지 영상을 생성할 수 있다.

본 발명에 관한 동영상 촬영 장치에 있어서, 상기 영상 신호 처리부는 상기 화자 영역에 대하여 주밍(Macro zooming) 처리를 행하고, 상기 정지 영상 생성부는 상기 주밍 처리가 행해진 상기 화자 영역을 포함하는 정지 영상을 생성할 수 있다.

본 발명에 관한 동영상 촬영 장치에 있어서, 상기 영상 신호 처리부는 상기 화자 영역에 대하여 마크로 포커싱(Macro focusing) 처리를 행하고, 상기 정지 영상 생성부는 상기 마크로 포커싱 처리가 행해진 상기 화자 영역을 포함하는 정지 영상을 생성할 수 있다.

본 발명에 관한 동영상 촬영 장치에 있어서, 상기 정지 영상 생성부는 상기 화자 영역이 변하는 경우 화자 영역들 각각을 포함하는 정지 영상들을 생성할 수 있다.

본 발명에 관한 동영상 촬영 장치는 상기 동영상의 북마크(bookmark) 기능을 하는 상기 정지 영상들을 포함하는 동영상 파일을 생성하는 동영상 파일 생성부를 더 포함할 수 있다.

도 1은 본 발명에 관한 동영상 촬영 장치의 일 실시 예로서 디지털 카메라를 설명하기 위한 블럭도이다.
도 2는 도 1에서 예시하는 디지털 카메라의 영상 신호 처리부/CPU의 일 실시 예를 설명하기 위한 블럭도이다.
도 3은 도 1에서 예시하는 디지털 카메라의 영상 신호 처리부/CPU의 다른 실시 예를 설명하기 위한 블럭도이다.
도 4는 도 1에서 도시한 디지털 카메라로 동영상을 촬영하는 화면을 설명하기 위한 도면이다.
도 5는 도 1에서 도시한 디지털 카메라로 동영상 촬영 시, 화자를 인식하고 인식한 화자 영역에 대하여 자동 아웃 오브 포커싱 처리를 행하는 동작을 설명하기 위한 도면이다.
도 6은 생성한 동영상 파일의 화자에 따른 북마크 기능을 설명하기 위한 도면이다.
도 7은 본 발명에 관한 동영상 촬영 방법의 일 실시 예를 설명하기 위한 순서도이다.
도 8은 본 발명에 관한 동영상 촬영 방법의 다른 실시 예를 설명하기 위한 순서도이다.

본 발명에 관한 동영상 촬영 장치에 관하여 첨부한 도면들을 참조하여 더욱 상세히 설명한다. 이하의 실시 예들에서는 상기 동영상 촬영 장치로서 디지털 카메라를 예시한다. 그러나 이에 본 발명이 한정되는 것은 아니며, 디지털 캠코더, PDA(personal digital assistant), 스마트폰 등의 디지털 기기에도 적용 가능하다.

도 1은 본 발명에 관한 동영상 촬영 장치의 일 실시 예로서, 디지털 카메라를 설명하기 위한 블럭도이다.

도 1을 참조하면, 상기 디지털 카메라는 광학부(10),상기 광학부(10)를 구동하는 광학 구동부(11), 촬상부(20) 카메라 제어부(20), 조작부(30), 메모리(50), 메모리 카드(60), 표시부(70), 마이크/스피커(80)를 구비한다.

상기 광학부(10)는 피사체로부터의 광학 신호를 집광하는 결상 광학계, 셔터, 조리개를 구비한다. 상기 결상 렌즈계로 초점을 조절하는 포커스 렌즈, 초점 거리를 조절하는 줌렌즈를 구비한다.

광학 구동부(11)로는 상기 초점 렌즈의 위치를 조절하는 초점 렌즈 구동부, 조리개의 조임 량을 조절하는 조리개 구동부, 셔터의 개폐를 조절하는 셔터 구동부를 구비할 수 있다.

상기 촬상부(20)는 교환 렌즈의 결상 광학계를 통과한 영상 광을 촬상하여 영상 신호를 생성하는 촬상 소자를 구비한다. 상기 촬상 소자는 매트릭스 형태로 배열된 복수의 광전전환부와, 타이밍 신호에 동기해 상기 광전전환부로부터 전하를 이동시켜 영상 신호를 도출 하는 수직 또는/및 수평 전송로 등을 포함할 수 있다. 촬상 소자로 CCD(charge coupled device) 센서, CMOS(complementary metal oxide semiconductor) 센서 등을 사용할 수 있다. CCD 센서를 사용하는 경우, 촬상 소자에서 출력된 전기 신호에 포함된 저주파 노이즈를 제거함과 동시에 전기 신호를 임의의 레벨까지 증폭시키는 CDS/AMP(상관 이중 샘플링 회로(correlated double sampling)/증폭기(amplifier))와, CDS/AMP에서 출력된 전기 신호를 디지털 변환하는 A/D컨버터를 더 구비할 수 있다.

본 발명에서 동영상 입력부는 상기 광학부(10) 및 촬상부(20)를 포함할 수 있다. 필요한경우 상기 광학 구동부(11)를 더 포함할 수도 있다.

또한, 상기 디지털 카메라는 카메라 제어부(30)를 구비한다. 상기 카메라 제어부(30)는 영상 신호 처리부/CPU(31)를 구비한다.

상기 영상 신호 처리부/CPU(31)는 촬상부(20)로부터 획득한 영상 신호에 대하여 화이트 밸런스 조절을 위한 AWB(Auto White Balance) 평가값, 노출 조절을 위한 AE(Auto Exposure) 평가값 및 초점 조절을 위한 AF(Auto focusing) 평가값을 산출하고, 산출한 평가값에 따라 적정 화이트 밸런스 제어, 노출 제어, 자동 초점 조절을 제어할 수 있다. 또한, 입력된 영상 신호에 대하여 얼굴 인식과 같은 객체 인식, 장면 인식 등의 각종 어플리케이션 동작을 행할 수 있다. 또한, 기록 보존을 위한 영상 처리 및 표시를 위한 영상 처리를 행할 수 있다. 영상 처리의 예로서, 감마 컬렉션(Gamma Correction), 색필터 배열보간(color filter array interpolation), 색 매트릭스(color matrix), 색보정(color correction), 색 향상(color enhancement) 등을 행할 수 있다. 또한, 기록 보존을 위하여 JPEG압축 형식 또는 LZW압축 형식 등의 형식으로 압축 처리를 행할 수 있다.

또한, 본 발명에 따르면 상기 영상 신호 처리부/CPU(31)는 상술한 영상 신호 처리 이외에 화자의 입모양 인식 및/또는 입력된 음성 데이터를 인식하는 동작, 인식한 화자의 영상을 캡쳐하여 정지 영상으로 생성하고, 상기 정지 영상을 북마크 기능으로 하여 저장한 동영상 파일을 생성하는 영상 신호 처리들을 선택적으로 포함할 수 있다. 이하의 도면들을 참조하여 더욱 상세히 설명하도록 한다.

또한, 상기 카메라 제어부(30)는 메모리 콘트롤러(32), 카드 콘트롤러(33), 디스플레이 콘트롤러(34), 오디오 콘트롤러(35)를 구비한다.

상기 메모리 콘트롤러(32)는 촬영 영상, 각종 정보 등을 일시적으로 메모리(50)에 저장하거나, 또는 메모리(50)로부터 촬영 영상, 각종 정보의 출력할 수 있다. 또한, 메모리(50)에 저장된 프로그램 정보를 독출할 수 있다. 상기 메모리(50)는 촬영 영상, 각종 정보 등을 일시적으로 저장하는 버퍼 메모리로서, DRAM, SDRAM 등을 구비할 수 있다. 또한, 상기 메모리(50)는 프로그램을 저장하는 저장부로서 플래쉬 메모리, ROM 등을 구비할 수 있다.

상기 카드 콘트롤러(33)는 메모리 카드(60)에 영상 파일을 저장 및 독출할 수 있다. 영상 파일 뿐만 아니라 보존하고자 하는 각종 정보의 독출 및 저장을 제어할 수 있다. 메모리 카드(60)로 SD card 등을 구비할 수 있다. 본 실시 예에서는 저장 매체로 메모리 카드(60)를 사용함을 예시하였으나, 이에 한정하는 것은 아니며 광디스크(CD, DVD, 블루레이디스크 등), 광자기 디스크, 자기 디스크 등의 기록 매체를 사용하여 용상 파일 및 상기 각종 정보를 저장할 수도 있다. 광디스크(CD, DVD, 블루레이디스크 등), 광자기 디스크, 자기 디스크 등의 기록 매체를 사용하는 경우, 이들를 읽을 수 있는 독출 장치를 더 구비할 수 있다.

또한, 상기 디스플레이 콘트롤러(34)는 표시부(70)의 영상 표시를 제어할 수 있다. 상기 표시부(70)는 LCD, OLED 등의 디스플레이 장치를 사용할 수 있다.

또한, 상기 영상 신호 처리부/CPU(31)는 오디오 콘트롤러(35)를 구비할 수 있다. 오디오 콘트롤러(35)는 마이크(80)로부터 입력된 아날로그 오디오 신호(예를 들어 화자의 음성)를 디지털로 변환하여 영상 신호 처리부/CPU(31)에 입력한다. 또는 역으로 영상 신호 처리부/CPU(31)에서 제공하는 디지털 오디오 신호 등을 아날로그로 변환하여 스피커(80)를 통해 외부로 출력할 수 있다. 본 발명에서 음성 입력부라 하면 상기 마이크(80)를 포함할 수 있다. 또한, 오디오 콘트롤러(35)도 더 포함할 수 있다.

또한, 상기 디지털 카메라는 사용자의 조작 신호를 입력하는 조작부(40)를 구비한다. 조작부(40)는 사용자가 상기 디지털 카메라를 조작하거나 촬영시 각종의 설정을 행하기 위한 부재를 포함할 수 있다. 예를 들어, 버튼, 키, 터치 패널, 터치 스크린, 다이얼 등의 형태로 구현될 수 있으며, 전원 온/오프, 촬영 개시/정지, 재생 개시/정지/서치, 광학계의 구동, 모드 변환(예를 들어 동영상 촬영 모드 실행 등), 메뉴 조작, 선택 조작 등의 사용자 조작 신호를 입력할 수 있다. 일 예로서, 셔터 버튼은 사용자에 의한 반누름, 완전누름, 해제가 가능하다. 셔터 버튼은 반누름(S1조작)되었을 때 포커스 제어 개시 조작 신호를 출력하고 반 누름 해제로 포커스 제어가 종료된다. 상기 셔터 버튼은 완전누름(S2조작)되었을 때 촬영 개시 조작 신호를 출력할 수 있다. 상기 조작 신호는 영상 신호 처리부/CPU(20) 등에 전송되어, 이에 따라 해당 구성 요소를 구동시킬 수 있다.

도 2는 도 1에서 예시하는 디지털 카메라의 영상 신호 처리부/CPU의 일 실시 예를 설명하기 위한 블럭도이다.

도 1과 함께 도 2를 참조하면, 상기 영상 신호 처리부/CPU(31a)는 입모양 인식부(31a-2), 정지 영상 생성부(31a-3)를 구비한다.

광학부(도 1의 10) 및 촬상부(도 1의 20)의 동영상 입력부를 통해 입력된 동영상의 프레임 영상들에 대하여 입모양 인식부(31a-2)에서 화자의 입모양을 인식한다. 입모양 인식은 상기 프레임 영상들의 색 정보, 에지 정보, 벡터 정보 등의 다양한 정보를 이용하여 인식할 수 있다. 그리고 상기 정지 영상 생성부(31a-3)는 인식한 입모양이 변하는 경우, 상기 프레임 영상 중에서 화자 영역을 포함하는 정지 영상을 캡쳐하여 생성할 수 있다.

또한, 상기 영상 신호 처리부/CPU(31a)는 얼굴 인식부(31a-1)를 더 포함할 수 있다. 상기 얼굴 인식부(31a-1)는 상기 동영상을 구성하는 프레임 영상들에 대하여 얼굴 인식 알고리즘을 통하여 화자 영역을 특정할 수 있다. 그리고 상기 입모양 인식부(31a-2)는 특정한 상기 화장 영역에 대하여 입모양 인식을 행할 수 있다. 또한, 상기 정지 영상 생성부(31a-3)는 상기 입모양이 변하는 화자 영역이 복수 개로 검출되는 경우, 더욱 구체적으로 시간순으로 복수 개 검출되는 경우, 화자 영역들 각각을 포함하는 정지 영상을 생성할 수 있다. 그리고 상기 복수 개의 정지 영상들은 상기 동영상의 북마크(book mark) 기능을 할 수 있다. 이후 상기 동영상을 재생하는 경우, 북마크 기능을 하는 화자 영역을 포함하는 정지 영상을 선택하는 경우, 상기 정지 영상에 포함된 화자가 말하는 모습부터 재생할 수 있다. 따라서 화자 별로 선택하여 동영상을 재생할 수 있다. 상기 영상 신호 처리부/CPU(31a)는 동영상 파일 생성부(31a-4)를 더 구비할 수 있는데, 북마크 기능을 하는 상기 복수 개의 정지 영상들과 상기 동영상을 포함하는 동영상 파일을 생성할 수 있다. 상기 동영상 파일은 상기 동영상 및/또는 상기 정지 영상들을 H.264 코덱 등으로 압축하여 생성할 수 있다.

도 3은 도 1에서 예시하는 디지털 카메라의 영상 신호 처리부/CPU의 다른 실시 예를 설명하기 위한 블럭도이다.

도 3을 참조하면, 본 실시 예에 따른 영상 신호 처리부/CPU(31b)는 음성 입력부인 마이크(80)를 통해 입력된 화자의 음성을 인식하는 음성 인식부(31b-1)를 구비한다. 상기 음성 인식부(31b-1)는 저장된 음성 데이터와 상기 화자의 음성 데이터를 비교하는 비교부와 저장된 음성 데이터에 상기 화자의 음성 데이터가 대응하는 경우 상기 화자의 음성을 인식하는 것으로 판단하는 판단부를 구비한다.

상기 음성 인식부(31b-1)에서 상기 화자의 음성을 인식하는 경우, 동영상 입력부를 통해 입력된 동영상을 이루는 프레임 영상들 중 음성의 진원지인 화자 영역에 대하여 미리 설정된 영상 신호 처리를 행하는 영상 신호 처리부(31b-2)를 구비한다. 영상 신호 처리의 일 실시 예로서, 상기 화자 영역에 대하여 자동 아웃 오브 포커싱 처리를 행할 수 있다. 다른 실시 예로서 상기 화자 영역에 대하여 주밍(Macro zooming) 처리를 행할 수도 있다. 또 다른 실시 예로서 오토포커싱 및 주밍 처리를 동시에 행하는 마크로 포커싱(Macro focusing) 처리를 행할 수 있다.

본 실시 예에서 도시하지는 않았지만, 음성 인식부(31b-1)에서 음성을 인식하는 것으로 판단하는 경우 얼굴 인식 알고리즘을 이용하여 상기 화자 영역을 특정하는 얼굴 인식부를 더 구비할 수도 있다.

자동 아웃 오브 포커싱 처리, 주밍 처리, 마크로 포커싱 등의 영상 신호 처리를 행한 상기 화자 영역에 대하여 입모양 인식을 행하는 입모양 인식부(31b-3)를 구비한다. 상기 화자 영역의 입모양이 변하는 경우, 상기 화자 영역을 포함하는 정지 영상을 생성하는 정지 영상 생성부(31b-4)를 구비한다. 그리고 상기 정지 영상과 입력된 상기 동영상을 포함하는 동영상 파일을 생성하는 동영상 파일 생성부(31b-5)를 구비할 수 있다.

상기 정지 영상 생성부(31b-4)는 동영상을 구성하는 프레임 영상들에 대하여 입모양이 변하는 다른 화자 영역을 검출하는 경우, 화자 영역들 각각을 포함하는 정지 영상들을 생성할 수 있다. 생성한 정지 영상들은 입력된 상기 동영상의 북마크기능을 행할 수 있다. 따라서 상기 동영상 파일 생성부(31b-5)는 입력된 동영상과 북마크 기능을 하는 상기 복수의 정지 영상들을 포함하는 동영상 파일을 생성할 수 있다.

도 4는 도 1에서 도시한 디지털 카메라로 동영상을 촬영하는 화면을 설명하기 위한 도면이다. 도 4를 참조하면 도 1에서 설명한 디지털 카메라로 복수의 화자들이 돌아가면서 마이크를 잡고 말하는 모습을 동영상 촬영을 행한다. 가운데 화자의 입모양 변화가 인식되는 경우, 상기 입모양을 포함하는 화자 영역을 정지 영상으로 캡쳐할 수 있다. 상기 화자 영역만을 선택적으로 캡쳐하거나 또는 입모양이 변하는 시점의 프레임 영상을 캡쳐하여 정지 영상으로 생성할 수도 있다.

가운데 화자가 마이크를 잡고 말을 하면, 상기 가운데 화자의 음성을 인식하여 음원의 출원지의 적어도 일부를 포함하는 화자 영역에 대하여 자동으로 아웃 오브 포커싱 처리를 실행하여 상기 화자 영역은 선명하고 상기 화자 영역을 제외한 배경 영역을 흐릿한 프레임 영상들을 생성할 수 있다. 이때, 얼굴 인식 알고리즘을 이용하여 얼굴 영역 검출도 함께 할 수 있으며, 얼굴 영역 검출을 나타내는 아이콘 I를 디스플레이할 수 있다. 이와 같은 동작은 도 5에 도시한 바와 같다.

도 6은 동영상 촬영이 완료되어, 동영상 파일을 생성한 경우, 상기 동영상 파일에는 화자에 따른 북마크 기능을 수행할 수 있도록, 도 4에서 설명한 것과 같은 정지 영상을 화자 별로 생성할 수 있다. 본 실시 예에서는 P1 화자, P2 화자, P3 화자가 순차적으로 발표를 한 경우, 각 화자가 말할 때(예를 들어, 말을 시작할 때)의 프레임 영상을 캡쳐하여 정지 영상을 생성한다. 따라서 3개의 정지 영상들을 생성하며, 상기 3개의 정지 영상들과 촬영한 동영상을 포함하는 동영상 파일을 생성할 수 있다.

상기 동영상 파일 재생 시에, 상기 정지 영상들을 북마크 기능을 수행할 수 있다. 상기 P1 화자의 정지 영상을 선택하면 상기 P1 화자가 말하는 동영상을 재생하며, 상기 P2 화자의 정지 영상을 선택하면 상기 P2 화자가 말하는 동영상을 재생할 수 있다. 따라서, 화자별로 임의로 재생 시점을 조절할 수 있다.

이하에서는 본 발명에 관한 동영상 촬영 방법을 첨부된 도면을 참조하여 설명한다.

도 7은 본 발명에 관한 동영상 촬영 방법의 일 실시 예를 설명하기 위한 순서도이다.

도 7을 참조하면, 우선 동영상 촬영을 개시한다(S11). 입력된 동영상을 구성하는 프레임 영상들에 대하여 얼굴 인식 알고리즘을 이용하여 얼굴 영역을 검출한다(S12). 검출한 얼굴 영역에 대하여 입모양 인식을 행하여 입모양이 변하는지 판단한다(S13). 본 실시 예에서는 검출한 얼굴 영역에 대하여 입모양 인식을 행함을 예시하였지만, 얼굴 인식 과정을 생략하고 상기 프레임 영상에 대하여 입모양 인식이 가능하다. 입모양이 변하는 경우, 입 영역을 포함하는 화자 영역을 포함하는 정지 영상을 생성한다(S14). 얼굴 영역을 검출한 경우에는 입모양이 변하는 얼굴 영역이 상기 화자 영역에 대응할 수 있으므로, 검출한 상기 얼굴 영역을 포함하는 정지 영상을 생성할 수 있다. 그리고 동영상 촬영이 종료하는지 판단하여(S15), 종료하는 경우 입력된 동영상과 상기 정지 영상을 포함하는 동영상 파일을 생성한다(S16).

상기 S12 단계에서 얼굴 영역을 검출하지 못하거나, 상기 S13 단계에서 입모양 변화를 인식하지 못한 경우에는, S15 단계로 진입하여 동영상 촬영이 종료되는지 판단하고, 동영상 촬영이 종료하는 경우 입력된 동영상을 포함하는 동영상 파일을 생성한다(S16).

상기 S15 단계에서 동영상 촬영이 종료되지 않은 경우, 종료할 때까지 동영상 촬영(S11)을 계속한다. 일 예로서, 사용자가 셔터릴리즈 버튼을 눌러 동영상 촬영을 개시하고 상기 셔터릴리즈 버튼을 한번 더 눌러 동영상 촬영을 종료할 수 있다. 상기 셔터릴리즈 버튼 뿐만 아니라 터치 스크린에 사용자가 터치하여 동영상 촬영 및 종료를 제어할 수 있다.

도 8은 본 발명에 관한 동영상 촬영 방법의 다른 실시 예를 설명하기 위한 순서도이다.

도 8을 참조하면, 우선 동영상 촬영을 개시한다(S21).

Smart voice Detection이 설정되어 있는지 판단한다(S22). 사용자의 조작 또는 자동으로 설정 가능하다. 설정되어 있는 경우, 마이크를 통해 입력되는 화자의 음성을 인식한다(S23). 입력된 음성의 출원지를 인식할 수 있다. 예를 들어, 2 개 이상의 마이크들을 이용하여 특정 방향에서 발성되는 화자의 음성을 강화하는 동시에 그 외의 방향에서 들어오는 잡음들을 감쇠시키는 빔포밍기술과 혼합된 신호들로부터 통계적 알고리즘에 의해 원음들을 분리해내는 독립요소분석(Independent comconent analysis; ICA)들을 이용하여 인식 가능하다. 입력된 음성의 출원지를 인식하지 못하거나, 복수의 음성일 경우에는 화자의 음성이 인식되지 않은 것으로 판단할 수 있다. 음성 데이터 인식이 성공하고, 또한 단일 음성일 경우, 화자의 음성을 main으로 인식한다. 음성 인식이 성공하면, 음성의 위치를 기준 피사체로 결정하여 화자 영역을 도출할 수 있다. 도출한 화자 영역에 대하여 자동 아웃 오브 포커싱 처리(Auto out of focusng)를 수행할 수 있다(S24). 본 실시 예에서는 상기 화자 영역에 대하여 자동 아웃 오브 포커싱 처리을 행함을 예시하였지만, 이에 한정하는 것은 아니며, 주밍, 마크로 포커싱 등의 영상 신호 처리를 행할 수 있다.

그리고 상기 화자 영역에 대하여 주기적으로 입모양을 인식하여 입모양이 변하는지 판단한다(S25). 입모양이 변하는 경우, 화자 영역을 포함하는 정지 영상을 생성한다(S26).

그리고 동영상 촬영이 종료하는지 판단하여(S27), 종료하는 경우 상기 정지 영상과 입력된 동영상을 포함하는 동영상 파일을 생성한다(S28). 따라서 상기 동영상 파일을 재생하는 경우, 상기 정지 영상은 북마크 기능을 행함으로써 화자의 변화에 따른 영상의 선택적 재생이 가능하다. 동영상 촬영이 종료되지 않은 경우 동영상 촬영을 계속하여 수행한다(s21).

상기 S22 단계에서 Smart Voice Detection이 설정되지 않은 경우, S23 단계에서 화자의 음성이 인식되지 않은 경우, S25 단계에서 화자 영역의 입모양 인식이 되지 않은 경우, 일반 동영상 촬영 모드를 수행하고, 동영상 촬영이 종료되는 경우, 입력된 동영상을 포함하는 동영상 파일을 생성한다(S28).

본 발명에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다.

소프트웨어 모듈 또는 알고리즘으로 구현되는 본 발명의 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체 등이 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 상기 매체는 컴퓨터에 의해 판독가능하며, 상기 플래쉬 메모리에 저장되고, 상기 프로세서에서 실행될 수 있다.

본 발명에서 인용하는 공개 문헌, 특허 출원, 특허 등을 포함하는 모든 문헌들은 각 인용 문헌이 개별적으로 및 구체적으로 병합하여 나타내는 것 또는 본 발명에서 전체적으로 병합하여 나타낸 것과 동일하게 본 발명에 병합될 수 있다.

본 발명의 이해를 위하여, 도면에 도시된 바람직한 실시 예들에서 참조 부호를 기재하였으며, 상기 실시 예들을 설명하기 위하여 특정 용어들을 사용하였으나, 상기 특정 용어에 의해 본 발명이 한정되는 것은 아니며, 본 발명은 당업자에 있어서 통상적으로 생각할 수 있는 모든 구성 요소들을 포함할 수 있다.

본 발명은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 발명은 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 발명은 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 발명은 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성" 등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.

본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.

본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims

화자를 피사체로 한 동영상을 입력하는 단계;
상기 화자의 입모양을 인식하는 단계;
상기 화자의 발화시점에 화자의 영상을 캡쳐하는 단계;
상기 화자의 입모양이 변하는 경우, 화자 영역을 포함하는 정지 영상을 생성하고, 상기 동영상의 북마크로서 기능하는 상기 정지 영상을 포함하는 동영상 파일을 생성하는 단계;를 구비하고,
상기 정지 영상은 화자의 발화시점에 상기 동영상을 재생하도록 선택할 수 있는 북마크로서 기능하고,
상기 동영상에 복수의 화자가 존재하는 경우, 각각의 화자마다 각각의 정지 영상이 생성되고,
상기 동영상의 재생 시, 재생 영역과 중첩되는 영역에 상기 생성된 각각의 정지 영상이 표시되는 것을 특징으로 하는 동영상 촬영 방법.
제1항에 있어서, 얼굴 인식 알고리즘을 통하여 화자 영역을 특정하는 단계를 더 구비하고,
상기 화자 영역에 대하여 상기 화자의 입모양을 인식하는 것을 특징으로 하는 동영상 촬영 방법.
제1항에 있어서, 상기 동영상을 입력하는 단계 다음에,
상기 화자의 음성을 입력하는 단계;
상기 화자의 음성을 인식하는 단계;
상기 화자의 음성을 인식하는 경우, 상기 화자 영역에 대하여 영상 신호 처리를 행하는 단계;를 더 구비하는 동영상 촬영 방법.
제3항에 있어서, 상기 화자의 음성을 인식하는 단계는;
저장된 음성 데이터와 상기 화자의 음성 데이터를 비교하는 단계;
저장된 음성 데이터에 상기 화자의 음성 데이터가 대응하는 경우, 상기 화자의 음성을 인식하는 것으로 판단하는 단계;를 포함하는 동영상 촬영 방법.
제3항에 있어서, 상기 화자 영역에 대하여 영상 신호 처리를 행하는 단계는,
상기 화자 영역에 대하여 자동 아웃 오브 포커싱 처리를 행하는 단계를 포함하고
상기 정지 영상은 자동 아웃 오브 포커싱 처리가 행해진 상기 화자 영역을 포함하는 것을 특징으로 하는 동영상 촬영 방법.
제3항에 있어서, 상기 화자 영역에 대하여 영상 신호 처리를 행하는 단계는,
상기 화자 영역에 대하여 주밍(Macro zooming) 처리를 행하는 단계를 포함하고,
상기 정지 영상은 상기 주밍 처리가 행해진 상기 화자 영역을 포함하는 것을 특징으로 하는 동영상 촬영 방법.
제3항에 있어서, 상기 화자 영역에 대하여 영상 신호 처리를 행하는 단계는,
상기 화자 영역에 대하여 마크로 포커싱(Macro focusing) 처리를 행하는 단계를 포함하고,
상기 정지 영상은 마크로 포커싱 처리가 행해진 상기 화자 영역을 포함하는 것을 특징으로 하는 동영상 촬영 방법.
제1항에 있어서, 상기 화자 영역이 변하는 경우, 화자 영역들 각각을 포함하는 정지 영상들을 생성하는 것을 특징으로 하는 동영상 촬영 방법.
삭제
화자를 피사체로 한 동영상을 입력하는 동영상 입력부;
상기 화자의 입모양을 인식하는 입모양 인식부;
상기 화자의 발화시점에 화자의 영상을 캡쳐하고, 상기 화자의 입모양이 변하는 경우, 화자 영역을 포함하는 정지 영상을 생성하는 정지 영상 생성부; 및
상기 동영상의 북마크(bookmark) 기능을 하는 상기 정지 영상들을 포함하는 동영상 파일을 생성하는 동영상 파일 생성부를 구비하고,
상기 정지 영상은 화자의 발화시점에 상기 동영상을 재생하도록 선택할 수 있는 북마크로서 기능하고,
상기 동영상에 복수의 화자가 존재하는 경우, 각각의 화자마다 각각의 정지 영상이 생성되고,
상기 동영상의 재생 시, 재생 영역과 중첩되는 영역에 상기 생성된 각각의 정지 영상이 표시되는 것을 특징으로 하는 동영상 촬영 장치.
제10항에 있어서, 얼굴 인식 알고리즘을 통하여 화자 영역을 특정하는 얼굴 인식부를 더 구비하고,
상기 입모양 인식부는 상기 화자 영역에 대하여 상기 화자의 입모양을 인식하는 것을 특징으로 하는 동영상 촬영 장치.
제10항에 있어서, 상기 화자의 음성을 입력하는 음성 입력부;
상기 화자의 음성을 인식하는 음성 인식부;
상기 화자의 음성을 인식하는 경우, 상기 화자 영역에 대하여 영상 신호 처리를 행하는 영상 신호 처리부;를 더 구비하는 동영상 촬영 장치.
제12항에 있어서, 상기 음성 인식부는;
저장된 음성 데이터와 상기 화자의 음성 데이터를 비교하는 비교부;
저장된 음성 데이터에 상기 화자의 음성 데이터가 대응하는 경우, 상기 화자의 음성을 인식하는 것으로 판단하는 판단부;를 포함하는 동영상 촬영 장치.
제12항에 있어서, 상기 영상 신호 처리부는 상기 화자 영역에 대하여 자동 아웃 오브 포커싱 처리를 행하고,
상기 정지 영상 생성부는 상기 자동 아웃 오브 포커싱 처리가 행해진 상기 화자 영역을 포함하는 정지 영상을 생성하는 것을 특징으로 하는 동영상 촬영 장치.
제12항에 있어서, 상기 영상 신호 처리부는 상기 화자 영역에 대하여 주밍(Macro zooming) 처리를 행하고,
상기 정지 영상 생성부는 상기 주밍 처리가 행해진 상기 화자 영역을 포함하는 정지 영상을 생성하는 것을 특징으로 하는 동영상 촬영 장치.
제12항에 있어서, 상기 영상 신호 처리부는 상기 화자 영역에 대하여 마크로 포커싱(Macro focusing) 처리를 행하고,
상기 정지 영상 생성부는 상기 마크로 포커싱 처리가 행해진 상기 화자 영역을 포함하는 정지 영상을 생성하는 것을 특징으로 하는 동영상 촬영 장치.
제10항에 있어서, 상기 정지 영상 생성부는 상기 화자 영역이 변하는 경우 화자 영역들 각각을 포함하는 정지 영상들을 생성하는 것을 특징으로 하는 동영상 촬영 장치.
삭제