KR102166176B1

KR102166176B1 - 이미지 촬영 장치 및 방법

Info

Publication number: KR102166176B1
Application number: KR1020130114916A
Authority: KR
Inventors: 이기혁; 김현정; 이명중
Original assignee: 삼성전자주식회사
Priority date: 2013-09-27
Filing date: 2013-09-27
Publication date: 2020-10-15
Also published as: KR20150034931A; US9451119B2; US20150092081A1

Abstract

카메라를 구비하는 장치의 촬영 방법이, 사운드 촬영 모드에서 설정시간 동안 영상 및 사운드를 동시에 촬영하여 일시 저장하는 과정과, 사운드 촬영 종료 후 상기 저장된 영상을 인식하는 과정과, 영상 분석후 상기 저장된 사운드를 인식하는 과정과, 인식된 영상에 연관도가 높은 사운드를 선택하며, 선택된 사운드와 영상을 합성하여 저장하는 과정으로 이루어진다.

Description

이미지 촬영 장치 및 방법{APPARATUS AND METHOD FOR SHOOTING A IMAGE WITH SOUND IN DEVICE HAVING A CAMERA}

본 발명은 카메라 장치 또는 카메라를 구비하는 전자장치에서 이미지를 촬영하는 장치 및 방법에 관한 것이다.

카메라장치 또는 카메라를 구비하는 전자장치(이하 카메라 장치 칭한다)는 다양한 방법으로 동영상이나 정지영상을 촬영할 수 있다. 예를들면 카메라 장치는 촬영되는 영상에 부가정보를 삽입할 수 있다. 여기서 상기 부가정보는 영상의 촬영 장소 및/또는 분위기 등에 관련된 정보가 될 수 있다. 이를 위하여 정지영상 촬영시 부가정보로써 촬영되는 영상과 함께 음성을 녹음할 수 있다.

그러나 정지 영상을 촬영할 때 동시에 사운드를 녹음하는 촬영 방법은 하나의 정지이미지를 촬영하며, 이미지를 촬영하는 시점에서의 사운드신호를 녹음한다. 이런 경우, 카메라장치에서 사운드가 포함되는 정지영상 촬영시, 촬영된 영상과 녹음된 사운드가 서로 일치하지 않는 경우가 발생될 수 있다. 예를들면 사용자가 웃고 있는 상황에서 영상을 촬영하는 경우, 웃는 사운드가 녹음되었지만 촬영된 정지이미지는 찡그린 이미지 또는 무표정한 이미지가 될 수 있다.

따라서 카메라장치에서 카메라장치 또는 카메라를 구비하는 장치에서 정지 영상을 촬영할 때 사운드와 영상의 분위기를 일치시키는 것이 바람직하다.

이를 위하여 카메라장치에서 정지이미지를 촬영할 때 사운드를 녹음하며, 이후 촬영된 정지 영상을 분석하고 분석된 영상과 일치되는 분위기를 가지는 사운드를 선택하여 정지영상과 함께 저장하는 장치 및 방법을 제안한다. 또한 카메라장치에서 정지이미지를 촬영할 때 사운드를 녹음하며, 이후 녹음된 사운드를 분석하여 분석된 사운드와 일치되는 분위기를 가지는 정지영상을 선택하여 함께 저장하는 장치 및 방법을 제안한다.

카메라를 구비하는 장치의 촬영 방법이, 사운드 촬영 모드에서 설정시간 동안 영상 및 사운드를 동시에 촬영하여 일시 저장하는 과정과, 상기 사운드 촬영 종료 후 상기 저장된 영상을 인식하는 과정과, 상기 영상 분석후 상기 저장된 사운드를 인식하는 과정과, 인식된 상기 영상에 연관도가 높은 사운드를 선택하며, 상기 선택된 사운드와 영상을 합성하여 저장하는 과정으로 이루어진다.

그리고 카메라를 구비하는 장치가, 이미지센서와, 이미지 센서에서 획득되는 영상을 처리하는 이미지처리부와, 마이크로부터 수신되는 사운드를 처리하는 오디오처리부와, 선택된 영상 및 사운드를 합성하여 저장하는 저장부와, 사운드 촬영 모드에서 상기 영상처리부 및 오디오처리부를 제어하여 설정시간 동안 영상 및 사운드를 동시에 획득하여 일시 저장하며, 상기 사운드 촬영 종료 후 상기 저장된 영상을 인식하고, 상기 영상 인식후 상기 저장된 사운드를 인식하며, 인식된 상기 영상에 연관도가 높은 사운드를 선택하며, 상기 선택된 사운드와 영상을 합성하여 상기 저장부에 저장하는 제어부로 구성된다

카메라장치에서 정지영상을 촬영할 때, 정지 영상과 함께 영상과 밀접한 관계를 가지는 오디오를 녹음하고, 녹음된 오디오와 정지이미지를 합성 저장할 수 있다. 즉, 카메라장치 또는 카메라를 구비하는 전자장치에서 영상 촬영시 설정된 시간동안 사운드 및 정지영상을 연속하여 저장하고, 촬영 완료시 녹음된 오디오에서 영상에 관련된 오디오를 선택하여 하나의 파일로 저장할 수 있으며, 이후 파일 영상 재생시 영상과 함께 가장 어울리는 것으로 분류된 사운드를 재생할 수 있다.

도 1은 카메라 장치의 구성을 도시하는 도면
도 2는 카메라장치에서 촬영되는 영상 및 녹음되는 사운드 데이터를 처리하는 제어부의 구성을 도시하는 도면
도 3은 카메라장치의 영상처리부 구성을 도시하는 도면
도 4a - 도 4c는 카메라 장치에서 사운드 촬영시 버퍼링되는 이미지 및 오디오 데이터의 구성을 설명하기 위한 도면
도 5는 카메라 장치에서 사운드 촬영을 하는 절차를 도시하는 흐름도
도 6a - 도 6c는 사운드 촬영모드에서 선택되는 복수의 영상들을 촬영하는 동시에 사운드를 녹음하고, 선택된 영상과 연관도가 높은 사운드를 선택한 후 선택된 영상 및 사운드를 저장하는 예를 설명하기 위한 도면
도 7a - 도 7b는 복수의 영상들 및 관련된 사운드의 처리하는 예를 도시하는 도면
도 8a - 도 8c는 복수의 영상들 및 관련된 사운드의 합성 예를 설명하기 위한 도면
도 9는 사운드 촬영모드에서 선택된 영상 및 사운드를 처리하는 다른 방법의 절차를 도시하는 흐름도
도 10은 본 발명의 또 다른 실시예에 따른 카메라장치의 영상 촬영 방법을 도시하는 흐름도
도 11은 본 발명의 실시예에 따라 촬영 동작을 수행하는 전자장치의 구성을 도시하는 도면

이하, 본 발명의 바람직한 실시 예들의 상세한 설명이 첨부된 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성들은 가능한 한 어느 곳에서든지 동일한 부호들을 나타내고 있음을 유의하여야 한다.

카메라장치 또는 카메라를 구비하는 전자장치(이하 카메라 장치라 칭한다)는 디지털 처리 기술의 발달함에 따라 다양한 종류의 촬영 모드를 제공하고 있다. 이런 촬영모드들 중에 하나가 사운드 촬영모드(sound and shot mode)가 될 수 있다. 사운드 촬영모드는 정지 영상과 함께 사운드를 함께 촬영하는 모드를 의미한다. 즉, 사운드 촬영모드는 영상의 프레임 시퀀스 중 하나의 프레임 영상을 선택하여 저장하고, 일정 시간동안의 사운드(음성 및/또는 음향)를 녹음하여 저장한다. 이때 저장된 영상과 사운드 데이터는 하나의 파일로 저장할 수 있다. 이때 사운드 촬영모드에서 저장되는 파일은 이미지 헤더(image header), 바디(image body), 부가데이터(image tail) 등으로 구성될 수 있다. 여기서 상기 이미지 헤더(Image header)는 해당 파일에서 영상과, 사운드와 같은 기타 데이터가 저장된 위치, 크기 등의 정보로 구성될 수 있으며, 바디(Image body)는 정지 영상 데이터가 될 수 있고, 부가데이터(Image tail)는 사운드 데이터가 될 수 있다. 여기서 상기 이미지 헤더 및 바디는 영상 처리 방법(예를들면 coding 및 decoding)에 따라 결정될 수 있다.

이때 사운드 촬영모드는 다양한 방법으로 구현할 수 있다. 그 한가지 방법은 장치가 사진 촬영을 2단계로 나누어 사운드 촬영모드를 활성화시키면 먼저 사운드를 녹음을 개시하고, 촬영요구시점에서 영상을 획득하며, 이후 일정시간 동안 녹음을 유지하는 방법이다. 즉, 사운드 촬영모드시 사운드를 영상 촬영 시점의 일정시간 전후로 녹음하여 정지영상 파일과 함께 저장하는 방법이다. 또한 다른 촬영방법은 별도의 사운드 녹음 개시신호가 존재하지 않고, first in first out 메모리에 사운드를 연속 저장하며, 사용자의 영상 촬영 신호가 수신된 시점에서 일정시간 전후의 사운드 신호를 선택하여 영상과 함께 저장하는 방법이다. 즉, 촬영모드시 카메라장치는 사운드를 버퍼링하며, 영상촬영시 정지 영상을 획득하며, 버퍼링된 사운드에서 영상을 획득한 시점으로부터 일정시간의 전후에 버퍼링된 사운드들을 선택하여 저장한다.

이때 사운드 촬영모드에서 사운드와 영상을 동시에 저장할 때, 저장되는 영상은 정지영상이 될 수 있다. 이런 경우, 영상은 사운드와 최대한 같은 느낌(감정)으로 표현하는 것이 바람직하다. 즉, 사운드 촬영모드시 저장되는 영상은 정지 영상인데 반하여 사운드는 일정시간 연속되는 데이터이다. 따라서 정지영상을 이용하여 연속되는 사운드 데이터가 가지고 있는 속성을 담기에는 한계가 따를 수 있다. 예를 들면, 큰 소리로 웃는 사람을 피사체로 촬영하는 경우, 사람이 웃는 순간을 포착하지 못하면 가벼운 미소를 띠고 있는 영상과 큰 소리로 웃는 영상이 함께 저장되어 어울리지 않는 조합이 될 수 있다. 또한 사운드와 영상의 하이라이트가 서로 다른 시점인 경우가 있다. 예를 들면 폭죽이 터지는 장면을 촬영하는 경우, 사운드의 하이라이트는 부분은 폭죽이 폭발하는 순간이지만, 영상의 하이라이트는 폭죽이 폭발하여 공중에 퍼지는 순간이다.

따라서 사운드 촬영모드시 촬영된 영상과 녹음된 사운드의 속성을 일치시켜 저장하는 것이 바람직하다. 본 발명의 다양한 실시예들에서는 사운드 촬영모드시 영상과 사운드의 속성을 일치시켜 저장할 수 있는 방법들을 제안한다.

먼저 카메라장치는 촬영된 영상을 분석한 후, 영상에 관련된 사운드를 선택하여 하나의 파일로 생성할 수 있다. 이를 위하여 카메라장치는 사운드 촬영모드시 정해진 범위의 시간동안 사운드를 버퍼링하며 또한 연속적으로 정지영상을 촬영하여 버퍼링한다. 이후 하나 이상의 정지영상을 선택하면, 카메라장치는 선택된 정지영상의 속성을 분석한 후 버퍼링된 사운드에서 일치되는 속성을 가지는 사운드의 버퍼링 구간을 설정하고, 선택된 영상과 함께 설정된 구간의 사운드를 함께 저장한다. 이때 상기 정지영상은 카메라장치가 자동으로 선택할 수 있으며, 또는 사용자가 선택할 수도 있다.

이때 영상에 어울리는 사운드를 검출하는 방법은 촬영 명령이 입력되면, 정해진 범위의 시간동안 사운드 및 연속 정지영상을 저장한다. 이후 카메라장치는 정지영상을 분석하여 영상을 분류하고, 정지영상이 촬영된 시점에서 녹음된 사운드를 분석한 후, 사운드에서 분류된 영상의 조건을 만족하는 요소가 있는지 검출한다. 이후 카메라장치는 사운드 검출 결과에 따라 정지영상에 적합한 버퍼링된 사운드 구간을 설정하여 사운드로 데이터로 저장한다.

두 번째로 카메라장치는 버퍼링된 사운드를 분석한 후, 사운드와 같은 속성을 가지는 영상을 선택하여 하나의 파일로 생성할 수 있다. 이를 위하여 카메라장치는 사운드 촬영모드시 정해진 범위의 시간동안 사운드를 버퍼링하며 또한 연속적으로 정지영상을 촬영하여 버퍼링한다. 이후 버퍼링된 사운드를 분석한 후, 사운드의 속성과 일치되는 속성을 가지는 정지영상을 선택하고, 선택된 영상을 사운드를 함께 저장한다.

도 1은 카메라 장치의 구성을 도시하는 도면이다.

상기 도 1을 참조하면, 이미지센서120은 촬영모드시 장치의 외부 영상을 감지하여 전기적인 신호 및 디지털 데이터로 변환 출력한다. 이미지센서120은 듀얼 이미지 센서로 구성될 수 있다. 이런 경우 제1이미지센서는 장치의 후면에 장착되며, 제2이미지센서는 장치의 전면 베젤 영역에 장착될 수 있다. 이때 제1이미지센서는 제2이미지센서보다 더 큰 화소수를 가지는 고화소의 이미지센서가 될 수 있다. 상기 제1이미지센서 및 제2이미지센서는 제어부100의 제어하에 각각 독립적으로 구동될 수 있으며, 동시에 구동될 수 있다. 이미지센서120은 제어부100에 의해 정지 영상 및 동영상을 촬영할 수 있다.

이미지처리부(image signal processor)130은 이미지센서120에서 출력되는 영상을 처리한다. 여기서 이미지처리부130은 영상 전처리부(pre-processor) 및 후처리부(post-processor), 스케일러(scaler), 코덱(coder and/or decoder) 등을 구비할 수 있다. 이미지처리부130은 이미지센서120에서 출력되는 영상을 전처리 및 후처리하며, 표시부140의 사이즈로 스케일링(resizing)하여 표시부140에 출력한다. 또한 이미지처리부130은 촬영모드(image capture(shot) mode))시 제어부100의 제어하에 영상처리된 영상을 압축부호화할 수 있다. 또한 영상처리부100은 촬영되는 정지영상을 일시 저장하기 위한 버퍼를 구비할 수 있다. 이때 버퍼는 설정된 수의 프레임 이미지를 버퍼링하는 크기를 가지는 ring buffer로 구성할 수 있다. 또한 이미지처리부130은 도 1과 같이 카메라장치에서 독립적으로 구성될 수 있으며, 또는 제어부130의 내부에 구성할 수도 있다.

제어부100은 카메라 장치의 전반적인 동작을 제어할 수 있다. 제어부100은 사운드 촬영모드(sound and shot mode)를 처리할 수 있으며, 사운드 촬영모드시 이미지 센서120을 제어하여 연속적인 정지영상을 촬영하여 버퍼링하며, 또한 오디오처리부160을 제어하여 설정된 시간 동안 마이크163을 통해 입력되는 외부 사운드를 버퍼링하도록 제어한다. 또한 제어부100은 영상인식부 및 사운드인식부를 포함할 수 있으며, 사운드 촬영모드시 영상 및 사운드의 속성을 분석하여 일치되는 영상 및 사운드를 하나의 파일로 저장하는 기능을 실행할 수 있다. 또한 상기 제어부100은 이미지센서120이 듀얼 이미지센서로 구성되는 경우, 제1이미지센서 및/또는 제2이미지센서를 각각 구동할 수 있으며 또한 동시에 구동할 수 있다. 여기서 제어부100은 이미지처리부130을 포함할 수도 있다.

저장부110은 카메라 장치의 동작 프로그램 및 사운드 촬영모드의 프로그램을 저장하는 프로그램 메모리와, 촬영되는 이미지들을 저장하는 데이터 메모리를 구비할 수 있다. 상기 저장부110은 사운드 촬영모드시 이미지센서120에서 출력되는 연속되는 정지영상과 오디오처리부160에서 출력되는 사운드 데이터를 버퍼링하는 버퍼 영역을 구비할 수도 있다.

표시부140은 상기 제어부100의 제어하에 이미지처리부130에서 출력되는 영상을 표시할 수 있으며, 장치의 전반적인 동작 상태를 표시할 수 있다. 표시부140은 LCD 또는 OLED가 될 수 있다. 입력부150은 카메라 장치의 촬영을 제어하기 위한 입력들을 발생할 수 있다. 여기서 상기 표시부140 및 입력부150은 일체형의 터치스크린으로 구성될 수 있다.

오디오처리부160은 마이크163 및 스피커165와 연결되며, 제어부100의 제어하에 마이크163으로부터 입력되는 사운드를 디지털 데이터로 변환 및 처리하며, 디지털 데이터를 아날로그 사운드신호로 변환하여 스피커165를 통해 재생할 수 있다. 오디오처리부160은 사운드 촬영모드시 제어부100의 제어하에 마이크163으로부터 입력되는 사운드를 처리하여 녹음하기 위한 버퍼를 구비할 수 있다. 여기서 상기 오디오처리부160은 제어부100의 내부에 구성할 수 있다.

도 2는 카메라장치에서 촬영되는 영상 및 녹음되는 사운드 데이터를 처리하는 제어부의 구성을 도시하는 도면이다.

도 2를 참조하면, 영상인식부210은 피사체 인식 및 피사체의 특징(속성)을 추출하는 기능을 수행한다. 예를들면 인물의 경우 얼굴 근육의 움직임(즉, 표정)을 분석하여 감정을 판별할 수 있다. 사람의 감정은 말이나 행동으로 나타나기 전에 얼굴 표정으로 먼저 나타난다. 따라서 영상인식부210은 피사체의 속성을 분석하며, 피사체가 인물이면 상처리부130에서 출력되는 영상에서 얼굴영역을 검출 및 검출하며, 분리된 얼굴 영역에서 눈, 코, 입 등의 움직임을 분석하여 인물의 감정 속성을 결정한다. 여기서 감정속성은 행복함(happy), 기쁨(joy), 무표정(poker face/no idea), 슬픔(sad), 놀람(surprised), 화남(angry), 피곤/지루함(tired/boring), 흥분(exiting), 외로움( lonely) 등이 될 수 있다. 또한 피사체에 인물이 속하지 않은 경우, 동물(pet)인가 분석하며, 동물인 경우에도 동물의 종류 및 동물의 얼굴을 분석하여 동물의 현재 감정 속성을 결정할 수 있다. 그리고 피사체가 사물(예를들면 자동차, 건물, 폭죽 등)이면 사물의 형태 또는 움직임에 따른 사운드 속성을 결정할 수 있다.

사운드인식부220은 오디오처리부160에서 처리되는 사운드 데이터를 분석하여 피사체의 사운드 특징을 인식한다. 여기서 상기 사운드의 특징은 사운드의 주파수, 고저, 장단, 강약, 단속비 등을 분석하여 결정할 수 있다. 이때 인물의 경우, 상기 사운드 특징은 영상에서 인식하는 인물의 감정속성과 일치시켜 처리할 수 있다.

여기서 영상 및 사운드 인식을 위한 정보(속성(인물 및/또는 동물의 경의 감정속성, 사물의 경우 해당하는 사물의 타입 및 사운드 속성 등))는 데이터베이스화하여 저장부110에 저장할 수 있다. 그리고 상기 영상 인식 및 사운드 인식 기술은 현재 사용되고 있는 인식 기술 및/또는 발표되고 있는 인식 기술을 사용할 수 있다.

연관도 분석부230은 인식된 영상 및 사운드의 속성을 비교 분석하여 연관도가 높은 영상 및 사운드를 결정할 수 있다. 예를들면 영상이 선택된 경우, 연관도 분석부230은 사운드인식부220의 출력에서 영상인식부210에서 인식된 영상의 속성과 연관도가 높은 속성을 가지는 사운드를 분석한다. 또한 음성이 선택된 경우, 연관도분석부230은 영상인식부220에서 인식된 영상들 중에서 사운드인식부220에서 선택된 사운드 속성과 연관도가 높은 속성을 가지는 영상을 분석한다.

사운드/영상선택부240은 상기 연관도분석부230의 출력에 의해 상호 연관도가 높은 영상 및 사운드를 선택한다. 즉, 영상이 선택된 경우 영상의 속성과 밀접한 연관도를 가지는 사운드(즉, 버퍼에 버퍼링된 사운드들 중에서 선택된 영상 속성과 밀접한 속성을 가지는 사운드의 버퍼링 구간 데이터)를 선택하며, 사운드가 선택된 경우 사운드의 속성과 밀접한 연관도를 가지는 영상(즉, 버퍼에 버퍼링된 영상들 중에서 선택된 사운드 속성과 밀접한 속성을 가지는 영상 데이터)를 선택한다.

합성부250은 상기 선택된 영상 및 사운드데이터를 합성하여 하나의 파일로 생성 및 저장부110에 저장한다. 이때 합성 파일은 상기한 바와 같이 헤더, 바디 및 부가 데이터 영역으로 구성될 수 있다. 이때 헤더 영역에는 정지 영상 및 사운드 데이터의 부호화 정보 및 메터 데이터(예를들면 정지 영상의 촬영정보)들이 저장될 수 있으며, 바디 영역에는 정지 영상 데이터가 저장되고, 부가 데이터 영역에는 사운드 데이터가 저장될 수 있다.

도 3은 카메라장치의 영상처리부 구성을 도시하는 도면이다.

상기 도 3을 참조하면, 영상처리부(image processing unit)310은 전처리부 및 후처리부로 구성될 수 있다. 전처리부는 상기 이미지센서120로부터 획득되는 풀해상도 이미지를 전처리한다. 전처리부는 이미지센서120에서 출력되는 이미지에서 3A (AWB(auto white balance), AE(auto exposure), AF(Auto focusing))를 추출하여 처리하고, 렌즈 셰이딩 보상, 데드 픽셀, knee 보정 등을 수행한다. 상기 후처리부는 색보간기(color interpolator), IPC(image processing chain), 색변환부(image converter) 등을 구비할 수 있다. 상기 색보간기는 상기 이미지센서120에서 출력되는 이미지(Bayer data)를 컬러 이미지로 변환하는 색 보간 기능을 수행한다. 상기 IPC는 색보간된 이미지들의 노이즈 감소(noise reduction), 감마 보정(gramma correction), 휘도 보정(luminence correction) 등을 수행한다. 색변환부는 후처리된 이미지를 YUV 이미지로 변환한다. 즉, 후처리부는 리사이징되어 스케일링된 이미지를 색보간, 후처리한 후 YUV 이미지로 변환하는 기능을 수행한다.

스케일러320은 상기 영상처리부310에서 출력되는 풀해상도 이미지를 상기 표시부140에 표시하기 위한 이미지의 용량 및 크기로 스케일링한다. 이때 여기서 스케일링은 데시메이션에서 의해 수행될 수 있으며, 또한 표시부130의 화면비에 맞도록 인터폴레이션 및 데시메이션을 수행할 수도 있다. 상기 스케일러320에서 출력되는 이미지는 표시부140에 인가되어 프리뷰 이미지로 표시될 수 이다.

상기 영상처리부310에서 출력되는 이미지는 버퍼330에 인가되어 버퍼링된다. 상기 버퍼330은 버퍼330은 사운드 촬영모드시 상기 제어부100의 제어하에 설정된 시간 단위로 영상처리부310에서 출력되는 이미지들을 버퍼링한다. 즉, 사운드 촬영모드시 상기 제어부100은 사운드 촬영 시간 구간에서 설정된 시간 주기로 이미지들을 획득하도록 버퍼330을 제어한다. 그러면 버퍼330은 사운드 촬영 구간에서 설정된 시간 주기로 이미지센서120에서 출력되는 이미지들을 버퍼링한다.

또한 상기 버퍼330은 링버퍼 구조를 가질 수 있으며, 프리뷰 모드시 설정된 프레임의 수의 이미지들을 버퍼링한다. 이때 프리뷰 모드에서 버퍼링되는 이미지는 정지 촬영시(still image capture)시 제로 셔터렉을 구현하기 위한 사용하기 위함이다. 따라서 정지이미지의 촬영이 요구되면, 상기 제어부100은 상기 버퍼330에 버퍼링된 이미지들 중에서 제로 셔터렉 시간을 보상하는 이미지(예를들면 제로 셔터렉이 3프레임이라고 가정하면 버퍼330에 저장된 이미지들 중에서 3프레임 전의 이미지)를 선택하여 출력한다.

섬네일 처리부340은 사운드 촬영모드시 버퍼330에 버퍼링된 이미지들을 섬네일 이미지로 생성하여 표시부140에 출력한다.

코덱350은 상기 제어부100의 제어하에 버퍼330에서 선택된 이미지를 압축 부호화한다. 이때 상기 코덱350은 정지이미지를 부호화할 수 있으며, 이런 경우 상기 코덱350은 JPEG 코덱을 구비할 수 있다.

도 4a - 도 4c는 카메라 장치에서 사운드 촬영시 버퍼링되는 이미지 및 오디오 데이터의 구성을 설명하기 위한 도면이다. 도 4a는 사운드 촬영 모드에서 버퍼링되는 이미지 및 사운드 데이터의 예를 설명하기 위한 도면이며, 도 4b는 사운드 촬영 종료 후 저장하는 이미지 및 사운드 데이터의 예를 설명하기 위한 도면이고, 도 4c는 사운드 촬영된 데이터의 구성을 설명하기 위한 도면이다.

상기와 같은 구성을 가지는 카메라장치는 사운드 촬영모드에서 영상과 사운드를 함께 저장한다. 카메라 구동이 요청되면, 상기 제어부100은 이미지센서120을 구동하여 영상을 획득하며, 이미지처리부130은 획득된 영상을 처리(전처리 및 후처리)한 후 스케일링하여 표시부140에 표시한다. 이때 사용자가 입력부150을 통해 사운드 촬영을 명령하면, 상기 제어부100은 이미지처리부130을 제어하여 설정된 시간동안 이미지센서120에서 획득되는 이미지를 정지이미지로 처리 및 버퍼링하며, 오디오처리부160을 제어하여 사운드를 녹음한다. 이때 이미지 및 사운드는 도 4a와 같이 버퍼링될 수 있다. 상기 도 4a에서 참조번호 411은 영상 프레임 시퀀스가 될 수 있으며, 415는 사운드 프레임 시퀀스가 될 수 있다. 그리고 사운드 촬영모드시 이미지는 도 4a의 413과 같이 사운드 촬영 구간에서 일정 시간 단위로 획득되는 정지 이미지들이 될 수 있으며, 녹음되는 사운드 데이터는 도 4a의 417과 같이 연속 녹음된다.

이때 도 4a의 413과 같이 버퍼링된 이미지들 중에서 도 4b의 423과 같이 한 장의 이미지를 선택하여 사운드와 함께 저장할 수 있다. 이때 도 4b의 423과 같이 선택되는 이미지는 사용자에 의해 선택될 수 있으며, 또는 제어부100이 버퍼링된 413과 같은 이미지들 중에서 선택되는 이미지가 될 수 있다. 이때 상기 제어부100은 한 장의 이미지를 선택할 때 blur가 없는 이미지, 인물의 경우 사용자가 설정한 감정을 가지는 이미지 등이 될 수 있다. 이때 상기 선택되는 이미지는 한 장 이상의 복수 이미지들이 될 수도 있다.

상기와 같이 이미지가 선택되면, 상기 제어부100은 상기 선택된 사진의 이미지를 인식하고, 또한 녹음된 사운드를 인식하여 상기 선택된 이미지에 대응되는 사운드들을 검출한다. 예를들면 선택된 사진이 인물이고 인물이 웃고 있는 사진이면, 상기 제어부100은 이미지 인식 과정에서 인물이 웃고 있음을 감지하며, 사운드을 인식하여 웃고 있는 사운드 구간을 분류한다. 이후 상기 제어부100은 상기 선택된 영상과 함께 가장 어울리는 것으로 분류된 사운드를 재생하며, 도 4b와 같이 선택된 영상 및 사운드를 저장부110에 저장한다.

이때 상기 제어부100은 사운드인식부를 구비할 수 있으며, 다음과 같은 방법으로 영상에 어울리는 사운드를 검출할 수 있다. 먼저 촬영 명령이 입력되면, 상기 제어부100은 이미지처리부130 및 오디오처리부160을 제어하여 정해진 범위의 시간동안 도 4a와 같이 사운드 및 연속 정지영상을 저장한다. 이후 상기 제어부100은 저장된 영상을 인식하여 설정된 타입으로 분류하고, 영상이 촬영된 시점에서 녹음된 사운드를 인식한 후, 사운드에서 분류된 영상의 조건을 만족하는 요소가 있는지 검출한다. 그리고 상기 제어부100은 검출 결과에 따라 영상에 적합한 사운드를 표시 및 저장한다.

이때 상기 저장부110에 저장된 사운드 촬영 데이터는 도 4c와 같이 촬영정보 및 사운드 촬영임을 나타내는 식별 정보를 포함하는 이미지 헤더431, 선택된 영상 데이터433 및 선택된 영상 대이터에 의해 검출되는 사운드 데이터435로 구성될 수 있다.

도 5는 카메라 장치에서 사운드 촬영을 하는 절차를 도시하는 흐름도이다.

상기 도 5를 참조하면, 입력부150을 통해 카메라 구동 요청이 발생되면, 상기 제어부100은 이미지센서120을 구동하여 영상을 획득하며, 이미지처리부130은 획득된 영상을 처리(전처리 및 후처리)한 후 스케일링하여 표시부140에 표시한다. 즉, 카메라 구동 요청이 발생되면, 상기 제어부100은 상기 이미지처리부130을 제어하여 이미지센서120에서 획득되는 영상을 영상 처리한 후 스케일링하여 표시부140에 표시하는 프리뷰 모드를 수행한다. 그리고 상기 프리뷰 모드에서 입력부150을 통해 사운드 촬영 요청이 감지되면, 상기 제어부100은 511단계에서 이를 감지하고 513단계에서 설정된 시간 동안 영상 및 사운드를 연속 획득하여 버퍼링한다. 즉, 상기 제어부100은 설정된 촬영시간동안 이미지센서120에서 출력되는 영상을 설정된 시간 간격으로 로 획득하여 이미지처리부130에 출력하며, 이미지처리부130의 영상처리부310은 이를 영상처리하며, 버퍼330은 영상처리된 상기 영상들을 버퍼링한다. 이때 상기 버퍼330에 버퍼링되는 영상은 이미지센서120에서 출력되는 풀 해상도의 영상이 될 수 있다. 여기서 상기 풀해상도는 이미지센서120에서 감지되는 영상 화소수를 의미하는 용어로 사용될 것이다. 또한 상기 제어부100은 513단계에서 설정된 촬영시간 동안 영상을 획득하여 버퍼링하면서 또한 상기 오디오처리부160을 제어하여 촬영 시간 동안 마이크163에서 변환되는 사운드를 처리하여 저장(녹음)한다.

예를들어, 사운드 촬영모드의 촬영 시간은 5초이고, 영상을 획득하는 시간 주기를 0.5초라고 가정하면, 사운드 촬영모드시 상기 이미지처리부130은 5초 동안 0.5초 간격으로 10장의 정지영상을 처리하여 버퍼링하게 된다. 이하의 설명에서 촬영 시간(예를들면 5초)은 제1시간이라 칭하기로 하며, 영상을 획득하는 시간 간격(예를들면 0.5초)은 제2시간이라 칭하기로 한다. 즉, 사운드 촬영 모드시 상기 제어부100은 513단계에서 상기 이미지처리부120 및 이미지처리부130을 제어하여 제1시간 동안 제2시간 간격으로 정지영상을 캡쳐하여 버퍼링하며, 오디오처리부160을 제어하여 제1시간 동안 사운드를 녹음한다. 이때 상기 제어부100의 제어하에 영상처리부310은 제2시간 간격으로 획득되는 정지영상을 처리하며, 버퍼330은 상기 영상처리부310에서 출력되는 풀해상도 영상을 버퍼링한다. 이때 상기 제어부100은 상기 표시부140에 촬영 시점의 정지영상을 표시하면서 사운드 촬영모드임을 표시할 수 있으며, 또는 상기 이미지센서에 획득되는 프레임율의 영상을 스케일링하여 표시부140에 표시하도록 제어할 수도 있다. 즉, 상기 제어부10은 영상처리부310을 제어하여 또한 상기 이미지센서120에서 획득되는 영상(예를들면 를 전처리 및 후처리하며, 스케일러320을 제어하여 영상처리된 영상을 표시영상 사이즈로 스케일링하여 표시부140에 출력할 수도 있다.

상기 제1시간이 경과되면(즉 사운드 촬영 시간이 종료되면), 상기 제어부100은 515단계에서 사운드 촬영의 종료를 감지하고, 517단계에서 상기 섬네일처리부340을 제어하여 버퍼330에 버퍼링된 영상을 섬네일 이미지로 변환한 후, 이를 표시부140에 표시한다. 여기서 상기 버퍼330에 저장된 영상들은 사운드 촬영 시간 동안 촬영된 복수의 정지 영상들이 될 수 있으며, 상기 섬네일처리부340은 상기 저장된 정지영상들을 섬네일 이미지로 변환하고, 상기 표시부140은 상기 섬네일 이미지로 표시하게 된다.

이때 카메라 장치는 사운드 촬영된 영상들 중에서 영상을 선택하여 녹음된 사운드와 함께 저장할 수 있다. 이때 상기 정지 영상을 선택하는 방법은 상기 표시부140에 표시되는 섬네일 이미지에서 원하는 영상을 선택하는 방법 또는 녹음된 사운드를 인식 및 분석하고, 분석 결과에 가장 밀접한 특징을 가지는 정지영상을 선택하는 방법을 사용할 수 있다. 여기서는 표시부140에 표시되는 섬네일 이미지를 표시하고, 사용자에 의해 선택된 섬네일 이미지에 대응되는 정지영상을 선택하는 방법을 사용한다고 가정한다.

영상이 선택되면, 상기 제어부100은 519단계에서 이를 감지하고, 521단계에서 선택된 영상을 인식한다. 이때 선택된 영상의 인식은 영상 내에 포함된 주 피사체가 인물 또는 사물인가를 분석한다. 이때 영상의 주 피사체가 인물인 경우에는 얼굴 영역을 인식 및 분석하여 인물의 감정 상태를 분석할 수 있다. 여기서 인물의 감정의 얼굴에 나타내는 희노애락의 감정이 될 수 있으며, 이는 안면 근육의 움직임을 분석하여 결정할 수 있다. 상기 제어부100은 영상인식부210을 구비하며, 상기 영상인식부210은 인물의 얼굴 근육의 움직임을 분석하여 감정을 판정할 수 있다. 여기서 상기 영상인식부210은 인물 인식시 기쁨, 놀람, 슬픔, 화남, 공포, 지루함, 무표정 등의 다양한 감정 상태를 인식할 수 있다. 이때 동물(예를들면 개)의 경우에도 상기 인물과 유사한 인식 기술을 적용할 수 있다. 또한 사물의 인식은 사물은 고유한 이미지 특징을 가질 수 있다. 예를들면 자동차, 비행기, 기차, 나무, 건물 등은 고유한 특징을 가질 수 있다. 또한 사물은 특정한 상태(예를들면 폭죽의 경우 공중에서 폭발할 때)에 특정한 이미지 형상을 가질 수 있다.

상기와 같이 선택된 영상을 인식 및 분석한 후, 상기 제어부100은 523단계에서 녹음된 사운드를 분석한다. 상기 제어부100은 사운드인식부220을 구비하며, 상기 사운드인식부220은 상기 제어부100의 제어하에 인식된 영상(인물 또는 사물)의 타입에 따라 대응되는 사운드를 선택하기 위하여 녹음된 사운드를 인식 및 분석한다. 이때 인물인 경우, 사운드(즉, 음성)의 주파수, 강약, 연속성, 고저 등의 특징을 분석하여 인물의 감정에 따른 사운드를 설정할 수 있다. 또한 사물인 경우, 사물에서 발생하는 고유의 사운드를 설정할 수 있다. 예를들면 자동차, 비행기, 기차, 폭죽 등은 각각 고유한 사운드를 가질 수 있다. 따라서 영상의 주 피사체가 사물인 경우 녹음된 사운드에서 해당 사물의 사운드 구간을 매핑할 수 있다.

이후 상기 제어부100은 525단계에서 상기 선택된 영상에 대응되는 사운드의 연관도를 분석하며, 527단계에서 연관도가 높은 사운드 구간을 선택한 후 오디오처리부160을 통해 재생한다. 이때 상기 선택된 영상에 어울리는 사운드를 검출하는 방법을 살펴보면, 선택된 영상이 촬영된 시점에서 녹음된 사운드를 분석하며, 사운드에서 분류된 영상의 조건을 만족하는 요소가 있는지 검출하고, 검출 결과에 따라 영상에 적합한 사운드를 검출 및 표시한다.그리고 상기 제어부100은 529단계에서 선택된 영상 및 이에 연관도 높은 사운드를 합성 및 저장한다. 이때 저장되는 영상 및 사운드는 도 4C와 같은 구조를 가질 수 있다. 즉, 521단계 - 529단계에서 상기 제어부는 연속 영상 중 선택된 영상을 인식한 후, 녹음된 사운드에서 인식 결과에 따라 영상과 연관도가 사운드를 검출하며, 상기 검출된 사운드를 선택된 영상과 함께 가장 어울리는 것으로 분류된 사운드를 재생하며, 또한 재생되는 사운드를 영상과 함께 저장부110에 저장한다. 이때 상기 제어부100은 사운드 촬영모드에서 저장한 영상들 및/또는 사운드를 저장부110에 저장할 수도 있다. 이런 경우 사운드 촬영모드를 수행한 후 이미지 편집모드를 수행하여 원하는 영상과 사운드를 합성할 수 있다.

도 6a - 도 6c는 사운드 촬영모드에서 선택되는 복수의 영상들을 촬영하는 동시에 사운드를 녹음하고, 선택된 영상과 연관도가 높은 사운드를 선택한 후 선택된 영상 및 사운드를 저장하는 예를 설명하기 위한 도면이다. 도 6a는 사운드 촬영모드에서 어린이를 촬영한 예를 도시하고 있으며, 도 6c는 사운드 촬영모드에서 개를 촬영한 예를 도시하고 있고, 도 6c는 사운드 촬영모드에서 불꽃놀이를 촬영한 예를 도시하고 있다.

상기한 바와 같이 사운드 촬영모드시 카메라장치는 상기 513단계에서 사운드를 녹음하면서 영상을 연속 촬영한다. 그리고 상기와 같은 사운드 촬영은 515단계에서 촬영 종료시점까지 유지된다. 이때 상기 사운드 촬영은 사용자의 사운드 촬영 요청시점에서 동시에 녹음과 촬영이 개시될 수 있으며, 종료 시점은 상기한 바와 같이 설정된 시간(즉, 제1시간)이 경과되면 자동으로 종료될 수 있다. 그러나 상기 사운드 촬영의 시작 및 종료는 사용자의 조작에 의해 실행할 수도 있다. 즉, 사용자가 사운드 촬영버튼을 온(셔터 온)하는 시간 동안 사운드 촬영 모드를 수행할 수도 있다. 또한 카메라장치는 프리뷰 모드에서 영상 및 사운드를 버퍼링하며, 사용자의 사운드 촬영 요청 시점에서 영상 및 사운드의 획득 구간을 설정할 수도 있다. 예를 들면, 영상과 사운드를 버퍼링(ring buffer와 같은 first in first out 메모리에 저장)하고 있다가, 사용자에 의해 촬영 명령이 입력되면 명령의 입력 시점 이전 및 이후 몇 초간의 영상 및 사운드를 저장할 수도 있다.

또한 상기한 바와 같이 영상 및 사운드의 저장을 동일한 시간 구간에서 수행하는 것으로 설명되고 있지만, 영상의 시간적 저장 범위와 사운드의 시간적 저장 범위를 다르게 설정할 수도 있다. 또는 사운드와 영상 분석을 통해 저장 시점을 결정할 수도 있다. 예를 들면, 상기와 같이 ring buffer에 사운드 및 영상을 저장하는 도중 특정한 사운드나 영상이 검출되는 경우에 대하여 촬영을 개시할 수도 있다. 예를 들면, 불꽃놀이를 촬영하고자 하는 경우 불꽃의 폭발음을 사운드신호 촬영 시점으로 결정하여 사운드를 녹음하고, 불꽃이 크게 퍼지는 부분을 영상신호 촬영 시점으로 결정하여 영상을 취득할 수 있다.

상기 515단계에서 촬영 종료를 감지하면, 상기 제어부100은 517단계에서 버퍼링된 영상들을 섬네일이미지로 변환하여 표시부140에 표시한다. 이때 영상들은 도 6a의 611, 도 6b의 631 또는 도 6c의 651과 같은 이미지들이 표시될 수 있다. 상기와 같이 영상들을 표시하는 상태에서 제어부100은 선택된 영상을 인식한다. 이때 상기 영상의 선택은 정해진 조건에 의해 제어부100이 선택할 수 있으며, 또는 사용자의 선택에 의해 영상을 선택할 수도 있다. 여기서 자동으로 영상을 선택하는 방법은, 영상의 선명도, 인물이 존재하는 경우 인물의 표정, 눈 감음 여부, 적안 발생 여부 등의 기준에 의하여 함께 촬영된 이미지들을 상호 비교하여 가장 좋다고 판단되는 영상을 선택할 수 있다.

이후 상기 제어부100은 521단계에서 선택된 영상을 인식 및 분석한다. 이때 상기 제어부100은 선택된 영상만을 분석할 수도 있고, 함께 촬영된 복수의 영상들을 상호 비교하면서 분석할 수도 있다. 예를 들면, 도 6a의 611과 같이 웃음을 짓는 사람의 얼굴이 촬영된 경우, 복수의 영상에서 사람의 얼굴을 검출하고, 사람의 얼굴이 검출된 경우 입을 벌린 정도와 웃음 정도를 비교하여, 가장 크게 웃음이 발생한 영상을 621과 추천할 수 있다. 즉, 다른 영상과의 비교를 통해서 다른 영상에서는 웃음소리가 안나고 추천된 영상에서만 웃음소리가 나는 영상을 예측할 수 있다. 만약 크게 웃는 영상이 검출되지 않는 경우에는 입을 크게 벌리지 않고 미소만 짓는 얼굴을 추천 영상으로 추천하는 것이 바람직하다. 또한 움직임을 검출하는 방법을 사용할 수도 있다. 예를들어 사람이 이야기를 하고 있는 장면을 촬영한 경우, 입을 다물고 있는 순간보다는 입을 벌리고 있거나 큰 제스처를 취하고 있는 장면을 추천 영상으로 검출할 수 있다.

또 다른 예로, 도 6b와 같이 개가 짖고 있는 장면을 촬영하는 경우, 개가 이동하는 순간이나, 정면을 응시하는 순간과 개가 입을 벌리고 있는 순간을 상호 비교할 수 있으며, 입을 벌리고 있는 순간을 소리가 나는 순간으로 예측할 수 있다. 또한 정면을 응시하는 순간은 다른 소리를 듣기위해 집중하는 것으로 예측할 수 있다. 또한 다른 예로 도 6c와 같이 폭죽이 폭발하는 장면을 촬영하는 경우, 폭죽을 발사하는 순간이나 폭죽이 폭발하는 순간을 상호 비교할 수 있으며, 폭죽이 폭발하는 순간을 소리가 나는 순간으로 예측할 수 있다.

상기와 같은 얼굴검출 등을 이용한 영상 분류의 카테고리가 존재하지 않는 경우, 영상에서 가장 움직임이 크게 발생한 영상을 선택할 수도 있고, 특히 영상의 중심부에서 가장 움직임이 큰 영상을 선택할 수도 있다. 예를 들면 상기 도 6c와 같은 불꽃놀이 영상의 경우, 복수의 촬영된 영상을 비교하여 그 중 가장 움직임이 많고 변화가 많은 영상을 어울리는 영상으로 선택할 수 있다. 또는 자동차가 화면을 가로질러 움직인 경우, 자동차 소리와 함께 자동차가 화면의 가운데 위치한 순간을 어울리는 이미지로 선택하는 것이 바람직하다.

영상을 선택한 후, 상기 제어부100은 521단계에서 선택된 영상을 분석하고, 523단계에서 사운드 패턴을 인식 및 분석한다. 상기 사운드의 패턴은 주파수별 분석을 통해 Onset map, Harmonicity map, Position map등을 통해 분류될 수 있으며, 예를 들면 육성, 구체적으로 웃음소리와 스피치, 동물의 종류, 자동차 등 특정 사물의 소리, 그리고 음악소리 및 구체적으로 음악의 장르 등으로 구별이 가능하다. 또한 사운드 분석의 방법은 상기 분류된 영상에 따라 달라질 수 있다. 예를 들면, 사람의 얼굴이 검출되면 사람의 육성이 분포하는 주파수를 중심으로 분석을 수행하여 분석의 정확도를 증가시키고 분석시간을 단축시킬 수 있다.

이후 상기 제어부100은 525단계에서 선택된 영상과 녹음된 사운드를 인식 및 분석한 후 525단계에서 선택된 영상과 녹음된 사운드의 연관도를 분석하며, 527단계에서 연관도 높은 사운드를 선택한 후, 529단계에서 영상 및 사운드를 합성 및 저장한다. 이때 저장되는 영상 및 사운드는 도 6a의 613 및 615, 도 6b의 633 및 635 또는 도 6c의 653 및 655와 같은 영상 및 사운드가 될 수 있다. 이때 상기 제어부100은 선택된 사운드를 오디오처리부160을 통해 재생하고, 영상을 표시부140에 표시한다.

상기 도 5는 하나의 영상을 선택하여 사운드와 합성하는 방법을 도시하고 있다. 그러나 적어도 2개의 영상들을 선택할 경우, 영상 및 사운드 분석 동작을 반복하여 해당 영상에 어울리는 사운드를 표시해 주고, 사용자가 최종 결정을 한 경우 선택된 영상을 사운드와 함께 저장할 수 있다. 도 7a - 도 7b는 복수의 영상들 및 관련된 사운드의 처리하는 예를 도시하는 도면이며, 도 8a - 도 8c는 복수의 영상들 및 관련된 사운드의 합성 예를 설명하기 위한 도면이다.

상기 도 7a - 도 7b 및 도 8a - 도 8c를 참조하면, 제어부100은 사운드 촬영이 종료되면, 515단계에서 이를 감지하고, 517단계에서 도 7a의 711과 같이 버퍼링된 영상을 표시한다. 이때 상기 이미지처리부130의 버퍼330에는 823과 같은 복수의 영상들이 저장되고 오디오처리부160은 827과 같이 사운드를 녹음한다. 여기서 사운드 827은 서로 다른 사운드 패턴을 가지는 사운드들이 될 수 있다. 그리고 상기 제어부100은 도 8a의 823과 같이 저장된 영상들을 표시부140에 도 7a 의 711과 같이 표시한다. 이때 711과 같이 표시되는 영상들 중에서 713 및 721과 같이 2개의 영상이 선택되면, 상기 제어부100은 519단계에서 이를 감지하고, 521단계 - 527단계를 수행하면서 선택된 영상713 및 721과 연관도가 높은 사운드들을 선택한다. 이때 도 7a의 713과 같이 웃음을 짓는 아기의 얼굴이 선택된 경우(이때 영상은 도 8b의 841이 될 수 있음), 상기 제어부100은 녹음된 사운드 구간에서 아기의 웃음 소리를 포함하는 가지는 사운드 구간(예를들면 도 8b의 843)을 선택하고, 721과 같이 무표정한 아기의 얼굴이 촬영된 경우(이때 영상은 도 8c의 951이 될 수 있음) 상기 제어부100은 녹음된 사운드 구간에서 아기의 웃음소리가 포함되지 않은 사운드 구간(예를들면 엄마의 음성이 녹음된 구간, 도 8c의 853)을 선택할 수 있다. 그리고 상기 제어부100은 529단계에서 도 8b와 같이 영상 및 사운드를 합성하고, 도 8c와 같이 영상 및 사운드를 합성하여 저장할 수 있다. 이런 경우 상기 저장부110에 저장되는 데이터는 도 7a의 715 및 717, 그리고 723 및 725와 같은 영상 및 사운드가 될 수 있다.

또한 사운드 촬영모드에서 도 7b와 같은 영상들이 촬영된 경우, 상기 이미지처리부130의 버퍼330에는 823과 같은 복수의 영상들이 저장되고 오디오처리부160은 827과 같이 사운드가 녹음된 상태가 될 수 있다. 그리고 상기 제어부100은 저장된 영상들을 표시부140에 도 7b의 731과 같이 표시한다. 이때 상기 731과 같이 표시되는 영상들 중에서 733 및 741과 같이 2개의 영상이 선택되면, 상기 제어부100은 519단계에서 이를 감지하고, 521단계 - 527단계를 수행하면서 선택된 영상733 및 741과 연관도가 높은 사운드들을 선택한다. 이때 도 7b의 733과 같이 짖고 있는 개의 영상이 선택된 경우(이때 영상은 도 8b의 841이 될 수 있음), 상기 제어부100은 녹음된 사운드 구간에서 개의 짓는 소리가 포함하는 가지는 사운드 구간(예를들면 도 8b의 843)을 선택하고, 741과 같이 무표정한 개의 얼굴이 촬영된 경우(이때 영상은 도 8c의 951이 될 수 있음) 상기 제어부100은 녹음된 사운드 구간에서 개의 짖는 소리가 포함되지 않은 사운드 구간(예를들면 사람의 소리가 포함된 구간, 도 8c의 853)을 선택할 수 있다. 그리고 상기 제어부100은 529단계에서 도 8b와 같이 영상 및 사운드를 합성하고, 도 8c와 같이 영상 및 사운드를 합성하여 저장할 수 있다. 이런 경우 상기 저장부110에 저장되는 데이터는 도 7b의 735 및 737, 그리고 743 및 745와 같은 영상 및 사운드가 될 수 있다.

상기와 같이 사운드 촬영시 선택된 영상(또는 영상들)과 관련이 있는 사운드(또는 사운드들)을 검출한 후 이를 합성하여 저장할 수 있다. 그러나 선택된 영상과의 사운드 조합보다 선택되지 않은 영상과의 사운드 조합이 더 좋을 수도 있다. 도 9는 사운드 촬영모드에서 선택된 영상 및 사운드를 처리하는 다른 방법의 절차를 도시하는 흐름도이다.

상기 도 9를 참조하면, 사운드 촬영모드시 911단계 - 915단계를 수행하면서 영상 및 사운드를 저장한다. 상기 911단계 - 915단계의 동작은 도 5의 511단계 - 515 단계의 동작과 동일하다. 이후 상기 제어부100은 917단계에서 저장된 영상들을 인식 및 분석한 후, 919단계에서 특정 영상을 추천 표시할 수 있다. 이때 상기 제어부100은 영상의 선명도, 인물이 존재하는 경우 인물의 표정, 눈 감음 여부, 적안 발생 여부 등의 기준에 의하여 함께 촬영된 이미지들을 상호 비교하여 가장 좋다고 판단되는 영상을 추천할 수 있다. 이때 추천된 영상은 표시부140에 추천 식별자(예를들면 상기 도 6a - 도 6c에서와 같은 별 표시(star mark))를 표시할 수 있다. 또는 상기 제어부100은 917단계의 동작을 생략하고, 919단계에서 촬영된 영상들을 그대로 표시할 수 있다(예를들면 도 7a 및 도 7b와 같은 경우). 상기한 바와 같이 제어부100은 정해진 조건에 의해 영상을 자동으로 선택할 수 있으며, 또는 사용자의 선택에 의한 영상을 선택할 수도 있다.

상기와 같이 영상이 선택되면, 상기 제어부100은 921단계에서 이를 감지하고, 923단계 및 924단계에서 사운드를 인식한 후 선택된 영상과 연관도가 높은 사운드를 선택한다. 이때 연관도가 높은 사운드가 없으면, 상기 제어부100은 927단계에서 이를 감지하고 919단계에서 선택된 영상 이외의 영상을 선택할 수 있도록 영상을 표시한다. 그리고 상기 927단계에서 연관도가 높은 사운드를 가지는 영상이 선택되었음을 감지하면, 상기 제어부100은 927단계에서 이를 감지하고, 929단계 및 931단계를 수행하면서 영상과 사운드를 합성하여 저장부110에 저장한다. 여기서 상기 929단계 및 931단계의 동작은 도 5의 527단계 및 529단계와 동일한 방법으로 수행할 수 있다. 이때 상기 제어부100은 사운드 촬영모드에서 저장한 영상들 및 사운드들은 저장부110에 저장할 수도 있다.

상기 사운드 촬영모드에서 영상과 사운드를 동시에 인식 및 분석하여 처리하는 방법은 촬영시간 및/또는 인식 및 분석 시간을 필요로 하며, 이런경우 연속적으로 사운드 촬영모드를 수행하는데 한계가 있을 수 있다. 또한 사운드 촬영모드를 수행하여 영상 및 관련된 사운드를 합성하여 저장한 후, 다른 영상과 사운드를 합성할 필요가 있을 수 있다. 따라서 해당 씬에서 사운드와 동시 녹음한 영상 이외에는 영상만 캡쳐를 수행하고, 영상-사운드가 동시 캡쳐된 이미지 파일과 영상만 캡쳐한 이미지 파일들에 대해서 동일한 분석을 수행할 수 있다. 그리고 분석 결과 저장된 영상-사운드의 조합보다 더 적합한 영상-사운드의 조합이 존재하는 경우, 상기 제어부100은 이를 재 조합하여 저장할 수도 있다. 현장감의 특성을 저해하지 않기 위하여 이러한 편집 조건에 GPS정보를 이용한 위치정보, 촬영시간 정보를 이용한 시간정보에 일정범위의 제한을 둘 수도 있다.

또한 촬영된 영상들을 공유할 수도 있다. 일반적으로 영상과 사운드를 동시에 저장하는 방법은 표준의 방법을 따르지 않기 때문에 사운드가 삽입된 영상을 공유하기 위하여 업로드하는 과정에서, 비표준 영역에 존재하는 사운드 신호는 삭제될 수 있다. 따라서 해당 영상을 다운로드 받는 입장에서는 다운로드 받은 영상에서 사운드를 재생할 수 없을 수 있다. 상기 방법을 이용하면 영상과 사운드를 별도로 업로드 후 다운로드 하여도 각 사운드에 대한 영상을 비교적 쉽게 찾을 수 있으므로 표준 영상 포맷을 이용하더라도 사운드가 포함된 영상으로 재 생성할 수 있다.

상기 도 5 및 도 9는 사운드 촬영모드에서 동시에 영상 및 사운드를 각각 저장 및 녹음하고, 이후 영상을 선택한 후 선택된 영상과 관련성이 높은 사운드를 선택하여 합성하는 방법들을 설명하고 있다. 그러나 사운드 촬영모드시 제어부100은 영상과 사운드를 동시에 각각 저장 및 녹음하고, 이후 먼저 사운드를 분석한 후 사운드와 밀접한 관계를 가지는 영상을 선택하여 합성할 수 있다. 도 10은 본 발명의 또 다른 실시예에 따른 카메라장치의 영상 촬영 방법을 도시하는 흐름도이다.

상기 도 10을 참조하면, 먼저 사운드 촬영모드가 설정되면 상기 제어부100은 1011단계에서 이를 감지하고, 1013단계 및 1015단계를 수행하면서 촬영이 종료될 때까지 영상 및 사운드를 버퍼링한다. 이후 사운드 촬영이 종료되면, 상기 제어부100은 1015단계에서 이를 감지하고 녹음된 사운드를 분석한다. 이때 상기 사운드 분석시 상기 제어부100은 녹음된 사운드들 중에서 하이라이트 특징을 가지는 사운드를 선택할 수 있다. 이후 상기 제어부100은 1019단계에서 촬영된 영상을 인식 및 분석한다. 이후 상기 제어부100은 1021단계에서 사운드 및 영상들의 연관도를 분석한 후, 1023단계에서 사운드와 연관도 가장 높은 영상을 선택한 후, 1025단계에서 사운드 및 영상을 하나의 파일로 저장할 수 있다. 즉, 상기 도 10과 같은 사운드 촬영 방법은 상기 제어부100은 사운드를 인식 및 분석하여 사운드 구간을 선택한다. 이후 상기 제어부100은 영상들을 인식 및 분석하여 선택된 사운드와 연관도가 가장 높은 영상을 선택하고, 선택된 영상을 사운드에 결합하여 하나의 파일로 저장한다.

상기와 같은 카메라 장치는 전자 장치로 구현할 수 있다. 여기서 상기 전자장치는 스마트 폰을 포함하는 휴대전화기, MP3단말기, 타블렛, 컴퓨터 등의 다양한 디지털 기기들이 될 수 있다. 도 11은 본 발명의 실시예에 따라 촬영 동작을 수행하는 전자장치의 구성을 도시하는 도면이다.

상기 도 11을 참조하면, 통신부170은 기지국 또는 인터넷 서버 등과 무선 통신 기능을 수행한다. 여기서 상기 통신부170은 송신신호의 주파수를 상승변환(frequency up converter) 및 전력 증폭하는 송신부와, 수신신호를 저잡음 증폭 및 주파수를 하강변환(frequency down converter)하는 수신부 등으로 구성될 수 있다. 또한 상기 통신부170은 변조부 및 복조부를 구비할 수 있다. 여기서 변조부는 송신신호를 변조하여 송신부에 전달하며, 복조부는 수신부를 통해 수신되는 신호를 복조한다. 이런 경우, 상기 변복조부는 LTE, WCDMA, GSM 등이 될 수 있으며, 또한 WIFI, WIBRO 등이 될 수 있고, NFC, Bluetooth 등이 될 수 있다. 본 발명의 실시예에서는 상기 통신부170이 LTE, WIFI, bluetooh 통신부들을 구비한다고 가정한다.

카메라120은 이미지 센서를 구비할 수 있으며, 듀얼 카메라로 구성될 수 있다. 이런 경우 제1카메라는 장치의 후면에 장착되는 후면 카메라로써 고 해상도의 이미지를 촬영할 수 있다. 그리고 제2카메라는 장치의 전면에 장착되는 전면 카메라로써, 상기 제1카메라에 비해 상대적으로 낮은 저해상도 이미지를 촬영할 수 있다.

제어부100은 전자장치의 전반적인 동작을 제어하며, 전자장치의 다양한 어플리케이션의 처리를 제어하는 어플리케이션 프로세서(application processor, AP)와, 전자장치의 통신 기능을 제어하는 통신 프로세서(communication processor, CP)를 구비할 수 있다. 그리고 상기 어플리케이션처리부은 본 발명의 실시예에 따른 사운드 촬영모드를 수행할 수 있으며, 도 2와 같은 구성을 포함할 수 있다.

저장부110은 전자장치의 동작 프로그램 및 본 발명의 실시예에 따른 프로그램을 저장하는 프로그램 메모리와, 단말기의 동작을 위한 테이블들 및 프로그램 수행 중에 발생되는 데이터를 저장하는 데이터 메모리를 구비할 수 있다.

영상처리부130은 상기 제어부100의 어플리케이션 처리부에 포함될 수 있으며, 상기 도 3과 같은 구성을 가질 수 있다. 상기 영상처리부130은 카메라120에서 촬영되는 영상을 처리하며, 표시 이미지 사이즈로 스케일링하고, 저장(캡쳐)되는 영상을 압축부호화하고 압축부호화된 영상을 복호하하는 기능을 수행할 수 있다. 또한 상기 영상처리부130은 사운드 촬영모드시 일시 저장중인 영상들을 섬네일 이미지로 변환하는 섬네일처리부를 구비한다.

표시부140은 상기 제어부100의 제어하에 실행중인 어플리케이션의 정보를 표시한다. 그리고 상기 표시부140은 상기 제어부100의 제어하에 사운드 촬영모드시 촬영된 영상들을 섬네일 이미지로 표시한다. 상기 표시부140은 LCD 또는 OLED가 될 수 있다. 입력부150은 정정용량 방식 또는 저항막 방식으로 구현할 될 수 있으며, 사용자의 터치(이하 손가락 터치라고 가정한다)의 위치정보를 상기 제어부100에 출력한다. 또한 상기 입력부150은 EMR센서 패드를 더 구비할 수 있으며, 펜 터치입력을 감지하여 상기 제어부100에 출력한다. 여기서 상기 표시부140 및 입력부150은 일체형으로 구성할 수 있다.

오디오처리부160은 사운드 촬영모드시 상기 제어부100의 제어하에 마이크163으로부터 수신되는 사운드를 처리하여 녹음할 수 있다. 여기서 상기 오디오처리부160은 상기 사운드를 일시 저장하는 오디오 버퍼를 구비할 수 있다. 또한 사운드 촬영모드에서 녹음되는 사운드는 상기 제어부100의 제어하에 상기 저장부110에 일시 저장될 수도 있다. 그리고 상기 오디오처리부160은 상기 제어부100의 제어하에 통신모드에서 발생되는 음성 신호를 처리한다.

상기와 같은 구성을 가지는 전자장치에서 영상처리부130은 프리뷰 모드에서 카메라120에서 출력되는 영상을 표시이미지 사이즈로 처리하여 표시부140에 출력한다. 그리고 상기 프리뷰 모드에서 입력부150을 통해 사운드 촬영 요청이 감지되면, 상기 제어부100은 설정된 시간 동안 영상 및 사운드를 연속 획득하여 버퍼링한다. 이때 영상 및 사운드를 설정된 시간 동안 획득하는 방법은 다양한 방법으로 수행할 수 있다. 첫 번째 방법은 사운드 촬영 모드가 요청된 시점에서 설정된 시간동안 영상 및 사운드를 획득할 수 있다. 두 번째로 카메라장치는 프리뷰 모드에서 영상 및 사운드를 버퍼링하며, 사용자의 사운드 촬영 요청 시점에서 영상 및 사운드의 획득 구간(촬영 시작 요구 이전 및 이후 몇 초간의 영상 및 사운드를 저장)을 설정할 수도 있다. 세 번째로 영상의 시간적 저장 범위와 사운드의 시간적 저장 범위를 다르게 설정할 수도 있다. 네 번째로 사운드 촬영시 획득되는 사운드와 영상 분석을 통해 저장 시점을 결정할 수도 있다. 이때 상기 사운드 촬영시 버퍼링되는 영상은 설정된 시간 구간에서 정지영상(예를들어 촬영 설정 시간(제1시간이라 가정) 동안 정지 영상을 획득하며, 여기서 상기 정지 영상 획득 주기도 설정된 시간 간격(제2시간이라 가정)으로 획득할 수 있다. 이때 상기 정지영상은 이미지센서120에서 출력되는 풀 해상도의 영상이 될 수 있다. 그리고 상기 제어부100은 영상을 획득하는 동시에 설정된 시간에서 상기 오디오처리부160을 제어하여 마이크163에서 변환되는 사운드를 처리하여 저장(녹음)한다.

사운드 촬영이 종료되면, 상기 제어부100은 상기 촬영 설정시간 동안 획득된 영상을 섬네일 이미지로 변환하여 상기 표시부140에 표시한다. 그리고 상기 영상이 선택되면, 상기 제어부100은 선택된 영상을 인식 및 분석한다. 이때 상기 영상을 선택하는 방법은 상기 표시부140에 표시되는 섬네일 이미지들 중에서 사용자에 의해 선택되는 영상을 선택할 수 있으며, 또는 제어부100이 표시되는 영상 및/또는 사운드를 인식 및 분석하고 분석 결과에 가장 밀접한 특징을 가지는 정지영상을 선택하는 방법을 사용할 수 있다.

영상이 선택되면, 상기 제어부100은 선택된 영상의 인식은 영상 내에 포함된 주 피사체가 인물 또는 사물인가를 분석한다. 이때 영상의 주 피사체가 인물인 경우에는 얼굴 영역을 인식 및 분석하여 인물의 감정 상태를 분석할 수 있다. 여기서 인물의 감정의 얼굴에 나타내는 희노애락의 감정이 될 수 있으며, 이는 안면 근육의 움직임을 분석하여 결정할 수 있다. 상기 제어부100은 영상인식부210을 구비하며, 상기 영상인식부210은 인물의 얼굴 근육의 움직임을 분석하여 감정(기쁨, 놀람, 슬픔, 화남, 공포, 지루함, 무표정 등의 다양한 감정 상태)을 인식할 수 있다. 이때 동물(예를들면 개)의 경우에도 상기 인물과 유사한 인식 기술을 적용할 수 있다. 또한 사물의 인식은 사물은 고유한 이미지 특징을 가질 수 있다. 예를들면 자동차, 비행기, 기차, 나무, 건물 등은 고유한 특징을 가질 수 있다. 또한 사물은 특정한 상태(예를들면 폭죽의 경우 공중에서 폭발할 때)에 특정한 이미지 형상을 가질 수 있다.

상기와 같이 선택된 영상을 인식 및 분석한 후, 상기 제어부100은 녹음된 사운드를 분석한다. 상기 제어부100은 인식된 영상(인물 또는 사물)의 타입에 따라 대응되는 사운드를 선택하기 위하여 녹음된 사운드를 인식 및 분석한다. 이후 상기 제어부100은 선택된 영상에 대응되는 사운드의 연관도를 분석하며, 연관도가 높은 사운드 구간을 선택한 후 오디오처리부160을 통해 재생한다. 그리고 상기 제어부100은 선택된 영상 및 이에 연관도 높은 사운드를 합성 및 저장한다. 이때 상기 제어부100은 사운드 촬영모드에서 저장한 영상들 및/또는 사운드를 저장부110에 저장할 수도 있다. 이런 경우 사운드 촬영모드를 수행한 후 이미지 편집모드를 수행하여 원하는 영상과 사운드를 합성할 수 있다. 또한 상기 제어부100은 먼저 사운드를 선택한 후, 선택된 사운드와 밀접한 연관도를 가지는 영상을 선택하고, 선택된 사운드 및 영상을 합성하여 저장할 수도 있다.

본 명세서와 도면에 개시 된 본 발명의 실시예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

카메라를 구비하는 장치의 촬영 방법에 있어서,
사운드 촬영 모드에서 설정시간 동안 영상 및 사운드를 동시에 촬영하여 일시 저장하는 과정과,
사운드 촬영 종료 후, 상기 촬영된 영상을 섬네일 이미지들로 변환하여 표시하는 과정과,
상기 표시되는 섬네일 이미지들 중에서 적어도 하나의 섬네일 이미지를 선택하는 과정과,
상기 선택된 섬네일 이미지에 대응하는 영상을 인식하는 과정과,
상기 인식된 영상의 속성을 결정하는 과정과,
상기 영상 인식 후 상기 일시 저장된 사운드를 인식하는 과정과,
상기 결정된 영상의 속성에 기반하여 연관도가 높은 사운드를 선택하는 과정과, 및
상기 선택된 사운드와 영상을 합성하여 저장하는 과정으로 이루어짐을 특징으로 하는 방법.
삭제
제1항에 있어서, 상기 적어도 하나의 영상을 선택하는 과정은,
상기 표시되는 섬네일 이미지들에서 사용자에 의해 선택되는 섬네일 이미지에 대응되는 영상을 선택하는 것을 특징으로 하는 방법.
제3항에 있어서, 상기 섬네일 이미지를 표시하는 과정은,
상기 영상들을 상호비교하여 선명도가 높고 움직임이 큰 영상에 대응되는 섬네일 이미지를 추천 영상으로 표시하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 사운드 촬영모드는 사운드 촬영 요구 시점에서 설정된 제1시간 동안 수행하며,
상기 영상 및 사운드를 동시에 촬영하여 저장하는 과정은,
상기 제1시간 구간에서 제2시간 간격으로 영상을 획득하며, 상기 제1시간 동안 사운드를 연속 녹음 저장하며,
상기 제1시간은 상기 제2시간보다 더 긴 시간인 것을 특징으로 하는 방법.
제1항에 있어서,
상기 영상 및 사운드를 동시에 촬영하여 저장하는 과정은,
프리뷰 모드에서 영상 및 사운드를 버퍼에 일시 저장하며, 사운드 촬영 요구시점에서 이전의 설정 시간 주기에 일시 저장된 영상 및 사운드를 저장하고, 이후의 설정된 시간의 영상 및 사운드를 획득하여 저장하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 영상 및 사운드를 동시에 촬영하여 저장하는 과정은,
상기 영상을 촬영하는 시간과 사운드를 녹음하는 시간을 서로 다른 시간 주기로 수행하는 것을 특징으로 하는 방법.
제5항에 있어서, 상기 선택된 사운드와 영상을 합성하여 저장하는 과정은,
헤더 영역에 영상의 촬영정보를 저장하고, 바디 영역에 영상을 저장하며, 부가영역에 사운드를 저장하는 것을 특징으로 방법.
제5항에 있어서,
상기 선택된 사운드와 영상을 합성하여 저장하는 과정은,
상기 일시 저장된 영상 및 사운드를 저장하는 과정을 더 구비하며,
이미지 편집모드에서 영상 선택시 선택된 영상과 사운드를 인식하며, 선택된 영상과 연관도가 높은 사운드를 선택한 후, 선택된 영상 및 사운드를 합성하여 저장하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 사운드 촬영 종료 후 상기 저장된 사운드를 인식하는 과정과,
상기 사운드 분석후 상기 저장된 영상들을 인식하는 과정과,
상기 인식된 사운드에 연관도가 높은 영상을 선택하며, 상기 선택된 사운드와 영상을 합성하여 저장하는 과정을 더 포함하는 것을 특징으로 하는 방법.
카메라를 구비하는 장치는,
이미지센서와,
상기 이미지 센서에서 획득되는 영상을 처리하는 이미지처리부와,
마이크로부터 수신되는 사운드를 처리하는 오디오처리부와,
선택된 영상 및 사운드를 합성하여 저장하는 저장부와, 및
사운드 촬영 모드에서 상기 이미지처리부 및 상기 오디오처리부를 제어하여 설정시간 동안 영상 및 사운드를 획득하여 일시 저장하며, 사운드 촬영 종료 후 상기 촬영된 영상을 섬네일 이미지들로 변환하여 표시하고, 상기 표시되는 섬네일 이미지들 중에서 적어도 하나의 섬네일 이미지를 선택하여 상기 선택된 섬네일 이미지에 대응하는 영상을 인식하고, 상기 인식된 영상의 속성을 결정하고, 상기 영상 인식 후 일시 저장된 사운드를 인식하며, 상기 결정된 영상의 속성에 기반하여 연관도가 높은 사운드를 선택하며, 상기 선택된 사운드와 영상을 합성하여 상기 저장부에 저장하는 제어부로 구성된 것을 특징으로 하는 장치.
삭제
제11항에 있어서,
상기 이미지처리부는,
상기 이미지센서에서 획득되는 영상을 처리하는 영상처리부와,
상기 영상처리부에서 출력되는 이미지를 상기 표시부의 표시 이미지 사이즈로 스케일링하는 스케일러와,
상기 영상처리부에서 출력되는 영상을 일시저장하는 버퍼와,
상기 버퍼에 저장된 영상들을 섬네일이미지로 변환하는 섬네일처리부로 구성되며,
상기 제어부는 사운드 촬영이 종료되면 상기 섬네일처리부를 제어하여 상기 표시부에 섬네일 이미지들을 표시하며, 표시되는 섬네일 이미지들에 대응되는 적어도 하나의 영상을 선택하고, 선택된 영상을 인식하는 것을 특징으로 하는 장치.
제13항에 있어서,
상기 제어부는 상기 버퍼에 저장된 영상들을 상호비교하여 선명도가 높고 움직임이 큰 영상을 표시되는 상기 섬네일 이미지에 추천 영상으로 표시하고, 사용자에 의해 선택되는 섬네일 이미지에 대응되는 영상을 선택하는 것을 특징으로 하는 장치.
제13항에 있어서,
상기 제어부는 상기 사운드 촬영을 상기 사운드 촬영 요구 시점에서 설정된 제1시간 동안 수행하며, 상기 사운드 촬영시 상기 제1시간 구간에서 제2시간 간격으로 영상을 획득하여 상기 이미지처리부의 버퍼에 저장하고, 상기 제1시간 동안 사운드를 연속 녹음 저장하며, 상기 제1시간은 상기 제2시간보다 더 긴 시간인 것을 특징으로 하는 장치.
제13항에 있어서,
상기 제어부는 프리뷰 모드에서 영상 및 사운드를 이미지처리부의 버퍼에 일시 저장하며, 사운드 촬영 요구시점에서 이전의 설정 시간 주기에 일시 저장된 영상 및 사운드를 저장하고, 이후의 설정된 시간의 영상 및 사운드를 획득하여 저장하는 것을 특징으로 하는 장치.
제13항에 있어서,
상기 제어부는 영상을 촬영하는 시간과 사운드를 녹음하는 시간을 서로 다른 시간 주기로 수행하는 것을 특징으로 하는 장치.
제15항에 있어서,
상기 제어부는 상기 저장부에 합성파일을 저장하며,
상기 합성파일은 영상의 촬영정보를 저장하는 헤더와, 영상을 저장하는 바디와, 사운드를 저장하는 부가영역으로 구성된 것을 특징으로 하는 장치.
제18항에 있어서,
상기 제어부의 제어하에 상기 합성파일을 업로드하는 통신부를 더 구비하는 것을 특징으로 하는 장치.
제15항에 있어서,
상기 제어부는 일시저장된 영상 및 사운드를 상기 저장부에 저장하며,
이미지 편집모드에서 영상 선택시 선택된 영상과 사운드를 인식하며, 선택된 영상과 연관도가 높은 사운드를 선택한 후, 선택된 영상 및 사운드를 합성하여 저장하는 것을 특징으로 하는 장치.