KR20140114238A

KR20140114238A - 오디오와 결합된 이미지 표시 방법

Info

Publication number: KR20140114238A
Application number: KR1020130028858A
Authority: KR
Inventors: 김현정; 정철호; 김진우; 이기혁
Original assignee: 삼성전자주식회사
Priority date: 2013-03-18
Filing date: 2013-03-18
Publication date: 2014-09-26
Also published as: US20140314391A1; EP2782098A2; EP2782098A3; US9743033B2; CN104065869A; CN104065869B; AU2013263740A1

Abstract

본 개시는 오디오와 결합된 이미지를 생성하고, 상기 이미지 표시 및 상기 오디오 출력에 관한 것으로, 전자 장치의 동작 방법은, 이미지를 표시하는 동작과, 상기 이미지 내 제1이미지 객체가 선택 시, 상기 제1이미지 객체에 대응하는 제1오디오 객체를 출력하는 동작과, 상기 이미지 내 제2이미지 객체가 선택 시, 상기 제2이미지 객체에 대응하는 제2오디오 객체를 출력하는 동작을 포함할 수 있다.

Description

오디오와 결합된 이미지 표시 방법{METHOD FOR GENERATING AND DISPLAYING IMAGE COUPLED AUDIO}

본 개시의 다양한 실시 예들은 전자 장치에서 이미지 및 오디오의 생성 및 재생에 대한 것이다.

많은 전자 장치들은 이미지(image), 오디오(audio)를 입력, 편집, 조회, 또는, 재생하는 기능을 하나 이상 제공하는 멀티미디어(multimedia) 장치로서 동작할 수 있다. 이러한 전자 장치들은 다양한 파일 포맷과 코덱을 지원한다. 일반적으로, 멀티미디어의 파일 포맷(format)은 코덱(codec)에 따라 인코딩(encoding)된 미디어 데이터를 소정의 형식으로 담은 컨테이너(container)로서, 미디어 내 재생 위치 정보와 미디어의 시간 정보 등을 포함한다. 상기 멀티미디어 파일은 재생(play), 일시 정지(pause), 탐색(seek) 등과 같은 다양한 기능을 제공할 수 있다.

예를 들어, 이미지로서, 스틸(still) 이미지와 동영상이 있으며, JPEG(Joint Photography Experts Group), GIF(Graphics Interchange Format), BMP(BitMaP), TIFF(Tagged Image File Format), AI(Adobe Illustrator), H.263, H.264(AVC), MPEG(Moving Picture Experts Group), AVI(Audio Video Interleaved), WMV(Windows Media Video), DivX(Digital Video Express), XviD, MOV(Quick Time Movie), ASF(Advanced Streaming Format), VP8 등과 같은 코덱이나 파일 포맷들이 널리 사용되고 있다. 또한, 오디오의 코덱이나 파일 포맷으로서, G.711, G.726, G.723, G.729, EVRC(Enhanced Variable Rate Codec), AMR(Adaptive Multi-Rate), AC-3(Audio Coding-3), WMA(Windows Media Audio), MP3(MPEG-1 Audio Layer-3), MIDI(Musical Instrument Digital Interface), PCM(Pulse Code Modulation), ADPCM(Adaptive Differential Pulse Code Modulation), 3GPP(3rd Generation Partnership Project), 3GPP2, 오그 보비스(Ogg Vorbis) 등이 널리 사용되고 있다.

상술한 바와 같이, 다양한 전자 장치들이 카메라(camera) 기능을 이용하여 시각적인 데이터를 사용자에게 제공할 수 있다.

본 개시의 일 실시 예는 전자 장치에서 이미지 및 오디오를 결합시킬 수 있다.

본 개시의 다른 실시 예는 전자 장치에서 이미지 촬영 시 녹음된 오디오에서 이미지 내의 각 피사체에 대응되는 오디오를 추출할 수 있다.

본 개시의 또 다른 실시 예는 전자 장치에서 이미지 촬영 시 녹음된 오디오를 이미지 내 각 피사체에 대응시킬 수 있다.

본 개시의 또 다른 실시 예는 전자 장치에서 이미지 내의 각 피사체에 대응되는 오디오를 선택적으로 출력할 수 있다.

본 개시의 실시 예에 따른 전자 장치의 동작 방법은, 이미지를 표시하는 동작과, 상기 이미지 내 제1이미지 객체가 선택 시, 상기 제1이미지 객체에 대응하는 제1오디오 객체를 출력하는 동작과, 상기 이미지 내 제2이미지 객체가 선택 시, 상기 제2이미지 객체에 대응하는 제2오디오 객체를 출력하는 동작을 포함할 수 있다.

본 개시의 실시 예에 따른 전자 장치의 동작 방법은, 이미지 및 오디오를 수집하는 동작과, 상기 이미지로부터 추출된 적어도 하나의 이미지 객체 및 상기 오디오로부터 추출된 상기 적어도 하나의 오디오 객체의 특징들에 기초하여 상기 적어도 하나의 이미지 객체 및 상기 적어도 하나의 오디오 객체 간 대응 관계를 결정하는 동작과, 상기 이미지를 나타내는 이미지 데이터, 상기 오디오를 나타내는 오디오 데이터, 상기 대응 관계를 나타내는 매핑(mapping) 데이터를 포함하는 결합 데이터 집합을 저장하는 동작을 포함할 수 있다.

본 개시의 실시 예에 따른 전자 장치는, 이미지를 표시하는 표시부와, 상기 이미지 내 제1이미지 객체가 선택 시, 상기 제1이미지 객체에 대응하는 제1오디오 객체를 출력하고, 상기 이미지 내 제2이미지 객체가 선택 시, 상기 제2이미지 객체에 대응하는 제2오디오 객체를 출력하도록 제어하는 프로세서를 포함할 수 있다.

본 개시의 실시 예에 따른 전자 장치는, 이미지 및 오디오를 수집하고, 상기 이미지로부터 추출된 적어도 하나의 이미지 객체 및 상기 오디오로부터 추출된 상기 적어도 하나의 오디오 객체의 특징들에 기초하여 상기 적어도 하나의 이미지 객체 및 상기 적어도 하나의 오디오 객체 간 대응(mapping) 관계를 결정하는 프로세서와, 상기 이미지를 나타내는 이미지 데이터, 상기 오디오를 나타내는 오디오 데이터, 상기 대응 관계를 나타내는 매핑 데이터를 포함하는 결합 데이터 집합을 저장하는 저장부를 포함할 수 있다.

본 개시의 실시 예에 따른 전자 장치는, 적어도 하나의 소프트웨어 모듈을 저장하는 메모리와, 상기 메모리에 저장된 상기 적어도 하나의 소프트웨어 모듈을 실행할 수 있는 프로세서와, 상기 프로세서의 제어에 따라 이미지를 표시하는 표시부를 포함할 수 있으며, 상기 적어도 하나의 소프트웨어 모듈은, 상기 이미지 내 제1이미지 객체가 선택 시, 상기 제1이미지 객체에 대응되는 제1오디오 객체를 출력하고, 상기 이미지 내 제2이미지 객체가 선택 시, 상기 제2이미지 객체에 대응되는 제2오디오 객체를 출력하도록 제어하는 적어도 하나의 명령어 집합을 포함할 수 있다.

본 개시의 실시 예에 따른 전자 장치는, 적어도 하나의 소프트웨어 모듈을 저장하는 메모리와, 상기 메모리에 저장된 상기 적어도 하나의 소프트웨어 모듈을 실행할 수 있는 프로세서를 포함할 수 있으며, 상기 적어도 하나의 소프트웨어 모듈은, 이미지 및 오디오를 수집하고, 상기 이미지로부터 추출된 적어도 하나의 이미지 객체 및 상기 오디오로부터 추출된 상기 적어도 하나의 오디오 객체의 특징들에 기초하여 상기 적어도 하나의 이미지 객체 및 상기 적어도 하나의 오디오 객체 간 대응(mapping) 관계를 결정하고, 상기 이미지를 나타내는 이미지 데이터, 상기 오디오를 나타내는 오디오 데이터, 상기 대응 관계를 나타내는 매핑 데이터를 포함하는 결합 데이터 집합을 상기 메모리에 저장하도록 제어하는 적어도 하나의 명령어 집합을 포함할 수 있다.

본 개시의 실시 예에 따른 컴퓨터 판독 가능 저장 매체는, 전자 장치에 의해 실행될 경우, 상기 장치로 하여금 상술한 방법들을 수행하도록 하는 명령어들을 포함하는 적어도 하나의 프로그램을 저장할 수 있다.

본 개시의 실시 예에 따른 전자 장치의 동작 방법은, 제1카메라를 통해 입력되는 제1이미지 및 제2카메라를 통해 입력되는 제2이미지를 표시하는 동작과, 오디오가 발생하였을 때 제1카메라와 제2카메라의 촬영 방향 중 어느 카메라 방향인지 판별하는 동작과, 판별된 방향 정보에 기반하여 상기 제1이미지 혹은 상기 제2이미지 중 해당 해당방향의 카메라를 통해 입력된 이미지와 상기 오디오를 매핑(mapping)하는 동작을 포함할 수 있다.

오디오를 이미지와 함께 저장할 경우, 사용자는 별도의 저작 툴(tool)을 이용하여 이미지와 오디오를 비디오 파일 포맷 형식으로 편집하여 저장하거나, 또는, 카메라와 마이크가 내장된 컴퓨팅 장치를 이용하여 비디오 포맷으로 저장한다. 비디오 파일로 저장된 경우, 단순히 비디오 파일 재생, 탐색 등이 지원될 뿐이며, 이미지에 사용자 입력이 이루어지고, 이에 따른 특정 오디오 출력 등과 같은 상호 작용이 표현될 수는 없다.

전자 장치에서 이미지 및 오디오를 분석하여 대응시킴으로서, 이미지 내 객체와 관련된 오디오를 선택적으로 재생할 수 있다. 예컨데, 전자 장치는 이미지 촬영 상황과 관련된 오디오를 재생할 수 있으며, 사용자와 상호작용이 가능한 미디어를 생성함으로써 전자앨범, 슬라이드 쇼 등에 적용할 수 있다. 또한, 상기 전자 장치는 다양한 상황과 관련한 이미지와 오디오 데이터들을 함께 제공할 수 있다.

도 1은 본 개시의 실시 예에 따른 이미지 및 오디오 결합 기법을 도시하는 도면,
도 2는 본 개시의 실시 예에 따른 전자 장치에서 생성되는 이미지 및 오디오가 결합된 데이터의 구성을 도시하는 도면,
도 3은 본 개시의 실시 예에 따른 전자 장치에서 이미지 캡쳐 시점 및 오디오 저장 구간의 예를 도시하는 도면,
도 4은 본 개시의 실시 예에 따른 전자 장치에서 동영상으로부터 이미지 및 오디오를 수집하는 예를 도시하는 도면,
도 5는 본 개시의 실시 예에 따른 전자 장치에서 이미지 객체 및 오디오 객체 추출의 예를 도시하는 도면,
도 6은 본 개시의 실시 예에 따른 전자 장치에서 결합 데이터 집합의 인코딩 예들을 도시하는 도면,
도 7은 본 개시의 실시 예에 따른 전자 장치에서 이미지 객체 및 오디오 객체의 매핑 예를 도시하는 도면,
도 8은 본 개시의 실시 예에 따른 전자 장치에서 이미지 객체 별 오디오 객체 출력의 예를 도시하는 도면,
도 9는 본 개시의 실시 예에 따른 전자 장치에서 다수의 이미지 객체 선택 시 오디오 객체 출력의 예를 도시하는 도면,
도 10은 본 개시의 실시 예에 따른 전자 장치에서 오디오 객체 삭제의 예를 도시하는 도면,
도 11은 본 개시의 실시 예에 따른 전자 장치에서 이미지 분할에 따른 이미지 객체 및 오디오 객체 분할의 예를 도시하는 도면,
도 12는 본 개시의 실시 예에 따른 전자 장치에서 오디오와 결합된 이미지임을 알리는 UI(User Interface)의 예를 도시하는 도면,
도 13은 본 개시의 실시 예에 따른 전자 장치에서 이미지 객체의 구분 표시의 예를 도시하는 도면,
도 14는 본 개시의 실시 예에 따른 전자 장치에서 오디오 객체 출력 버튼 표시의 예를 도시하는 도면,
도 15는 본 개시의 실시 예에 따른 전자 장치에서 PIP(Picture In Picture) 화면 제어의 예를 도시하는 도면,
도 16은 본 개시의 실시 예에 따른 전자 장치에서 이미지 및 오디오를 결합하기 위한 기능적 블럭 구성을 도시하는 도면,
도 17은 본 개시의 실시 예에 따른 전자 장치에서 이미지 및 오디오를 결합하는 동작 절차를 도시하는 도면,
도 18은 본 개시의 실시 예에 따른 전자 장치에서 이미지 및 오디오의 결합 데이터 집합을 재생하는 동작 절차를 도시하는 도면,
도 19는 본 개시의 실시 예에 따른 전자 장치의 블록 구성을 도시하는 도면,
도 20은 본 개시의 다른 실시 예에 따른 전자 장치의 블록 구성을 도시하는 도면.

이하 첨부된 도면을 참조하여 본 개시의 동작 원리를 상세히 설명한다. 하기에서 본 개시를 설명에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 개시에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하 본 개시의 다양한 실시 예들은 전자 장치에서 이미지 및 오디오를 결합시킬 수 있는 기술에 대해 설명한다. 예컨데, 스틸 이미지(still image), 동영상과 같은 이미지 데이터와 음성, 배경음, 음악과 같은 오디오 데이터를 결합하고 재생할 수 있다.

상기 전자 장치는 휴대용 전자 장치(portable electronic device)일 수 있으며, 스마트폰(smart phone), 휴대용 단말기(portable terminal), 이동 전화(mobile phone), 이동 패드(mobile pad), 미디어 플레이어(media player), 태블릿 컴퓨터(tablet computer), 핸드헬드 컴퓨터(handheld computer), PDA(Personal Digital Assistant), 노트북(notebook), PC(Personal Computer), 전자 앨범, 울트라(ultra) PC, PMP(Portable Media Player), MP3(MPEG-1 Audio Layer-3) 플레이어, 휴대용 오디오 플레이어 등과 같이 같이 영상과 오디오를 처리하는 컴퓨팅 시스템 장치 중 하나일 수 있다. 또한, 상기 전자 장치는 상술한 장치들 중 둘 이상의 기능들을 결합한 장치일 수 있다.

도 1은 본 개시의 실시 예에 따른 이미지 및 오디오 결합 기법을 도시하고 있다.

상기 도 1을 참고하면, 상기 이미지 및 오디오 결합 기법은 이미지 촬영 동작(110), 이미지 분석 동작(115), 오디오 녹음 동작(120), 오디오 분석 동작(125), 이미지 객체 및 오디오 객체 매핑(mapping) 동작(130)를 포함한다.

상기 이미지 촬영 동작(110)는 전자 장치에 구비된 촬영 수단, 예를 들어, 카메라(camera)를 이용하여 이미지 데이터를 생성하는 동작을 포함할 수 있다. 상기 오디오 녹음 동작(120)은 상기 전자 장치에 구비된 녹음 수단, 예를 들어, 마이크(mic)를 이용하여 주변 소리를 데이터화하는 동작을 포함할 수 있다. 상기 이미지 분석 동작(115)은 촬영된 이미지 내의 이미지 객체들을 식별하고, 각 이미지 객체의 영역을 설정하는 동작을 포함할 수 있다. 여기서, 상기 이미지 객체는 이미지 내 특정 피사체(예: 사람, 사물 등), 제스쳐(gesture) 중 하나를 지정하며, 이미지 내 일정 폐영역으로 특정된다. 이를 위해, 상기 이미지 분석 동작(115)은 인물 인식, 얼굴 인식 등의 기법을 채용할 수 있다. 상기 오디오 분석 동작(125)은 녹음된 하나의 오디오 데이터로부터 각 객체의 오디오를 식별 및 추출하는 동작을 포함할 수 있다. 보다 효과적인 오디오 추출을 위해, 상기 오디오 분석 동작(125)은 잡음 제거, 셔터(shutter)음 제거 등의 음원 처리 기법을 채용할 수 있다. 상기 매핑 동작(130)은 이미지 내 객체들 및 오디오로부터 추출된 각 객체의 오디오들에 대한 결합 정보를 생성하는 동작을 포함할 수 있다. 이때, 상기 결합 정보는 별도의 데이터 베이스(database)의 형태, 또는, 이미지 파일 또는 오디오 파일의 일부로서 구성될 수 있다.

본 개시의 실시 예에 따른 전자 장치는 이미지 및 오디오를 수집하고, 상술한 바와 같이 이미지 및 오디오를 결합할 수 있다. 또한, 본 개시의 실시 예에 따른 전자 장치는 이미지를 표시하는 경우, 상기 이미지 및 상기 오디오의 결합 정보를 이용하여 상기 오디오를 출력할 수 있다.

이하 설명의 편의를 위해, 본 개시는 수집된 전체 이미지에서 추출된 이미지 단위체를 '이미지 객체', 각 이미지 객체에 매핑하기 위해 녹음된 전체 오디오에서 분리된 오디오 단위체를 '오디오 객체', 상기 이미지 객체 및 상기 오디오 객체 간 매핑 정보를 '매핑 데이터', 상기 전체 이미지, 상기 이미지 객체를 지정하는 정보, 상기 전체 오디오, 적어도 하나의 상기 오디오 객체, 상기 매핑 데이터의 묶음을 '결합 데이터 집합(set)'이라 칭한다.

도 2는 본 개시의 실시 예에 따른 전자 장치에서 생성되는 이미지 및 오디오가 결합된 데이터의 구성을 도시하고 있다.

상기 도 2를 참고하면, 상기 결합 데이터 집합(200)은 이미지 데이터(210), 오디오 데이터(220), 매핑 데이터(230)를 포함한다.

상기 이미지 데이터(210)는 촬영된 이미지 및 상기 촬영된 이미지로부터 생성되는 이미지 관련 데이터들을 포함한다. 예를 들어, 상기 이미지 데이터(210)는 촬영된 이미지 자체, 이미지 객체 지정 정보, 보정된 이미지, 또는, 이미지 데이터에 접근하기 위한 간접적 정보를 포함한다. 상기 이미지 객체 지정 정보는 전체 이미지에서 해당 이미지 객체를 포함하는 영역의 픽셀(pixel) 좌표들을 포함할 수 있다. 또는, 상기 영역이 원의 형태인 경우, 상기 이미지 객체 지정 정보는 중심점 좌표 및 반지름 길이를 포함할 수 있다. 또는, 상기 영역이 직사각형인 경우, 상기 이미지 객체 지정 정보는 좌측 상단 꼭지점 및 우측 하단 꼭지점의 좌표들, 또는, 우측 상단 꼭지점 및 좌측 하단 꼭지점의 좌표들을 포함할 수 있다. 또는, 상기 이미지 객체 지정 정보는 얼굴 영역 내부의 픽셀들의 좌표 또는 실루엣의 경계선 픽셀들의 좌표들을 포함할 수 있다. 다른 예로, 상기 이미지 객체 지정 정보는 이미지 객체의 이름, 또는, 식별자(ID: Identifier)를 포함할 수 있다. 상기 보정된 이미지는 스케일링(scaling), 색상 변환, 밝기 조정, 회색조 처리, 또는, 평활화(smoothing) 등의 영상 처리 기법을 적용한 이미지를 의미한다. 상기 간접적 정보는 상술한 이미지 데이터(210)의 구성 항목들의 전체 또는 일부를 지시하는 URL(Uniform Resource Location) 또는 링크(link)를 포함할 수 있다.

상기 오디오 데이터(220)는 녹음된 전체 오디오, 가공된 오디오, 적어도 하나의 오디오 객체, 오디오 특성 정보, 또는, 오디오 데이터에 접근하기 위한 간접적 정보를 포함한다. 상기 가공된 오디오는 잡음 제거 기술, 배경음 분리, 에코 제거기(echo canceller)와 같은 기술을 통해 잡음, 셔터음 등을 제거한 오디오일 수 있다. 또는, 상기 가공된 오디오는 묵음 구간을 제거한 오디오일 수 있다. 상기 오디오 객체는 하나의 이미지 객체에 대응하는 오디오 단위이다. 상기 오디오 객체는 하나의 오디오 파일이거나, 또는, 오디오 파일 내의 일부 구간일 수 있다. 상기 오디오 특성 정보는 각 오디오 객체의 주파수 대역, 음파나 주파수의 패턴, 피치(pitch), 리듬, 음색, 화이트노이즈(white noise), 묵음 구간, 진폭, 파장(wave length), 억양, 액센트(accent), 또는, 조음 결합을 포함한다. 상기 간접적 정보는 상술한 오디오 데이터(220)의 구성 항목들의 전체 또는 일부를 지시하는 URL(Uniform Resource Location) 또는 링크(link)를 포함할 수 있다.

상기 매핑 데이터(230)는 객체 식별 정보, 또는, 대응 관계 정보를 포함한다. 상기 객체 식별 정보는 적어도 하나의 이미지 객체 및 적어도 하나의 오디오 객체에 대한 식별 정보를 의미한다. 상기 대응 관계 정보는 이미지 객체 및 오디오 객체 간 대응 관계를 지시한다.

상기 도 2에 도시된 바와 같은 상기 결합 데이터 집합(200)을 구성하기 위해, 전자 장치는 이미지를 촬영하고, 오디오를 녹음, 다시 말해, 상기 이미지 및 상기 오디오를 수집해야 한다. 이때, 상기 전자 장치는 다음과 같이 상기 이미지 및 상기 오디오를 수집할 수 있다.

본 개시의 실시 예에 따라, 전자 장치는 이미지 촬영을 수행하는 동안 입력되는 오디오를 저장할 수 있다. 사용자의 명령에 의해 이미지 촬영 모드로 동작하는 동안, 상기 전자 장치는 프리뷰(preview) 화면을 지속적으로 표시한다. 상기 프리뷰 화면이 표시되는 동안, 상기 전자 장치는 마이크(mic)를 통해 입력되는 오디오를 임시 저장한다. 상기 프리뷰 화면 표시 상태에서 셔터가 입력되면, 상기 전자 장치는 상기 셔터 입력 시점에서 이미지 센서(sensor)를 통해 입력되는 이미지를 캡쳐(capture)하고, 상기 이미지가 캡쳐되는 시점 인근에 임시 저장된 오디오를 저장한다. 이때, 저장되는 오디오의 구간은 구체적인 실시 예에 따라 달라질 수 있다.

도 3은 본 개시의 실시 예에 따른 전자 장치에서 이미지 캡쳐 시점 및 오디오 저장 구간의 예를 도시하고 있다. 상기 도 3을 참고하면, 시점 t1(300)에 셔터가 입력된다. 이에 따라, 상기 시점 t1(300)이 이미지가 캡쳐된다. 이때, 오디오 저장 구간은 상기 시점 t1(300)을 종기(終期, ending point)로 하는 구간A(311), 상기 시점 t1(300)의 전후를 포함하는 구간B(312), 상기 시점 t1(300)을 시기(始期, starting point)로 하는 구간C(313) 중 하나 일 수 있다. 또한, 상기 도 3에 도시되지 아니하였으나, 상기 오디오 저장 구간은 상기 시점 t1(300)과 일정 시간 이격된 구간일 수 있다.

본 개시의 다른 실시 예에 따라, 전자 장치는 동영상 촬영 기능을 이용하여 이미지 및 오디오를 수집할 수 있다.

구체적으로, 상기 전자 장치는 오디오가 포함된 동영상을 촬영한다. 이후, 최대 녹화 용량이나 시간에 따른 자동 종료 또는 사용자의 중단 명령 입력에 의해, 상기 전자 장치는 동영상 촬영을 종료한다. 이후, 상기 전자 장치는 동영상을 구성하는 비디오 트랙(track) 내의 프레임(frame)들로부터 적어도 하나의 이미지를 추출하고, 오디오 트랙으로부터 오디오를 수집한다.

도 4은 본 개시의 실시 예에 따른 전자 장치에서 동영상으로부터 이미지 및 오디오를 수집하는 예를 도시하고 있다. 상기 도 4를 참고하면, 촬영된 동영상(410)은 비디오 트랙(413) 및 오디오 트랙(415)를 포함한다. 상기 비디오 트랙(413)은 다수의 프레임들을 포함한다. 이때, 상기 전자 장치는 상기 비디오 트랙(413)으로부터 적어도 하나의 이미지를 추출함으로써 이미지 데이터(421)를 생성하고, 상기 오디오 트랙(415)으로부터 오디오 데이터(422)를 생성한다.

상기 이미지를 추출하는 방안은 다음과 같다. 상기 전자 장치는 동영상에서 적어도 하나의 이미지를 추출한다. 여기서, 추출되는 이미지는 I 프레임(I-frame), 기준 이상의 움직임이 발생하는 구간 중의 프레임, 또는, 일정 시간 간격으로 배치된 프레임을 포함한다. 또한, 상기 전자 장치는 포커싱(focusing), 이미지 콘트라스트(contrast), 노이즈(noise) 비율, 밝기, 선명도 등의 화질 평가 후, 일정 기준 이상의 양호한 적어도 하나의 이미지를 추출한다. 이때, 상기 전자 장치는 다수의 이미지들를 합성하거나 오버레이(overlay)한 후, 평균적인 이미지를 결정하거나, 화질 개선 알고리즘을 통해 하나 이상의 변환된 이미지를 생성할 수 있다.

상기 오디오를 수집하는 방안은 다음과 같다. 상기 전자 장치는 오디오 트랙 을 분리 후, 인코딩하여 오디오를 수집할 수 있다. 이때, 상기 전자 장치는 오디오에서 소정 기간 이상의 묵음 구간을 제거할 수 있다.

본 개시의 또 다른 실시 예에 따라, 전자 장치는 오디오 녹음을 수행하는 동안 입력되는 이미지를 저장할 수 있다.

상기 전자 장치는 사용자 인터페이스에 의한 시작 명령에 따라 오디오 녹음을 시작한다. 상기 오디오 녹음 중, 상기 전자 장치는 하나 이상의 이미지를 촬영한다. 이때, 상기 이미지 촬영은 미리 정의된 규칙에 따라 자동으로, 또는, 사용자의 명령에 따라 수행될 수 있다. 예를 들어, 자동 방식의 경우, 상기 미리 정의된 규칙은 화자(Speaker)가 입을 움직이기 시작하여 오디오 입력이 시작된 경우, 새로운 화자의 음성이나 새로운 종류의 오디오가 입력된 경우, 또는, 얼굴이 인식된 경우를 포함할 수 있다. 다른 예로, 수동 방식의 경우, 프리뷰 화면에 표시된 물체나 사람의 얼굴 영역을 터치 또는 클릭하는 경우, 촬영 버튼이나 키가 입력된 경우에 상기 이미지 촬영이 수행될 수 있다.

보다 우수한 품질의 오디오를 수집하기 위해, 전자 장치는 이미지 촬영 시 발생하는 셔터음을 제거할 수 있다. 이를 위해, 상기 전자 장치는 카메라 촬영시 발생하는 셔터음이 마이크와 같은 오디오 입력 수단으로 입력될 때 제거하거나, 또는, 녹음된 오디오에서 후처리를 통해 제거할 수 있다.

상기 셔터음은 전자 장치에서 해당 셔터음에 해당하는 음원을 재생하거나, 또는, 셔터 버튼을 누르는 등의 기계적인 동작에 의해 발생한다. 상기 음원 재생에 의해 상기 셔터음이 발생하는 경우, 상기 전자 장치는 셔터음의 발생 시점, 신호 패턴을 미리 알 수 있으므로, 잡음 제거 기술 또는 에코 제거기(echo canceller)와 같은 기술을 통해 제거할 수 있다. 구체적으로, 상기 셔터음 음원에 대한 정보를 프로세서가 오디오 분석부에 전달함으로써, 오디오 입력 장치를 통해 입력된 오디오 신호 중 상기 셔터음이 제거될 수 있다. 상기 기계적인 동작에 의해 상기 셔터음이 발생하는 경우, 상기 전자 장치는 상기 기계음에 대한 오디오 신호 패턴을 메모리에 저장하고, 셔터 버튼이 눌릴 때, 해당 입력 신호에 대응하여 오디오 입력 장치에 의해 입력된 오디오 신호에서 해당 기계음의 오디오 신호를 제거한다.

다른 실시 예에 따라, 상기 전자 장치는 셔터음을 포함한 상태로 녹음된 오디오에서 셔터음 오디오 신호 패턴을 검색 및 제거하는 후처리 방식으로 상기 셔터음을 제거할 수 있다.

또 다른 실시 예에 따라, 오디오 입력 장치로 셔터 재생음 또는 기계음이 입력되지 아니하거나 저장되지 아니하도록 하기 위해, 상기 전자 장치는 상기 셔터 음을 감지하고, 상기 셔터음이 발생하는 동안 녹음을 중단할 수 있다. 또는, 상기 전자 장치는 상기 셔터음이 발생하는 동안 상기 셔터음이 속한 음역대의 소리를 녹음하지 아니할 수 있다.

상술한 바와 같은 이미지 및 오디오 수집 후, 본 개시의 실시 예에 따른 전자 장치는 이미지로부터 적어도 하나의 이미지 객체를, 오디오로부터 적어도 하나의 오디오 객체를 추출한 후, 상기 적어도 하나의 이미지 객체 및 상기 적어도 하나의 오디오 객체 간 대응 관계를 결정한다.

구체적으로, 상기 전자 장치는 수집된 오디오에서 노이즈 제거, 화자에 따른 음성 분리, 배경음 분리, 배경음 제거 등을 수행할 수 있다. 그리고, 상기 전자 장치는 이미지상 오디오 발생 영역을 식별한다. 예를 들어, 상기 전자 장치는 이미지 상의 움직임 또는 음원 발생 시 방향성 식별에 기반하여 상기 음원 발생 영역을 식별할 수 있다. 이어, 상기 전자 장치는 오디오 및 이미지 분석 결과에 따라 대응 관계를 결정하고, 대응 관계, 이미지 데이터 및 오디오 데이터를 저장한다.

상기 대응 관계를 결정하는 동작을 상세히 설명하면 다음과 같다.

본 개시의 실시 예에 따라, 상기 전자 장치는 얼굴 인식 및 파형 분석에 기초하여 대응 관계를 결정할 수 있다.

상기 전자 장치는 수집된 이미지를 분석하고, 이미지에 나타난 이미지 객체를 일정 기준으로 구분한다. 예를 들어, 상기 기준은 사람/사물, 사람이라면 남자/여자/어린아이/노인 등이 될 수 있다. 상기 사람 및 사물의 구분을 위해, 상기 전자 장치는 얼굴 인식 기법을 이용할 수 있다. 분류 결과(예: 이미지 데이터 안에서의 얼굴 좌표 정보, 얼굴 썸네일 이미지 데이터, 객체 ID, 남성/여성/어린이/노인 등 객체 특성정보)는 해당 이미지 파일의 헤더(header)나, 이미지 데이터와 연결된 별도의 데이터 베이스, 파일 등에 저장될 수 있다.

그리고, 상기 전자 장치는 수집된 오디오의 파형을 분석하여 각 파형이 갖는 특징점을 바탕으로 오디오 객체들을 추출하고, 상기 오디오 객체들에 대응하는 특징을 가지는 이미지 객체에 매핑한다. 여기서, 상기 파형 분석은 주파수 분석, 음의 높낮이 분석, 소리의 크기 분석, 피치(Pitch) 분석, 사물의 전형적 파형과의 유사성 판단 등을 이용하여 수행될 수 있다.

예를 들어, 상기 파형 분석에 기초한 대응 관계 결정은 하기 도 5와 같이 수행될 수 있다. 도 5는 본 개시의 실시 예에 따른 전자 장치에서 이미지 객체 및 오디오 객체 추출의 예를 도시하고 있다. 상기 도 5를 참고하면, 상기 전자 장치는 이미지 데이터를 분석한다. 구체적으로, 상기 전자 장치는 얼굴 인식을 통해 사람/사물을 분리하고, 사람을 남/여/어린아이/노인으로 분리한다. 이에 따라, 적어도 하나의 이미지 객체가 추출된다. 예컨데, 상기 도 5와 같이, 상기 전자 장치는 이미지 객체A(511) 및 이미지 객체B(512)를 사람으로, 이미지 객체C(513)을 바다로 먼저 분리한 후, 상기 이미지 객체A(511)를 여자로, 상기 이미지 객체B(512)를 남자로 분리한다. 이후, 상기 전자 장치는 오디오를 분석한다. 구체적으로, 상기 전자 장치는 오디오의 구간 별 파형 분석을 통해 파형의 고유한 특징점을 가지고 사람/사물 음성으로 분리한다. 그 결과, 상기 전체 오디오 'AAA~BB~CCCCC~'에서, 'AAA~[고음]'가 오디오 객체A(521)로, 'BB~[저음]'가 오디오 객체B(522)로, 'CCCCC~[파도소리]'가 오디오 객체C(523)으로 분리된다. 이후, 상기 전자 장치는 분리된 오디오 객체들(521, 522, 523)의 특징점과 분리된 이미지 객체들(511, 512, 513)의 특징점을 매핑한다. 이에 따라, 상기 이미지 객체A[여자](511) 및 상기 오디오 객체A[고음](521)가 매핑되고, 상기 이미지 객체B[남자](512) 및 상기 오디오 객체B[저음](523)가 매핑되고, 상기 이미지 객체C[바다](513) 및 상기 오디오 객체C[파도소리](523)가 매핑된다.

본 개시의 다른 실시 예에 따라, 상기 전자 장치는 인물 및 대상의 움직임에 기초하여 대응 관계를 결정할 수 있다.

이미지 촬영 시, 상기 전자 장치는 인물이나 사물의 움직임이나 제스처에 의하여 오디오와의 대응 관계를 판단할 수 있다. 예를 들어, 오디오 녹음이 발생하는 때, 화상 촬영 장치를 통해 입력되는 이미지, 예를 들어, 프리뷰 영상에서 입이 움직이는 사람의 위치, 얼굴 영역 등을 식별함으로써, 상기 전자 장치는 현재 입력 중인 오디오의 발생 주체가 무엇인지를 판단할 수 있다. 예를 들어, 상기 전자 장치는 현재 움직임이 있는 것으로 관찰되는 이미지 객체가 현재 입력되는 오디오의 발생 주체라고 판단할 수 있다.

추가적으로, 상기 전자 장치는 이미지 객체의 영역 정보, 또는, 얼굴이나 사물 인식에 의한 정보(예: 이름, ID 등) 및 입력되는 오디오 간 대응 관계를 등록하고, 저장할 수 있다.

본 개시의 또 다른 실시 예에 따라, 상기 전자 장치는 오디오의 방향성 정보에 기초하여 대응 관계를 결정할 수 있다.

상기 전자 장치는 오디오 녹음 시 음원의 방향을 판단하고, 상기 방향이나 상기 방향성 정보에 기초하여 오디오를 발생시키는 이미지 객체를 판단할 수 있다. 예를 들어, 스테레오 마이크가 전자 장치의 한쪽 면에 배치된 경우, 상기 전자 장치는 음원의 대략적인 방향을 판단할 수 있다. 이에 따라, 상기 전자 장치는 입력된 이미지로부터 음원에 대응하는 이미지 객체의 좌표를 식별할 수 있고, 이미지 객체 및 입력되는 오디오 객체의 대응 관계를 결정할 수 있다. 예를 들어, 이미지의 좌측에 하나의 인물이 식별되고, 입력되는 오디오의 방향이 좌측으로 판단되는 경우, 상기 전자 장치는 상기 좌측에 식별되는 인물을 하나의 이미지 객체로 정의하고, 상기 이미지 객체 및 현재 입력되는 오디오를 매핑시킬 수 있다.

다른 예로, 상기 전자 장치의 전면 및 후면에 각각에 카메라가 배치되고, 각 카메라 렌즈 방향으로부터 발생하는 음원을 식별할 수 있는 적어도 하나의 마이크가 구비된 경우, 상기 전자 장치는 2개의 카메라들을 통해 입력된 이미지들을 하나의 이미지로 합성하고, 합성된 이미지에서 각각의 오디오 입력에 대응하는 이미지 객체를 식별할 수 있다. 예를 들어, 다수의 마이크들이 각 카메라 렌즈 방향에 설치될 수 있다. 다른 예로, 상기 다수의 마이크들이 카메라 렌즈 방향에 무관하게 설치되더라도, 상기 전자 장치는 다수의 마이크들로 입력되는 음원의 시간 차를 이용하여 음원의 방향성을 판단할 수 있다. 또 다른 예로, 설치된 마이크가 지향성(directional) 마이크로서, 그 자체로 음원의 방향성을 식별할 수 있다. 이때, PIP(Picture In Picture) 기능이 지원되는 경우, 배경 이미지 영역은 후면 카메라로 입력되는 이미지이며, 상기 배경 이미지 영역이 하나의 이미지 객체로 지정되고, 후면 마이크로 입력된 오디오와 매핑될 수 있다. 그리고, PIP로 표현되는 작은 이미지 영역은 전면 카메라를 통해 입력된 이미지이며, 상기 작은 이미지 영역이 하나의 이미지 객체로 지정되고,전면 마이크로 입력되는 오디오와 매핑될 수 있다.

본 개시의 또 다른 실시 예에 따라, 오디오에서 오디오 객체들을 추출함에 있어서, 이미지 객체들 각각의 음성을 분리하기 어려운 경우, 상기 전자 장치는 다수의 특징점들을 상위 특징점으로 분류하여 하나의 그룹으로 정의할 수 있다. 예를 들어, 상기 전자 장치는 고음/저음으로 오디오 객체를 분류하고, 남/여 성별로 그룹화할 수 있다.

이미지 및 오디오 간 대응 관계를 결정함에 있어서, 반드시 동일 시점에 촬영된 이미지 및 녹음된 오디오 간에만 대응 관계가 설정되는 것은 아니다. 예컨데, 서로 다른 시점에 수집된 이미지 및 오디오 간에도 대응 관계가 결정될 수 있다.

예를 들어, 상기 전자 장치는 첫 번째 이미지 및 첫 번째 오디오를 수집하고, 분석 동작을 통해 대응 관계 설정한다. 이후, 상기 전자 장치는 두 번째 이미지 및 두 번째 오디오를 수집하고, 상기 첫 번째 이미지, 상기 첫 번째 오디오, 상기 두 번째 이미지, 상기 두 번째 오디오를 분석한 후, 대응 관계를 설정한다. 이때, 첫 번째 이미지 및 두 번째 오디오의 연관성이 상대적으로 더 높은 경우, 상기 전자 장치는 상기 첫 번째 오디오가 아닌 두 번째 오디오에서 추출된 오디오 객체를 상기 첫 번째 이미지에서 추출된 이미지 객체와 매핑시킨다. 예를 들어, 인물A가 "AAA", 인물B가 "BBB"를 발음하는 경우, 첫 번째 오디오는 "AAA"를 포함하나, 첫 번째 이미지 촬영시 인물B가 촬영된 경우, 첫 번째 이미지 및 첫 번째 오디오의 연관성은 낮다. 또한, 두 번째 오디오는 "BBB"를 포함하나, 두 번째 이미지 촬영시에는 인물A가 움직이는 경우, 두 번째 이미지 및 두 번째 오디오의 연관성은 낮다. 이 경우, 첫 번째 이미지 및 두 번째 오디오 간, 두 번째 이미지 및 첫 번째 오디오 간 대응 관계가 설정될 수 있다.

이를 위해, 상기 전자 장치는 상대적 연관성을 판단해야 한다. 상기 전자 장치는 이미지 및 오디오 분석을 통해 상기 상대적 연관성을 판단하거나, 또는, 별도의 UI(User Interface)를 통해 사용자로부터 입력받을 수 있다.

본 개시의 실시 예에 따른 전자 장치는 미리 정의된 규칙에 따라 이미지 객체 및 오디오 객체 간 대응 관계를 설정한다. 이에 보완하여, 상기 전자 장치는 사용자의 명령에 의해 상기 대응 관계를 설정할 수 있는 UI를 제공할 수 있다. 다시 말해, 상기 전자 장치는 이미지 객체 및 오디오 객체를 서로 매핑할 수 있는 UI를 제공할 수 있다. 구체적으로, 상기 전자 장치는 선택 가능한 오디오 객체의 목록을 표시하고, 사용자에 의해 선택되는 오디오 객체를 확인한 후, 식별된 이미지 객체와 매핑할 수 있다. 또는, 사용자에 의해 이미지 객체가 선택 시, 상기 전자 장치는 매핑 가능한 오디오 객체 목록을 표시하고, 상기 사용자에 의해 선택되는 오디오 객체를 상기 이미지 객체에 매핑할 수 있다. 예컨데, 상기 전자 장치는 사용자에 의해 선택된 이미지 객체 및 오디오 객체 간 대응 관계를 결정한다.

본 개시의 실시 예에 따른 전자 장치는 상술한 바와 같이 수집된 이미지 및 오디오와 상술한 바와 같이 결정된 대응 관계 정보를 결합 데이터 집합으로 인코딩(encoding) 및 디코딩(decoding)할 수 있다. 이하 본 개시는 상기 인코딩 및 디코딩에 대하여 상세히 설명한다. 이하 설명에서, 파일(file)을 예로 들어 설명하나, 본 개시의 상기 결합 데이터 집합의 형태는 비트 스트림(bit stream)일 수도 있다.

상기 결합 데이터 집합은 하나의 파일, 또는, 다수의 파일들로 인코딩될 수 있다. 구체적으로, 상기 결합 데이터 집합은 이하 도 6에 도시된 바와 같이 인코딩될 수 있다. 도 6은 본 개시의 실시 예에 따른 전자 장치에서 결합 데이터 집합의 인코딩 예들을 도시하고 있다. 상기 도 6의 (a)는 오디오 파일(611)에 이미지 데이터(612)가 삽입되는 오디오 파일 기반 이미지 삽입 형태, (b)는 이미지 파일(621)에 오디오 데이터(622)가 삽입되는 이미지 파일 기반 오디오 삽입 형태, (c)는 이미지 데이터가 비디오 트랙(632)으로서, 오디오 데이터가 오디오 트랙(633)으로서 구성되는 동영상 파일(631) 형식의 이미지 파일 및 오디오 파일 합성 형태, (d)는 이미지 파일(641), 오디오 파일(642), 매핑 정보 데이터 베이스(643)가 각각 별도로 존재하는 별도의 매핑 정보 데이터를 추가한 형태를 도시한다.

상기 오디오 파일 기반 이미지 삽입 형태의 인코딩 및 디코딩은 다음과 같다. 상기 오디오 파일 기반 이미지 삽입 형태는, 상기 도 6의 (a)와 같이, 오디오 파일의 일부에 이미지 데이터를 포함시키거나, 또는, 이미지 데이터를 부가하는 방식을 의미한다.

본 개시의 실시 예에 따라, 오디오 파일의 메타(meta) 데이터 영역에 이미지 데이터가 인코딩될 수 있다. 예를 들어, MP3 파일의 경우, ID3 태그(tag)에 상기 이미지 데이터가 저장될 수 있다. 상기 ID3 태그는 MP3 파일 포맷(format)에서 정의되는 메타 데이터의 컨테이너(container)를 의미한다. 일반적으로, 상기 ID3 태그는 작곡가, 재생 시간(duration), 앨범 이미지 등의 정보를 포함한다. 상기 결합 데이터 집합을 구성하기 위해, 상기 MP3 파일의 ID3 태그 영역에 상기 이미지 데이터가 삽입될 수 있다. 예를 들어, 상기 앨범 이미지 영역에 상기 이미지 데이터가 삽입될 수 있다. 또는, 오디오와 연관된 이미지 좌표, 화자의 얼굴 이미지 등이 상기 메타 데이터 영역에 저장될 수 있다. 필요에 따라, 적어도 하나의 상기 이미지 데이터를 저장함으로써 다양한 운용이 가능하다.

본 개시의 다른 실시 예에 따라, 상기 메타 데이터 영역이 아닌, 이미지 데이터를 위한 별도의 새로운 필드가 정의될 수 있다. 이 경우, 상기 전자 장치는 상기 이미지 데이터를 위해 정의된 필드에 상기 이미지 데이터를 저장한다. 예를 들어, 상기 오디오 파일의 전단, 후단, 또는, 특정 중간 위치에 별도의 새로운 필드가 정의되며, 상기 이미지 데이터가 상기 필드에 저장될 수 있다.

본 개시의 또 다른 실시 예에 따라, 상기 이미지 데이터는 오디오 파일의 텍스트 트랙(text track) 또는 별도로 제공되는 자막 정보(예: 자막 파일 등)에 포함될 수 있다.

오디오 파일 기반 이미지 삽입 형태의 일 예는, MP3 파일의 ID3 태그 영역에 포함된 앨범 이미지 항목을 스틸 이미지로 대체하는 것이다. 이 경우, 앨범 이미지를 표시하는 일반적인 MP3 재생기에서 이미지와 함께 오디오가 출력될 수 있다. 또한, 메타 데이터를 이용하면, 다양한 방식의 서비스들이 제공될 수 있다. 예를 들어, 오디오 파일의 메타 데이터 영역에 이미지 데이터에 접근할 수 있는 간접적 정보(예: URL)가 기록된 경우, 전자 장치는 오디오 재생 시 프로세서(processor)에 의해 요구된 이미지 데이터를 이용하여 메모리로부터 지정된 이미지 데이터를 읽고, 이미지를 표시할 수 있다.

오디오와 관련된 영역의 좌표, 화자의 얼굴 이미지 등과 같은 추가적인 이미지 데이터가 메타 데이터 영역에 저장된 경우, 표시된 이미지에서 사용자 입력에 의하여 오디오 출력이 제어될 수 있다. 예를 들어, 표시된 이미지 상의 좌표가 입력되면, 전자 장치는 입력된 좌표와 관련된 이미지 영역을 식별할 수 있다. 예컨데, 이미지 상의 좌표가 특정 영역에 포함되거나, 특정 영역과 일정 기준 거리 이내에 위치하는 경우, 상기 전자 장치는 상기 특정 영역에 매핑된 오디오 객체를 상기 메타 데이터에 기초하여 검색하고, 검색된 오디오 객체를 출력할 수 있다. 다른 예로, 상기 전자 장치는 입력된 좌표에 해당하는 물체를 인식하고, 상기 물체에 매핑된 오디오 객체를 출력할 수 있다. 구체적인 예로, 이미지에서 선택된 영역이 인물의 얼굴일 경우, 상기 전자 장치는 해당 인물을 인식하고, 오디오 파일들의 메타 데이터에 저장된 해당 인물의 얼굴 이미지, 인물의 정보 등과의 일치율을 산출한 후, 상기 일치율이 임계치 이상이면 매핑된 오디오 객체를 출력할 수 있다.

상기 오디오 파일의 상기 메타 데이터에 저장된 이미지 데이터는 다수일 수 있다. 예컨데, 하나의 오디오 파일이 서로 다른 이미지 객체들에 매핑될 수 있다. 또한, 이미지 객체가 다수인 경우, 각 이미지 객체는 해당 오디오 파일의 특정 부분을 지정할 수 있다. 예를 들어, 각 이미지 객체가 해당 오디오 파일의 특정 부분을 지정하는 경우는 하기 도 7과 같다. 도 7은 본 개시의 실시 예에 따른 전자 장치에서 이미지 객체 및 오디오 객체의 매핑 예를 도시하고 있다.

상기 도 7을 참고하면, 제1이미지 객체(711)는 오디오 파일의 00:00:00부터 00:00:10까지인 구간A(721)와, 제2이미지 객체(712)는 00:00:11부터 00:00:30까지인 구간B(722)와, 제3이미지 객체(713)는 00:00:31부터 00:00:50까지인 구간C(723)와 매핑될 수 있다. 이 경우, 사용자에 의해 상기 제1이미지 객체(711)가 선택되면, 상기 전자 장치는 상기 구간A(721)인 오디오 'AAA~'를 출력한다. 또한, 사용자에 의해 상기 제2이미지 객체(712)가 선택되면, 상기 전자 장치는 상기 구간B(722)인 오디오 'BB~'를 출력한다.

이미지 데이터를 오디오 파일의 전단, 후단, 또는, 특정 중간에 위치한 상기 이미지 데이터를 위해 정의된 필드에 저장한 경우, 전자 장치는 상술한 메타 데이터를 이용한 실시 예와 유사한 동작을 통해 상기 이미지 데이터로부터 이미지를 표시하고, 대응되는 오디오 객체를 출력할 수 있다. 또한, 추가적으로, 해당 오디오에 부가된 이미지 데이터를 이용하여, 상기 전자 장치는 이미지에서 선택된 영역을 인식하고, 상기 영역에 따라 서로 다른 오디오 객체를 출력할 수 있다. 또한, 오디오 파일의 텍스트 트랙 또는 별도의 자막 정보에 이미지 데이터가 저장된 경우에도, 상기 전자 장치는 상술한 메타 데이터를 이용한 실시 예와 유사한 동작을 통해 상기 이미지 데이터로부터 이미지를 표시하고, 대응되는 오디오 객체를 출력할 수 있다.

상기 이미지 파일 기반 오디오 삽입 형태의 인코딩 및 디코딩은 다음과 같다. 상기 이미지 파일 기반 오디오 삽입 형태는 이미지 파일 또는 이미지 데이터 스트림의 일부에 오디오 데이터를 포함시키거나, 또는, 오디오 데이터를 부가하는 방식을 의미한다.

본 개시의 실시 예에 따라, 이미지 파일 혹은 이미지 데이터에서 메타 데이터 영역에 오디오 데이터가 저장될 수 있다. 예를 들어, JPEG의 JFIF(JPEG File Interchange Format), EXIF(EXchangeable Image File format) 등의 메타 데이터 영역 중 APP 영역과 같은 부가적인 필드에 오디오 데이터가 포함될 수 있다. 본 개시의 다른 실시 예에 따라, 이미지 파일 내에 상기 오디오 데이터를 위한 별도의 새로운 필드가 정의될 수 있다. 이에 따라, 상기 오디오 데이터를 위해 정의된 필드에 상기 오디오 데이터가 저장될 수 있다. 본 개시의 또 다른 실시 예에 따라, 상기 오디오 데이터는 매핑 데이터와 함께 저장될 수 있다. 다시 말해, 상기 오디오 데이터는 적어도 하나의 오디오 객체를 포함하며, 상기 적어도 하나의 오디오 객체와 매핑된 이미지 객체를 지시하는 정보와 함께 저장될 수 있다. 이에 따라, 하나의 이미지 파일에 대해 다수의 영역 정보 및 이와 관련된 다수의 오디오 객체들이 저장될 수 있다.

이미지 상의 특정 이미지 객체에 대응되는 영역에 대한 사용자의 선택이 발생하면, 상기 전자 장치는 이미지 데이터에서 메타 데이터 영역, 상기 오디오 데이터를 위해 정의된 필드 등에 저장된 오디오 데이터에서 선택된 이미지 객체에 매핑된 오디오 객체를 검색하고, 검색된 오디오 객체를 출력한다.

상기 오디오 데이터가 상기 이미지 파일의 후단에 저장된 경우, 상기 전자 장치는 이미지만 디코딩 및 표시하고, 이후 필요 시 오디오를 디코딩할 수 있다. 이에 따라, 불필요한 연산이 줄어드는 장점이 있다. 반대로, 오디오 데이터가 상기 이미지 파일의 전단에 위치하는 경우, 상기 전자 장치는 오디오를 빠르게 검색할 수 있다.

상기 이미지 파일 및 오디오 파일 합성 형태의 인코딩 및 디코딩은 다음과 같다. 상기 이미지 파일 및 오디오 파일 합성 형태는 이미지 파일이나 오디오 파일이 아닌 동영상의 형태로 상기 결합 데이터 집합을 저장하는 방식을 의미한다.

일반적으로, 동영상 파일은 비디오 트랙(track) 및 오디오 트랙으로 구성되며, 상기 비디오 트랙 및 상기 오디오 트랙을 지정하도록 설계된다. 본 개시의 실시 예에 따라, 전자 장치는 상기 비디오 트랙을 적어도 하나의 이미지 데이터를 이용하여 구성한 후, 오디오 트랙에 상기 이미지 데이터 내 모든 이미지 객체들에 매핑된 오디오 객체들을 포함하는 오디오 데이터를 포함시킨다. 이에 따라, 일반적인 동영상 재생기를 통해 이미지 및 오디오가 재생될 수 있다. 예를 들어, 상기 동영상 파일은 한 장 이상의 스틸 이미지로 구성된 비디오 트랙 및 상기 스틸 이미지 내 이미지 객체들과 연관된 적어도 하나의 오디오 객체를 포함하는 오디오 트랙을 포함할 있다. 이에 따라, 상기 스틸 이미지 내 특정 이미지 객체에 대응되는 영역이 선택되면, 상기 전자 장치는 매핑된 오디오 객체가 위치한 부분을 탐색(seek)한 후, 오디오 트랙을 재생한다. 예컨데, 이미지 객체들에 대응하는 각 영역은 오디오 트랙의 바로 가기와 같이 기능한다.

상기 별도의 매핑 정보 데이터를 추가한 형태의 인코딩 및 디코딩은 다음과 같다. 상기 별도의 매핑 정보 데이터를 추가한 형태는 이미지 파일 및 오디오 파일이 별개로 저장되고, 양자의 결합 관계를 나타내는 별도의 매핑 정보를 생성하는 방식을 의미한다.

이미지 데이터 및 오디오 데이터는 하나의 묶음으로 결합되지 아니하며, 상기 이미지 데이터 내의 이미지 객체 및 오디오 데이터 내의 상기 오디오 객체 간의 결합 관계를 나타내는 별도의 데이터 베이스가 생성된다. 예를 들어, 데이터 베이스의 레코드(record)에 적어도 하나의 이미지 객체의 식별 정보 및 적어도 하나의 오디오 객체의 식별 정보가 저장될 수 있다. 이에 따라, 이미지 표시 중 특정 이미지 객체에 대응되는 영역이 선택되면, 상기 전자 장치는 데이터 베이스에서 상기 이미지와 관련된 레코드 중 선택된 이미지 객체에 매핑된 오디오 객체를 검색하고, 검색된 오디오 객체를 출력할 수 있다.

또한, 상술한 다른 실시 예들과 유사하게, 다수의 이미지 객체들 및 다수의 오디오 객체들이 하나의 레코드에서 유지 및 관리될 수 있다.

본 개시의 실시 예에 따른 전자 장치는 상술한 바와 같이 결합 데이터 집합을 인코딩 및 디코딩할 수 있다. 이에 더하여, 상기 전자 장치는 상기 이미지 객체 및 상기 오디오 객체 간 결합 관계를 제거할 수 있다. 구체적으로 살펴보면 다음과 같다.

MP3 파일의 ID3 태그 내의 앨범 이미지 항목에 이미지 정보를 저장한 경우, 상기 전자 장치는 상기 앨범 이미지를 제거하거나 다른 이미지로 덮어씌움으로써, 상기 이미지 데이터를 제거할 수 있다. 또는, 상기 MP3 파일의 ID3 태그 내의 부가적인 메타 데이터 영역에 이미지 데이터에 대한 간접적 정보(예: URL 등)를 저장한 경우, 상기 전자 장치는 해당 메타 데이터 영역 내의 값을 제거하거나, 비활성화함으로써 상기 이미지 데이터를 제거할 수 있다. 이미지 데이터를 위해 정의된 필드에 이미지 정보를 저장한 경우, 상기 전자 장치는 상기 이미지 데이터를 위해 정의된 필드를 제거함으로써 상기 이미지 데이터를 제거할 수 있다. 또는, 상기 이미지 데이터가 자막 정보에 저장된 경우, 상기 전자 장치는 자막 정보에서 상기 이미지 데이터로서 사용된 영역 제거하거나, 상기 자막 정보를 삭제함으로써 상기 이미지 데이터를 제거할 수 있다.

이미지 파일의 메타 데이터 영역(예: JPEG의 JFIF 또는 EXIF 영역 중 APP 영역)에 오디오 데이터를 저장한 경우, 상기 전자 장치는 해당 영역을 초기화함으로써 상기 오디오 데이터를 제거할 수 있다. 이미지 파일의 특정 영역에 상기 오디오 데이터를 위해 정의된 새로운 필드에 오디오 데이터를 저장한 경우, 상기 전자 장치는 상기 오디오 데이터를 위해 정의된 필드를 제거함으로써 상기 오디오 데이터를 제거할 수 있다.

상기 이미지 파일 및 오디오 파일 합성 형태로 인코딩된 경우, 예컨데, 동영상 파일로 인코딩된 경우, 상기 전자 장치는 동영상의 오디오 트랙 및 비디오 트랙을 분리하고, 오디오 파일 및 비디오 파일로 분리하여 인코딩함으로써, 결합 데이터 집합을 제거할 수 있다.

대응 관계를 나타내는 별도의 데이터 베이스를 생성한 경우, 상기 전자 장치는 상기 데이터 베이스에서 해당 레코드를 제거하거나, 비활성화하거나, 관련 매핑 정보를 삭제함으로써 결합 데이터 집합을 제거할 수 있다.

본 개시의 실시 예에 따른 전자 장치는 상술한 바와 같은 결합 데이터 집합을 이용하여 다음과 같은 기능들을 제공할 수 있다.

도 8은 본 개시의 실시 예에 따른 전자 장치에서 이미지 객체 별 오디오 객체 출력의 예를 도시하고 있다.

상기 도 8을 살펴보면, 이미지가 표시되어 있으며, 상기 이미지는 이미지 객체A(811) 및 이미지 객체B(812)를 포함한다. 이때, (a)와 같이, 이미지 객체A(811)에 대한 선택이 발생하면, 상기 전자 장치는 오디오 객체A(821)를 출력한다. 또한, (b)와 같이, 이미지 객체B(812)에 대한 선택이 발생하면, 상기 전자 장치는 오디오 객체B(822)를 출력한다.

상기 도 8과 같이, 사용자가 이미지에서 특정 이미지 객체에 대응하는 영역을 선택 시, 전자 장치는 선택이 발생한 영역에 대응하는 이미지 객체를 식별하고, 상기 이미지 객체에 매핑된 오디오 객체를 출력한다. 예를 들어, 상기 선택은 터치(touch), 클릭(click) 또는 드래깅(draging) 등의 이벤트(event)로 정의될 수 있다. 다른 예로, 상기 선택은 해당 이미지 객체의 이름 또는 식별자에 대한 음성 입력 또는 문자 입력으로 정의될 수 있다.

선택된 이미지 객체를 판단하는 기준은 다양하게 정의될 수 있다. 예를 들어, 상기 전자 장치는 상기 이벤트가 발생한 좌표가 특정 이미지 객체에 대응하는 영역 내부에 포함되면, 선택이 발생하였음을 판단할 수 있다. 또는, 상기 전자 장치는 상기 이벤트가 발생한 좌표와 일정 거리 이내에 존재하는 기등록된 적어도 하나의 영역을 검색하고, 가장 가까이 위치한 영역에 대응하는 이미지 객체가 선택되었음을 판단할 수 있다. 또는, 상기 전자 장치는 이벤트가 발생한 이미지 영역을 중심으로 이미지를 분석하고, 인물의 얼굴 영역, 인물의 실루엣 영역, 이미지 상 물체의 영역, 배경 영역 등을 추출한 후, 기등록된 이미지 객체와의 일치율을 계산하고, 상기 일치율이 임계치 이상인 적어도 하나의 이미지 객체를 검색하고, 가장 높은 일치율을 가지는 이미지 객체가 선택되었음을 판단할 수 있다. 얼굴이나 특정 물체를 인식한 경우, 상기 전자 장치는 데이터 베이스에서 이름, ID 등의 정보를 얻은 후, 대응되는 이미지 객체가 선택되었음을 판단할 수 있다. 여기서, 상기 이미지 객체는 이미지 내의 특정 피사체를 지정하거나, 또는, 특정 제스처를 지정할 수 있다.

도 9는 본 개시의 실시 예에 따른 전자 장치에서 다수의 이미지 객체 선택 시 오디오 객체 출력의 예를 도시하고 있다.

상기 도 9를 참고하면, 이미지는 이미지 객체A(911), 이미지 객체B(912), 이미지 객체C(913)를 포함한다. 그리고, 상기 이미지 객체A(911)는 오디오 객체A(921)와 매핑되고, 상기 이미지 객체B(912)는 오디오 객체B(922)와 매핑되고, 상기 이미지 객체C(913)는 오디오 객체C와 매핑된다. 이때, 표시된 이미지에서 다수의 이미지 객체들, 예컨데, 상기 이미지 객체A(911) 및 상기 이미지 객체B(912)가 선택되면, 상기 전자 장치는 선택된 객체들 각각과 매핑된 오디오들, 예컨데, 상기 오디오 객체A(921) 및 상기 오디오 객체B(922)를 출력한다. 여기서, 다수의 이미지 객체 선택은 멀티 터치(multi-touch), 영역 선택 등에 의해 이루어질 수 있다. 이때, 상기 전자 장치는 멀티 쓰레드(multi-thread)에 의해 상기 오디오 객체A(921) 및 상기 오디오 객체B(922)를 동시 출력하거나, 또는, 상기 오디오 객체A(921) 및 상기 오디오 객체B(922)를 순차적으로 출력할 수 있다. 이때, 상기 순차적으로 출력 시, 상기 오디오 객체A(921) 및 상기 오디오 객체B(922)는 일부 오버랩(overlap)될 수 있다. 여기서, 상기 순차적으로 출력 시, 상기 오디오 객체A(921) 및 상기 오디오 객체B(922)의 출력 순서는 기 지정된 순서 또는 오디오 저장 시간 순에 따를 수 있다.

도 10은 본 개시의 실시 예에 따른 전자 장치에서 오디오 객체 삭제의 예를 도시하고 있다.

상기 도 10을 참고하면, 이미지는 이미지 객체A(1011), 이미지 객체B(1012), 이미지 객체C(1013)를 포함한다. 그리고, 상기 이미지 객체A(1011)는 오디오 객체A(1021)와 매핑되고, 상기 이미지 객체B(1012)는 오디오 객체B(1022)와 매핑되고, 상기 이미지 객체C(1013)는 오디오 객체C(1023)와 매핑된다. 이때, 사용자에 의해, 상기 이미지 객체A(1011)가 선택된다. 이에 따라, 상기 전자 장치는 상기 이미지 객체A(1011)와 매핑된 상기 오디오 객체A(1021)를 삭제한다.

상술한 바와 같은 이미지 객체 선택을 통한 오디오 객체 삭제는, 미리 정의된 오디오 객체 삭제를 위해 정의된 삭제 모드(mode)에서 수행될 수 있다. 상기 전자 장치는 별도의 메뉴를 통해 상기 삭제 모드로 진입하거나, 또는, 특정한 패턴의 입력(예: 특정 이미지 객체를 일정 시간 이상 프레스(press))에 의해 일시적으로 상기 삭제 모드로 진입할 수 있다. 상기 모드에서 이미지 객체 선택 시, 상기 전자 장치는 삭제 여부를 문의하는 UI(예: 팝업(pop-up) 창)를 표시한 후, 삭제가 선택되면 해당 오디오 객체를 삭제할 수 있다.

도 11은 본 개시의 실시 예에 따른 전자 장치에서 이미지 분할에 따른 이미지 객체 및 오디오 객체 분할의 예를 도시하고 있다.

상기 도 11을 참고하면, 전체 이미지 중 이미지 객체A(1111) 및 이미지 객체B(1112)를 포함하는 일부가 복사 또는 잘라내기를 통해 상기 전체 이미지에서 분할된다. 이로 인해, 새로운 다른 하나의 결합 데이터 집합(1100)이 생성되며, 상기 결합 데이터 집합(1100)은 이미지 객체A(1111) 및 이미지 객체B(1112)를 포함하고, 본래의 이미지와 매핑되어 있던 오디오 객체A(1121) 및 오디오 객체B(1122)도 함께 포함한다.

도 12는 본 개시의 실시 예에 따른 전자 장치에서 오디오와 결합된 이미지임을 알리는 UI의 예를 도시하고 있다.

상기 도 12와 같이, 상술한 바와 같이 생성된 결합 데이터의 재생 시, 전자 장치는 이미지 및 오디오가 결합되어 있음을 알리는 UI를 표시할 수 있다. 상기 도 12의 경우, 상기 이미지 및 오디오가 결합되어 있음을 알리는 UI(1200)는 음표의 모양을 가진다. 상기 도 12와 달리, 상기 이미지 및 오디오가 결합되어 있음을 알리는 UI(1200)는 다른 모양으로 정의될 수 있다.

도 13은 본 개시의 실시 예에 따른 전자 장치에서 이미지 객체의 구분 표시의 예를 도시하고 있다.

상기 도 13을 참고하면, 이미지는 이미지 객체A(1311), 이미지 객체B(1312), 이미지 객체C(1313)를 포함한다. 이때, 상기 전자 장치는 상기 이미지 객체A(1311), 상기 이미지 객체B(1312), 상기 이미지 객체C(1313) 각각에 대응되는 영역을 특정 색, 특정 패턴 등으로 채움으로써, 오디오 객체와 매핑된 이미지 객체를 이미지 내 다른 영역과 구분 가능하도록 표시할 수 있다. 상기 도 13의 경우, 각 이미지 객체가 서로 다른 패턴으로 구분되었으나, 동일한 패턴으로 표시될 수 있다. 이에 따라, 사용자는 오디오 객체와 매핑된 이미지 객체를 쉽게 식별할 수 있다.

도 14는 본 개시의 실시 예에 따른 전자 장치에서 오디오 객체 출력 버튼 표시의 예를 도시하고 있다.

상기 도 14를 참고하면, 이미지는 이미지 객체A(1411), 이미지 객체B(1412), 이미지 객체C(1413)를 포함한다. 이때, 상기 전자 장치는 상기 이미지 내에 상기 이미지 객체A(1411), 상기 이미지 객체B(1412), 상기 이미지 객체C(1413) 각각에 매핑된 오디오 객체의 출력을 명령하기 위해 정의된 버튼들(1431, 1432, 1433)을 표시한다. 이에 따라, 사용자는 이미지 객체를 선택하는 것이 아니라, 해당 버튼을 선택함으로써 오디오 객체를 출력시킬 수 있다.

도 15는 본 개시의 실시 예에 따른 전자 장치에서 PIP(Picture In Picture) 화면 제어의 예를 도시하고 있다.

상기 도 15의 (a)를 참고하면, 상기 전자 장치는 전면에 제1카메라(1501) 및 후면에 제2카메라(1502)를 구비한다. 그리고, 상기 전자 장치는 상기 제2카메라(1502)로 입력되는 이미지를 배경 이미지로, 상기 제1카메라(1501)로 입력되는 이미지를 작은 이미지로 하는 PIP 기능을 제공한다.

또한, 상기 전자 장치는 전면에 제1마이크(1511)를 구비하고, 후면에 제2마이크(1512)를 구비한다. 이에 따라, 상기 제2카메라(1502)로 입력되는 배경 이미지는 상기 제2마이크(1512)로 입력되는 오디오와 매핑되고, 상기 제1카메라(1501)로 입력되는 이미지는 상기 제1마이크(1511)로 입력되는 오디오와 매핑된다.

이에 따라, 상기 제2마이크(1512)로 오디오가 입력되는 경우, 상기 전자 장치는 상기 도 15의 (b)와 같이 상기 제2카메라(1502)로 입력되는 이미지를 배경 이미지로, 상기 제1카메라(1501)로 입력되는 이미지를 작은 이미지로 표시한다. 반면, 상기 제1마이크(1511)로 오디오가 입력되는 경우, 상기 전자 장치는 상기 도 15의 (c)와 같이 상기 제1카메라(1501)로 입력되는 이미지를 보다 크게 표시할 수 있다. 또는, 상기 제1마이크(1511)로 오디오가 입력되는 경우, 상기 전자 장치는 상기 도 15의 (d)와 같이 상기 제1카메라(1501)로 입력되는 이미지를 배경 이미지로, 상기 제2카메라(1502)로 입력되는 이미지를 작은 이미지로 교체하여 표시할 수 있다.

상기 도 15의 경우, 상기 제1마이크(1511)은 상기 제1카메라(1501)와 동일 면에, 상기 제2마이크(1512)는 상기 제2카메라(1502)와 동일 면에 설치되었다. 하지만, 본 개시의 다른 실시 예에 따라, 상기 제1마이크(1511) 및 상기 제2마이크(1512)는 상기 제1카메라(1501) 및 상기 제2카메라(1502)가 설치된 면과 무관한 위치에 설치될 수 있다. 이 경우, 상기 전자 장치는 상기 제1마이크(1511) 및 상기 제2마이크(1512) 각각에 입력되는 음원의 입력된 시간 차, 음량 차, 상기 카메라를 통해 입력된 영상에서 얼굴 이미지의 입모양 변화나 동작과 같은 움직임 등을 이용하여 상기 음원의 방향성을 판단할 수 있다.

본 개시의 실시 예에 따라, 상기 이미지 객체 별 오디오 객체를 출력하기에 앞서, 상기 전자 장치는 이미지 표시와 함께 전체 오디오를 적어도 1회 출력할 수 있다. 이 경우, 전체 오디오 출력 중 특정 이미지 객체가 선택되면, 상기 전자 장치는 전체 오디오 출력을 중단하고, 선택된 이미지 객체에 대응하는 오디오 객체를 출력할 수 있다. 다수의 이미지 객체들이 선택되면, 상기 전자 장치는 동시에 선택된 이미지 객체들에 대응하는 다수의 오디오 객체들이 혼합되어 출력할 수 있다. 본 개시의 다른 실시 예에 따라, 전체 오디오 또는 다수의 오디오 객체 출력 중 특정 이미지 객체가 선택되면, 상기 전자 장치는 선택된 이미지 객체에 대응하는 오디오 객체를 음소거할 수 있다.

도 16은 본 개시의 실시 예에 따른 전자 장치에서 이미지 및 오디오를 결합하기 위한 기능적 블럭 구성을 도시하고 있다. 상기 도 16을 참고하면, 상기 전자 장치는 이미지를 입력받아 분석하는 이미지 분석부(1610), 오디오를 입력받아 분석하는 오디오 분석부(1620)를 포함한다.

상기 이미지 분석부(1610)는 촬영된 이미지에서 인물, 사물, 얼굴, 배경 등의 이미지 객체들을 추출 및 분리하고 각 이미지 객체의 주요 속성을 하나 이상 식별한다. 예를 들어, 상기 주요 속성은 이미지 내 객체의 위치, 물체/영역 간 상대 위치 혹은 위상, 형상, 색상, 화자 관련 정보, 또는, 메타 데이터 등을 포함할 수 있다. 상기 이미지 분석부(1610)는 식별된 객체나 영역의 주요 속성을 메모리에 전달하여 저장함으로써, 상기 이미지에 포함된 이미지 객체에 대하여 정보 질의가 발생하였을 때, 프로세스가 메모리에서 이에 대응하는 적어도 하나의 속성 정보를 수신하고 처리할 수 있도록 한다. 상기 정보 질의는 이미지, 오디오, 사용자 입력 인터페이스에 의한 좌표나 영역 지정, 키워드에 의한 질의 등을 포함한다.

상기 이미지 분석부(1610)는 이미지 객체의 용이한 추출을 위해 다양한 영상 처리를 수행할 수 있다. 예를 들어, 상기 영상 처리는, 입력된 이미지로부터 전처리, 영상 분할(segmentation), 특징 추출(feature extraction), 또는, 인식(recognition)를 포함한다. 다시 말해, 패턴 매칭(pattern matching), 머신 비전(machine vision) 등의 기술이 채용될 수 있다.

상기 영상 처리를 위한 상기 이미지 분석부(1610)의 기능을 상세히 설명하면 다음과 같다. 상기 이미지 분석부(1610)는 이진화(binarization), 회색조 변환(gray-level scaling), 컬러 변환(color conversion) 등과 같은 속성 변환 기법을 이용함으로써 불필요한 정보를 제거하거나 프로세싱 속도를 빠르게 할 수 있다. 예를 들어, 영상에서 특정 물체의 형상을 추출하기 위해서 컬러 이미지를 사용하는 것보다, 이진화된 흑백이미지를 사용하는 것이 처리 속도 면에서 더 유리하다. 상기 이미지 분석부(1610)는 푸리에 변환(Fourier Transformation), 이산 코사인 변환(DCT: Discrete Cosine Transformation), 웨이블릿 변환(Wavelet Transformation) 등과 같은 디지털 영상변환 기법을 실시할 수 있다. 이 경우, 고대역 필터링(high-pass filtering), 저대역 필터링(Low-pass filtering) 등을 적용하기 용이해지므로, 영상 개선 및 관심 영역 추출 등의 처리가 용이해질 수 있다. 상기 이미지 분석부(1610)는 이미지 내 픽셀들의 정보를 분석하여 블러링(Blurring), 샤프닝(sharpening), 확장, 감축, 잡음 제거(noise reduction), 평활화(smoothing), 밝기 조정 등의 영상 개선 기법(Digital Image Enhancement)을 수행할 수 있다. 이로 인해, 영상에서 물체의 형상, 위치, 색상 등과 같은 주요 속성들의 손실이 감소되거나, 상기 주요 속성들이 복원됨으로써, 특징 추출과 인식이 용이해진다. 상기 이미지 분석부(1610)는 경계선 추출(edge detection), 외곽선 추적(boundary following), 특징점(feature point) 추출, 실루엣 추출, 색상 분리, 영역 컬러링 알고리즘 등을 통해 디지털 영상의 크기나 특정 영역의 크기와 물체의 형태를 파악할 수 있다. 디지털 영상의 윤곽선을 찾고, 색상 및 무늬를 구별하며, 질감을 알아내는 작업 등을 통해 영상의 추출 및 구분, 인식에 도움이 될 수 있다. 상기 이미지 분석부(1610)는 모션, 제스처 인식을 위해 다수의 이미지들을 분석하여 서로 다른 이미지들 간 차분(differential) 영상을 구하고, 이를 통해, 물체의 움직임 패턴이나 변화량을 조사하여 움직임, 모션, 제스처 등을 판단할 수 있다.

이미지 객체 추출 및 사용자 입력을 위한 이미지 객체의 영역 설정에 대해 설명하면 다음과 같다. 상기 이미지 분석부(1610)는 상술한 영상 처리 기법들을 적용함으로써, 인물의 얼굴 영역, 피사체의 실루엣, 물체의 움직임(motion) 등의 물체의 영역을 추출할 수 있다. 그리고, 상기 이미지 분석부(1610)는 해당 이미지 객체의 영역 범위, 좌표, 경계선 데이터, 실루엣 데이터 등의 정보를 메모리에 저장한다.

화자 인식 및 등록에 대해 설명하면 다음과 같다. 기등록된 화자인 경우, 상기 이미지 분석부(1610)는 이미지의 얼굴 인식을 통해 기등록된 화자 데이터들로부터 하나 이상 후보를 판단할 수 있다. 예를 들어, 상기 이미지 분석부(1610)는 얼굴 이미지 데이터를 등록된 화자 얼굴 이미지 데이터와 비교할 수 있다. 다른 예로, 상기 이미지 분석부(1610)는 이미지의 얼굴 인식 후 해당 인식된 정보 아이템(특징점 정보, 패턴 정보, 얼굴 이미지 구성 물체 간 배치 정보 등)을 기등록된 화자 데이터의 항목과 비교하여 유사도를 계산하고, 유사도가 임계치 이상인 적어도 하나의 후보를 검색할 수 있다. 또한, 상기 이미지 분석부(1610)는 상기 화자의 특성을 분석함으로써 연령대, 성별 등을 인식할 수 있다. 여기서, 상기 화자의 특성은 화자의 얼굴, 체형, 복장의 색상, 또는, 액세서리 형태 등의 정보를 포함한다. 또한, 상기 이미지 분석부(1610)는 프리뷰 영상으로부터 입모양의 움직임, 제스처 등을 인식하여 이와 관련한 음성의 화자의 위치, 영역 정보, 얼굴 이미지 영역과 같이 화자 관련 정보를 판단할 수 있다.

이미지의 메타 데이터 분석에 대해 설명하면 다음과 같다. 상기 이미지 분석부(1610)는 이미지 촬영 시 함께 저장되거나 센싱(sensing)된 메타 데이터를 분석함으로써 추가적인 정보들을 얻을 수 있다. 예를 들어, 상기 이미지 분석부(1610)는 JPEG 파일의 경우 JFIF이나 EXIF에 저장되는 파일의 생성 일시, 위치(location), 썸네일(thumbnail), 해상도, 화상 촬영 장치의 포지션(position) 등과 같은 부가적 데이터를 얻을 수 있다. 여기서, 상기 포지션은 전자 장치의 위치, 각도, 또는, 기울기를 포함한다. 상기 이미지 분석부(1610)는 이미지 촬영시 장소, 시간, 밝기, 촬영장치의 포즈 등의 센싱 정보를 GPS(Global Positioning System), 디지털 나침반, 자이로(gyro) 센서, 각속도 센서, 수평 센서, 네트워크 셀(cell) 정보 수신기, 내장 디지털 시계, 광센서 등과 같은 센서 장치를 통해서 함께 제공받을 수 있다.

이미지 태그 설정에 대해 설명하면 다음과 같다. 상기 이미지 분석부(1610)는 추가적으로 영역과 관련하여 태그 정보를 구성할 수 있다. 예를 들어, 상기 태그 정보는 영역, 사물이나 인물 ID, 좌표 정보, 화자, 연령, 성별 등을 포함할 수 있다.

얼굴 인식에 대해 설명하면 다음과 같다. 상기 얼굴 인식은 얼굴 영역 분리, 얼굴 특징 추출, 얼굴 인식, 성별 및 연령 인식 등의 동작을 포함할 수 있다. 상기 얼굴 영역을 분리하기 위해, 상기 이미지 분석부(1610)는 먼저 얼굴의 존재 여부를 판단한다. 주어진 영상에서 얼굴의 존재 유무를 가려내기 위해, 주로 에지(edge) 영상이 사용되며, 명도나 색상 등이 더 사용될 수 있다. 예를 들어, 상기 이미지 분석부(1610)는 에지 맵(edge map)에서 타원형과 같은 템플릿 적용하여 머리 영역을 설정하고, 설정된 영역서 눈, 입, 코 등의 에지 영상을 검사한다. 이후, 상기 이미지 분석부(1610)는 머리와 몸의 윤곽선을 추출하고, 계속해서 눈, 코, 입의 위치를 추출함으로써 특징점을 분석하는 하향식 영상 해석 방법을 사용할 수 있다. 상기 얼굴 특징을 추출하기 위해, 상기 이미지 분석부(1610)는 허프(Hough) 변환, 행렬의 단일값 분해법(SVD: singular value decomposition), 눈, 코, 입 등의 템플릿 매칭(templete matching)의 기법을 에지, 색상, 밝기 정보 등을 포함하여 추출한다. 이후, 상기 얼굴을 인식하기 위해, KL(Karhunen-Loeve) 변환에 근거한 통계적 방법이나 신경망, 특징기반 얼굴구성 요소의 기하학적 분석, 아이겐페이스(Eigenfaces) 기법, FLD(Fisher Linear Discriminant) 기법, SVM( Support Vector Machine), 퍼지신경망 기법, 웨이블렛-엘라스틱 매칭(Wavelet - Elastic Matching), 측면 윤곽 분석, 3차원 영상 분석 등의 기법 등이 사용될 수 있다. 상술한 기법들을 이용하여, 상기 이미지 분석부(1610)는 기등록된 이미지와 새로 입력된 영상의 관련 정보들의 유사도를 계산한다.

마지막으로, 얼굴 인식을 통해 성별이나 연령대도 추정이 가능하다. 예를 들어, 상기 이미지 분석부(1610)는 검출된 얼굴 영역 이미지를 정규화하고, 정규화된 얼굴 영역 이미지에 SVM(Support Vector Machine)에 의한 성별 추정 기능을 수행할 수 있다. 이외, 다음과 같이 널리 알려진 성별 인식 기법들이 본 개시를 위해 사용될 수 있다. 「Sakarkaya, M. et al., Comparison of several classification algorithms for gender recognition from face images, Intelligent Engineering Systems (INES), 2012 IEEE 16th International Conference on, 2012, pp.97 - 101"」.

또한, 상기 이미지 분석부(1610)는 검출된 얼굴 영역 이미지를 정규화하고, 정규화된 얼굴 영역 이미지로부터 얼굴 영역 내 구성 요소들의 입력 벡터를 구성한 후, 상기 입력 벡터를 기저장된 나이 다양체 공간으로 사영하여 특징 벡터를 생성함으로써, 회귀 분석 혹은 분산 분석에 따라 나이를 추정할 수 있다. 이외, 다음과 같이 널리 알려진 연령 추정 기법들이 본 개시를 위해 사용될 수 있다. 「Y.Fu, Y.Xu, and T.S.Huang의 논문, “Estimating human ages by manifold analysis of face pictures and regression on aging features,” in Proc.IEEE Conf.Multimedia Expo., 2007, pp.1383-1386」, 「G.Guo, Y.Fu, T.S.Huang, and C.Dyer의 논문, “Locally adjusted robust regression for human age estimation,” presented at the IEEEWorkshop on Applications of Computer Vision, 2008, A.Lanitis,」, 「C.Draganova, and C.Christodoulou의 논문, “Comparing different classifers for automatic age estimation,” IEEE Trans.Syst., Man, Cybern.B, Cybern., vol.34, no.1, pp.621-628, Feb.2004.」, 「Y. H. Kwon and N. da Vitoria Lobo. “Age classification from facial images”. CVIU, 74:1-21, 1999.」, 「A. Lanitis, C. Draganova, and C. Christodoulou, “Comparing Different Classifiers for Automatic Age Estimation”, IEEE Trans. SMC B,34(1):621-8, 2004.」, 「N. Ramanathan and R. Chellappa, “Face Verification across Age Progression”, IEEE Trans. on Image Processing, 15(11):3349-3361, 2006.」, 「S. K. Zhou, B. Georgescu, X. Zhou and D. Comaniciu, “Image Based Regression Using Boosting Method,” ICCV, I:541-548, 2005.」.

상기 오디오 분석부(1620)는 입력 또는 녹음된 오디오 신호로부터 적어도 하나의 오디오 객체를 추출하고, 상기 적어도 하나의 오디오 객체의 특징들을 분석한다. 예를 들어, 상기 오디오 분석부(1620)는 상기 오디오 신호로부터 음성 신호를 추출한다. 예를 들어, 상기 특징들은 주파수 대역, 음파나 주파수의 패턴, 피치(pitch), 리듬, 음색, 화이트 노이즈, 묵음 구간, 진폭, 파장(wave length), 억양, 액센트, 조음 결합 등의 특성을 분석한다. 그리고, 상기 오디오 분석부(1620)는 분석된 정보에 기초하여 화자의 정보 인식, 배경음 분리, 노이즈 제거 등의 오디오 처리 기능을 제공할 수 있다. 또한, 상기 오디오 분석부(1620)는 오디오 데이터의 메타 데이터를 분석하거나 기록하기 위한 기능을 제공하며, 추가적으로 음성인식(Speech recognition)을 지원할 수 있다.

배경 노이즈 제거(background noise removal)에 대해 설명하면 다음과 같다. 상기 오디오 분석부(1620)는 마이크를 통해 입력된 오디오 데이터로부터 노이즈에 해당하는 오디오를 제거한다. 예를 들어, 상기 오디오 분석부(1620)는 카메라 촬영시 발생하는 셔터음이 마이크와 같은 오디오 입력장치로 입력될 때 이를 제거할 수 있다. 상기 셔터음은 전자 장치에서 해당 셔터음에 해당하는 음원을 재생하거나, 또는, 셔터 버튼을 누르는 등의 기계적인 동작에 의해 발생한다. 상기 음원 재생에 의해 상기 셔터음이 발생하는 경우, 상기 오디오 분석부(1620)는 셔터음의 발생 시점, 신호 패턴을 미리 알 수 있으므로, 잡음 제거 기술 또는 에코 제거기(echo canceller)와 같은 기술을 통해 제거할 수 있다. 상기 기계적인 동작에 의해 상기 셔터음이 발생하는 경우, 상기 오디오 분석부(1620)는 상기 기계음에 대한 오디오 신호 패턴을 메모리에 저장하고, 셔터 버튼이 눌릴 때, 해당 입력 신호에 대응하여 오디오 입력 장치에 의해 입력된 오디오 신호에서 해당 기계음의 오디오 신호를 제거한다. 다른 예로, 상기 오디오 분석부(1620)는 셔터음을 포함한 상태로 녹음된 오디오에서 셔터음 오디오 신호 패턴을 검색 및 제거하는 후처리 방식으로 상기 셔터음을 제거할 수 있다. 또 다른 예로, 상기 셔터 재생음 또는 기계음이 입력되지 아니하거나 저장되지 아니하도록 하기 위해, 상기 오디오 분석부(1620)는 상기 셔터 음을 감지하고, 상기 셔터음이 발생하는 동안 녹음을 중단할 수 있다. 또는, 상기 상기 오디오 분석부(1620)는 상기 셔터음이 발생하는 동안 상기 셔터음이 속한 음역대의 소리를 녹음하지 아니할 수 있다. 또한, 상기 오디오 분석부(1620)는 배경음을 제거하거나 추출할 수 있다. 예를 들어, 상기 배경음은 곤충의 울음 소리, 자동차 주행 소리, 화이트 노이즈, 파도 소리, 노래 파일(audio recorded)의 음악 반주(melody recite or music recorded) 등을 의미한다. 상기 배경음은 특유의 패턴이나 주파수 대역 등에 소정의 기준에 따라 분리하거나 제거될 수 있다. 예를 들어, 상기 오디오 분석부(1620)는 스테레오로 보컬 및 음악이 녹음된 AR(all recorded)에서 주파수 영역에서의 에너지 차 정보를 이용하여 MR(music recorded)만 추출하거나, 반대로 보컬(vocal) 음원만 추출할 수 있다. 이 외에도 다양한 기술이 적용될 수 있다. 상술한 바와 같이, 상기 오디오 분석부(1620)는 적어도 하나의 음성을 각각 분리하거나, 입력된 오디오 신호에서 배경음이나 음악 등을 제거하거나, 별도로 분리하여 추출할 수 있다.

메타 데이터 분석 및 입력에 대해 설명하면 다음과 같다. MP3 파일의 경우, ID3 태그와 같은 메타 데이터 영역이 존재하므로, 상기 오디오 분석부(1620)는 상기 메타 데이터를 분석함으로써 다양한 정보를 획득할 수 있다. 또는, 상기 오디오 분석부(1620)는 상기 메타 데이터 영역이 없는 오디오 데이터에 별도의 메타 데이터 정보를 연관지을 수도 있다. 예를 들어, 메타 데이터를 오디오 데이터에 추가하여 하나의 파일이나 비트 스트림이 생성될 수 있다. 또는, 상기 메타 데이터 영역에 별도의 상세한 메타 데이터에 접근할 수 있는 URL, 데이터베이스의 식별자와 같은 참조 정보가 매핑될 수도 있다. 이에 따라, 상기 오디오 분석부(1620)는 상기 참조 정보를 이용하여 별도의 메타 데이터 정보를 작성하거나 참조할 수 있다. 상기 메타 데이터는 생성 시간, 재생 길이, 작곡자, 앨범 이미지 등 다양한 정보를 포함될 수 있으며, 상기 메타 데이터에 포함된 정보는 이미지 상의 소정 이미지 객체에 대응될 수 있다. 예를 들어, 상기 오디오 분석부(1620)는 앨범 이미지 메타 데이터 영역에 화자의 얼굴 이미지 정보를 인코딩하고, 촬영된 이미지 상에서 사람 얼굴 영역이 선택된 경우, 해당하는 사람의 얼굴 이미지와 여러 오디오 데이터, 예를 들어 여러 오디오 파일, 또는 여러 오디오 트랙, 여러 오디오 비트 스트림 등에 있는 앨범 이미지 영역의 화자의 얼굴 이미지 정보와 비교하여 상기 사람에 대응하는 화자 얼굴 이미지를 가진 적어도 하나의 오디오 데이터를 검색하고, 재생할 수 있다. 상기 오디오의 메타 데이터는, 상기 이미지의 메타 데이터와 같이, 위치, 시간 정보 등을 포함할 수 있다. 상기 메타 데이터에 포함되는 정보는 추후 이미지 데이터와 결합하여 다양하게 정보의 검색, 조회를 위해 사용될 수 있다.

음성 신호에 대한 화자 인식 및 화자 관련 정보 입력에 대해 설명하면 다음과 같다. 상기 오디오 분석부(1620)는 음성 신호 분석을 통해 한 명 이상의 화자 관련 정보를 인식할 수 있다. 화자 인식은 음성 신호에서 언어적인 의미를 인식하는 것과 차이가 있다. 구체적으로, 상기 오디오 분석부(1620)는 화자 각각을 인식하거나, 화자가 속한 그룹을 인식할 수도 있다. 화자 각각을 인식하는 경우, 상기 오디오 분석부(1620)는 메모리에 기등록된 화자 데이터 베이스를 이용하여 음성 신호의 특성을 분석하고, 유사도가 임계치 이상인 경우 상기 데이터 베이스로부터 후보 화자를 하나 이상 도출할 수 있다. 이를 위해, 상기 오디오 분석부(1620)는 음성 신호의 특성 정보 중 하나 이상을 이용하여 상기 데이터 베이스의 음성 신호 특성 정보와 일치율을 계산할 수 있다. 그룹 인식의 경우, 상기 오디오 분석부(1620)는 음성 신호를 분석하여 해당 음성을 발성한 화자의 연령대, 성별 등의 정보를 판단할 수 있다. 상기 화자 각각을 인식하는 경우, 화자 등록이 필요할 수 있으며, 상기 오디오 분석부(1620)는 사전에 화자의 음성 오디오 신호의 특징을 분석하여 메모리에 저장함으로써 추후 입력된 음성 오디오 신호의 특징을 분석한 결과와 유사도가 높은지 판단할 수 있다. 예를 들어, 전화 통화가 이루어지는 동안, 상기 오디오 분석부(1620)는 상대방의 음성 신호 특징을 수집할 수 있다. 다시 말해, 상기 오디오 분석부(1620)는 사용자가 평소 전화 통화 시 통화 음성을 녹음하여 화자 분석의 기초 데이터로 이용할 수 있다. 화자를 인식하는 경우, 반드시 오디오 신호 분석이 필요한 것은 아니다. 예컨데, 상기 오디오 분석부(1620)는 상기 이미지 인식 등에 의해 얻은 화자 관련 특징 및 오디오 신호의 특징을 비교함으로써, 화자를 인식할 수 있다. 상기 오디오 분석부(1620)는 화자의 음성을 인식하여 문언적 의미를 해석함으로써 화자나 주변의 다른 사람의 정보를 얻을 수도 있다.

방향성/지향성 오디오 인식 및 처리에 대해 설명하면 다음과 같다. 전자 장치에 지향성 마이크 장치 또는 둘 이상의 마이크 등과 같이 방향을 판단할 수 있는 음성 입력 장치가 구비된 경우, 상기 오디오 분석부(1620)는 오디오의 방향성을 이용하여 오디오 신호를 처리할 수 있다. 예를 들어, 비디오를 촬영하는 경우, 복수개의 마이크들이 전면과 후면을 향하도록 배치됨으로써 전면과 후면의 오디오가 모두 입력될 수 있으며, 상기 오디오 분석부(1620)는 음원의 방향이 어느 쪽인지 판단할 수 있다. 또 다른 예로, 전자 장치의 한 면에 2개 이상의 마이크가 서로 소정의 기준에 따라 이격되어 배치된 경우, 상기 오디오 분석부(1620)는 해당 방향에서 입력된 오디오 신호의 크기(level), 입력 시간, 입력 신호의 패턴 차이를 분석함으로써 해당 방향에서 오디오가 발생한 방향을 좀 더 세밀하게 인식할 수 있다. 예를 들어, 카메라 렌즈가 향한 방향에서 오디오가 발생하였다면, 상기 오디오 분석부(1620)는 다수의 마이크들를 이용하여 좌,우,상,하, 좌상, 우상, 우하, 좌하 등과 같이 화자가 위치한 방향을 판단할 수 있다. 상기 방향성 정보를 이미지 분석에 의한 화자 위치 정보와 함께 연계하는 경우, 화자 관련 정보는 보다 상세하고 정확하게 특정될 수 있다. 상기 오디오 분석부(1620)는 방향성 정보 분석에 의한 관심 오디오 신호 증폭시킬 수 있다. 예를 들어, 여러 음원들이 동시에 입력되거나 일부 겹쳐서 입력되는 경우, 상기 오디오 분석부(1620)는 방향성 정보에 의해 특정 화자의 음성오디오를 증폭하거나 다른 음원들과 분리할 수 있다.

상기 오디오 분석부(1620)는 오디오 입력 순서 또는 입력 시간을 판단하고, 이에 따라 오디오 데이터를 처리함으로써 다양한 기능을 제공할 수 있다. 예를 들어, 오디오 재생 순서, 화자의 분리, 이미지 데이터와 연계 등이 제공될 수 있다.

이하 본 개시는 상술한 바와 같이 이미지 및 오디오를 결합하는 전자 장치의 동작 및 구성을 설명한다.

도 17은 본 개시의 실시 예에 따른 전자 장치에서 이미지 및 오디오를 결합하는 동작 절차를 도시하고 있다.

상기 도 17을 참고하면, 상기 전자 장치는 1701동작에서 이미지 및 오디오를 수집한다. 예를 들어, 상기 전자 장치는 이미지를 촬영하고, 상기 이미지 촬영을 위한 셔터 입력 시점을 기준으로 정해지는 시간 구간 동안에 입력되는 오디오를 저장할 수 있다. 또는, 상기 전자 장치는 동영상 촬영 기능을 이용하여 이미지 및 오디오를 수집할 수 있다. 이 경우, 상기 전자 장치는 동영상을 구성하는 비디오 트랙 내의 프레임들로부터 적어도 하나의 이미지를 추출하고, 오디오 트랙으로부터 오디오를 수집한다. 이때, 상기 전자 장치는 오디오에서 소정 기간 이상의 묵음 구간을 제거할 수 있다. 또는, 상기 전자 장치는 오디오 녹음을 수행하고, 상기 오디오 녹음 구간 내의 특정 시점에 캡쳐되는 이미지를 저장할 수 있다.

이후, 상기 전자 장치는 1703동작으로 진행하여 상기 이미지를 분석한다. 상기 전자 장치는 상기 이미지 분석을 통해 수집된 이미지로부터 적어도 하나의 이미지 객체를 추출한다. 구체적으로, 상기 전자 장치는 수집된 이미지에서 인물, 사물, 얼굴, 배경 등의 이미지 객체들을 추출 및 분리하고 각 이미지 객체의 주요 속성을 하나 이상 식별한다. 예를 들어, 상기 주요 속성은 이미지 내 객체의 위치, 물체/영역 간 상대 위치 혹은 위상, 형상, 색상, 화자 관련 정보, 또는, 메타 데이터를 포함할 수 있다. 상기 이미지 객체의 효과적인 추출을 위해, 상기 전자 장치는 다양한 영상 처리를 더 수행할 수 있다. 상기 이미지 객체를 추출하기 위해, 상기 전자 장치는 얼굴 인식 등을 통해 인물을 식별하고, 기 설정된 화자의 특성 정보에 기초하여 이미지에 나타난 화자를 식별할 수 있다. 상기 전자 장치는 화자의 성별, 연령대를 추정할 수 있다. 또한, 상기 전자 장치는 센서 장치를 통해 이하 대응 관계 결정을 위한 부가적인 데이터를 얻을 수 있다.

이어, 상기 전자 장치는 1705동작으로 진행하여 상기 오디오를 분석한다. 상기 전자 장치는 상기 오디오 분석을 통해 수집된 오디오부터 적어도 하나의 오디오 객체를 추출한다. 이를 위해, 상기 전자 장치는 오디오 신호 중 음성 신호를 추출하고, 음성 신호의 주파수 대역, 음파, 주파수의 패턴 등의 특성을 분석한다. 오디오 객체 추출을 효과적으로 수행하기 위해, 상기 전자 장치는 노이즈 제거, 셔터음 제거, 배경음 제거 등의 처리를 수행할 수 있다. 또한, 상기 전자 장치는 오디오 파일의 메타 데이터로부터 이하 대응 관계 결정을 위한 부가적인 데이터를 얻을 수 있다. 또한, 마이크를 이용하여 음원의 방향성을 판단할 수 있는 경우, 상기 전자 장치는 오디오 객체의 방향성을 판단하거나, 특정 오디오 객체를 증폭 또는 분리할 수 있다. 또는, 상기 전자 장치는 다수의 특징들을 상위 특징점으로 묶어 다수의 오디오 객체들을 하나의 그룹으로 정의할 수 있다.

상기 이미지 및 상기 오디오를 분석한 후, 상기 전자 장치는 1707동작으로 진행하여 적어도 하나의 이미지 객체 및 적어도 하나의 오디오 객체 간 대응 관계를 결정한다. 예를 들어, 상기 전자 장치는 얼굴 인식 및 파형 분석에 기초하여 대응 관계를 결정할 수 있다. 예컨데, 상기 전자 장치는 특성이 서로 대응하는 이미지 객체 및 오디오 객체를 매핑한다. 다른 예로, 상기 전자 장치는 대상의 움직임에 기초하여 상기 대응 관계를 결정할 수 있다. 예컨데, 상기 전자 장치는 이미지 촬영 시의 프리뷰 화면 또는 동영상의 비디오 트랙을 이용하여 이미지 내 대상의 움직임을 인식하고, 움직임이 존재할 때 발생한 오디오 객체를 상기 대상에 대응되는 이미지 객체에 매핑한다. 또 다른 예로, 상기 전자 장치는 오디오의 방향성에 기초하여 상기 대응 관계를 결정할 수 있다. 예컨데, 상기 전자 장치는 방향이 일치하는 이미지 객체 및 오디오 객체를 매핑한다. 상기 전자 장치는 사용자의 지정에 따라 상기 대응 관계를 결정할 수 있다. 또는, 상기 전자 장치는, 이미지 객체 및 오디오 객체의 연관성에 따라, 서로 다른 시점에 생성된 이미지 객체 및 오디오 객체 간 대응 관계를 설정할 수 있다.

이후, 상기 전자 장치는 1709동작으로 진행하여 이미지 데이터, 오디오 데이터, 매핑 데이터를 포함하는 결합 데이터 집합을 인코딩한다. 상기 결합 데이터 집합은 이미지 데이터, 오디오 데이터, 매핑 데이터를 포함한다. 예를 들어, 상기 이미지 데이터는 이미지 자체, 이미지 객체 지정 정보, 보정된 이미지, 또는, 이미지 데이터에 접근하기 위한 간접적 정보를 포함하고, 상기 오디오 데이터는 녹음된 전체 오디오, 가공된 오디오, 적어도 하나의 오디오 객체, 오디오 특성 정보, 또는, 오디오 데이터에 접근하기 위한 간접적 정보를 포함하고, 상기 매핑 데이터는 객체 식별 정보, 또는, 대응 관계 정보를 포함한다. 그리고, 상기 결합 데이터 집합은 오디오 파일에 이미지 데이터가 삽입되는 제1형태, 이미지 파일에 오디오 데이터가 삽입되는 제2형태, 이미지 데이터가 비디오 트랙으로서, 오디오 데이터가 오디오 트랙으로서 구성되는 동영상 파일인 제3형태, 이미지 파일, 오디오 파일, 매핑 정보 데이터 베이스가 각각 별도로 존재하는 별도의 매핑 정보 데이터를 추가한 제4형태 중 하나일 수 있다.

도 18은 본 개시의 실시 예에 따른 전자 장치에서 이미지 및 오디오의 결합 데이터 집합을 재생하는 동작 절차를 도시하고 있다.

상기 도 18을 참고하면, 상기 전자 장치는 1801동작에서 오디오와 결합된 이미지를 표시한다. 이때, 상기 전자 장치는 오디오와 결합된 이미지임을 나타내는 UI를 표시할 수 있다. 또한, 상기 전자 장치는 상기 이미지 내 오디오 객체와 매핑된 적어도 하나의 이미지 객체를 구분되도록 표현할 수 있다. 또는, 상기 전자 장치는 상기 적어도 하나의 이미지 객체에 매핑된 오디오 객체 출력 버튼을 더 표시할 수 있다.

상기 이미지를 표시한 상태에서, 상기 전자 장치는 1803동작으로 진행하여 적어도 하나의 이미지 객체가 선택되는지 판단한다. 여기서, 상기 선택은 터치, 클릭, 또는, 드래깅의 이벤트로 정의될 수 있다. 다른 예로, 상기 선택은 해당 이미지 객체의 이름 또는 식별자에 대한 음성 입력 또는 문자 입력으로 정의될 수 있다. 또한, 다수의 이미지 객체들에 대한 선택은 멀티 터치, 영역 선택 등으로 정의될 수 있다.

상기 적어도 하나의 이미지 객체가 선택되면, 상기 전자 장치는 1805동작으로 진행하여 선택된 적어도 하나의 이미지 객체에 매핑된 적어도 하나의 오디오 객체를 검색한다. 다시 말해, 상기 전자 장치는 매핑 데이터에 기초하여 적어도 하나의 오디오 객체를 검색한다. 예를 들어, 상기 전자 장치는 오디오 파일의 메타 데이터, 자막 정보, 별도의 필드 등에 저장된 정보를 참고하여 상기 오디오 파일의 오디오 데이터 중 상기 이미지 객체에 매핑된 구간을 검색할 수 있다. 다른 예로, 상기 전자 장치는 이미지 파일의 메타 데이터, 별도의 필드 등에 저장된 정보를 참고하여 오디오 데이터 중 상기 이미지 객체에 매핑된 오디오 객체를 검색할 수 있다. 또 다른 예로, 상기 전자 장치는 별도의 대응 관계 데이터 베이스에서 상기 이미지와 관련된 레코드들을 확인하고, 상기 레코드들에서 선택된 이미지 객체에 매핑된 오디오 객체를 검색할 수 있다. 또 다른 예로, 상기 전자 장치는 동영상의 오디오 트랙에서 선택된 이미지 객체에 대응하는 부분을 탐색할 수 있다.

이후, 상기 전자 장치는 1807동작으로 진행하여 검색된 적어도 하나의 오디오 객체를 출력한다. 이때, 다수의 이미지 객체들이 선택된 경우, 상기 전자 장치는 매핑된 다수의 오디오 객체들을 동시 출력하거나, 또는, 상기 다수의 오디오 객체들을 순차적으로 출력할 수 있다. 이때, 상기 순차적으로 출력 시, 상기 다수의 오디오 객체들은 일부 오버랩될 수 있다. 또한, 상기 순차적으로 출력 시, 상기 다수의 오디오 객체들의 출력 순서는 기 지정된 순서 또는 발생 순서에 따를 수 있다.

도 19는 본 개시의 실시 예에 따른 전자 장치의 블록 구성을 도시하고 있다.

상기 전자 장치는 메모리(1910), 프로세서 유닛(processor unit)(1920), 입출력(IO: Input Output) 시스템(1930), 오디오 서브 시스템(1940), 센싱 서브 시스템(1950), 카메라 서브 시스템(1960)을 포함한다. 상기 메모리(1910)는 다수 개로 구성될 수 있다.

상기 메모리(1910)는 적어도 하나의 소프트웨어, 마이크로 코드, 설정 정보 등을 저장한다. 상기 메모리(1910)는 적어도 하나의 고속 랜덤 액세스 메모리, 비휘발성 메모리, 적어도 하나의 광 저장 장치, 또는, 플래시 메모리(예: NAND, NOR)를 포함할 수 있다. 상기 메모리(1910)에 저장된 소프트웨어 구성 요소는 운영 체제(operating system) 모듈(1911), 통신 모듈(1912), 그래픽 모듈(1912), 사용자 인터페이스 모듈(1913), 카메라 모듈(1914), 이미지/오디오 결합 어플리케이션 모듈(1915), 이미지/오디오 결합 데이터(1916) 등을 포함할 수 있다. 또한, 소프트웨어 구성 요소인 모듈은 명령어들의 집합으로 표현할 수 있고, 상기 모듈은 '명령어 집합(instruction set)' 또는 '프로그램'으로 지칭될 수 있다. 본 개시의 실시 예에 따른 방법을 수행하는 명령어들은 포함하는 적어도 하나의 모듈들이 상기 메모리(1910)에 저장될 수 있다.

상기 운영 체제 모듈(1911)은 일반적인 시스템 작동(system operation)을 제어하는 적어도 하나의 소프트웨어 구성 요소를 포함한다. 예를 들어, 상기 운영 체제 모듈(1911)은 WINDOWS, LINUX, 다윈(Darwin), RTXC, UNIX, OS X, VxWorks, Android, iOS와 같은 내장 운영 체제일 수 있다. 예를 들어, 상기 운영 체제 모듈(1911)은 메모리 관리 및 제어, 저장 하드웨어 제어 및 관리, 전력 제어 및 관리 등의 일반적인 시스템 작동 제어를 담당한다. 상기 운영 체제 모듈(1911)은 적어도 하나의 하드웨어 요소 및 적어도 하나의 소프트웨어 구성 요소 간 통신이 원활하게 이루어지도록 제어한다. 상기 그래픽 모듈(1912)은 상기 터치 스크린(1933) 상에 그래픽을 제공하고 표시하기 위한 적어도 하나의 소프트웨어 구성 요소를 포함한다. 여기서, 그래픽은 텍스트(text), 웹 페이지(web page), 아이콘(icon), 디지털 이미지(digital image), 비디오(video), 애니메이션(animation) 등을 포함한다. 상기 사용자 인터페이스 모듈(1913)은 사용자 인터페이스를 제공하기 위한 적어도 하나의 소프트웨어 구성 요소를 포함한다. 예컨데, 상기 사용자 인터페이스 모듈(1913)은 상기 사용자 인터페이스의 상태가 어떻게 변경되는지, 또는, 사용자 인터페이스 상태의 변경이 어떤 조건에서 이루어지는지 등을 제어한다. 상기 카메라 모듈(1914)은 카메라 관련 프로세스 및 기능들을 수행하기 위한 적어도 하나의 소프트웨어 구성 요소를 포함한다.

상기 이미지/오디오 결합 어플리케이션 모듈(1915)은 본 개시의 실시 예에 따라 이미지 및 오디오를 결합하기 위한 적어도 하나의 소프트웨어 구성 요소를 포함한다. 다시 말해, 상기 이미지/오디오 결합 어플리케이션 모듈(1915)은 상기 도 17과 같이 결합 데이터 집합을 생성하기 위한 소프트웨어 구성 요소 및 상기 도 18과 같이 결합 데이터 집합을 재생하기 위한 소프트웨어 구성 요소를 포함한다. 상기 이미지/오디오 결합 어플리케이션 모듈(1915)은 상기 전자 장치가 상기 도 1 내지 상기 도 16을 참고하여 설명한 바와 같이 동작하도록 제어하는 적어도 하나의 소프트웨어 구성 요소를 포함한다. 상기 이미지/오디오 결합 데이터(1916)는 본 개시의 실시 예에 따라 생성된 결합 데이터 집합을 포함한다. 예를 들어, 상기 이미지/오디오 결합 데이터(1916)는 상기 도 2와 같은 데이터를 포함한다. 또한, 상기 이미지/오디오 결합 데이터(1916)는 상기 도 6과 같이 구성될 수 있다.

상기 메모리(1910)는 상술한 모듈들(1911 내지 116) 외에 추가적인 모듈을 포함할 수 있다. 또는, 본 개시의 다른 실시 예에 따라, 상술한 모듈들(1911 내지 116) 중 일부가 배제될 수 있다.

상기 프로세서 유닛(1920)은 메모리 인터페이스(1921), 프로세서(1922) 및 주변장치 인터페이스(peripheral interface)(1923)를 포함한다. 경우에 따라, 상기 프로세서 유닛(1920) 전체가 '프로세서'로 지칭될 수 있다. 상기 메모리 인터페이스(1921), 상기 프로세서(1922), 상기 주변장치 인터페이스(1923) 각각은 별개의 구성 요소이거나, 또는, 적어도 하나의 집적화된 회로에 포함될 수 있다.

상기 프로세서(1922)는 적어도 하나의 하드웨어 칩(chip)을 포함할 수 있다. 상기 프로세서(1922)는 소프트웨어 모듈을 실행함으로써 상기 전자 장치가 상기 소프트웨어 모듈에 의해 구현되는 기능을 수행하게 한다. 특히, 상기 프로세서(1922)는 상기 메모리(1910)에 저장된 소프트웨어 모듈들과 연동하여 본 개시의 실시 예를 실시한다. 또한, 상기 프로세서(1922)는 적어도 하나의 데이터 프로세서, 이미지 프로세서를 포함할 수 있다. 본 개시의 다른 실시 예에 따라, 상기 데이터 프로세서, 상기 이미지 프로세서는 별도의 하드웨어로 구성될 수 있다. 또한, 상기 프로세서(1922)는 서로 다른 기능을 수행하는 다수의 프로세서들로 구성될 수 있다.

상기 메모리 인터페이스(1921)는 상기 메모리(1910) 및 상기 프로세서(1922) 간 데이터 및 제어 신호의 이동 경로를 제공한다. 예컨데, 상기 메모리 인터페이스(1921)는 상기 메모리(1910)에 접근하기 위한 인터페이스를 제공한다. 상기 주변 장치 인터페이스(1923)는 상기 전자 장치의 상기 입출력 서브 시스템(1930) 및 적어도 하나의 주변 장치를 상기 프로세서(1921) 및 상기 메모리(1910)에 연결시킨다.

상기 입출력 서브 시스템(1930)은 터치 스크린 제어기(1931), 기타 입력 제어기(1932), 터치 스크린(1933), 기타 입력/제어 장치(1934)를 포함할 수 있다.

상기 터치 스크린 제어기(1931)는 상기 터치 스크린(1933)에 결합될 수 있다. 상기 터치 스크린(1933) 및 상기 터치 스크린 제어기(1931)는, 이에 한정되지 아니하나, 상기 터치 스크린(1933) 상에서의 적어도 하나의 접촉점을 결정하기 위한 용량성, 저항성, 적외선 및 표면 음향파 기술들 뿐만 아니라 기타 근접 센서 배열 또는 기타 요소들을 포함하는 멀티 터치(multi-touch) 감지 기술을 이용하여 접촉, 움직임, 상기 접촉 또는 상기 움직임의 중단을 검출할 수 있다.

상기 기타 입력 제어기(1932)는 상기 기타 입력/제어 장치(1934)에 결합될 수 있다. 상기 기타 입력/제어 장치(1934)에 적어도 하나의 볼륨(volumn) 제어를 위한 업/다운(up/down) 버튼이 포함될 수 있다. 또한, 상기 버튼은 푸시 버튼(push button) 또는 로커 버튼(rocker button), 로커(rocker) 스위치, 썸-휠(thumb-wheel), 다이얼(dial), 스틱(stick), 스타일러스(stylus)와 같은 포인터 장치 등의 형태를 가질 수 있다.

상기 터치 스크린(1933)은 상기 전자 장치와 사용자 사이에 입력/출력 인터페이스를 제공한다. 예컨데, 상기 터치 스크린(1933)은 사용자의 터치 입력을 상기 전자 장치에 전달한다. 또한, 상기 터치 스크린(1933)은 상기 전자 장치로부터의 출력을 사용자에게 보여주는 매개체이다. 예컨데, 상기 터치 스크린(1933)은 사용자에게 시각적 출력을 보여준다. 상기 시각적 출력(visual output)은 텍스트(text), 그래픽(graphic), 비디오(video), 이들의 조합의 형태로 표현된다.

상기 터치 스크린(1933)을 위해 다양한 디스플레이 수단이 사용될 수 있다. 예를 들면, 이에 한정되지 아니하나, 상기 터치 스크린(1933)은 LCD(liquid crystal display), LED(Light Emitting Diode), LPD(light emitting polymer display), OLED(Organic Light Emitting Diode), AMOLED(Active Matrix Organic Light Emitting Diode), 또는, FLED(Flexible LED)를 포함할 수 있다.

상기 오디오 서브 시스템(1940)은 상기 스피커(1941) 및 상기 마이크로폰(1942)에 결합되어 음성 인식, 음성 복제, 디지털 레코딩(recording) 및 전화 기능과 같은 오디오 스트림의 입력과 출력을 담당한다. 예컨데, 상기 오디오 서브 시스템(1940)은 상기 스피커(1941) 및 상기 마이크로폰(1942)을 통해 사용자와 소통한다(communicate). 상기 오디오 서브 시스템(1940)은 상기 프로세서 유닛(1920)의 상기 주변장치 인터페이스(1923)를 통해 데이터 스트림을 수신하고, 상기 데이터 스트림을 전기 신호(electric signal)로 변환한다. 변환된 전기 신호는 상기 스피커(1941)로 전달된다. 상기 스피커(1941)는 상기 전기 신호를 사람이 들을 수 있는 음파(sound wave)로 변환하여 출력한다.

상기 마이크로폰(1942)은 사람이나 기타 외부 소리원(sound source)들로부터 전달된 음파를 전기 신호로 변환한다. 상기 오디오 서브 시스템(1940)은 상기 마이크로폰(1942)으로부터 상기 전기 신호를 수신한다. 상기 오디오 서브 시스템(1940)은 상기 전기 신호를 오디오 데이터 스트림으로 변환하고, 상기 오디오 데이터 스트림을 상기 주변장치 인터페이스(1923)로 전송한다. 상기 오디오 서브 시스템(1940)은 탈부착 가능한(attachable and detachable) 이어폰(ear phone), 헤드폰(head phone) 또는 헤드셋(head set)을 포함하거나, 상기 이어폰, 상기 헤드폰, 상기 헤드셋 등을 연결하기 위한 단자를 포함할 수 있다. 상기 마이크로폰(1942)는 다수일 수 있으며, 상기 전자 장치의 전면 및 후면 각각에 배치될 수 있다.

상기 센싱 서브 시스템(1950)은 외부 자극을 검출한다. 상기 센싱 서브 시스템(1950)은 가속도 센서, 자이로(gyro) 센서, 광(optical) 센서, 지자기 센서, 중력 센서(G-sensor), 온도 센서, 생체 센서, 또는, 위치 센서를 포함할 수 있다. 상기 위치 센서로서, GPS(Global Positioning System) 모듈이 사용될 수 있다. 상기 센싱 서브 시스템(1950)은 움직임, 빛, 기울기, 방위 등을 감지하고, 감지 결과를 나타내는 전기적 신호를 제공한다. 상기 센싱 서브 시스템(1950)은 상기 움직임 등을 나타내는 전기적 신호를 해석하는 블록을 더 포함할 수 있다.

상기 카메라 서브 시스템(1960)은 사진 촬영, 비디오 레코딩 등의 기능을 수행할 수 있다. 상기 카메라 서브 시스템(1960)은 이미지 센서, 렌즈 등을 포함할 수 있다. 상기 이미지 센서로서, CCD(charged coupled device), 또는, CMOS(complementary metal-oxide semiconductor)가 사용될 수 있다. 예컨데, 상기 카메라 서브 시스템(1960)은 렌즈를 통해 입력되는 빛을 상기 이미지 센서로 인식하고, 상기 이미지 센서에서 인식된 이미지를 디지털 데이터화한다.

본 개시에 따른 상기 전자 장치의 다양한 기능들은 적어도 하나의 스트림 프로세싱(processing), 어플리케이션 특정 집적 회로(ASIC: Application Specific Integrated Circuit)를 포함하는 하드웨어, 소프트웨어, 이들의 결합으로 실행될 수 있다.

도 20은 본 개시의 다른 실시 예에 따른 전자 장치의 블록 구성을 도시하고 있다. 상기 도 20에 도시된 전자 장치의 구성은, 상기 도 19와 비교할 때, 소프트웨어로 구현된 이미지 및 오디오 결합 및 재생 기능을 하드웨어 모듈로 구현한 실시 예를 나타낸다.

상기 도 20을 참고하면, 상기 전자 장치는 메모리(2010), 프로세서 유닛(2020), 입출력 시스템(2030), 오디오 서브 시스템(2040), 센싱 서브 시스템(2050), 카메라 서브 시스템(2060)을 포함한다. 상기 메모리(2010)는 다수 개로 구성될 수 있다.

상기 메모리(2010)는 적어도 하나의 소프트웨어, 마이크로 코드, 설정 정보 등을 저장한다. 상기 메모리(2010)는 적어도 하나의 고속 랜덤 액세스 메모리, 비휘발성 메모리, 적어도 하나의 광 저장 장치, 또는, 플래시 메모리(예: NAND, NOR)를 포함할 수 있다. 상기 메모리(2010)에 저장된 소프트웨어 구성 요소는 운영 체제 모듈(2011), 통신 모듈(2012), 그래픽 모듈(2012), 사용자 인터페이스 모듈(2013), 카메라 모듈(2014), 이미지/오디오 결합 데이터(2015) 등을 포함할 수 있다. 또한, 소프트웨어 구성 요소인 모듈은 명령어들의 집합으로 표현할 수 있고, 상기 모듈은 '명령어 집합' 또는 '프로그램'으로 지칭될 수 있다. 본 개시의 실시 예에 따른 방법을 수행하는 명령어들은 포함하는 적어도 하나의 모듈들이 상기 메모리(2010)에 저장될 수 있다.

상기 운영 체제 모듈(2011)은 일반적인 시스템 작동(system operation)을 제어하는 적어도 하나의 소프트웨어 구성 요소를 포함한다. 예를 들어, 상기 운영 체제 모듈(2011)은 WINDOWS, LINUX, 다윈(Darwin), RTXC, UNIX, OS X, VxWorks, Android, iOS와 같은 내장 운영 체제일 수 있다. 예를 들어, 상기 운영 체제 모듈(2011)은 메모리 관리 및 제어, 저장 하드웨어 제어 및 관리, 전력 제어 및 관리 등의 일반적인 시스템 작동 제어를 담당한다. 상기 운영 체제 모듈(2011)은 적어도 하나의 하드웨어 요소 및 적어도 하나의 소프트웨어 구성 요소 간 통신이 원활하게 이루어지도록 제어한다. 상기 그래픽 모듈(2012)은 상기 터치 스크린(2033) 상에 그래픽을 제공하고 표시하기 위한 적어도 하나의 소프트웨어 구성 요소를 포함한다. 여기서, 그래픽은 텍스트(text), 웹 페이지(web page), 아이콘(icon), 디지털 이미지(digital image), 비디오(video), 애니메이션(animation) 등을 포함한다. 상기 사용자 인터페이스 모듈(2013)은 사용자 인터페이스를 제공하기 위한 적어도 하나의 소프트웨어 구성 요소를 포함한다. 예컨데, 상기 사용자 인터페이스 모듈(2013)은 상기 사용자 인터페이스의 상태가 어떻게 변경되는지, 또는, 사용자 인터페이스 상태의 변경이 어떤 조건에서 이루어지는지 등을 제어한다. 상기 카메라 모듈(2014)은 카메라 관련 프로세스 및 기능들을 수행하기 위한 적어도 하나의 소프트웨어 구성 요소를 포함한다. 상기 이미지/오디오 결합 데이터(2015)는 본 개시의 실시 예에 따라 생성된 결합 데이터 집합을 포함한다. 예를 들어, 상기 이미지/오디오 결합 데이터(2015)는 상기 도 2와 같은 데이터를 포함한다. 또한, 상기 이미지/오디오 결합 데이터(2015)는 상기 도 6과 같이 구성될 수 있다.

상기 메모리(2010)는 상술한 모듈들(2011 내지 2015) 외에 추가적인 모듈을 포함할 수 있다. 또는, 본 개시의 다른 실시 예에 따라, 상술한 모듈들(2011 내지 2015) 중 일부가 배제될 수 있다.

상기 프로세서 유닛(2020)은 메모리 인터페이스(2021), 프로세서(2022) 및 주변장치 인터페이스(peripheral interface)(2023), 이미지/오디오 결합 모듈(2024)을 포함한다. 경우에 따라, 상기 프로세서 유닛(2020) 전체가 '프로세서'로 지칭될 수 있다. 상기 메모리 인터페이스(2021), 상기 프로세서(2022), 상기 주변장치 인터페이스(2023) 각각은 별개의 구성 요소이거나, 또는, 적어도 하나의 집적화된 회로에 포함될 수 있다.

상기 프로세서(2022)는 적어도 하나의 하드웨어 칩(chip)을 포함할 수 있다. 상기 프로세서(2022)는 소프트웨어 모듈을 실행함으로써 상기 전자 장치가 상기 소프트웨어 모듈에 의해 구현되는 기능을 수행하게 한다. 특히, 상기 프로세서(2022)는 상기 메모리(2010)에 저장된 소프트웨어 모듈들과 연동하여 본 개시의 실시 예를 실시한다. 또한, 상기 프로세서(2022)는 적어도 하나의 데이터 프로세서, 이미지 프로세서를 포함할 수 있다. 본 개시의 다른 실시 예에 따라, 상기 데이터 프로세서, 상기 이미지 프로세서는 별도의 하드웨어로 구성될 수 있다. 또한, 상기 프로세서(2022)는 서로 다른 기능을 수행하는 다수의 프로세서들로 구성될 수 있다.

상기 이미지/오디오 결합 모듈(2024)은 본 개시의 실시 예에 따라 이미지 및 오디오를 결합하기 위한 적어도 기능을 수행한다. 다시 말해, 상기 이미지/오디오 결합 모듈(2014)은 상기 도 17과 같이 결합 데이터 집합을 생성하기 위한 기능들 및 상기 도 18과 같이 결합 데이터 집합을 재생하기 위한 기능들을 수행한다. 상기 이미지/오디오 결합 모듈(2014)은 상기 전자 장치가 상기 도 1 내지 상기 도 16을 참고하여 설명한 바와 같이 동작하도록 제어한다.

상기 메모리 인터페이스(2021)는 상기 메모리(2010) 및 상기 프로세서(2022) 간 데이터 및 제어 신호의 이동 경로를 제공한다. 예컨데, 상기 메모리 인터페이스(2021)는 상기 메모리(2010)에 접근하기 위한 인터페이스를 제공한다. 상기 주변 장치 인터페이스(2023)는 상기 전자 장치의 상기 입출력 서브 시스템(2030) 및 적어도 하나의 주변 장치를 상기 프로세서(2021) 및 상기 메모리(2010)에 연결시킨다.

상기 입출력 서브 시스템(2030)은 터치 스크린 제어기(2031), 기타 입력 제어기(2032), 터치 스크린(2033), 기타 입력/제어 장치(2034)를 포함할 수 있다.

상기 터치 스크린 제어기(2031)는 상기 터치 스크린(2033)에 결합될 수 있다. 상기 터치 스크린(2033) 및 상기 터치 스크린 제어기(2031)는, 이에 한정되지 아니하나, 상기 터치 스크린(2033) 상에서의 적어도 하나의 접촉점을 결정하기 위한 용량성, 저항성, 적외선 및 표면 음향파 기술들 뿐만 아니라 기타 근접 센서 배열 또는 기타 요소들을 포함하는 멀티 터치 감지 기술을 이용하여 접촉, 움직임, 상기 접촉 또는 상기 움직임의 중단을 검출할 수 있다.

상기 기타 입력 제어기(2032)는 상기 기타 입력/제어 장치(2034)에 결합될 수 있다. 상기 기타 입력/제어 장치(2034)에 적어도 하나의 볼륨 제어를 위한 업/다운 버튼이 포함될 수 있다. 또한, 상기 버튼은 푸시 버튼 또는 로커 버튼, 로커 스위치, 썸-휠, 다이얼, 스틱, 스타일러스와 같은 포인터 장치 등의 형태를 가질 수 있다.

상기 터치 스크린(2033)은 상기 전자 장치와 사용자 사이에 입력/출력 인터페이스를 제공한다. 예컨데, 상기 터치 스크린(2033)은 사용자의 터치 입력을 상기 전자 장치에 전달한다. 또한, 상기 터치 스크린(2033)은 상기 전자 장치로부터의 출력을 사용자에게 보여주는 매개체이다. 예컨데, 상기 터치 스크린(2033)은 사용자에게 시각적 출력을 보여준다. 상기 시각적 출력은 텍스트, 그래픽, 비디오, 이들의 조합의 형태로 표현된다.

상기 터치 스크린(2033)을 위해 다양한 디스플레이 수단이 사용될 수 있다. 예를 들면, 이에 한정되지 아니하나, 상기 터치 스크린(2033)은 LCD, LED, LPD, OLED, AMOLED, 또는, FLED를 포함할 수 있다.

상기 오디오 서브 시스템(2040)은 상기 스피커(2041) 및 상기 마이크로폰(2042)에 결합되어 음성 인식, 음성 복제, 디지털 레코딩 및 전화 기능과 같은 오디오 스트림의 입력과 출력을 담당한다. 예컨데, 상기 오디오 서브 시스템(2040)은 상기 스피커(2041) 및 상기 마이크로폰(2042)을 통해 사용자와 소통한다. 상기 오디오 서브 시스템(2040)은 상기 프로세서 유닛(2020)의 상기 주변장치 인터페이스(2023)를 통해 데이터 스트림을 수신하고, 상기 데이터 스트림을 전기 신호로 변환한다. 변환된 전기 신호는 상기 스피커(2041)로 전달된다. 상기 스피커(2041)는 상기 전기 신호를 사람이 들을 수 있는 음파로 변환하여 출력한다.

상기 마이크로폰(2042)은 사람이나 기타 외부 소리원들로부터 전달된 음파를 전기 신호로 변환한다. 상기 오디오 서브 시스템(2040)은 상기 마이크로폰(2042)으로부터 상기 전기 신호를 수신한다. 상기 오디오 서브 시스템(2040)은 상기 전기 신호를 오디오 데이터 스트림으로 변환하고, 상기 오디오 데이터 스트림을 상기 주변장치 인터페이스(2023)로 전송한다. 상기 오디오 서브 시스템(2040)은 탈부착 가능한 이어폰, 헤드폰 또는 헤드셋을 포함하거나, 상기 이어폰, 상기 헤드폰, 상기 헤드셋 등을 연결하기 위한 단자를 포함할 수 있다. 상기 마이크로폰(2042)는 다수일 수 있으며, 상기 전자 장치의 전면 및 후면 각각에 배치될 수 있다.

상기 센싱 서브 시스템(2050)은 외부 자극을 검출한다. 상기 센싱 서브 시스템(2050)은 가속도 센서, 자이로 센서, 광 센서, 지자기 센서, 중력 센서, 온도 센서, 생체 센서, 또는, 위치 센서를 포함할 수 있다. 상기 위치 센서로서, GPS 모듈이 사용될 수 있다. 상기 센싱 서브 시스템(2050)은 움직임, 빛, 기울기, 방위 등을 감지하고, 감지 결과를 나타내는 전기적 신호를 제공한다. 상기 센싱 서브 시스템(2050)은 상기 움직임 등을 나타내는 전기적 신호를 해석하는 블록을 더 포함할 수 있다.

상기 카메라 서브 시스템(2060)은 사진 촬영, 비디오 레코딩 등의 기능을 수행할 수 있다. 상기 카메라 서브 시스템(2060)은 이미지 센서, 렌즈 등을 포함할 수 있다. 상기 이미지 센서로서, CCD, 또는, CMOS가 사용될 수 있다. 예컨데, 상기 카메라 서브 시스템(2060)은 렌즈를 통해 입력되는 빛을 상기 이미지 센서로 인식하고, 상기 이미지 센서에서 인식된 이미지를 디지털 데이터화한다.

본 개시에 따른 상기 전자 장치의 다양한 기능들은 적어도 하나의 스트림 프로세싱, 어플리케이션 특정 집적 회로를 포함하는 하드웨어, 소프트웨어, 이들의 결합으로 실행될 수 있다.

본 개시의 청구항 및/또는 명세서에 기재된 실시 예들에 따른 방법들은 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합의 형태로 구현될(implemented) 수 있다.

소프트웨어로 구현하는 경우, 하나 이상의 프로그램(소프트웨어 모듈)을 저장하는 컴퓨터 판독 가능 저장 매체가 제공될 수 있다. 컴퓨터 판독 가능 저장 매체에 저장되는 하나 이상의 프로그램은, 전자 장치(device) 내의 하나 이상의 프로세서에 의해 실행 가능하도록 구성된다(configured for execution). 하나 이상의 프로그램은, 전자 장치로 하여금, 본 개시의 청구항 및/또는 명세서에 기재된 실시 예들에 따른 방법들을 실행하게 하는 명령어(instructions)를 포함한다.

이러한 프로그램(소프트웨어 모듈, 소프트웨어)은 랜덤 액세스 메모리 (random access memory), 플래시(flash) 메모리를 포함하는 불휘발성(non-volatile) 메모리, 롬(ROM, Read Only Memory), 전기적 삭제가능 프로그램가능 롬(EEPROM, Electrically Erasable Programmable Read Only Memory), 자기 디스크 저장 장치(magnetic disc storage device), 컴팩트 디스크 롬(CD-ROM, Compact Disc-ROM), 디지털 다목적 디스크(DVDs, Digital Versatile Discs) 또는 다른 형태의 광학 저장 장치, 마그네틱 카세트(magnetic cassette)에 저장될 수 있다. 또는, 이들의 일부 또는 전부의 조합으로 구성된 메모리에 저장될 수 있다. 또한, 각각의 구성 메모리는 다수 개 포함될 수도 있다.

또한, 상기 프로그램은 인터넷(Internet), 인트라넷(Intranet), LAN(Local Area Network), WLAN(Wide LAN), 또는 SAN(Storage Area Network)과 같은 통신 네트워크, 또는 이들의 조합으로 구성된 통신 네트워크를 통하여 접근(access)할 수 있는 부착 가능한(attachable) 저장 장치(storage device)에 저장될 수 있다. 이러한 저장 장치는 외부 포트를 통하여 본 개시의 실시 예를 수행하는 장치에 접속할 수 있다. 또한, 통신 네트워크상의 별도의 저장 장치가 본 개시의 실시 예를 수행하는 장치에 접속할 수도 있다.

상술한 본 개시의 구체적인 실시 예들에서, 발명에 포함되는 구성 요소는 제시된 구체적인 실시 예에 따라 단수 또는 복수로 표현되었다. 그러나, 단수 또는 복수의 표현은 설명의 편의를 위해 제시한 상황에 적합하게 선택된 것으로서, 본 개시이 단수 또는 복수의 구성 요소에 제한되는 것은 아니며, 복수로 표현된 구성 요소라하더라도 단수로 구성되거나, 단수로 표현된 구성 요소라 하더라도 복수로 구성될 수 있다.

한편 본 개시의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 개시의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 개시의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims

전자 장치의 동작 방법에 있어서,
이미지를 표시하는 동작과,
상기 이미지 내 제1이미지 객체가 선택 시, 상기 제1이미지 객체에 대응하는 제1오디오 객체를 출력하는 동작과,
상기 이미지 내 제2이미지 객체가 선택 시, 상기 제2이미지 객체에 대응하는 제2오디오 객체를 출력하는 동작을 포함하는 방법.
제1항에 있어서,
상기 이미지를 표시하는 동작은,
이미지 및 오디오가 결합되어 있음을 알리는 UI(User Interface)를 표시하는 동작을 포함하는 방법.
제1항에 있어서,
상기 이미지를 표시하는 동작은,
상기 이미지 내 상기 제1이미지 객체 및 상기 제2이미지 객체를 나머지 부분과 구분 가능하도록 표현하는 동작을 포함하는 방법.
제1항에 있어서,
상기 이미지를 표시하는 동작은,
상기 제1이미지 객체에 대응하는 상기 제1오디오 객체의 출력을 명령하기 위한 UI를 표시하는 동작을 포함하는 방법.
제1항에 있어서,
오디오 객체 삭제를 위해 정의된 모드로 진입하는 동작과,
상기 제1이미지 객체가 선택 시, 상기 제1이미지 객체에 대응하는 제1오디오 객체를 삭제하는 동작을 더 포함하는 방법.
제1항에 있어서,
상기 이미지의 일부를 분할하는 경우, 분할된 이미지에 포함된 적어도 하나의 이미지 객체에 대응하는 적어도 하나의 오디오 객체를 함께 분할하는 동작을 더 포함하는 방법.
제1항에 있어서,
상기 제1이미지 객체 및 상기 제2이미지 객체가 동시에 선택된 경우, 상기 제1오디오 객체 및 상기 제2오디오 객체를 동시에 출력하는 동작을 더 포함하는 방법.
제1항에 있어서,
상기 제1이미지 객체 및 상기 제2이미지 객체가 동시에 선택된 경우, 상기 제1오디오 객체 및 상기 제2오디오 객체를 순차적으로 출력하는 동작을 더 포함하는 방법.
제1항에 있어서,
상기 제1오디오 객체를 출력하는 동작은,
상기 이미지의 메타(meta) 데이터, 상기 이미지 내의 오디오 데이터를 위해 정의된 필드, 매핑 정보 데이터 베이스 중 하나에서 상기 제1이미지 객체에 대응하는 오디오 객체를 검색하는 동작을 포함하는 방법.
전자 장치의 동작 방법에 있어서,
이미지 및 오디오를 수집하는 동작과,
상기 이미지로부터 추출된 적어도 하나의 이미지 객체 및 상기 오디오로부터 추출된 상기 적어도 하나의 오디오 객체의 특징들에 기초하여 상기 적어도 하나의 이미지 객체 및 상기 적어도 하나의 오디오 객체 간 대응(mapping) 관계를 결정하는 동작과,
상기 이미지를 나타내는 이미지 데이터, 상기 오디오를 나타내는 오디오 데이터, 상기 대응 관계를 나타내는 매핑 데이터를 포함하는 결합 데이터 집합을 저장하는 동작을 포함하는 방법.
제10항에 있어서,
상기 이미지 및 상기 오디오는, 이미지 촬영 및 상기 이미지 촬영을 위한 셔터 입력 시점을 기준으로 정해지는 시간 구간 동안의 오디오를 녹음함으로써, 오디오 녹음 및 상기 오디오 녹음 구간 내 특정 시점에 이미지를 촬영함으로써, 또는, 동영상을 촬영함으로써 수집되는 방법.
제10항에 있어서,
특정 피사체 또는 특정 움직임을 나타내는 상기 이미지 상의 폐영역을 하나의 이미지 객체로서 추출하는 동작을 더 포함하는 방법.
제10항에 있어서,
상기 이미지에서 인물의 얼굴을 인식하는 동작과,
상기 이미지에서 인식된 얼굴 및 기등록된 인물들의 얼굴 영상들을 비교하는 동작과,
임계치 이상의 유사도를 가지는 인물을 결정하는 동작을 더 포함하는 방법.
제10항에 있어서,
상기 이미지에서 인물의 얼굴을 인식하는 동작과,
상기 이미지를 분석함으로써, 상기 인물의 특징을 결정하는 동작을 포함하며,
상기 특징은, 성별, 또는 연령대를 포함하는 방법,
제10항에 있어서,
상기 오디오에서 묵음 구간, 잡음, 또는, 배경음 셔터음를 제거하는 동작을 더 포함하는 방법.
제10항에 있어서,
상기 오디오에서 화자 별 음성 신호를 분리하는 동작을 포함하는 방법.
제16항에 있어서,
상기 화자 별 음성 신호를 분리하는 동작은,
상기 오디오에서 음성 신호를 추출하는 동작과,
화자 관련 특징 및 상기 음성 신호의 특징을 비교함으로써 각 화자의 음성 신호를 식별하는 동작을 포함하는 방법.
제17항에 있어서,
상기 화자 관련 특징은, 이미지 분석, 전화 통화 시 수집된 오디오 신호 분석, 음성 인식을 통한 문언적 의미 해석, 또는, 방향 판단을 통해 결정되는 방법.
제16항에 있어서,
상기 화자 별 음성 신호를 분리하는 동작은,
상기 오디오에서 다수의 음성 신호들을 추출하는 동작과,
상기 다수의 음성 신호들을 음원의 방향성에 따라 분리하는 동작을 포함하는 방법.
제10항에 있어서,
상기 대응 관계를 결정하는 동작은,
제1이미지 객체에 대하여, 상기 제1이미지 객체의 특징과 대응되는 특징을 가지는 오디오 객체를 매핑하는 동작을 포함하는 방법.
제10항에 있어서,
상기 대응 관계를 결정하는 동작은,
제1이미지 객체에 대하여, 상기 제1이미지 객체가 움직이는 동안 입력된 오디오 객체를 매핑하는 동작을 포함하는 방법.
제10항에 있어서,
상기 대응 관계를 결정하는 동작은,
상기 적어도 하나의 오디오 객체의 음원 방향성을 판단하는 동작과,
제1이미지 객체에 대하여, 상기 제1이미지 객체의 방향과 임계치 이상의 방향 유사도를 가지는 오디오 객체를 매핑하는 동작을 포함하는 방법.
제10항에 있어서,
상기 대응 관계를 결정하는 동작은,
상기 대응 관계를 설정하기 위한 UI를 표시하는 동작과,
사용자의 명령에 따라 상기 대응 관계를 결정하는 동작을 포함하는 방법.
제10항에 있어서,
상기 대응 관계를 결정하는 동작은,
서로 다른 시점에 생성된 이미지 및 오디오에서 추출된 적어도 하나의 이미지 객체 및 적어도 하나의 오디오 객체 간 결합 관계를 결정하는 동작을 포함하는 방법.
제10항에 있어서,
상기 결합 데이터 집합은, 오디오 파일에 이미지 데이터가 삽입되는 제1형태, 이미지 파일에 오디오 데이터가 삽입되는 제2형태, 이미지 데이터가 비디오 트랙으로서, 오디오 데이터가 오디오 트랙으로서 구성되는 동영상 파일인 제3형태, 이미지 파일, 오디오 파일, 매핑 정보 데이터 베이스가 각각 별도로 존재하는 별도의 매핑 정보 데이터를 추가한 제4형태 중 하나인 것을 특징으로 하는 방법.
전자 장치에 있어서,
이미지를 표시하는 표시부와,
상기 이미지 내 제1이미지 객체가 선택 시, 상기 제1이미지 객체에 대응하는 제1오디오 객체를 출력하고, 상기 이미지 내 제2이미지 객체가 선택 시, 상기 제2이미지 객체에 대응하는 제2오디오 객체를 출력하도록 제어하는 프로세서를 포함하는 장치.
제26항에 있어서,
상기 표시부는, 이미지 및 오디오가 결합되어 있음을 알리는 UI(User Interface)를 표시하는 장치.
제26항에 있어서,
상기 표시부는, 상기 이미지 내 상기 제1이미지 객체 및 상기 제2이미지 객체를 나머지 부분과 구분 가능하도록 표현하는 장치.
제26항에 있어서,
상기 표시부는, 상기 제1이미지 객체에 대응하는 상기 제1오디오 객체의 출력을 명령하기 위한 UI를 표시하는 장치.
제26항에 있어서,
상기 프로세서는, 오디오 객체 삭제를 위해 정의된 모드로 진입하고, 상기 제1이미지 객체가 선택 시, 상기 제1이미지 객체에 대응하는 제1오디오 객체를 삭제하는 장치.
제26항에 있어서,
상기 프로세서는, 상기 이미지의 일부를 분할하는 경우, 분할된 이미지에 포함된 적어도 하나의 이미지 객체에 대응하는 적어도 하나의 오디오 객체를 함께 분할하는 장치.
제26항에 있어서,
상기 프로세서는, 상기 제1이미지 객체 및 상기 제2이미지 객체가 동시에 선택된 경우, 상기 제1오디오 객체 및 상기 제2오디오 객체를 동시에 출력하도록 제어하는 장치.
제26항에 있어서,
상기 프로세서는, 상기 제1이미지 객체 및 상기 제2이미지 객체가 동시에 선택된 경우, 상기 제1오디오 객체 및 상기 제2오디오 객체를 순차적으로 출력하도록 제어하는 장치.
제26항에 있어서,
상기 프로세서는, 상기 제1오디오 객체를 출력하기 위해, 상기 이미지의 메타(meta) 데이터, 상기 이미지 내의 오디오 데이터를 위해 정의된 필드, 매핑 정보 데이터 베이스 중 하나에서 상기 제1이미지 객체에 대응하는 오디오 객체를 검색하는 장치.
전자 장치에 있어서,
이미지 및 오디오를 수집하고, 상기 이미지로부터 추출된 적어도 하나의 이미지 객체 및 상기 오디오로부터 추출된 상기 적어도 하나의 오디오 객체의 특징들에 기초하여 상기 적어도 하나의 이미지 객체 및 상기 적어도 하나의 오디오 객체 간 대응(mapping) 관계를 결정하는 프로세서와,
상기 이미지를 나타내는 이미지 데이터, 상기 오디오를 나타내는 오디오 데이터, 상기 대응 관계를 나타내는 매핑 데이터를 포함하는 결합 데이터 집합을 저장하는 저장부를 포함하는 장치.
제35항에 있어서,
상기 이미지 및 상기 오디오는, 이미지 촬영 및 상기 이미지 촬영을 위한 셔터 입력 시점을 기준으로 정해지는 시간 구간 동안의 오디오를 녹음함으로써, 오디오 녹음 및 상기 오디오 녹음 구간 내 특정 시점에 이미지를 촬영함으로써, 또는, 동영상을 촬영함으로써 수집되는 장치.
제35항에 있어서,
상기 프로세서는, 특정 피사체 또는 특정 움직임을 나타내는 상기 이미지 상의 폐영역을 하나의 이미지 객체로서 추출하는 장치.
제35항에 있어서,
상기 프로세서는, 상기 이미지에서 인물의 얼굴을 인식하고, 상기 이미지에서 인식된 얼굴 및 기등록된 인물들의 얼굴 영상들을 비교하고, 임계치 이상의 유사도를 가지는 인물을 결정하는 장치.
제35항에 있어서,
상기 프로세서는, 상기 이미지에서 인물의 얼굴을 인식하고, 상기 이미지를 분석함으로써, 상기 인물의 특징을 결정하며,
상기 특징은, 성별, 또는, 연령대를 포함하는 장치,
제35항에 있어서,
상기 프로세서는, 상기 오디오에서 묵음 구간, 잡음, 또는, 배경음 셔터음을 제거하는 장치.
제35항에 있어서,
상기 프로세서는, 상기 오디오에서 화자 별 음성 신호를 분리하는 장치.
제41항에 있어서,
상기 프로세서는, 상기 화자 별 음성 신호를 분리하기 위해, 상기 오디오에서 음성 신호를 추출하고, 화자 관련 특징 및 상기 음성 신호의 특징을 비교함으로써 각 화자의 음성 신호를 식별하는 장치.
제42항에 있어서,
상기 화자 관련 특징은, 이미지 분석, 전화 통화 시 수집된 오디오 신호 분석, 음성 인식을 통한 문언적 의미 해석, 또는, 방향 판단을 통해 결정되는 장치.
제41항에 있어서,
상기 프로세서는, 상기 화자 별 음성 신호를 분리하기 위해, 상기 오디오에서 다수의 음성 신호들을 추출하고, 상기 다수의 음성 신호들을 음원의 방향성에 따라 분리하는 장치.
제35항에 있어서,
상기 프로세서는, 제1이미지 객체에 대하여, 상기 제1이미지 객체의 특징과 대응되는 특징을 가지는 오디오 객체를 매핑하는 장치.
제35항에 있어서,
상기 프로세서는, 제1이미지 객체에 대하여, 상기 제1이미지 객체가 움직이는 동안 입력된 오디오 객체를 매핑하는 장치.
제35항에 있어서,
상기 프로세서는, 상기 적어도 하나의 오디오 객체의 음원 방향성을 판단하고, 제1이미지 객체에 대하여, 상기 제1이미지 객체의 방향과 임계치 이상의 방향 유사도를 가지는 오디오 객체를 매핑하는 장치.
제35항에 있어서,
상기 프로세서는, 상기 대응 관계를 설정하기 위한 UI를 표시하도록 제어하고, 사용자의 명령에 따라 상기 대응 관계를 결정하는 장치.
제35항에 있어서,
상기 프로세서는, 서로 다른 시점에 생성된 이미지 및 오디오에서 추출된 적어도 하나의 이미지 객체 및 적어도 하나의 오디오 객체 간 결합 관계를 결정하는 장치.
제35항에 있어서,
상기 결합 데이터 집합은, 오디오 파일에 이미지 데이터가 삽입되는 제1형태, 이미지 파일에 오디오 데이터가 삽입되는 제2형태, 이미지 데이터가 비디오 트랙으로서, 오디오 데이터가 오디오 트랙으로서 구성되는 동영상 파일인 제3형태, 이미지 파일, 오디오 파일, 매핑 정보 데이터 베이스가 각각 별도로 존재하는 별도의 매핑 정보 데이터를 추가한 제4형태 중 하나인 것을 특징으로 하는 장치.
전자 장치에 있어서,
적어도 하나의 소프트웨어 모듈을 저장하는 메모리와,
상기 메모리에 저장된 상기 적어도 하나의 소프트웨어 모듈을 실행할 수 있는 프로세서와,
상기 프로세서의 제어에 따라 이미지를 표시하는 표시부를 포함하며,
상기 적어도 하나의 소프트웨어 모듈은, 상기 이미지 내 제1이미지 객체가 선택 시, 상기 제1이미지 객체에 대응하는 제1오디오 객체를 출력하고, 상기 이미지 내 제2이미지 객체가 선택 시, 상기 제2이미지 객체에 대응하는 제2오디오 객체를 출력하도록 제어하는 적어도 하나의 명령어 집합을 포함하는 장치.
전자 장치에 있어서,
적어도 하나의 소프트웨어 모듈을 저장하는 메모리와,
상기 메모리에 저장된 상기 적어도 하나의 소프트웨어 모듈을 실행할 수 있는 프로세서를 포함하며,
상기 적어도 하나의 소프트웨어 모듈은, 이미지 및 오디오를 수집하고, 상기 이미지로부터 추출된 적어도 하나의 이미지 객체 및 상기 오디오로부터 추출된 상기 적어도 하나의 오디오 객체의 특징들에 기초하여 상기 적어도 하나의 이미지 객체 및 상기 적어도 하나의 오디오 객체 간 대응 관계를 결정하고, 상기 이미지를 나타내는 이미지 데이터, 상기 오디오를 나타내는 오디오 데이터, 상기 대응 관계를 나타내는 매핑 데이터를 포함하는 결합 데이터 집합을 상기 메모리에 저장하도록 제어하는 적어도 하나의 명령어 집합을 포함하는 장치.
전자 장치에 의해 실행될 경우, 상기 장치로 하여금 제1항 내지 제50항 중 하나의 방법을 수행하도록 하는 명령어들을 포함하는 적어도 하나의 프로그램을 저장한 컴퓨터 판독 가능 저장 매체.
전자 장치의 동작 방법에 있어서,
제1카메라를 통해 입력되는 제1이미지 및 제2카메라를 통해 입력되는 제2이미지를 표시하는 동작과,
오디오가 발생하였을 때 제1카메라와 제2카메라의 촬영 방향 중 어느 카메라 방향인지 판별하는 동작과,
판별된 방향 정보에 기반하여 상기 제1이미지 혹은 상기 제2이미지 중 해당 해당방향의 카메라를 통해 입력된 이미지와 상기 오디오를 매핑(mapping)하는 동작을 포함하는 방법.
제54항에 있어서,
상기 제2이미지가 상기 제1이미지 내부의 일부 영역을 점유하도록 표시되며,
상기 제2카메라의 촬영 방향으로부터 오디오가 발생하면, 상기 제2이미지의 표시 크기를 확장하는 동작을 포함하는 방법.