KR100704631B1

KR100704631B1 - 음성 주석 생성 장치 및 방법

Info

Publication number: KR100704631B1
Application number: KR1020050073435A
Authority: KR
Inventors: 박정철
Original assignee: 삼성전자주식회사
Priority date: 2005-08-10
Filing date: 2005-08-10
Publication date: 2007-04-10
Also published as: US20070038458A1; KR20070018594A

Abstract

본 발명은 음성 주석 생성 장치 및 방법에 관한 것으로서, 사용자에 의해 그룹화된 복수의 멀티미디어 컨텐츠가 디스플레이될 때, 각 멀티미디어 컨텐츠에 대응되어 출력되는 각 음성 정보를 하나의 파일로 생성하여 저장하는 음성 주석 생성 장치 및 방법에 관한 것이다.

본 발명의 실시예에 따른 음성 주석 생성 장치는 적어도 하나 이상의 멀티미디어 컨텐츠에 대한 선택 명령을 수신하는 인터페이스부와, 상기 선택 명령에 따라 선택된 상기 멀티미디어 컨텐츠 각각에 대응되는 음성을 입력 받는 음성 입력부 및 상기 입력된 적어도 하나 이상의 음성이 포함된 음성 주석 파일을 생성하는 음성 주석 생성부를 포함한다.

음성 주석, 멀티미디어 컨텐츠, 인터페이스, 앨범

Description

음성 주석 생성 장치 및 방법{Apparatus and method for creating audio annotation}

도 1은 종래의 멀티미디어 컨텐츠와 음성 파일의 대응 관계를 나타낸 개념도이다.

도 2는 본 발명의 실시예에 따른 음성 주석 생성 장치를 나타낸 블록도이다.

도 3은 본 발명의 실시예에 따른 음성 주석 파일의 포맷을 나타낸 도면이다.

도 4a 내지 도 4c는 본 발명의 실시예에 따른 멀티미디어 컨텐츠 및 음성 주석 파일이 저장된 디렉터리의 구조를 나타낸 도면이다.

도 5는 본 발명의 실시예에 따른 음성 주석 앨범의 제목을 입력받는 그래픽 사용자 인터페이스가 디스플레이된 것을 나타낸 도면이다.

도 6은 본 발명의 실시예에 따른 멀티미디어 컨텐츠의 선택 명령을 입력받는 그래픽 사용자 인터페이스(600)가 디스플레이된 것을 나타낸 도면이다.

도 6a 내지 도 6c는 본 발명의 실시예에 따른 음성 주석 파일을 관리하는 과정을 나타낸 그래픽 사용자 인터페이스이다.

도 7은 본 발명의 실시예에 따른 멀티미디어 컨텐츠의 재생 순서에 대한 설정 명령을 입력받는 그래픽 사용자 인터페이스가 디스플레이된 것을 나타낸 도면이다.

도 8a 내지 도 8b는 본 발명의 실시예에 따른 음성 녹음 시 디스플레이되는 그래픽 사용자 인터페이스를 나타낸 도면이다.

도 9는 본 발명의 실시예에 따른 기 작성된 음성 주석 파일의 리스트가 디스플레이된 그래픽 사용자 인터페이스를 나타낸 도면이다.

도 10은 본 발명의 실시예에 따른 멀티미디어 컨텐츠 및 음성이 출력될 때 디스플레이되는 그래픽 사용자 인터페이스를 나타낸 도면이다.

도 11은 본 발명의 실시예에 따른 기 작성된 음성 주석 파일을 편집할 수 있는 그래픽 사용자 인터페이스가 디스플레이된 것을 나타낸 도면이다.

도 12는 본 발명의 실시예에 따른 음성 주석을 생성하는 과정을 나타낸 흐름도이다.

<도면의 주요 부분에 관한 부호의 설명>

210 : 음성 입력부 220 : 멀티미디어 컨텐츠 입력부

230 : 저장부 240 : 음성 주석 생성부

250 : 제어부 260 : 인터페이스부

270 : 출력부

본 발명은 음성 주석 생성 장치 및 방법에 관한 것으로서, 더욱 상세하게는 사용자에 의해 그룹화된 복수의 멀티미디어 컨텐츠가 디스플레이될 때, 각 멀티미 디어 컨텐츠에 대응되어 출력되는 각 음성 정보를 하나의 파일로 생성하여 저장하는 음성 주석 생성 장치 및 방법에 관한 것이다.

기술 발달로 인하여 일반 사용자도 다양한 멀티미디어 컨텐츠를 생성할 수 있게 되었다. 특히, PC(Personal Computer)의 보급과 아날로그 카메라에서 디지털 카메라로의 세대 교체를 통하여 디지털 정지 영상을 생성하는 사용자의 수가 급속도로 늘고 있으며, 캠코더(Camcorder)의 등장으로 인하여 디지털 동영상을 생성하는 사용자도 생겨나게 되었다.

또한, 이러한 디지털 카메라 및 캠코더의 기능은 휴대폰에도 적용되어 그 수는 더욱 증가하고 있다.

생성된 디지털 정지 영상 및 디지털 동영상(이하 멀티미디어 컨텐츠라 한다)은 이를 생성한 장치 즉, 디지털 카메라 또는 캠코더에서 디스플레이될 수 있으며, PC를 통해서도 디스플레이될 수 있다.

또한, 사용자는 아날로그 카메라를 통해 생성된 정지 영상을 스캐너(scanner)로 디지털화한 후에 PC를 통해 디스플레이할 수도 있다.

이때, PC를 통해 디스플레이되는 멀티미디어 컨텐츠는 단순히 정지 영상 또는 동영상만이 디스플레이되거나 재생될 수 있으며, 소프트웨어의 구현 여부에 따라 사용자에 의해 기 입력된 문구 등이 동시에 디스플레이될 수도 있다.

또한, 사용자는 생성되어 저장된 멀티미디어 컨텐츠에 소정의 음성을 대응시켜 저장할 수도 있는데, 이로 인하여 멀티미디어 컨텐츠가 디스플레이되면서 음성이 출력되도록 할 수도 있다.

즉, 멀티미디어 컨텐츠에 대응되는 음성 파일을 생성한 후에 멀티미디어 컨텐츠가 디스플레이될 때 각각의 멀티미디어 컨텐츠에 대응되는 음성 파일을 호출하여 출력하는 것이다.

디지털 카메라 및 캠코더와 같은 장치를 이용하여 멀티미디어 컨텐츠를 생성할 때 사용자는 자신의 음성을 입력하여 저장할 수 있는데, 이로 인하여 사용자는 자신이 처한 상황이나 주변의 음성을 멀티미디어 컨텐츠에 대응하여 저장할 수 있게 된다.

도 1은 종래의 멀티미디어 컨텐츠와 음성 파일의 대응 관계를 나타낸 개념도로서, 복수의 멀티미디어 컨텐츠(10) 중 각 멀티미디어 컨텐츠에 해당 음성 파일(20)이 대응되어 있는 것을 나타내고 있다.

즉, 사용자가 디지털 카메라 등으로 멀티미디어 컨텐츠(10)를 생성하는 경우에 음성을 입력하게 되면, 입력된 음성은 생성된 멀티미디어 컨텐츠(10)에 대응되어 음성 파일(20)로 저장되는 것이다. 이때, 저장된 멀티미디어 컨텐츠(10)와 음성 파일(20)의 파일명은 동일할 수 있는데, 이로 인하여 차후 멀티미디어 컨텐츠(10)를 디스플레이하는 경우에 디스플레이 장치는 디스플레이되는 멀티미디어 컨텐츠(10)와 동일한 이름의 음성 파일(20)을 추출할 수 있게 된다.

그러나, 이는 단순히 멀티미디어 컨텐츠(10)와 음성 파일(20)을 대응시킨 형태로서, 연관성 있는 멀티미디어 컨텐츠(10)의 그룹에 대한 음성 파일(20)을 대응시키지 못한 형태가 된다.

예를 들어, 연관성 있는 복수의 멀티미디어 컨텐츠(10)에 대하여 연관성 있 는 음성 파일(20)을 생성하고자 하는 경우 사용자는 매번 음성 파일(20)을 생성할 때마다 이에 대한 고려를 하고 있어야 하는 것이다.

한편, 일본 공개 특허 2004-297424는 복수의 기록된 정지 영상과 음성을 조합시켜 정지 영상에 음이 부착된 슬라이드 쇼를 간단하게 작성하는 것이 가능한 디지털 카메라를 개시하고 있다.

이에 따르면, 디지털 카메라는 복수의 정지 영상에 대응되는 복수의 음성 정보를 하나의 동영상 파일인 AVI 파일의 형태로 저장하는데, AVI 파일이 재생됨으로써 디지털 카메라는 정지 영상을 디스플레이하고, 그에 대응되는 음성을 출력한다.

여기서, 각각의 정지 영상은 1초 단위로 AVI 파일에 삽입될 수 있는데, 이에 따라 사용자는 하나의 파일에 대한 음성 정보를 길게 하거나 짧게 할 수 있다. 즉, 특정 정지 영상에 대해서는 5초의 음성 정보를 삽입하고, 또 다른 정지 영상에 대해서는 10초의 음성 정보를 대응하여 삽입할 수 있는 것이다.

결국, 여기서 디지털 카메라는 복수의 정지 영상에 대응되는 복수의 음성 정보를 하나의 음성 파일인 AVI 파일의 형태로 저장하고 이를 재생하는데, 이에 따르면 하나의 정지 영상에 대한 복수의 프레임이 AVI 파일에 포함되어야 한다.

다시 말해, 특정 정지 영상에 대해 5초의 음성 정보가 삽입되는 경우 해당 정지 영상은 AVI 파일 안에 5개가 복사되어 저장되는 것인데, 이는 불필요한 자원 낭비이다.

또한, 복수 개의 정지 영상이 하나의 파일에 삽입되기 때문에 삽입된 정지 영상에 대한 편집을 수행하기 어려운 단점도 있다.

이에 따라, 사용자에 의해 그룹화된 복수의 멀티미디어 컨텐츠에 대한 음성 정보를 저장하고, 디스플레이되는 각각의 멀티미디어 컨텐츠에 대응되는 음성 정보를 출력할 수 있는 방법이 요구된다.

본 발명은 사용자에 의해 그룹화된 복수의 멀티미디어 컨텐츠가 디스플레이될 때, 각 멀티미디어 컨텐츠에 대응되어 출력되는 각 음성 정보를 하나의 파일로 생성하여 저장하는데 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해되어질 수 있을 것이다.

상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 음성 주석 생성 장치는 적어도 하나 이상의 멀티미디어 컨텐츠에 대한 선택 명령을 수신하는 인터페이스부와, 상기 선택 명령에 따라 선택된 상기 멀티미디어 컨텐츠 각각에 대응되는 음성을 입력 받는 음성 입력부 및 상기 입력된 적어도 하나 이상의 음성이 포함된 음성 주석 파일을 생성하는 음성 주석 생성부를 포함한다.

본 발명의 실시예에 따른 음성 주석 생성 방법은 적어도 하나 이상의 멀티미디어 컨텐츠에 대한 선택 명령을 수신하는 단계와, 상기 선택 명령에 따라 선택된 상기 멀티미디어 컨텐츠 각각에 대응되는 음성을 입력 받는 단계 및 상기 입력된 적어도 하나 이상의 음성이 포함된 음성 주석 파일을 생성하는 단계를 포함한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

도 2는 본 발명의 실시예에 따른 음성 주석 생성 장치를 나타낸 블록도로서, 장치는 음성 입력부(210), 멀티미디어 컨텐츠 입력부(220), 저장부(230), 음성 주석 생성부(240), 제어부(250), 인터페이스부(260) 및 출력부(270)를 포함하여 구성된다.

본 발명의 실시예에 따른 음성 주석 생성 장치(이하 장치라 한다)는 복수의 멀티미디어 컨텐츠에 대한 하나의 음성 주석 파일을 생성한다. 여기서, 멀티미디어 컨텐츠는 정지 영상 또는 동영상일 수 있다.

따라서, 장치에는 사용자의 음성을 입력받을 수 있는 입력 수단, 멀티미디어 컨텐츠와 생성된 음성 주석 파일을 저장할 수 있는 저장 수단이 구비되어 있을 수 있으며, 멀티미디어 컨텐츠 및 멀티미디어 컨텐츠에 대응되는 음성을 출력할 수 있는 출력 수단이 구비되어 있을 수 있는데, 이러한 장치로는 디지털 카메라 및 캠코더 등이 해당되며, 디지털 카메라 및 캠코더의 기능이 구비된 휴대폰, PDA 및 PC 등도 해당될 수 있다.

저장부(230)는 멀티미디어 컨텐츠 및 멀티미디어 컨텐츠에 대응되는 음성이 조합된 음성 주석 파일을 저장하는 역할을 한다.

전술한 바와 같이 멀티미디어 컨텐츠는 정지 영상 또는 동영상일 수 있으며, 음성 주석 파일에는 디스플레이되는 멀티미디어 컨텐츠에 대한 정보와 음성이 포함될 수 있다. 다시 말해, 음성 주석 파일에는 음성 데이터는 포함되어 있지만 멀티미디어 컨텐츠 데이터는 포함되어 있지 않고 단지, 멀티미디어 컨텐츠에 대한 링크 정보만이 포함되어 있는 것이다. 이에 따라, 장치 또는 별도의 출력 장치는 링크 정보를 이용하여 멀티미디어 컨텐츠와 이에 대응되는 음성을 출력할 수 있게 된다.

또한, 음성 주석 파일에 멀티미디어 컨텐츠가 포함되어 있지 않기 때문에 사용자는 자유롭게 멀티미디어 컨텐츠에 대한 편집을 할 수도 있다.

음성 주석 파일에 대한 자세한 설명은 도 3을 통하여 후술하기로 한다.

저장부(230)는 하드 디스크, 플래시 메모리, CF 카드(Compact Flash Card), SD 카드(Secure Digital Card), SM 카드(Smart Media Card), MMC 카드(Multimedia Card) 또는 메모리 스틱(Memory Stick) 등 정보의 입출력이 가능한 모듈로서 장치의 내부에 구비되어 있을 수도 있고, 별도의 장치에 구비되어 있을 수도 있다.

멀티미디어 컨텐츠 입력부(220)는 장치에 의해 촬영된 멀티미디어 컨텐츠를 입력 받거나 별도의 장치에 저장된 멀티미디어 컨텐츠를 입력받는 역할을 한다. 이에 따라, 장치에는 CMOS 및 CCD와 같은 촬상 소자가 구비되어 있을 수 있고, 아날로그로 입력된 멀티미디어 컨텐츠를 디지털로 변환하는 디코더가 구비되어 있을 수 있으며, 별도의 장치와 통신할 수 있는 통신 수단이 구비되어 있을 수 있다.

여기서, 통신 수단의 통신 방식으로는 이더넷, USB, IEEE 1394, 직렬 통신(serial communication) 및 병렬 통신(parallel communication)과 같은 유선 통신 방식이 사용될 수 있으며, 적외선 통신, 블루투스, 홈 RF 및 무선 랜과 같은 무선 통신 방식이 사용될 수도 있다.

멀티미디어 컨텐츠 입력부(220)에 의해 입력된 멀티미디어 컨텐츠는 저장부(230)에 저장된다.

인터페이스부(260)는 적어도 하나 이상의 멀티미디어 컨텐츠에 대한 선택 명령을 수신하는 역할을 한다. 다시 말해, 사용자는 음성 주석 파일을 생성하기 위하여 대상이 되는 멀티미디어 컨텐츠를 선택하게 되는데, 인터페이스부(260)를 통하여 저장부(230)에 저장된 복수의 멀티미디어 컨텐츠 중 음성에 링크되는 멀티미디어 컨텐츠에 대한 선택 명령을 입력할 수 있다.

인터페이스부(260)는 사용자의 명령을 수신할 수 있는 수단으로서, 장치에 구비된 버튼, 휠 및 센서 등이 이에 해당되며, 터치 스크린 기능이 구비된 장치의 경우에는 터치 스크린도 인터페이스부(260)에 해당될 수 있다.

한편, 장치에 디스플레이 수단이 구비되어 있고 이를 통해 그래픽 사용자 인터페이스가 디스플레이 되는 경우, 사용자는 장치에 구비된 버튼만을 이용하여 그 래픽 사용자 인터페이스를 통해 멀티미디어 컨텐츠에 대한 선택 명령을 입력할 수도 있다.

또한, 인터페이스부(260)는 사용자로부터 멀티미디어 컨텐츠에 대한 선택 명령뿐만 아니라 기타 부가 명령도 입력받을 수 있는데, 이에 대한 자세한 설명은 도 5 내지 도 7을 통하여 후술하기로 한다.

음성 입력부(210)는 선택 명령에 따라 선택된 멀티미디어 컨텐츠 각각에 대응되는 음성을 입력 받는 역할을 한다. 즉, 음성 입력부(210)는 사용자의 음성을 입력 받는 역할을 하는 것으로서 이에 따라, 장치에는 아날로그로 입력된 사용자의 음성을 디지털로 변환하는 디코더가 구비되어 있을 수도 있다. 디지털로 변환된 음성 데이터는 음성 주석 생성부(240)로 전달된다.

음성 주석 생성부(240)는 입력된 적어도 하나 이상의 음성이 조합된 음성 주석 파일을 생성하는 역할을 한다. 사용자는 하나의 멀티미디어 컨텐츠에 대응되는 하나의 음성을 입력할 수 있는데, 음성 주석 생성부(240)는 이렇게 입력된 복수 개의 음성을 조합하여 음성 주석 파일을 생성하는 것이다.

음성 주석 파일에서 음성 데이터는 재생 순서에 따라 멀티미디어 컨텐츠에 대응되어 저장될 수 있는데, 이를 위한 방법으로는 재생 순서에 맞게 음성 데이터가 저장되는 방법과 각 음성 데이터에 멀티미디어 컨텐츠를 대응시키는 방법이 사용될 수 있다.

재생 순서에 맞게 음성 데이터가 저장되는 방법에 따르면, 장치는 음성 주석 파일이 생성되기 전에 멀티미디어 컨텐츠의 재생 순서를 결정하고, 그 재생 순서에 따라 사용자로부터 음성을 입력 받아 음성 주석 파일을 생성한다.

한편, 음성 데이터에 멀티미디어 컨텐츠를 대응시키는 방법에 따르면, 장치는 각각의 음성 데이터에 대응되는 멀티미디어 컨텐츠에 대한 정보를 추가하여 음성 주석 파일을 생성한다. 예를 들어, 각각의 음성 데이터의 앞에 대응되는 멀티미디어 컨텐츠의 파일명을 삽입함으로써 음성 데이터를 멀티미디어 컨텐츠에 대응시킬 수 있게 되는 것인데, 장치는 차후 멀티미디어 컨텐츠 재생 시에 재생되는 멀티미디어 컨텐츠의 파일명을 이용하여 대응되는 음성 데이터를 추출할 수 있게 된다. 음성 주석 생성부(240)에 의해 생성된 음성 주석 파일은 저장부(230)에 저장된다.

출력부(270)는 저장부(230)에 저장된 멀티미디어 컨텐츠 및 멀티미디어 컨텐츠에 대응되는 음성을 출력하는 역할을 한다. 이때, 출력부(270)는 음성 주석 파일에 포함된 재생 시간 및 재생 순서에 따라 멀티미디어 컨텐츠 및 음성을 출력할 수 있다. 즉, 제어부(250)에 의해 음성 주석 파일이 분석되고 제어부(250)는 음성 주석 파일에 포함된 재생 시간 및 재생 순서에 따라 출력부(270)로 하여금 출력되도록 하는 것이다.

멀티미디어 컨텐츠 및 음성을 출력하기 위하여 출력부(270)는 디스플레이부(274) 및 음성 출력부(272)를 포함하여 구성될 수 있다.

디스플레이부(274)는 입력된 영상 신호를 디스플레이할 수 있는 음극선관(CRT, Cathode Ray Tube), 액정 화면(LCD, Liquid Crystal Display), 발광 다이오드(LED, Light-Emitting Diode), 유기 발광 다이오드(OLED, Organic Light-Emitting Diode) 또는 플라즈마 디스플레이(PDP, Plasma Display Panel) 등의 영상 표시 수단이 구비된 모듈로서 멀티미디어 컨텐츠를 디스플레이하는 역할을 한다. 전술한 바와 같이 멀티미디어 컨텐츠는 정지 영상 또는 동영상일 수 있는데, 이에 따라 장치에는 정지 영상에 대한 디코더 및 동영상 디코더가 구비되어 있을 수 있다.

음성 출력부(272)는 음성 주석 파일에 포함된 음성 데이터에 대한 아날로그 음성을 출력하는 역할을 하는 것으로서, 이를 위하여 장치에는 디지털 음성 데이터를 아날로그로 변환하는 변환기가 구비되어 있을 수도 있다.

제어부(250)는 음성 입력부(210), 멀티미디어 컨텐츠 입력부(220), 저장부(230), 음성 주석 생성부(240), 인터페이스부(260), 출력부(270) 및 장치의 전반적인 제어를 수행한다.

음성 주석 파일(300)은 헤더(310) 및 데이터(320)를 포함하여 구성되는데, 이는 선택된 복수의 멀티미디어 컨텐츠에 대한 하나의 앨범에 대해 하나의 파일로 생성될 수 있다.

헤더 영역(310)은 앨범의 이름 필드(312), 멀티미디어 컨텐츠 개수 필드(314) 및 멀티미디어 컨텐츠 정보 필드(316)를 포함하여 구성되며, 여기서 멀티미디어 컨텐츠 정보 필드(316)는 멀티미디어 컨텐츠의 파일명 필드(3162), 재생 시간 필드(3164) 및 재생 순서 필드(3166)를 포함하여 구성된다.

앨범의 이름 필드(312)는 사용자에 의해 입력되는 텍스트 정보가 저장되는 영역으로서 앨범의 이름은 음성 주석 파일(300)에 포함된 멀티미디어 컨텐츠 및 음 성 출력 시 디스플레이부(274)를 통하여 표시될 수 있는 정보이다. 앨범의 이름은 음성 주석 파일(300)의 파일명과 동일하게 자동적으로 설정될 수 있으며, 사용자에 의해 수정될 수도 있다. 여기서, 앨범의 이름이 음성 주석 파일(300)의 파일명과 동일하게 설정되는 경우 사용자가 음성 주석 파일(300)의 파일명을 수정하면 앨범의 이름도 동시에 수정될 수도 있다.

멀티미디어 컨텐츠 개수 필드(314)는 사용자에 의해 선택된 전체 멀티미디어 컨텐츠의 개수가 저장된 영역으로서 멀티미디어 컨텐츠의 개수는 정지 영상 및 동영상 모두 포함된 개수이다. 멀티미디어 컨텐츠의 개수는 멀티미디어 컨텐츠가 디스플레이부(274)를 통하여 디스플레이될 때, 멀티미디어 컨텐츠와 함께 디스플레이되는데 사용될 수 있으며, 음성 주석 파일(300)에 포함된 음성 데이터(320)의 개수를 판단하는데 사용될 수도 있다.

다시 말해, 헤더(310)에는 멀티미디어 컨텐츠의 파일명, 재생 시간 및 재생 순서가 하나의 멀티미디어 컨텐츠에 대한 정보로 저장되는데, 이러한 멀티미디어 컨텐츠에 대한 정보는 사용자에 의해 선택된 멀티미디어 컨텐츠의 개수만큼 존재하게 된다. 여기서, 제어부(250)는 멀티미디어 컨텐츠 개수 필드(314)에 명시된 멀티미디어 컨텐츠의 개수를 이용하여 헤더(310)에 포함된 멀티미디어 컨텐츠에 대한 정보의 개수를 알 수 있게 되고, 그에 따라 음성 데이터(320)를 추출할 수 있게 된다.

멀티미디어 컨텐츠 파일명 필드(3162)는 사용자에 의해 선택된 멀티미디어 컨텐츠 중 하나의 파일명이 저장되어 있는 영역으로서, 파일명에는 파일의 확장자 가 포함되어 있을 수 있는데, 이를 이용하여 제어부(250)는 멀티미디어 컨텐츠가 정지영상인지 동영상인지를 판단하고 디지털 변환을 할 수 있게 된다.

제어부(250)는 멀티미디어 컨텐츠의 파일명을 확인한 후에 동일한 파일명을 가진 멀티미디어 컨텐츠를 저장부(230)에서 추출하고 디스플레이부(274)를 통하여 디스플레이되도록 한다.

여기서, 제어부(250)는 음성 주석 파일(300)이 저장된 디렉터리를 검색하여 해당 멀티미디어 컨텐츠를 추출하는데, 다른 디렉터리에 저장된 멀티미디어 컨텐츠를 추출할 수 있도록 하기 위하여 멀티미디어 컨텐츠 파일명 필드(3162)에는 멀티미디어 컨텐츠의 파일명뿐만 아니라 저장 경로까지 포함될 수 있다.

재생 시간 필드(3164)는 멀티미디어 컨텐츠 및 음성이 출력되는 시간이 저장된 영역으로서 초 단위의 정보가 저장될 수 있다.

재생 시간은 음성 주석 파일(300)이 생성될 때 사용자에 의해 결정될 수 있는데, 재생 시간이 자동으로 입력되는 경우 모든 멀티미디어 컨텐츠에는 동일한 시간이 설정될 수 있다. 예를 들어, 10초의 재생 시간이 사용자에 의해 결정된 경우 사용자는 각각의 멀티미디어 컨텐츠에 대해 10초 동안의 음성을 입력할 수 있는 것이다.

한편, 재생 시간이 수동으로 입력되는 경우 각 멀티미디어 컨텐츠에는 서로 다른 시간이 설정될 수 있다. 예를 들어, 음성 주석 파일(300) 생성 시에 사용자는 각각의 멀티미디어 컨텐츠에 대해 자신이 입력하고 싶은 만큼의 음성을 입력할 수 있는 것인데, 여기서 입력된 음성이 재생되는 시간이 재생 시간 필드(3164)에 저장 되는 것이다.

재생 순서 필드(3166)는 멀티미디어 컨텐츠 및 음성이 출력되는 순서가 저장된 영역으로서 제어부(250)는 재생 순서 필드(3166)에 저장된 재생 순서에 따라 멀티미디어 컨텐츠 및 음성을 추출한다. 재생 순서는 음성 주석 파일(300) 생성 시에 결정될 수 있으며 사용자에 의해 수정될 수도 있다.

데이터 영역(320)은 멀티미디어 컨텐츠 파일명 필드(322)와 디지털 음성 데이터 필드(324)를 포함하여 구성된다. 즉, 복수 개의 디지털 음성 데이터와 그에 대응되는 각각의 멀티미디어 컨텐츠의 파일명이 데이터 영역(320)에 저장되어 있는 것이다.

데이터 영역(320)의 멀티미디어 컨텐츠 파일명 필드(322)에 저장된 멀티미디어 컨텐츠의 파일명은 헤더 영역(310)의 멀티미디어 컨텐츠 파일명 필드(3162)에 저장된 파일명과 동일한 것일 수 있는데, 이를 이용하여 제어부(250)는 재생 순서에 따른 디지털 음성 데이터를 추출할 수 있게 된다.

즉, 데이터 영역(320)에 저장된 디지털 음성 데이터는 재생 순서에 따른 배치가 아닐 수도 있는데, 제어부(250)는 헤더 영역(310)의 재생 순서 필드(3166)를 참조하여 대응되는 디지털 음성 데이터를 추출할 수 있는 것이다.

참고적으로, 멀티미디어 컨텐츠의 파일명이 데이터 영역(320)에 포함되는 경우 이는 불필요한 메모리의 낭비일 수 있는데 이에 따라, 데이터 영역(320)에 멀티미디어 컨텐츠 파일명 필드(322) 대신에 멀티미디어 컨텐츠 ID 필드가 포함되어 있고, 헤더 영역(310)에 멀티미디어 컨텐츠 ID 필드가 추가될 수도 있다. 이를 이용 하면 음성 주석 파일(300)의 크기를 감소시킬 수 있게 된다. 예를 들어, 멀티미디어 컨텐츠 파일명을 음성 주석 파일(300)에 입력하고자 하는 경우 하나의 멀티미디어 컨텐츠 파일명에 대하여 약 200 내지 500 바이트의 메모리를 할당해야 하는데, 이를 1 내지 수 바이트의 멀티미디어 컨텐츠 ID로 전환함으로써 메모리의 낭비를 감소할 수 있는 것이다.

도 4a 내지 도 4c는 본 발명의 실시예에 따른 멀티미디어 컨텐츠 및 음성 주석 파일(300)이 저장된 디렉터리의 구조를 나타낸 도면으로서, 도 4a는 하나의 디렉터리(400a)에 하나의 음성 주석 파일(410a)과 복수 개의 멀티미디어 컨텐츠 파일(420a)이 저장되어 있는 것을 나타내고 있다.

음성 주석 파일(410a)에는 대상이 되는 멀티미디어 컨텐츠(420a)의 정보(멀티미디어 컨텐츠의 파일명, 멀티미디어 컨텐츠의 저장 경로, 재생 시간, 재생 순서 등)가 저장되어 있는데, 제어부(250)는 음성 주석 파일(410a)에 포함된 멀티미디어 컨텐츠의 정보를 이용하여 멀티미디어 컨텐츠(420a) 및 디지털 음성 데이터를 추출한다. 이때, 멀티미디어 컨텐츠의 정보로서 멀티미디어 컨텐츠의 파일명이 있는 경우 제어부(250)는 이를 이용하여 멀티미디어 컨텐츠(420a)를 검색하는데, 음성 주석 파일(300)이 저장되어 있는 디렉터리(400a)에 저장된 멀티미디어 컨텐츠(420a)에 대해서만 검색을 수행한다.

따라서, 특정 음성 주석 앨범에 따라 멀티미디어 컨텐츠 및 음성이 출력되도록 하기 위하여 해당 멀티미디어 컨텐츠(420a) 및 음성 주석 파일(410a)은 동일한 디렉터리(400a)에 저장되어 있을 수 있다.

사용자는 디렉터리(400a)에 저장된 멀티미디어 컨텐츠(420a) 중 적어도 하나를 선택할 수 있는데, 만일 멀티미디어 컨텐츠 및 음성이 출력되는 도중에 해당 멀티미디어 컨텐츠가 디렉터리에 없는 경우 장치는 해당 멀티미디어 컨텐츠 및 대응되는 음성 출력을 생략할 수도 있다.

도 4b는 하나의 디렉터리(400b)에 복수 개의 음성 주석 파일(410b)과 복수 개의 멀티미디어 컨텐츠 파일(420b)이 저장되어 있는 것을 나타내고 있는데, 도 4b에 도시된 바와 같이 각각의 음성 주석 파일(410b)에는 사용자에 의해 선택된 복수 개의 멀티미디어 컨텐츠(420b)가 명시될 수 있으며, 하나의 멀티미디어 컨텐츠(420b)가 복수 개의 음성 주석 파일(410b)에 의해 명시될 수도 있다.

도 4c는 복수 개의 디렉터리(401c, 402c)에 복수 개의 음성 주석 파일(410c)과 복수 개의 멀티미디어 컨텐츠 파일(421c, 422c)이 저장되어 있는 것을 나타내고 있다.

음성 주석 파일(410c)에 멀티미디어 컨텐츠의 정보로서 멀티미디어 컨텐츠의 파일명이 있는 경우 제어부(250)는 이를 이용하여 멀티미디어 컨텐츠(421c)를 검색할 수 있는데, 검색은 단지 음성 주석 파일(410c)이 저장된 디렉터리(401c)에서만 수행될 수 있다.

그러나, 도 4c에 도시된 바와 같이 장치로 하여금 음성 주석 파일(410c)이 저장되어 있지 않는 디렉터리(402c)에서 멀티미디어 컨텐츠(422c)를 검색할 수 있도록 하기 위하여, 멀티미디어 컨텐츠의 정보로서 멀티미디어 컨텐츠의 저장 경로가 음성 주석 파일(410c)에 포함되어 있을 수 있는데 이에 따라, 제어부(250)는 음 성 주석 파일(410c)이 저장되어 있지 않는 디렉터리(402c)에 저장된 멀티미디어 컨텐츠(422c)를 검색할 수 있게 된다.

전술한 바와 같이 장치에는 디스플레이부(274)가 구비되어 있을 수도 있는데, 사용자는 디스플레이부(274)에 디스플레이된 그래픽 사용자 인터페이스를 통하여 음성 주석 파일(300)에 대한 정보를 입력할 수 있다. 디스플레이된 명령 리스트에서 사용자는 음성 주석 파일(300) 설정을 위한 메뉴 항목을 선택할 수 있는데 이는 다시 음성 주석 파일(300) 생성과 음성 주석 파일(300) 관리로 분류될 수 있다.

도 5 내지 도 8b는 음성 주석 파일을 생성하는 과정을 나타낸 그래픽 사용자 인터페이스로서, 디스플레이된 명령 리스트에서 음성 주석 파일(300) 생성 항목을 선택한 경우 디스플레이되는 그래픽 사용자 인터페이스(500, 600, 700, 800a, 800b)이다.

도 5는 본 발명의 실시예에 따른 음성 주석 앨범의 제목을 입력받는 그래픽 사용자 인터페이스(500)가 디스플레이된 것을 나타내고 있다.

음성 주석 앨범의 제목을 입력받는 그래픽 사용자 인터페이스는 입력 필드(Input field)(510), 문자판(520) 및 버튼(530a, 530b)으로 구성된다. 사용자는 입력 필드(510)에 자신이 원하는 음성 주석 앨범의 제목을 입력할 수 있다.

입력 수단으로, 장치에 구비된 문자 버튼(미도시)이 이용될 수 있고, 문자판(520)의 문자를 선택하기 위한 방향 버튼(미도시) 또는 전자펜(미도시)이 이용될 수도 있다.

디스플레이된 버튼 중 이전 버튼(530a)이 선택되면 디스플레이부(274)는 이 전 단계의 화면을 디스플레이하는데, 이전 단계에서 사용자는 음성 주석 파일(300)의 생성과 관리를 다시 선택할 수 있다.

디스플레이된 버튼 중 다음 버튼(530b)이 선택되면 디스플레이부(274)는 다음 단계의 화면을 디스플레이하는데, 다음 단계에서 사용자는 음성 주석 앨범의 대상이 되는 멀티미디어 컨텐츠를 선택할 수 있게 된다.

참고적으로, 다음 버튼(530b)이 선택되면 다음 단계로 전환되기 전에 이에 대한 기본적인 음성 주석 파일(300)이 생성될 수 있다. 그리고, 생성된 음성 주석 파일(300)은 이후의 과정에서 대상이 되는 멀티미디어 컨텐츠의 선택 표시, 재생 시간, 재생 순서, 음성 등이 입력되어 갱신되는 것이다.

도 6은 본 발명의 실시예에 따른 멀티미디어 컨텐츠의 선택 명령을 입력받는 그래픽 사용자 인터페이스(600)가 디스플레이된 것을 나타낸 도면으로서, 음성 주석 앨범의 제목(610), 음성 주석 앨범의 대상이 되는 멀티미디어 컨텐츠를 선택할 수 있는 그래픽 사용자 인터페이스(이하, 멀티미디어 컨텐츠 선택 영역이라 한다)(620)와 재생 시간을 설정할 수 있는 그래픽 사용자 인터페이스(이하, 재생 시간 설정 영역이라 한다)(630), 재생 순서를 설정할 수 있는 그래픽 사용자 인터페이스(이하, 재생 순서 설정 영역이라 한다)(640), 검색 버튼(628) 및 녹음 시간 버튼(650)이 디스플레이된 것을 나타내고 있다.

멀티미디어 컨텐츠 선택 영역(620)에는 멀티미디어 컨텐츠의 썸네일(622)과 썸네일에 대한 체크박스(624)가 포함되어 있다. 사용자는 디스플레이된 썸네일(622)을 통하여 음성 주석 앨범의 대상이 되는 멀티미디어 컨텐츠를 확인하고, 그 에 대한 체크박스(624)를 체크함으로써 멀티미디어 컨텐츠를 음성 주석 앨범에 추가할 수 있다. 또한, 멀티미디어 컨텐츠 선택 영역(620)에는 스크롤바(626)가 표시되어 사용자로 하여금 디스플레이되지 않은 썸네일에 대한 검색을 수행하게 할 수도 있다.

참고적으로, 전술한 바와 같이 도 5의 화면에서 도 6의 화면으로 전환되면서 음성 주석 파일(300)이 생성될 수 있는데 이때, 멀티미디어 컨텐츠 선택 영역(620)에 디스플레이된 멀티미디어 컨텐츠의 썸네일(622)은 음성 주석 파일(300)이 생성된 디렉터리에 포함된 멀티미디어 컨텐츠에 대한 썸네일일 수 있다.

여기서, 다른 디렉터리에 포함된 멀티미디어 컨텐츠에 대한 검색을 위하여 검색 버튼(628)이 구비될 수 있는데, 검색 버튼(628)이 선택되면 멀티미디어 컨텐츠 선택 영역(620)에는 다른 디렉터리에 포함된 멀티미디어 컨텐츠의 썸네일이 디스플레이되며 사용자는 이에 대한 선택을 할 수 있게 된다.

사용자는 자동 또는 수동으로 멀티미디어 컨텐츠에 대한 재생 시간을 설정할 수 있다. 이에 따라, 재생 시간 설정 영역(630)에는 자동 및 수동에 대한 라디오 버튼이 구비되어 있는데, 사용자는 둘 중 하나를 선택할 수 있다. 여기서, 자동을 선택한 경우 사용자는 자동 재생 시간이 표시된 리스트 박스(632)를 이용하여 하나의 멀티미디어 컨텐츠에 대한 재생 시간을 설정할 수도 있다.

사용자는 멀티미디어 컨텐츠의 재생 순서를 설정할 수 있다. 이에 따라, 재생 순서 설정 영역(640)에는 현재 설정된 재생 순서(642)가 텍스트로 표시되고, 이를 변경할 수 있는 변경 버튼(644)이 구비되어 있다. 재생 순서에는 시간순, 크기 순, 이름순, 형식순 및 사용자 설정순이 포함될 수 있는데, 변경 버튼(644)을 통한 재생 순서의 변경은 도 7을 통하여 후술하기로 한다.

녹음 시작 버튼(650)을 선택하여 사용자는 멀티미디어 컨텐츠에 대한 음성을 녹음할 수 있다. 입력된 음성은 디지털로 변환되어 음성 주석 파일(300)에 추가된다.

음성 녹음에 대한 자세한 설명은 도 8a 내지 도 8b를 통하여 후술하기로 한다.

도 7은 본 발명의 실시예에 따른 멀티미디어 컨텐츠의 재생 순서에 대한 설정 명령을 입력받는 그래픽 사용자 인터페이스(700)가 디스플레이된 것을 나타낸 도면으로서, 재생 순서 설정 영역(640)의 변경 버튼(644)이 선택됨으로써 디스플레이된다.

재생 순서 설정 화면은 재생 순서의 종류 영역(710), 멀티미디어 컨텐츠 디스플레이 영역(720), 사용자 설정을 위한 멀티미디어 컨텐츠 리스트 영역(730), 순서 변경 버튼(732, 734), 확인 버튼(742) 및 취소 버튼(744)을 포함하여 구성된다.

재생 순서의 종류 영역(710)에는 재생 순서에 대한 라디오 버튼이 구비되어 있는데, 재생 순서에는 시간순, 크기순, 이름순 및 형식순이 포함될 수 있고 사용자는 이 중 하나를 선택할 수 있다.

시간순은 시간에 따른 멀티미디어 컨텐츠의 재생 순서 설정으로서, 장치는 멀티미디어 컨텐츠가 생성된 시간 정보를 확인한 후에 그에 따른 순서(내림차순 또는 오름차순)로 멀티미디어 컨텐츠의 재생 순서를 설정하고 설정된 재생 순서에 따 라 멀티미디어 컨텐츠 리스트 영역(730)에 멀티미디어 컨텐츠의 파일명을 디스플레이 한다.

크기순은 크기에 따른 멀티미디어 컨텐츠의 재생 순서 설정으로서, 장치는 멀티미디어 컨텐츠의 파일 크기를 확인한 후에 그에 따른 순서(내림차순 또는 오름차순)로 멀티미디어 컨텐츠의 재생 순서를 설정하고 설정된 재생 순서에 따라 멀티미디어 컨텐츠 리스트 영역(730)에 멀티미디어 컨텐츠의 파일명을 디스플레이 한다.

이름순은 파일명에 따른 멀티미디어 컨텐츠의 재생 순서 설정으로서, 장치는 멀티미디어 컨텐츠의 파일명을 확인한 후에 그에 따른 순서(내림차순 또는 오름차순)로 멀티미디어 컨텐츠의 재생 순서를 설정하고 설정된 재생 순서에 따라 멀티미디어 컨텐츠 리스트 영역(730)에 멀티미디어 컨텐츠의 파일명을 디스플레이 한다.

형식순은 파일의 형식(정지 영상, 동영상 또는 확장자)에 따른 멀티미디어 컨텐츠의 재생 순서 설정으로서, 장치는 멀티미디어 컨텐츠의 확장자를 확인한 후에 그에 따른 순서(내림차순 또는 오름차순)로 멀티미디어 컨텐츠의 재생 순서를 설정하고 설정된 재생 순서에 따라 멀티미디어 컨텐츠 리스트 영역(730)에 멀티미디어 컨텐츠의 파일명을 디스플레이 한다.

참고적으로, 시간순, 크기순, 이름순 및 형식순은 전술한 알고리즘에 따라 자동적으로 설정되는 재생 순서로서 사용자는 이에 대한 변경을 할 수 있다. 즉, 위의 재생 순서 중 사용자에 의해 선택된 재생 순서에 따라 멀티미디어 컨텐츠 리스트 영역(730)에 멀티미디어 컨텐츠의 파일명이 디스플레이되는데, 사용자는 순서 변경 버튼(732, 734)을 이용하여 특정 멀티미디어 컨텐츠의 순서를 변경할 수 있다. 예를 들어, 멀티미디어 컨텐츠 리스트 영역(730)에서 BBB인 파일명을 가진 멀티미디어 컨텐츠를 선택한 후에 위로 버튼(732)을 클릭하면 BBB 파일이 AAA 파일의 위로 올라가게 되는데 이에 따라 BBB 파일의 재생 순서가 AAA 파일의 재생 순서보다 앞서게 된다. 이와 마찬가지로 아래로 버튼(734)을 이용하여 선택된 BBB 파일의 재생 순서를 CCC 파일의 재생 순서보다 늦게 할 수도 있다.

멀티미디어 컨텐츠 디스플레이 영역(720)에는 멀티미디어 컨텐츠 리스트 영역(730)에서 선택된 멀티미디어 컨텐츠에 대한 썸네일이 디스플레이되는데, 사용자는 디스플레이된 썸네일을 이용하여 사용자 설정에 따른 재생 순서를 설정할 수 있다.

재생 순서 설정 후에 사용자는 확인 버튼(742)을 클릭함으로써 변경된 재생 순서를 음성 주석 파일(300)에 저장할 수 있게 된다. 한편, 취소 버튼(744)을 클릭하면 지금까지의 재생 순서 설정이 취소되는데, 확인 버튼(742) 또는 취소 버튼(744)을 클릭하게 되면 도 6 화면으로 전환된다.

도 8a는 음성 녹음 시 디스플레이되는 그래픽 사용자 인터페이스(800a)를 나타낸 도면으로서, 음성 주석 앨범의 제목 영역(810), 멀티미디어 컨텐츠 영역(840), 멀티미디어 컨텐츠의 파일명 영역(820), 재생 순서 영역(830), 재생 시간 영역(852) 및 버튼(862, 864, 866, 868, 870)이 디스플레이된 것을 나타내고 있다.

도 5부터 도 7의 단계를 거쳐 사용자는 기본적인 음성 주석 파일(300)을 생성할 수 있게 된다. 도 8a 단계에서 사용자는 기본적인 음성 주석 파일(300)에 음 성을 추가하게 되는데 음성 추가는 음성 주석 파일(300)에 명시된 재생 순서에 따라 수행될 수 있다.

음성 주석 앨범의 제목 영역(810)에는 음성 주석 파일(300)에 명시된 음성 주석 앨범의 제목이 표시된다.

멀티미디어 컨텐츠 영역(840)에는 현재 순서의 멀티미디어 컨텐츠가 디스플레이된다. 즉, 음성 주석 파일(300)에 명시된 재생 순서에 따른 멀티미디어 컨텐츠가 디스플레이되는 것이다.

멀티미디어 컨텐츠의 파일명 영역(820)에는 현재 순서의 멀티미디어 컨텐츠의 파일명이 디스플레이된다. 즉, 음성 주석 파일(300)에 명시된 재생 순서에 따른 멀티미디어 컨텐츠의 파일명이 디스플레이되는 것이다.

재생 순서 영역(830)에는 음성 주석 파일(300)에 명시된 전체 멀티미디어 컨텐츠에 대한 현재 디스플레이 중인 멀티미디어 컨텐츠의 재생 순서가 디스플레이된다.

재생 시간 영역(852)에는 현재 디스플레이 중인 멀티미디어 컨텐츠에 대한 음성을 입력할 수 있는 시간이 디스플레이된다. 즉, 음성 주석 파일(300)에 명시된 재생 시간이 디스플레이되는 것이다. 참고적으로, 음성 주석 파일(300)에 재생 시간이 명시된 것은 도 6 단계에서 재생 시간이 자동으로 설정된 것을 의미한다. 도 6 단계에서 재생 시간이 수동으로 설정되면 음성 주석 파일(300)에는 재생 시간이 -1로 설정되기 때문이다.

재생 시간이 자동으로 설정된 경우 재생 시간은 초 단위로 디스플레이되며 도시된 바와 같이 프로그레스바의 형태(852)로 디스플레이될 수 있는데, 사용자는 디스플레이된 재생 시간을 이용하여 해당 멀티미디어 컨텐츠에 대한 음성 녹음의 시작과 끝을 알 수 있게 된다. 프로그레스바의 주변에는 도시된 바와 같이 전체 남은 시간 및 현재 시간(854)이 표시될 수 있는데, 이는 백분율로 표시될 수도 있다. 재생 시간이 완료되면 다음 멀티미디어 컨텐츠로 화면이 전환된다.

한편, 재생 시간이 수동으로 설정된 경우 프로그레스바(852)는 생략된 상태에서 음성 녹음 시작부터 현재까지의 시간이 초 단위로 디스플레이될 수 있다. 사용자는 버튼을 이용하여 다음 멀티미디어 컨텐츠로 화면 전환을 수행할 수 있다.

버튼은 이전 버튼(862), 다음 버튼(864), 일시정지 버튼(866), 정지 버튼(868) 및 종료 버튼(870)을 포함하여 구성된다.

이전 버튼(862)이 선택되면 재생 순서상 이전 멀티미디어 컨텐츠가 디스플레이된다. 예를 들어, 3번째 멀티미디어 컨텐츠가 디스플레이된 상태에서 이전 버튼(862)이 선택되면 2번째 멀티미디어 컨텐츠가 디스플레이되는 것이다. 여기서, 이전 멀티미디어 컨텐츠의 경우 사용자에 의한 음성이 대응되어 저장된 것일 수 있는데, 이때 사용자는 음성을 다시 입력할 수도 있다.

다음 버튼(864)이 선택되면 재생 순서상 다음 멀티미디어 컨텐츠가 디스플레이된다. 예를 들어, 3번째 멀티미디어 컨텐츠가 디스플레이된 상태에서 다음 버튼(864)이 선택되면 4번째 멀티미디어 컨텐츠가 디스플레이되는 것이다. 3번째 멀티미디어 컨텐츠에 대한 음성을 생략하고 싶은 경우에 다음 버튼(864)이 사용될 수 있다.

참고적으로, 버튼을 통한 이전 멀티미디어 컨텐츠 및 다음 멀티미디어 컨텐츠로의 전환은 재생 시간이 수동으로 설정된 상태뿐만 아니라 자동으로 설정된 상태에서도 수행될 수 있다.

일시정지 버튼(866)이 선택되면 음성 입력에 대한 일시정지 기능을 수행된다. 일시정지 기능이 수행되면 더 이상 사용자의 음성이 입력되지 않으며 재생 시간의 진행도 일시정지된다. 일시정지 버튼(866)은 토글 방식의 버튼일 수 있다. 즉, 일시정지 버튼(866)이 선택되면 버튼의 텍스트가 일시정지 해제로 변경되는 것인데, 이에 따라 일시정지 해제 버튼이 선택되면 일시정지가 해제된다. 일시정지가 해제되면 사용자는 계속해서 음성을 입력할 수 있으며 재생 시간도 계속 진행된다.

정지 버튼(868)이 선택되면 지금까지의 음성 입력이 모두 취소된다. 이때, 음성 주석 파일(300)에 저장된 음성 데이터가 삭제될 수도 있다. 정지 버튼(868)도 토글 방식의 버튼일 수 있는데, 정지 버튼(868)이 선택되면 버튼의 텍스트가 녹음 시작으로 변경된다. 이에 따라 녹음 시작 버튼이 선택되면 멀티미디어 컨텐츠의 음성 입력은 처음부터 다시 시작된다. 다시 말해, 재생 순서상 첫 번째 멀티미디어 컨텐츠에 대한 음성 입력부터 시작되는 것이다.

종료 버튼(870)이 선택되면 이후부터의 음성 입력은 취소된다. 이때, 음성 주석 파일(300)에 기저장된 음성 데이터는 삭제되지 않을 수도 있다. 즉, 종료 버튼이 선택되기 전에 입력된 음성은 유효하게 음성 주석 파일(300)에 저장될 수 있는 것이다.

도 8b는 음성 녹음 시 디스플레이되는 그래픽 사용자 인터페이스(800a)에 자 막 영역이 포함된 것을 나타낸 화면(800b)이다.

자막 영역(880)은 텍스트 필드로서 사용자에 기 저장된 텍스트가 디스플레이된다. 즉, 사용자는 각 멀티미디어 컨텐츠에 대응되는 음성을 텍스트로 작성하여 미리 저장할 수 있는데, 이때 작성된 텍스트가 디스플레이되는 것이다. 이에 따라 사용자는 단순히 자막을 읽음으로써 음성 입력을 수행할 수 있게 된다.

자막 영역(880)의 텍스트는 도시된 바와 같이 텍스트가 오른쪽에서 왼쪽으로 흘러가는 형태일 수 있으며, 해당 멀티미디어 컨텐츠에 대한 전체 텍스트가 디스플레이된 형태일 수도 있다.

전체 텍스트가 디스플레이된 경우 재생 시간에 따른 지시 표시가 디스플레이될 수도 있다. 즉, 재생 시간이 자동으로 설정되어 있는 경우 사용자는 해당 시간 이내에 전체 텍스트를 모두 읽어야 하는데, 재생 시간에 따른 지시 표시가 텍스트 상에 표시됨으로써 사용자는 자신의 읽는 속도를 조절할 수 있는 것이다.

도 9 내지 도 11은 음성 주석 파일(300) 재생 또는 관리하는 과정을 나타낸 그래픽 사용자 인터페이스로서, 디스플레이된 명령 리스트에서 음성 주석 파일(300) 관리 항목을 선택한 경우 디스플레이되는 그래픽 사용자 인터페이스(900, 1000, 1100)이다.

도 9는 본 발명의 실시예에 따른 기 작성된 음성 주석 파일(300)의 리스트(910)가 디스플레이된 그래픽 사용자 인터페이스(900)를 나타낸 도면이다. 사용자는 리스트(910) 중 하나를 선택한 후에 재생 버튼(920)을 클릭함으로써 해당 음성 주석 파일(300)에 대한 멀티미디어 컨텐츠 및 음성을 재생할 수 있으며, 편집 버튼 (930)을 클릭함으로써 편집을 수행할 수도 있다.

도 10은 본 발명의 실시예에 따른 멀티미디어 컨텐츠 및 음성이 출력될 때 디스플레이되는 그래픽 사용자 인터페이스(1000)를 나타낸 도면으로서, 음성 주석 앨범의 제목 영역(1010), 멀티미디어 컨텐츠 영역(1040), 멀티미디어 컨텐츠의 파일명 영역(1020), 재생 순서 영역(1030) 및 버튼(1062, 1064, 1066, 1068, 1070)이 디스플레이된 것을 나타내고 있다.

음성 주석 앨범의 제목 영역(1010)에는 음성 주석 파일(300)에 명시된 음성 주석 앨범의 제목이 표시된다.

멀티미디어 컨텐츠 영역(1040)에는 현재 순서의 멀티미디어 컨텐츠가 디스플레이된다. 즉, 음성 주석 파일(300)에 명시된 재생 순서에 따른 멀티미디어 컨텐츠가 디스플레이되는 것이다. 멀티미디어 컨텐츠가 디스플레이되면서 장치는 그에 대응되는 음성을 출력하며, 재생 시간이 완료되면 다음 멀티미디어 컨텐츠로 화면이 전환된다.

멀티미디어 컨텐츠의 파일명 영역(1020)에는 현재 순서의 멀티미디어 컨텐츠의 파일명이 디스플레이된다. 즉, 음성 주석 파일(300)에 명시된 재생 순서에 따른 멀티미디어 컨텐츠의 파일명이 디스플레이되는 것이다.

재생 순서 영역(1030)에는 음성 주석 파일(300)에 명시된 전체 멀티미디어 컨텐츠에 대한 현재 디스플레이 중인 멀티미디어 컨텐츠의 재생 순서가 디스플레이된다.

버튼은 이전 버튼(1062), 다음 버튼(1064), 일시정지 버튼(1066), 정지 버튼 (1068) 및 종료 버튼(1070)을 포함하여 구성된다.

이전 버튼(1062)이 선택되면 재생 순서상 이전 멀티미디어 컨텐츠가 디스플레이되면서 대응되는 음성이 출력된다. 예를 들어, 3번째 멀티미디어 컨텐츠가 디스플레이된 상태에서 이전 버튼(1062)이 선택되면 2번째 멀티미디어 컨텐츠가 디스플레이되면서 대응되는 음성이 출력되는 것이다.

다음 버튼(1064)이 선택되면 재생 순서상 다음 멀티미디어 컨텐츠가 디스플레이되면서 대응되는 음성이 출력된다. 예를 들어, 3번째 멀티미디어 컨텐츠가 디스플레이된 상태에서 다음 버튼(1064)이 선택되면 4번째 멀티미디어 컨텐츠가 디스플레이되면서 대응되는 음성이 출력되는 것이다.

일시정지 버튼(1066)이 선택되면 멀티미디어 컨텐츠 및 음성 출력에 대한 일시정지 기능이 수행된다. 일시정지 버튼(1066)은 토글 방식의 버튼일 수 있다. 즉, 일시정지 버튼(1066)이 선택되면 버튼의 텍스트가 일시정지 해제로 변경되는 것인데, 이에 따라 일시정지 해제 버튼이 선택되면 일시정지가 해제된다. 일시정지가 해제되면 장치는 계속해서 멀티미디어 컨텐츠 및 음성을 출력한다.

정지 버튼(1068)이 선택되면 멀티미디어 컨텐츠 및 음성의 출력이 정지된다. 정지 버튼(1068)도 토글 방식의 버튼일 수 있는데, 정지 버튼(1068)이 선택되면 버튼의 텍스트가 재생으로 변경된다. 이에 따라 재생 버튼이 선택되면 멀티미디어 컨텐츠 및 음성 출력은 처음부터 다시 시작된다. 다시 말해, 재생 순서상 첫 번째 멀티미디어 컨텐츠 및 그에 대응되는 음성 출력부터 시작되는 것이다.

종료 버튼(1070)이 선택되면 멀티미디어 컨텐츠 및 음성 출력이 종료되면서, 도 9에 도시된 기 작성된 음성 주석 파일(300)의 리스트(910)로 화면이 전환된다.

도 11은 본 발명의 실시예에 따른 기 작성된 음성 주석 파일(300)을 편집할 수 있는 그래픽 사용자 인터페이스(1100)가 디스플레이된 것을 나타낸 도면으로서, 도 9에 도시된 기 작성된 음성 주석 파일(300)의 리스트(910)가 디스플레이된 화면에서 편집 버튼(930)이 선택됨으로써 전환되는 그래픽 사용자 인터페이스를 나타낸다.

음성 주석 파일(300) 편집 화면은 음성 주석 앨범의 제목 영역(1110), 멀티미디어 컨텐츠 선택 영역(1120), 재생 시간 설정 영역(1130), 재생 순서 설정 영역(1140)을 포함하여 구성된다.

음성 주석 앨범의 제목 영역(1110)에는 음성 주석 파일(300)에 포함된 음성 주석 앨범의 제목이 디스플레이되는데, 사용자는 수정 버튼(1112)을 클릭함으로써 음성 주석 앨범의 제목을 수정할 수 있다. 이때, 도 5와 같은 음성 주석 앨범 제목 입력 화면으로 전환될 수도 있다.

멀티미디어 컨텐츠 선택 영역(1120)에는 멀티미디어 컨텐츠의 썸네일(1122)과 썸네일에 대한 체크박스(1124)가 포함되어 있는데, 기 선택된 멀티미디어 컨텐츠의 체크박스(1124)는 체크되어 있을 수 있다. 이에 사용자는 디스플레이된 썸네일(1122)을 통하여 수정 대상이 되는 멀티미디어 컨텐츠를 확인하고, 그에 대한 체크박스(1124)의 체크를 수정함으로써 새로운 음성 주석 앨범을 생성할 수 있다.

또한, 멀티미디어 컨텐츠 선택 영역(1120)에는 스크롤바(1126)가 표시되어 사용자로 하여금 디스플레이되지 않은 썸네일에 대한 검색을 수행하게 할 수도 있 다.

재생 시간 설정 영역(1130)에는 기 설정된 재생 시간의 종류와 자동 재생 시간(1132)이 디스플레이된다. 사용자는 자동 또는 수동으로 재생 시간의 종류를 다시 선택할 수 있으며, 자동으로 설정한 경우 자동 재생 시간(1132)을 다시 설정할 수도 있다.

재생 순서 설정 영역(1140)에는 기 설정된 재생 순서(1142)가 텍스트로 표시되고, 이를 변경할 수 있는 변경 버튼(1144)이 구비되어 있다. 재생 순서에는 시간순, 크기순, 이름순, 형식순 및 사용자 설정순이 포함될 수 있는데, 변경 버튼(1144)을 통한 재생 순서의 변경은 도 7을 통하여 전술하였으므로 생략하기로 한다.

버튼에는 확인 버튼(1152) 및 취소 버튼(1154)이 포함되는데, 확인 버튼(1152)이 선택되면 수정된 내용이 적용되어 음성 주석 파일(300)이 새롭게 저장되며, 취소 버튼(1154)이 선택되면 음성 주석 파일(300)에는 수정된 내용이 적용되지 않는다.

확인 버튼(1152) 또는 취소 버튼(1154)이 선택되면 도 9에 도시된 기 작성된 음성 주석 파일(300)의 리스트(910)로 화면이 전환된다.

음성 주석 파일(300)을 생성하기 위하여 장치는 우선 음성 주석 앨범의 제목을 입력 받는다(S1210). 사용자는 음성 주석 앨범의 제목을 입력하기 위하여 장치 에 구비된 문자 버튼을 이용할 수 있으며, 디스플레이부(274)를 통해 디스플레이된 문자판의 문자를 선택하기 위하여 방향 버튼 또는 전자펜 등을 이용할 수도 있다.

음성 주석 앨범의 제목이 입력되면 장치는 해당 제목을 파일명으로 하는 기본적인 음성 주석 파일(300)을 생성한다(S1220). 여기서, 생성된 음성 주석 파일(300)에는 단지 음성 주석 앨범에 제목만이 포함되어 있으므로, 멀티미디어 컨텐츠 및 음성의 출력을 위한 정보가 추가로 첨부될 수 있다.

음성 주석 앨범의 제목 입력 후, 장치는 디스플레이부(274)를 통하여 멀티미디어 컨텐츠의 썸네일을 디스플레이한다(S1230). 이에 따라 사용자는 자신이 원하는 멀티미디어 컨텐츠를 선택하는데, 장치는 사용자에 의해 입력된 적어도 하나 이상의 멀티미디어 컨텐츠에 대한 선택 명령을 수신한다(S1240).

디스플레이부(274)에는 멀티미디어 컨텐츠의 썸네일뿐만 아니라 재생 시간 및 재생 순서를 입력할 수 있는 그래픽 사용자 인터페이스가 디스플레이되는데, 장치는 이를 통하여 입력된 사용자의 선택 명령을 수신할 수도 있다(S1250).

여기서, 재생 시간은 자동 및 수동 중 하나가 선택될 수 있는데, 자동으로 선택된 경우 그에 따른 시간 간격(자동 재생 시간)이 입력될 수도 있다.

그리고, 재생 순서에는 시간순, 크기순, 이름순 및 형식순이 있으며 사용자 설정에 따른 순서가 입력될 수도 있다.

멀티미디어 컨텐츠, 재생 시간 및 재생 순서의 선택 명령이 입력되면 장치는 입력된 정보를 음성 주석 파일(300)에 추가하고, 선택 명령에 따라 선택된 멀티미디어 컨텐츠 각각에 대응되는 음성을 입력 받는다(S1260).

사용자는 디스플레이부(274)를 통하여 디스플레이되는 멀티미디어 컨텐츠를 보면서 음성을 입력할 수 있는데, 이때 디스플레이되는 순서는 기 입력된 재생 순서에 따르게 된다. 또한, 재생 시간이 자동으로 설정되어 있는 경우 하나의 멀티미디어 컨텐츠가 디스플레이되는 시간 즉, 하나의 멀티미디어 컨텐츠에 대하여 음성을 입력할 수 있는 시간은 자동 재생 시간에 따른다. 예를 들어, 자동 재생 시간이 10초인 경우 모든 멀티미디어 컨텐츠에 대하여 음성을 입력할 수 있는 시간은 10초가 된다.

한편, 재생 시간이 수동으로 설정된 경우 멀티미디어 컨텐츠에 대하여 음성을 입력할 수 있는 시간에는 제한이 없으며 사용자는 장치 또는 그래픽 사용자 인터페이스에 구비된 다음 버튼을 클릭함으로써 해당 멀티미디어 컨텐츠에 대한 음성 입력을 종료하고 다음 멀티미디어 컨텐츠에 대한 음성 입력을 수행할 수 있다.

입력된 음성은 디지털로 변환된 후에 음성 주석 파일(300)에 첨부되는데, 이에 따라 장치는 입력된 적어도 하나 이상의 음성이 조합된 음성 주석 파일(300)을 생성하게 된다(S1270).

생성된 음성 주석 파일(300)은 차후에 사용자에 의해 수정될 수도 있다. 즉, 사용자는 선택된 멀티미디어 컨텐츠, 재생 시간, 재생 순서 및 음성 데이터를 수정할 수 있는 것이다.

또한, 장치에 멀티미디어 컨텐츠를 디스플레이할 수 있는 디스플레이 수단 및 음성을 출력할 수 있는 음성 출력 수단이 구비되어 있는 경우 장치는 멀티미디어 컨텐츠 및 그에 대응되는 음성을 출력할 수도 있다.

이때, 출력되는 멀티미디어 컨텐츠 및 음성의 재생 시간 및 재생 순서는 음성 주석 파일(300)에 포함된 정보에 따르게 된다.

참고적으로, 음성 주석 파일(300) 및 해당 멀티미디어 컨텐츠가 별도의 장치에 복사된 경우, 별도의 장치에 의해 출력될 수도 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

상기한 바와 같은 본 발명의 음성 주석 생성 장치 및 방법에 따르면 다음과 같은 효과가 하나 혹은 그 이상 있다.

첫째, 사용자에 의해 그룹화된 복수의 멀티미디어 컨텐츠가 디스플레이될 때, 각 멀티미디어 컨텐츠에 대응되어 출력되는 각 음성 정보를 하나의 파일로 생성하여 저장함으로써 사용자로 하여금 연관성이 높은 멀티미디어 컨텐츠에 대한 음성 주석 앨범을 간편하게 제작할 수 있도록 하는 장점이 있다.

둘째, 기존의 멀티미디어 컨텐츠에 대한 변환 없이 별도의 파일을 이용하여 음성 주석 앨범을 제작하므로 앨범으로의 멀티미디어 컨텐츠의 추가 및 삭제가 용이한 장점도 있다.

Claims

적어도 하나 이상의 멀티미디어 컨텐츠에 대한 선택 명령을 수신하는 인터페이스부;

상기 선택 명령에 따라 선택된 상기 멀티미디어 컨텐츠 각각에 대응되는 음성을 입력 받는 음성 입력부; 및

상기 입력된 적어도 하나 이상의 음성이 포함된 음성 주석 파일을 생성하는 음성 주석 생성부를 포함하는 음성 주석 생성 장치.
제 1항에 있어서,

상기 멀티미디어 컨텐츠는 정지 영상 또는 동영상인 음성 주석 생성 장치.
제 1항에 있어서,

상기 입력된 적어도 하나 이상의 음성은 일정한 재생 시간을 가지고 상기 음성 주석 파일에 포함되는 음성 주석 생성 장치.
제 1항에 있어서,

상기 입력된 적어도 하나 이상의 음성은 대응되는 상기 멀티미디어 컨텐츠에 따라 서로 다른 재생 시간을 가지고 상기 음성 주석 파일에 포함되는 음성 주석 생성 장치.
제 1항에 있어서,

상기 멀티미디어 컨텐츠 및 상기 음성 주석 파일을 저장하는 저장부를 더 포함하는 음성 주석 생성 장치.
제 5항에 있어서,

상기 음성 주석 파일은 음성 주석 앨범의 이름, 상기 멀티미디어 컨텐츠의 파일명, 상기 멀티미디어 컨텐츠의 개수, 상기 멀티미디어 컨텐츠에 대응되는 음성, 상기 멀티미디어 컨텐츠와 상기 음성의 재생 시간 및 상기 멀티미디어 컨텐츠와 상기 음성의 재생 순서 중 적어도 하나를 포함하는 음성 주석 생성 장치.
제 1항에 있어서,

상기 멀티미디어 컨텐츠 및 상기 멀티미디어 컨텐츠에 대응되는 음성을 출력하는 출력부를 더 포함하는 음성 주석 생성 장치.
제 7항에 있어서,

상기 출력부는 상기 음성 주석 파일에 포함된 상기 멀티미디어 컨텐츠와 상기 음성의 재생 순서에 따라 상기 멀티미디어 컨텐츠 및 상기 멀티미디어 컨텐츠에 대응되는 음성을 출력하는 음성 주석 생성 장치.
제 7항에 있어서,

상기 출력부는 상기 음성 주석 파일에 포함된 상기 멀티미디어 컨텐츠와 상기 음성의 재생 시간에 따라 상기 멀티미디어 컨텐츠 및 상기 멀티미디어 컨텐츠에 대응되는 음성을 출력하는 음성 주석 생성 장치.
적어도 하나 이상의 멀티미디어 컨텐츠에 대한 선택 명령을 수신하는 단계;

상기 선택 명령에 따라 선택된 상기 멀티미디어 컨텐츠 각각에 대응되는 음성을 입력 받는 단계; 및

상기 입력된 적어도 하나 이상의 음성이 포함된 음성 주석 파일을 생성하는 단계를 포함하는 음성 주석 생성 방법.
제 10항에 있어서,

상기 멀티미디어 컨텐츠는 정지 영상 또는 동영상인 음성 주석 생성 방법.
제 10항에 있어서,

상기 입력된 적어도 하나 이상의 음성은 일정한 재생 시간을 가지고 상기 음성 주석 파일에 포함되는 음성 주석 생성 방법.
제 10항에 있어서,

상기 입력된 적어도 하나 이상의 음성은 대응되는 상기 멀티미디어 컨텐츠에 따라 서로 다른 재생 시간을 가지고 상기 음성 주석 파일에 포함되는 음성 주석 생성 방법.
제 10항에 있어서,

상기 멀티미디어 컨텐츠 및 상기 음성 주석 파일을 저장하는 단계를 더 포함하는 음성 주석 생성 방법.
제 14항에 있어서,

상기 음성 주석 파일은 음성 주석 앨범의 이름, 상기 멀티미디어 컨텐츠의 파일명, 상기 멀티미디어 컨텐츠의 개수, 상기 멀티미디어 컨텐츠에 대응되는 음성, 상기 멀티미디어 컨텐츠와 상기 음성의 재생 시간 및 상기 멀티미디어 컨텐츠와 상기 음성의 재생 순서 중 적어도 하나를 포함하는 음성 주석 생성 방법.
제 10항에 있어서,

상기 멀티미디어 컨텐츠 및 상기 멀티미디어 컨텐츠에 대응되는 음성을 출력하는 단계를 더 포함하는 음성 주석 생성 방법.
제 16항에 있어서,

상기 출력하는 단계는 상기 음성 주석 파일에 포함된 상기 멀티미디어 컨텐츠와 상기 음성의 재생 순서에 따라 상기 멀티미디어 컨텐츠 및 상기 멀티미디어 컨텐츠에 대응되는 음성을 출력하는 단계를 포함하는 음성 주석 생성 방법.
제 16항에 있어서,

상기 출력하는 단계는 상기 음성 주석 파일에 포함된 상기 멀티미디어 컨텐츠와 상기 음성의 재생 시간에 따라 상기 멀티미디어 컨텐츠 및 상기 멀티미디어 컨텐츠에 대응되는 음성을 출력하는 단계를 포함하는 음성 주석 생성 방법.