KR100577558B1

KR100577558B1 - 오디오 컨텐츠와 텍스트를 동기화시키는 동기신호삽입/검출 방법 및 장치

Info

Publication number: KR100577558B1
Application number: KR1020030024306A
Authority: KR
Inventors: 신승원; 이원하; 김남훈
Original assignee: (주)마크텍; (주)디지탈플로우
Priority date: 2003-03-15
Filing date: 2003-04-17
Publication date: 2006-05-10
Also published as: KR20050117607A; KR20040034338A

Abstract

오디오 파일의 재생시에 텍스트를 동기화시켜 출력할 수 있도록 하기 위한 동기신호를 오디오 파일에 삽입하는 방법 및 장치가 개시된다. 먼저, 프레임의 제 2 부분으로부터 프레임의 제 1 부분의 크기에 관한 정보를 획득한다. 그 후, 획득된 정보에 기초하여, 프레임의 제 3 부분의 시작 위치 및 크기를 판정하고, 프레임의 제 3 부분으로 동기신호의 적어도 일부를 삽입한다. 따라서, 오디오 내용에 손상을 주지 않으면서도 효과적으로 오디오 파일에 동기신호를 삽입할 수 있다.

오디오 파일, 프레임, 동기 신호

Description

오디오 컨텐츠와 텍스트를 동기화시키는 동기신호 삽입/검출 방법 및 장치{SYNC SIGNAL INSERTION/DETECTION METHOD AND APPARATUS FOR SYNCHRONIZATION BETWEEN AUDIO CONTENTS AND TEXT}

도 1 은 디지털 휴대용 재생 장치에서 오디오 파일과 그에 대응하는 텍스트를 동기화시키기 위한 전체적인 과정을 도시한 개념도이다.

도 2 는 MP3 프레임의 구조를 나타내는 도면이다.

도 3 은 본 발명의 제 1 실시예에 따른 동기신호 삽입 과정을 나타낸 흐름도이다.

도 4 는 본 발명의 제 2 실시예에 따른 동기신호 삽입 과정을 나타낸 흐름도이다.

도 5 은 본 발명의 제 2 실시예에 따른 동기신호가 삽입된 오디오 파일을 프레임 단위로 도시한 개략도이다.

도 6 은 TTS 기술로 생성된 음성 파일과 텍스트를 동기화시키는 과정을 도시한 개념도이다.

도 7 은 본 발명에 따른 동기신호 검출 과정을 개략적으로 설명한 개략도이다.

도 8 은 본 발명에 따른 텍스트 동기화를 위한 동기신호 검출 장치를 휴대용 디지털 재생 장치의 DSP 에 구현하는 경우의 내부 구성도이다.

도 9 는 휴대용 디지털 재생 장치의 DSP 에 구현하는 경우의 내부 구성도이다.

도 10 은 종래의 오디오 컨텐츠의 내용을 저장하는 텍스트 파일을 테이블의 형태로 재구성한 도면이다.

* 도면의 주요부분에 대한 부호의 설명 *

101 : 텍스트 103 : 오디오 파일

105 : 텍스트 동기화 장치 107 : 매니저 프로그램

109 : 휴대용 저장장치

201 : 헤더 203 : 부 정보

205 : 메인 데이터 207 : 스터핑 공간

본 발명은 디지털 휴대용 재생 장치 (portable digital playback device) 에서 디지털 오디오 컨텐츠와 그에 대응하는 텍스트 사이의 동기화 방법 및 장치에 관한 것이다.

최근, 컴퓨터 기술의 발전에 부응하여, 컴퓨터를 사용하여 오디오 컨텐츠를 재생하는 기술이 빠르게 발전하고 있다. 이에 따라, 오디오 컨텐츠를 재생함과 동시에 오디오 컨텐츠의 내용을 시각적으로 표시해주는 기능이 주목을 받고 있다. 예컨대, 가요에 관한 오디오 컨텐츠를 재생함과 동시에 그 가사를 화면에 표시하는 기술이 이에 해당된다.

도 10 을 참조하여, 종래기술에서의 오디오 컨텐츠의 재생시 컨텐츠 내용을 동시에 표시하는 구성을 설명하기로 한다.

먼저, 재생 대상이 되는 오디오 컨텐츠, 및 오디오 컨텐츠의 내용을 저장하고 있는 텍스트 파일이 마련된다. 도 10 은 종래의 오디오 컨텐츠의 내용을 저장하는 텍스트 파일을 테이블의 형태로 재구성한 도면이다. 도 10 에서, 텍스트 파일에는 오디오 컨텐츠의 내용 뿐만 아니라, 그 오디오 컨텐츠의 내용을 시각적으로 표시하는 재생시점이 저장되어 있다. 도 10 의 예에서는, 압축된 음성 또는 음악 파일이 재생되는 중에, 텍스트를 출력할 시간을 알려주는 재생시점이 1/1000 초 단위로 저장되어 있다.

예컨대, 재생시점 0000040 ms 에서, 오디오 컨텐츠가 재생되고, 그 오디오 컨텐츠에 대응되는 "이 발명은 휴대용 디지털 재생장치에서" 라는 문자열이 소정의 디스플레이를 통하여 시각적으로 출력된다. 오디오 컨텐츠가 재생됨에 따라, 재생시점 0001055 ms 에서 오디오 컨텐츠의 재생과 동시에 "음악이나 음성 파일을 재생하는 동안에" 라는 문자열이 출력된다.

즉, 오디오 컨텐츠를 재생시키면서 재생시점을 감시하여, 재생시점이 테이블에 나타난 출력 문자열의 재생시점과 일치하는 경우에, 출력 문자열이 출력되도록 한다.

상기와 같은 텍스트 파일의 구조는 동영상에 자막을 출력하기 위한 예컨대 ".smi 파일" 의 구조와 실질적으로 유사한 것으로, 컴퓨터와 같이 사용가능한 리소스가 충분히 제공되는 경우에 적합한 구조이다.

그러나, 상술의 방법으로 디지털 오디오 컨텐츠와 그에 대응하는 텍스트를 디지털 휴대용 재생 장치에서 동기화시키는 경우에는 사용가능한 리소스에 한계가 있다. 따라서, 디지털 휴대용 재생 장치에서 오디오 컨텐츠의 ms 단위의 재생시간을 감시하고, 이러한 미세한 재생시간에 일치하여 텍스트를 출력하는 것은 실제적으로는 가능하지 않다. 그 때문에, 텍스트 파일에 재생시간 및 텍스트를 테이블의 형식으로 저장하여 테이블의 정보에 기초하여 텍스트를 출력하는 상술한 방법은 디지털 휴대용 재생 장치에서는 적당하지 않다.

또한, 종래의 텍스트를 출력하는 방법에서는 재생되는 시간에 따라 임의로 텍스트 정보를 액정화면에 출력하기 때문에, 실제로 재생되는 내용과 액정에 출력되는 내용이 일치하지 않는 문제점이 있었다.

다음으로, 디지털 오디오 컨텐츠에 동기신호를 주파수 변환 등을 통하여 워터마크로 하여 삽입하는 방법을 살펴보기로 한다. 일반적으로, 워터마킹 기술은 저작물에 대한 저작권 보호, 저작물의 위·변조 유무 판별 등을 위하여 음원에 일반인들이 인식하지 못하는 저작물의 정보를 저장하는 기술을 의미한다. 워터마킹 기술은 저작물의 실질적인 음원에 사용자가 정의한 정보를 은닉하기 때문에, 신호처리 공격, 압축 변환 등에도 강인하며 악의적인 목적으로 제거하기 어려운 특징을 갖는 강인한 워터마크 (robust watermark) 를 사용하는 것이 일반적이다.

이와 같은 워터마킹은 데이터를 디지털 컨텐츠의 음원에 삽입하기 때문에, 은닉한 정보를 다시 검출해내기 위해서는 상당히 복잡한 연산과정이 수행되어야 하기 때문에, 많은 메모리 용량과 계산량이 수반되어야 한다. 워터마킹 기술을 통상 DSP 로 구현하기 위해서는 상당한 양의 리소스를 소모하기 때문에, DSP 를 사용하는 휴대용 MP3 플레이어와 같은 휴대용 디지털 재생 장치에는 사용하기 어려운 문제점이 있다. 또한, 많은 리소스를 소모하는 부가적인 기능은 휴대용 재생 장치의 제한된 배터리 사용시간을 고려할 때 바람직하지 않다. 특히, 대부분의 오디오 데이터는 대상 컨텐츠를 압축하는 포멧으로 되어 있기 때문에, 통상적인 워터마킹 기술은 사용가능하지 않다.

압축된 데이터에 정보를 은닉하는 기술은, F. Petitcolas 가 제안한 MP3Stego (Computer Laboratory, Cambridge, August, 1998) 에 개시되어 있다. 이 기술은 음원을 압축하는 과정 중에 데이터를 은닉하기 때문에 고속 삽입처리가 가능하지 않은 문제점이 있다.

또한, L. Qia 와 K. Nahrstedt 가 제안한 Non-Invertible Watermarking Methods For MPEG Encoded Audio (Security and watermarking of Multimedia Contents, January 1999) 에서는 MP3 의 음원을 변질시킬 우려가 높으며, 은닉가능한 정보량에 한계가 있는 문제점이 있다.

또한, D. K. Koukopoulos 와 Y. C. Stamatiou 가 제안한 A compressed-domain watermarking algorithm for MPEG Audio Layer3 (ACM Multimedia 2001, Septemper 30 - October 5, Ottawa, Ontario, Canada) 에서는 고속추출은 가능할 수 있으나, 고속 삽입처리는 가능하지 않은 문제점이 있다.

본 발명은, 상술한 바와 같은 문제점을 해결하기 위하여 안출된 것으로, 텍스트 동기화가 음질에 미치는 영향을 최소화하고, 오디오 컨텐츠의 재생시점과 텍스트 출력시점을 일치시키면서 고속 삽입/처리가 가능한, 오디오 컨텐츠와 텍스트를 동기화시킬 수 있도록 오디오 파일에 동기신호를 삽입시키는 동기신호 삽입 방법을 제공하는 것을 그 목적으로 한다.

또한, 본 발명은 오디오 컨텐츠의 재생 및 그와 동기화되는 텍스트의 출력시에, 오디오 컨텐츠 재생장치에 과도한 리소스 소모가 발생하지 않도록 하는 방법을 제공하는 것을 그 목적으로 한다.

또한, 본 발명은 동기신호가 삽입되어 있는 오디오 파일로부터 동기신호를 검출하는 동기신호 검출 방법 및 장치를 제공하는 것을 그 목적으로 한다.

상술한 목적을 달성하기 위하여, 본 발명은 오디오 컨텐츠가 저장된 제 1 부분, 적어도 상기 제 1 부분의 크기에 관한 정보를 포함하는 제 2 부분, 및 상기 제 1 부분과 상기 제 2 부분 이외의 부분인 제 3 부분을 각각 갖는 복수의 프레임들을 포함하는 오디오 파일에 동기신호를 삽입하는 방법에서, 프레임의 제 2 부분으로부터 상기 프레임의 제 1 부분의 크기에 관한 정보를 획득하는 단계; 상기 획득된 정보에 기초하여, 상기 프레임의 제 3 부분의 시작 위치 및 크기를 판정하는 단계; 및 상기 프레임의 상기 제 3 부분으로 동기신호의 적어도 일부를 삽입하는 단계를 포함하는 동기신호 삽입방법을 제공한다.

여기서, 상기 제 1 부분은 상기 오디오 파일의 헤더 정보를 포함하고, 상기 제 2 부분은 상기 오디오 컨텐츠를 포함하고, 상기 제 3 부분은 상기 오디오 파일의 오디오 컨텐츠 재생에 사용되지 않는 부분이다. 또한, 상기 제 3 부분은 동기신호의 존재 여부를 나타내는 영역 및 상기 동기신호의 내용을 나타내는 영역을 포함한다.

또한, 상기 동기신호는 상기 프레임의 상기 제 1 부분에 대응하는 텍스트의 위치에 관한 정보를 포함할 수도 있으며, 상기 프레임의 상기 제 3 부분으로 동기신호의 적어도 일부를 삽입하는 단계는, 상기 프레임의 상기 제 3 부분으로의 동기신호의 삽입 여부를 결정하는 단계; 및 동기신호의 불삽입 결정에 응답하여, 상기 프레임의 상기 제 3 부분으로 상기 프레임의 상기 제 1 부분에 대응하는 텍스트 정보를 삽입하는 단계를 포함할 수도 있다.

또한, 상기 프레임의 상기 제 3 부분으로 동기신호의 적어도 일부를 삽입하는 단계는, 상기 제 3 부분에서의 동기신호 삽입 공간과 동기신호의 크기를 비교하여, 상기 제 3 부분에서의 상기 동기신호 삽입 공간이 상기 동기신호의 크기보다 작은 경우, 상기 동기신호 삽입 공간과 동일한 크기만큼의 상기 동기신호의 부분을 상기 제 3 부분으로 삽입하는 것이 바람직하다.

또한, 상기 오디오 컨텐츠는 상기 텍스트를 TTS (Text-to-Speech) 변환하여 생성될 수도 있다.

한편, 본 발명은 오디오 컨텐츠가 저장된 제 1 부분, 적어도 상기 제 1 부분의 크기에 관한 정보를 포함하는 제 2 부분, 및 상기 제 1 부분과 상기 제 2 부분 이외의 부분인 제 3 부분을 각각 갖는 복수의 프레임들을 포함하는 오디오 파일로부터 동기신호를 검출하는 방법에서, 상기 제 1 부분의 크기에 관한 정보에 기초하여, 상기 제 3 부분의 시작 위치와 크기에 관한 정보를 추출하는 단계; 상기 제 3 부분을 분석하여, 동기신호의 존재 여부를 판정하는 단계; 및 동기신호의 존재 판정에 응답하여, 상기 제 3 부분으로부터 동기신호의 적어도 일부를 획득하는 단계를 포함하는 동기신호 검출방법을 제공한다.

여기서, 상기 제 1 부분은 상기 오디오 파일의 헤더 정보를 포함하고, 상기 제 2 부분은 상기 오디오 컨텐츠를 포함하고, 상기 제 3 부분은 상기 오디오 파일의 오디오 컨텐츠 재생에 사용되지 않는 부분이다. 또한, 상기 제 3 부분은 동기신호의 존재 여부를 나타내는 영역, 및 상기 동기신호의 내용을 나타내는 영역을 포함한다.

또한, 동기신호의 부존재 판정에 응답하여, 상기 제 3 부분으로부터 텍스트 정보를 추출하는 단계를 더 포함할 수도 있으며, 동기신호의 내용을 분석한 후, 상기 분석에 기초하여, 대응하는 텍스트의 위치를 선택하는 단계를 더 포함할 수도 있다.

또한, 상기 제 3 부분으로부터 획득된 동기신호의 적어도 일부가 동기신호와 동일하지 않은 경우, 상기 동기신호의 적어도 일부를 후속하는 프레임의 동기신호의 적어도 일부와 결합하는 단계를 더 포함하는 것이 바람직하다.

한편, 본 발명은 오디오 컨텐츠가 저장된 제 1 부분, 적어도 상기 제 1 부분의 크기에 관한 정보를 포함하는 제 2 부분, 및 상기 제 1 부분과 상기 제 2 부분 이외의 부분인 제 3 부분을 각각 갖는 복수의 프레임들을 포함하는 오디오 파일로부터 동기신호를 검출하는 장치에서, 상기 제 1 부분의 크기에 관한 정보에 기초하여, 상기 제 3 부분의 시작 위치와 크기에 관한 정보를 추출하고, 상기 제 3 부분을 분석하여, 동기신호의 존재 여부를 판정하는 동기신호 존재 여부 판정부; 및 동기신호의 존재 판정에 응답하여, 상기 제 3 부분으로부터 동기신호의 적어도 일부를 획득하는 동기신호 획득부를 구비하는 동기신호 삽입장치를 제공한다.

이하, 첨부도면을 참조하여 본 발명의 바람직한 실시예에 대하여 보다 구체적으로 설명하면 다음과 같다.

도 1 을 참조하면, 먼저, 오디오 파일 (103) 과 그에 대응하는 텍스트 (101) 가 텍스트 동기화 장치 (105) 에 입력된다. 입력된 정보를 이용하여, 텍스트 동기화 장치 (105) 에서는 사용자로부터 각 가사가 출력되어야 할 시점을 직접 입력받게 된다. 사용자로부터 입력받은 정보는 각각 출력하고자 하는 텍스트와 재생시간이 연결된 정보로 구성될 수 있다. 텍스트 동기화 장치 (105) 는, 본 발명에 따른 동기신호 삽입 방법에 따라서, 오디오 파일 (103) 의 소정의 위치에 대응하는 텍스트 출력을 위한 텍스트의 위치를 나타내는 정보를 삽입한다. 매니저 프로그램 (107) 에서는 텍스트 동기화 장치 (105) 로부터 동기화된 MP3 파일, 및 텍스트를 전송받아, 이를 휴대용 재생장치 (109) 로 다운로드한다.

그 후, 휴대용 재생장치 (109) 에서 오디오 파일 (103) 을 재생하는 경우에, 오디오 파일 재생 중에 동기신호가 검출되면, 그 동기신호를 분석하여, 동기신호가 표시하는 텍스트의 위치를 찾아, 해당하는 문자열을 휴대용 재생 장치 (109) 의 디스플레이 수단을 통하여 출력하게 된다.

이하, 본 발명의 실시예에서는 음악 파일의 포맷을 MP3 로 하여 설명하지만, WMA, AAC, 및 AC3 등 다른 오디오 파일 포맷에 따라 저장된 음악 파일의 경우에도 본 발명의 따른 동기신호 삽입 방법을 적용 또는 응용할 수 있음은 당업자에게 자명하다.

도 2 는 MP3 프레임의 구조를 나타내는 도면이다. 도 2 를 참조로 MP3 프레임의 구조를 설명하면, MP3 오디오 파일은 복수의 프레임들의 연속으로 구성되며, 각 프레임은 12 비트의 동기 비트로 구성된 헤더 (201), 부 정보 (side information; 203), 메인 데이터 (205), 및 스터핑 공간 (207) 으로 구성된다.

헤더 (201) 및 부 정보 (203) 에는 동기 (sync) 를 포함하여 프레임의 구성 등에 관한 전반적인 정보가 저장되어 있다. 메인 데이터 (205) 에는 허프만 코딩 (Huffman Coding) 방식에 따라 오디오 컨텐츠가 무손실 압축되어 저장된다. 무손실 압축된 메인 데이터 (205) 는 바이트 단위로 저장되게 되며, 허프만 코딩의 결과 오디오 컨텐츠의 내용이 전혀 포함되지 않는 잉여 비트가 발생하게 된다. 이와 같은 잉여 비트를 스터핑 비트 (stuffing bit) 라고 하고, 스터핑 비트의 부분을 스터핑 공간이라고 한다. 즉, 이 비트들은 음악의 재생시에 전혀 사용되지 않는 빈 공간이다. 스터핑 공간 (207) 은 메인 데이터 (205) 를 포함한 프레임의 크기를 바이트 단위가 되도록 하기 위한 비트이므로, 스터핑 공간 (207) 의 크기는 오디오 컨텐츠를 허프만 코딩하여 생성한 메인 데이터 (205) 의 크기에 따라 결정된다.

이하에서 보다 상세히 설명하는 바와 같이, 본 발명에서는 이러한 프레임의 구조적인 특성을 이용하여 스터핑 공간에 동기신호를 삽입하게 된다.

도 3 은 본 발명의 제 1 실시예에 따른 동기신호 삽입 과정을 나타낸 흐름도이다. 도 3 을 참조하면, 먼저, 재생할 MP3 오디오 파일이 선택되면, 이를 프레임 단위로 분할한다 (S301).

분할된 각 프레임에 대하여, 프레임 분석이 수행된다 (S303). 프레임 분석은, 헤더 (201) 와 부 정보 (203) 를 분석하여, 메인 데이터 (205) 의 시작 위치와 그 크기에 관한 정보를 획득한다. 그 후, 메인 데이터 (205) 의 크기에 관한 정보에 기초하여, 스터핑 공간 (207) 의 크기 및 위치가 획득된다.

메인 데이터 (205) 의 크기에 따라, 스터핑 공간 (207) 이 존재하지 않는다고 판정될 수도 있다. 이 경우에도, 동기신호를 삽입할 공간이 필요하다고 판단되는 경우 (S305), 스터핑 공간 (207) 을 위한 공간을 임의로 생성할 수도 있다 (S307). 이 때, 스터핑 공간을 위하여 1 바이트를 새롭게 할당하게 되며, 따라서 이후의 모든 프레임은 1 바이트만큼씩 뒤로 밀리도록 전체 프레임을 재구성하게 된다 (S309).

그 후, 해당 프레임에 동기신호가 삽입되어야 하는지 여부가 판정된다 (S311). 동기신호의 삽입 여부는 사용자로부터 미리 입력받은 정보에 따라 판정될 수도 있다. 예컨대, 사용자는 오디오 파일을 재생하면서 어느 시점에서 텍스트의 어느 부분을 출력해야 하는지를 텍스트 동기화 장치의 소정의 입력장치를 통하여 직접 입력할 수 있다. 또한, 후술하는 TTS 방식에 따르는 경우와 같이 자동적으로 판정될 수도 있다. 동기신호가 삽입되어야 하는 경우에는, 스터핑 공간에 동기신호를 삽입하게 된다 (S313). 동기신호의 크기는 일반적으로 스터핑 공간의 비트수보다 크기 때문에, 하나의 동기신호 전부를 하나의 스터핑 공간에 삽입하는 것이 아니라, 동기신호의 적어도 일부를 하나의 스터핑 공간에 삽입한다. 복수 개의 스터핑 공간에 하나의 동기신호를 삽입할 수도 있다. 예시적인 실시예에서, 스터핑 공간은 동기신호의 존재를 나타내는 부분, 및 동기신호의 내용으로서 텍스트의 위치 및 출력되는 텍스트의 문자수를 나타내는 부분을 포함한다. 동기신호 중 몇 비트를 해당 프레임에 삽입하는지는 주어진 스터핑 공간이 몇 비트인가에 따라 결정된다.

상술한 과정을 각 프레임에 대하여 반복함으로써, 프레임들로 구성된 오디오 파일에 동기신호를 삽입하게 된다.

따라서, 상술한 구성을 통하여, 오디오 컨텐츠와 텍스트를 동기화시킬 수 있도록 동기신호를 오디오 파일에 삽입시키는 동기신호를 제공함으로써, 오디오 컨텐츠의 재생 및 그와 동기화되는 텍스트의 출력시에, 오디오 컨텐츠 재생장치에 과도한 리소스 소모가 발생하지 않을 수 있게 된다.

다음으로, 도 4 및 5 을 참조하여 본 발명의 제 2 실시예에 대하여 설명하기로 한다. 도 4 는 본 발명의 제 2 실시예에 따른 동기신호 삽입 과정을 나타낸 흐름도이다.

도 4 에 도시하지는 않았지만, 도 3 의 S301 내지 S309 단계들이 도 4 의 S411 단계 이전에 동일하게 존재하지만, 도시 및 설명의 편의상 생략하기로 한다.

먼저, 동기신호가 삽입될 필요가 있는지가 판정된다 (S411).

동기신호가 삽입될 필요가 없는 경우, 스터핑 공간에 텍스트를 삽입한다 (S415). 텍스트 문자열의 길이는 일반적으로 스터핑 공간의 비트수보다 크기 때문에, 주어진 텍스트 문자열 전부를 하나의 스터핑 공간에 삽입하는 것이 아니라, 텍스트 문자열의 적어도 일부를 하나의 스터핑 공간에 삽입한다. 즉, 복수 개의 스터핑 공간에 하나의 텍스트 문자열을 삽입한다.

도 5 은 본 발명의 제 2 실시예에 따른 동기신호가 삽입된 오디오 파일을 프레임 단위로 도시한 개략도이다. 도 5 에서, 오디오 파일을 프레임 단위로 구획하여 개략적으로 나타내었다. 각 프레임들에 대하여, 텍스트 정보 삽입에 해당하는 프레임에서는 텍스트 정보를 포함하고 있으며, 텍스트 출력 시점에 해당하는 프레임에서는 동기신호를 포함하고 있다. 텍스트 정보 삽입에 해당하는 프레임에도 스테핑 공간에 아무런 정보가 삽입되지 않을 수가 있으며, 이는 상술한 바와 같이, 대기 영역을 의미한다. 동기신호가 포함되어 있는 프레임의 재생시점이 그 이전의 프레임에 삽입된 텍스트를 출력하는 시점이 되도록, 먼저 출력할 텍스트 정보를 하나 이상의 프레임에 삽입한다. 출력할 텍스트 정보를 모두 삽입한 후에는 동기신호를 삽입할 때까지 대기상태에 있게 된다. 대기 상태에서는 프레임에 별도의 정보를 삽입하지 않고, 각 프레임에 존재하는 스터핑 비트를 모두 '0' 으로 초기화한다. 그 후, 현재 프레임의 위치가 텍스트를 출력해야 할 시간 정보와 일치하게 되면 동기신호를 삽입한다.

다시 도 4 로 되돌아와서, 동기신호가 삽입되어야 하는 경우, 스터핑 공간에 동기신호를 삽입하게 된다 (S413). 도 3 를 참조하여 상술한 바와 같이, 동기신호의 크기는 일반적으로 스터핑 공간의 비트수보다 크기 때문에, 하나의 동기신호 전부를 하나의 스터핑 공간에 삽입할 수도 있지만, 동기신호의 적어도 일부를 하나의 스터핑 공간에 삽입할 수도 있다. 즉, 복수 개의 스터핑 공간에 하나의 동기신호를 삽입할 수도 있다. 스터핑 공간에 삽입되는 동기신호는 동기신호의 존재를 나타내는 부분만을 포함하는 것으로 충분하다. 오디오 파일의 재생시에 있어서, 동기신호가 검출된 프레임의 이전 프레임들의 스터핑 공간에 저장된 정보가 텍스트 정보들의 조각이기 때문에, 이들을 취합하면 동기신호의 존재 검출시에 디스플레이에 출력할 텍스트를 얻을 수 있기 때문이다.

상술한 과정을 각 프레임에 대하여 반복함으로써, 프레임들로 구성된 오디오 파일에 동기신호 및 오디오 컨텐츠에 대응하는 텍스트를 삽입하게 된다.

한편, 본 발명에 따른 오디오 파일과 가사 텍스트를 동기화시키는 과정은 TTS (Text-to-Speech) 엔진을 이용하여 생성된 것일 수도 있다. 도 6 은 TTS 기술로 생성된 음성 파일과 텍스트를 동기화시키는 과정을 도시한 개념도이다.

TTS 는 텍스트를 음성 합성하여 음성 파일로 만드는 기술로, 텍스트 문자를 오디오 파일로 변환함에 있어서, TTS 엔진 (603) 은 각 나라의 언어에 대한 최소 발음 단위로 음소 DB 를 구축한 후, 텍스트 문자의 앞뒤 맥락을 고려하여 검색된 음소 DB 를 합성하여 음성신호를 생성한다. 도 1 을 참조하여 상술한 본 발명 의 구성에서는 사용자로부터 오디오 파일과 동기화시키기 위한 텍스트의 위치를 직접 입력받아야 하지만, TTS 에 의한 음성 합성의 경우에는 음성 파일의 생성과 동시에 그와 대응되는 텍스트 파일에서의 텍스트의 위치가 자동적으로 파악되기 때문에, 별도의 사용자 입력 과정은 불필요하다.

이하, 본 발명에 따른 동기신호 검출 과정을 설명하기로 한다.

MP3 오디오 파일은 메모리에 저장되어 있다. MP3 오디오 파일에 대한 재생 명령에 응답하여, 메모리로부터 MP3 오디오 파일의 정보가 판독된다 (S701). 판독된 MP3 오디오 파일은 MP3 스트림의 형식으로 프레임 분석을 위하여 제공된다.

그 후, MP3 스트림의 형식으로 전송된 오디오 파일을 프레임 단위로 분할한다 (S703). 각 프레임은 그 이전 프레임의 위치 및 각 프레임의 헤더 및 부 정보로부터 판정될 수 있다.

그 후, 각 프레임에 대하여 헤더 및 부 정보를 사용하여 오디오 컨텐츠의 크기를 추출한다. 오디오 컨텐츠의 크기에 기초하여, 스터핑 공간의 비트 크기 및 위치를 알 수 있으므로, 이에 따라 스터핑 공간의 비트 크기 및 위치 파악이 가능하다. 즉, 스터핑 공간에 대한 정보가 식별된다 (S705). 그 후, 스터핑 공간의 존재 여부 및 (존재하는 경우에) 위치 및 크기에 관한 정보가 동기신호 및 텍스트 구성을 위하여 제공된다.

그 후, 검출된 동기신호의 내용을 분석하여, 동기신호 및 텍스트를 구성하게 된다 (S707). 상기 제 1 실시예의 경우에는, 동기신호가 표시하고 있는 텍스트 파일에서의 텍스트의 위치 및 표시해야 하는 문자열의 길이를 결정하여, 해당 문자열 부분을 텍스트 파일로부터 판독한다. 한편, 텍스트가 MP3 오디오 파일에 포함되어 있는 상기 제 2 실시예의 경우에는, 동기신호가 존재하지 않는 경우에, 스터핑 공간의 비트 내용을 판독하여, 이를 별도의 메모리 공간에 연속적으로 저장하고, 동기신호의 존재가 검출되는 경우에 메모리 공간에 저장된 내용을 텍스트로서 출력하게 된다. 텍스트로 출력된 후에는, 상기 내용은 메모리 공간에서 제거된다. 그 후, 텍스트로 구성된 문자열은 LCD 로의 출력을 위하여 제공된다.

그 후, LCD 컨트롤러 (미도시) 는 LCD 에 현재 출력되어 있는 문자열을 지우고 새로운 문자열을 출력하도록 LCD 를 제어한다 (S709). 이 경우에, LCD 에 동시에 출력가능한 문자열보다 긴 텍스트를 출력해야 하는 경우라면, 자동으로 문자열이 오른쪽에서 왼쪽으로 스크롤되도록 할 수 있으며, 이러한 스크롤 과정은 당업자라면 누구나 알 수 있다.

도 7 의 동기신호 검출 장치는 도 8 및 9 와 같이 디지털 휴대용 재생 장치에서 구현될 수 있다. DSP 에 구현되는 것이 일반적이나, 텍스트 동기화 작업은 MICOM 에서 모든 외부 장치를 제어하고 있으므로 MICOM 에 리소스가 충분히 남아 있다면, 도 8 과 같이 MICOM 에 구현하는 것이 유리하다. 본 발명에서 제안한 방법으로 동기화를 구현할 경우에 소요되는 처리 속도와 메모리가 매우 작기 때문에 MICOM에서 처리해도 충분히 가능하다.

도 8 은 본 발명에 따른 텍스트 동기화를 위한 동기신호 검출 장치를 휴대용 디지털 재생 장치의 DSP 에 구현하는 경우의 내부 구성도이며, 도 9 는 휴대용 디지털 재생 장치의 DSP 에 구현하는 경우의 내부 구성도이다.

도 8 과 9 는 일반적인 재생장치의 내부 구성도로, 사용자가 재생버튼을 눌렀을 때, 마이콤에서는 재생할 파일 이름을 가져온다. 재생할 파일이름을 가져온 다음에는 그 파일의 데이터를 읽어서 버퍼에 전달을 하고, DSP 에서는 버퍼에 있는 압축된 데이터를 복호화해서 스피커를 통해서 음악을 들려주게 된다.

이 과정에 가사나 재생되는 파일의 음성 정보를 액정에 표출하는 본 발명을 삽입하게 되면 전체 구조가 다음과 같이 변경된다. 마이콤에서 재생할 파일을 가져오는 과정은 동일하다. 재생할 파일을 가져온 다음에 재생 파일로부터 읽은 데이터를 버퍼에 전달하고, 전달한 데이터에 동기 신호가 있는지 없는지를 동기신호 검출기에서 찾게 된다. 이때, 동기 신호 검출기에서 동기 신호를 발견하게 되면 마이콤의 컨트롤러에서 동기 신호를 발견했으며, 발견된 동기신호의 내용이 무엇인지를 알려주게 된다. 마이콤의 LCD 컨트롤러에서는 액정 화면에 동기 신호 검출기에서 알려온 정보를 내보내게 된다.

도 8 과 도 9 의 차이점은 동기 신호 검출기가 내부의 어디에 위치하느냐만 다른데, 이는 휴대용 재생 장치의 구조적인 특성에 맞게 어떤 형태를 취하든 전체적인 실행 절차는 동일하게 동작된다.

본 발명을 특정 애플리케이션에 대한 특정 실시예를 참조하여 설명하였다. 당업계의 통상의 지식을 가지고 본 교시에 접근하는 자는 그 범위 내의 부가적인 변형, 애플리케이션, 및 실시예를 알 수 있다.

따라서, 첨부된 청구범위는 본 발명의 사상 내의 이러한 임의의, 그리고 모든 응용, 변형, 및 실시예를 커버하도록 의도된다.

본 발명은 디지털 휴대용 재생장치에 텍스트 동기화 장치를 첨가함으로써, 음악 파일 또는 음성 파일을 재생하면서 자동으로 재생되는 음악의 가사 혹은 음성 내용을 액정에 표시할 수 있는 기능을 제공한다.

본 발명은 압축된 파일이 재생되는 중에 음악 파일에 은닉되어 있는 동기신호를 실시간으로 검출하여 컨텐츠 파일의 현재 재생되는 시점과 동기를 맞추어 액정화면에 디스플레이한다. 따라서, 사용자는 재생장치의 액정화면을 통해서 현재 재생되는 내용을 확인할 수 있게 된다. 또한, 텍스트 정보와 텍스트가 출력되어야 할 시점까지 모든 정보를 디지털 컨텐츠에 은닉함으로써 사용자가 부가적으로 텍스트 파일이나 기타 정보를 별도로 저장하지 않아도 된다.

특히, 본 발명은 일반 음악의 가사를 비롯해서 외국어 학습을 위한 교재 내용까지 포괄적으로 활용할 수 있기 때문에 어학 학습용 디지털 휴대용 재생 장치에 매우 효과적으로 이용될 수 있다.

Claims

오디오 컨텐츠가 저장된 제 1 부분, 적어도 상기 제 1 부분의 크기에 관한 정보를 포함하는 제 2 부분, 및 상기 제 1 부분과 상기 제 2 부분 이외의 부분인 제 3 부분을 각각 갖는 복수의 프레임들을 포함하는 오디오 파일에 동기신호를 삽입하는 방법에 있어서,

프레임의 제 2 부분으로부터 상기 프레임의 제 1 부분의 크기에 관한 정보를 획득하는 단계;

상기 획득된 정보에 기초하여, 상기 프레임의 제 3 부분의 시작 위치 및 크기를 판정하는 단계; 및

상기 프레임의 상기 제 3 부분으로 동기신호의 적어도 일부를 삽입하는 단계를 포함하되,

상기 프레임의 상기 제 3 부분으로 동기신호의 적어도 일부를 삽입하는 단계는,

상기 제 3 부분에서의 동기신호 삽입 공간과 동기신호의 크기를 비교하여, 상기 제 3 부분에서의 상기 동기신호 삽입 공간이 상기 동기신호의 크기보다 작은 경우, 상기 동기신호 삽입 공간과 동일한 크기만큼의 상기 동기신호의 부분을 상기 제 3 부분으로 삽입하는 단계를 포함하는 것을 특징으로 하는 동기신호 삽입방법.
제 1 항에 있어서,

상기 제 2 부분은 상기 오디오 파일의 헤더 정보를 포함하고,

상기 제 3 부분은 상기 오디오 파일의 오디오 컨텐츠 재생에 사용되지 않는 부분인 것을 특징으로 하는 동기신호 삽입방법.
제 1 항에 있어서,

상기 제 3 부분은 동기신호의 존재 여부를 나타내는 영역 및 상기 동기신호의 내용을 나타내는 영역을 포함하는 것을 특징으로 하는 동기신호 삽입방법.
제 1 항에 있어서,

상기 동기신호는 상기 프레임의 상기 제 1 부분에 대응하는 텍스트의 위치에 관한 정보를 포함하는 것을 특징으로 하는 동기신호 삽입방법.
제 1 항에 있어서,

상기 프레임의 상기 제 3 부분으로 동기신호의 적어도 일부를 삽입하는 단계는,

상기 프레임의 상기 제 3 부분으로의 동기신호의 삽입 여부를 결정하는 단계; 및

동기신호의 불삽입 결정에 응답하여, 상기 프레임의 상기 제 3 부분으로 상기 프레임의 상기 제 1 부분에 대응하는 텍스트 정보를 삽입하는 단계를 포함하는 것을 특징으로 하는 동기신호 삽입방법.
삭제
제 1 항에 있어서,

상기 오디오 컨텐츠는 상기 텍스트를 TTS (Text-to-Speech) 변환하여 생성되는 것을 특징으로 하는 동기신호 삽입방법.
오디오 컨텐츠가 저장된 제 1 부분, 적어도 상기 제 1 부분의 크기에 관한 정보를 포함하는 제 2 부분, 및 상기 제 1 부분과 상기 제 2 부분 이외의 부분인 제 3 부분을 각각 갖는 복수의 프레임들을 포함하는 오디오 파일로부터 동기신호를 검출하는 방법에 있어서,

상기 제 1 부분의 크기에 관한 정보에 기초하여, 상기 제 3 부분의 시작 위치와 크기에 관한 정보를 추출하는 단계;

상기 제 3 부분을 분석하여, 동기신호의 존재 여부를 판정하는 단계;

동기신호의 존재 판정에 응답하여, 상기 제 3 부분으로부터 동기신호의 적어도 일부를 획득하는 단계; 및

상기 제 3 부분으로부터 획득된 동기신호의 적어도 일부가 동기신호와 동일하지 않은 경우, 상기 동기신호의 적어도 일부를 후속하는 프레임의 동기신호의 적어도 일부와 결합하는 단계를 포함하는 것을 특징으로 하는 동기신호 검출방법.
제 8 항에 있어서,

상기 제 2 부분은 상기 오디오 파일의 헤더 정보를 포함하고,

상기 제 3 부분은 상기 오디오 파일의 오디오 컨텐츠 재생에 사용되지 않는 부분인 것을 특징으로 하는 동기신호 검출방법.
제 8 항에 있어서,

상기 제 3 부분은 동기신호의 존재 여부를 나타내는 영역, 및 상기 동기신호의 내용을 나타내는 영역을 포함하는 것을 특징으로 하는 동기신호 검출방법.
제 8 항에 있어서,

동기신호의 부존재 판정에 응답하여, 상기 제 3 부분으로부터 텍스트 정보를 추출하는 단계를 더 포함하는 것을 특징으로 하는 동기신호 검출방법.
제 8 항에 있어서,

동기신호의 내용을 분석한 후, 상기 분석에 기초하여, 대응하는 텍스트의 위치를 선택하는 단계를 더 포함하는 것을 특징으로 하는 동기신호 검출방법.
삭제
오디오 컨텐츠가 저장된 제 1 부분, 적어도 상기 제 1 부분의 크기에 관한 정보를 포함하는 제 2 부분, 및 상기 제 1 부분과 상기 제 2 부분 이외의 부분인 제 3 부분을 각각 갖는 복수의 프레임들을 포함하는 오디오 파일로부터 동기신호를 검출하는 장치에 있어서,

상기 제 1 부분의 크기에 관한 정보에 기초하여, 상기 제 3 부분의 시작 위치와 크기에 관한 정보를 추출하고, 상기 제 3 부분을 분석하여, 동기신호의 존재 여부를 판정하는 동기신호 존재 여부 판정부; 및

동기신호의 존재 판정에 응답하여, 상기 제 3 부분으로부터 동기신호의 적어도 일부를 획득하고, 상기 제 3 부분으로부터 획득된 동기신호의 적어도 일부가 동기신호와 동일하지 않은 경우, 상기 동기신호의 적어도 일부를 후속하는 프레임의 동기신호의 적어도 일부와 결합하는 동기신호 획득부를 구비하는 것을 특징으로 하는 동기신호 검출장치.