KR20110110539A - Caption data structure and caption player for synchronizing syllables between a sound source and caption data - Google Patents

Caption data structure and caption player for synchronizing syllables between a sound source and caption data Download PDF

Info

Publication number
KR20110110539A
KR20110110539A KR1020100029910A KR20100029910A KR20110110539A KR 20110110539 A KR20110110539 A KR 20110110539A KR 1020100029910 A KR1020100029910 A KR 1020100029910A KR 20100029910 A KR20100029910 A KR 20100029910A KR 20110110539 A KR20110110539 A KR 20110110539A
Authority
KR
South Korea
Prior art keywords
event
caption
recorded
subtitle
syllable
Prior art date
Application number
KR1020100029910A
Other languages
Korean (ko)
Other versions
KR101709053B1 (en
Inventor
윤지영
Original Assignee
티제이커뮤니케이션 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 티제이커뮤니케이션 주식회사 filed Critical 티제이커뮤니케이션 주식회사
Priority to KR1020100029910A priority Critical patent/KR101709053B1/en
Publication of KR20110110539A publication Critical patent/KR20110110539A/en
Application granted granted Critical
Publication of KR101709053B1 publication Critical patent/KR101709053B1/en

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel

Abstract

본 발명은 음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일 구조 및 이를 이용한 음원 재생 장치에 관한 것으로서, 상기 자막 파일 구조는 상기 음원의 음성 정보에 대응하는 자막이 라인 단위로 기록되는 자막 데이터 구조와, 상기 자막 데이터 구조에 기록된 자막을 화면에 표시하는 이벤트 및 당해 이벤트의 발생 시점이 순차적으로 기록되는 이벤트 구조를 포함한다. 그리고, 상기 이벤트 구조에 기록된 이벤트는, 상기 자막 데이터 구조에 기록된 자막 라인을 화면에 표시하는 라인 표시 이벤트와, 상기 라인 개시 이벤트에 따라 화면에 표시된 자막을 음절별로 반전하여 표시하는 음절 반전 이벤트를 포함한다. 본 발명에 따르면, 자막 데이터와 이벤트 데이터를 별도로 저장하고 발생 시간이 할당된 각 이벤트를 순차적으로 판독함으로써, 음원의 음성 정보와 자막을 음절 단위로 동기화시킬 수 있으며, 다양한 이벤트 설계를 통해 자막의 반전, 색상의 변화 등 다양한 효과를 부여할 수 있다.The present invention relates to a subtitle file structure for synchronizing sound information and subtitles of a sound source in syllable units, and a sound source reproducing apparatus using the same, wherein the subtitle file structure includes subtitles in which subtitles corresponding to the voice information of the sound source are recorded in line units. A data structure, an event for displaying a caption recorded in the caption data structure on a screen, and an event structure for sequentially recording a time point of occurrence of the event. The event recorded in the event structure includes a line display event for displaying a caption line recorded in the caption data structure on a screen, and a syllable inversion event for inverting and displaying the caption displayed on the screen for each syllable according to the line start event. It includes. According to the present invention, by separately storing the caption data and the event data and sequentially reading each event assigned an occurrence time, the audio information of the sound source and the caption can be synchronized in syllable units, and the inversion of the caption through various event designs is possible. Various effects such as color change can be given.

Description

음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일 구조 및 자막 재생 장치{CAPTION DATA STRUCTURE AND CAPTION PLAYER FOR SYNCHRONIZING SYLLABLES BETWEEN A SOUND SOURCE AND CAPTION DATA}CAPTION DATA STRUCTURE AND CAPTION PLAYER FOR SYNCHRONIZING SYLLABLES BETWEEN A SOUND SOURCE AND CAPTION DATA}

본 발명은 노래방기기, MP3 기기, 개인용 컴퓨터의 매체 재생 장치 등 음원 재생 장치의 자막 표시 방법에 관한 것으로서, 보다 구체적으로는 음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일 구조 및 이를 이용한 자막 재생 장치에 관한 것이다.The present invention relates to a caption display method of a sound source playback device such as a karaoke device, an MP3 device, and a media playback device of a personal computer. More specifically, the caption file structure for synchronizing sound information and subtitles of a sound source in syllable units and using the same A subtitle reproducing apparatus.

음원 재생시 사용자의 편의나 보다 효율적인 재생장치의 활용을 위하여 음성 또는 음악과 자막을 동기시켜 표시하고자 하는 노력은 다양한 방식으로 계속 이루어져 왔다. 예컨대, 카세트 테이프를 이용한 종래의 자막 테이프 방식에서는, 음성 전용 테이프의 두 트랙에 자막 정보와 음성 정보를 각각 저장하고, 자막 카세트 플레이어에 의하여 음성 정보는 스피커로, 자막 정보는 액정 화면으로 각각 출력시키는 방법이 사용되고 있다.Efforts for synchronizing the display of voice or music with subtitles have been made in various ways in order to facilitate the user's convenience or to utilize a more efficient playback device. For example, in the conventional caption tape system using a cassette tape, the caption information and the audio information are respectively stored in two tracks of the audio-only tape, and the caption cassette player outputs the audio information to the speaker and the caption information to the LCD screen. The method is being used.

그러나, 상기 자막 테이프 방식은, 디지털 신호인 문자 정보를 아날로그 신호로 변환하여 테이프에 저장함으로써, 재생시 문자 신호가 음성 신호를 간섭하여 잡음이 발생되거나, 음성 신호가 문자 신호를 간섭하여 문자오류가 발생되거나 또는 문자 정보를 테이프의 한쪽 트랙에 저장함으로써 음성 정보가 스테레오가 아닌 모노로 출력되는 문제점이 있다.However, in the caption tape method, text information, which is a digital signal, is converted into an analog signal and stored on a tape, whereby a text signal interferes with a voice signal during playback and noise is generated, or a text signal interferes with the text signal, resulting in a text error. There is a problem that voice information is output in mono instead of stereo by generating or storing character information in one track of the tape.

이러한 자막 카세트의 모노 출력 문제점을 해결하기 위하여 테이프를 4 트랙으로 나누어 사용하거나 또는 신호의 합성에 의하여 스테레오를 구현하는 방법이 사용되지만, 4 트랙을 사용할 경우에는 플레이어에 각 트랙 정보를 처리하는 4 트랙 헤드를 구비하여야 하거나 또는 신호 합성에 의한 스테레오의 구현 방법의 경우에는 합성 신호의 분리가 불완전하기 때문에 상기 신호를 분석할 때 신호의 손실이 발생하기도 하며, 상기 양자의 신호가 오히려 서로 간섭함으로써 음성 정보의 재생시에 잡음이 발생되는 문제점이 있다.In order to solve the mono output problem of the subtitle cassette, a tape is divided into four tracks or stereo is synthesized by synthesizing a signal. However, when four tracks are used, four tracks for processing each track information in the player are used. In the case of a stereo implementation method using a head or signal synthesis, since the separation of the synthesized signal is incomplete, a loss of the signal may occur when analyzing the signal. There is a problem that noise is generated during playback.

한편, 요즘 보편화되고 있는 표준 엠피3(이하 "MP3"라 함) 데이터는 MPEG(Moving Picture Expert Group) 레이어(layer) 3을 의미하는데, MPEG 기술에서 오디오 부분의 기술 중에 하나이다. 표준 MP3는 오디오 데이터 코딩 기술을 이용하여 기존 데이터를 음질의 저하 없이 압축하여 만들어지는 오디오 파일 포맷(format)이다. 이러한 표준 MP3 파일은 일반적으로 AAU(이하, '오디오 복호 단위'라 한다)의 저장 포맷(recording format)을 갖는다. 즉, 헤더(header), 옵션 사항인 에러 체크코드(CRC), 오디오 데이터(audio data) 및 부가데이터(auxiliary data)로 구성된다.Meanwhile, standard MP3 data (hereinafter referred to as "MP3") data, which has become commonplace today, refers to a moving picture expert group (MPEG) layer 3, which is one of the audio parts of the MPEG technology. Standard MP3 is an audio file format created by compressing existing data using audio data coding technology without compromising sound quality. Such standard MP3 files generally have a recording format of AAU (hereinafter referred to as 'audio decoding unit'). That is, it consists of a header, an optional error check code (CRC), audio data, and auxiliary data.

따라서, 표준 MP3 파일을 재생하는 MP3 플레이어는 압축된 오디오 파일을 전송받아 이를 오디오 정보로 재생하는 오디오 전용 기기로 사용되는 것이 보통이다.Therefore, an MP3 player that plays a standard MP3 file is generally used as an audio-only device that receives a compressed audio file and plays it as audio information.

그런데, 표준 MP3 플레이어에 액정 화면을 장착하여 음성 정보와는 별도로 간단한 문자 정보(노래 제목 등 단순 참조 내용)를 표시하기도 하지만, 이 경우의 문자 정보는 음성 정보와 연동되는 문자 즉, 자막 정보를 동기화하여 표시하지 못하는 문제점이 있다. 이를 해결하기 위하여, 별도의 메모리 공간에 자막 데이터를 저장하고, 이를 가사와 동기시켜 표출하는 방식이 몇몇 제안되었다.By the way, a liquid crystal display is mounted on a standard MP3 player to display simple character information (single reference content such as a song title) separately from voice information. There is a problem that can not be displayed. In order to solve this problem, some methods of storing subtitle data in a separate memory space and synchronizing the lyrics with the lyrics have been proposed.

예컨대, 도 1은 한국 특허출원 제10-1999-0000235호(2000년 8월 5일 공개, 2001년 5월 18일 등록)에 개시된 자막 MP3 데이터 구조를 도시한 것이다.For example, FIG. 1 illustrates a subtitle MP3 data structure disclosed in Korean Patent Application No. 10-1999-0000235 (published August 5, 2000, registered May 18, 2001).

도 1에 도시된 바와 같이, 종래의 자막 MP3 데이터 구조는 음성 정보(20)와 자막 정보(22)를 포함하며, 각 자막 정보(22)는 시작부(1), 재생 번호부(2) 및 정보부(8)를 포함한다. 시작부(1)는 자막 정보의 시작을 나타낸다. 그리고, 재생 번호부(2)는 시작부(1)의 다음 단에 구비되어, 복수개의 음성 정보 중에서 몇번째 음성 정보(20)의 프레임과 연동되는가를 나타내는 번호가 저장되고, 이에 따라 재생시에 음성 정보(20)와 자막 정보(22)가 서로 연동되어 참조된다. As shown in Fig. 1, the conventional subtitle MP3 data structure includes voice information 20 and subtitle information 22, and each subtitle information 22 includes a start part 1, a reproduction number part 2, and an information part. It includes (8). The start part 1 indicates the start of the caption information. The reproduction number section 2 is provided at the next stage of the start section 1, and stores a number indicating how many frames of the voice information 20 are interlocked among the plurality of voice information, thereby storing the voice information at the time of reproduction. Reference numeral 20 and subtitle information 22 are linked to each other.

정보부(8)는 재생 번호부(2)의 다음 단에서 구비되어, 저장되는 데이터의 번지, 종류 등의 관련 정보가 저장되는 부분으로서, 재생 번지부(3), 정보 식별부(4), 선택부(5) 및 자막부(6)를 포함한다. 재생 번지부(3)는 재생 번호부(2)의 다음 단에서 구비되어, 복수개의 자막 정보가 하나의 단어 또는 화상으로 되는 경우에 각 자막 정보가 서로 조합되도록 되는 재생 번지를 나타낸다. 정보 식별부(4)는 재생 번지부(3)의 다음 단에서 구비되어 저장된 정보의 파일 종류를 나타내며, 선택부(5)는 정보 식별부(4)의 다음 단에서 구비되어, 저장된 정보의 언어 종류, 동작 시간 및 액정 출력부(15)에서의 표시 방식 중 적어도 어느 하나를 나타낸다. 즉, 상기 언어 종류는 예를 들면, 한국어(KOR), 일본어(JP), 영어(USA) 등으로 되는 언어를 나타내고, 상기 동작 시간은 자막 정보가 음성 정보와 동기되어서 출력되는 시간을 나타내며, 상기 표시 방식은 액정 출력부(15)에서 자막이 단어 또는 문장을 이루어 출력될 때, 순차 출력 또는 일괄 출력을 표시한다. 마지막으로, 자막부(6)는 선택부(5)의 다음 단에서 구비되어, 엠피 3 저장 매체에서 출력될 자막 문자가 저장된다. The information section 8 is provided at the next stage of the reproduction number section 2 and stores information related to the address, type, etc. of the data to be stored, and includes the reproduction address section 3, the information identification section 4, and the selection section. (5) and the caption section 6. The reproduction address section 3 is provided at the next stage of the reproduction number section 2, and indicates a reproduction address where each subtitle information is combined with each other when a plurality of subtitle information is a word or an image. The information identification section 4 is provided at the next stage of the reproduction address section 3 to indicate the file type of the stored information, and the selection section 5 is provided at the next stage of the information identification section 4, so that the language of the stored information is provided. At least any one of a kind, an operation time, and a display system in the liquid crystal output unit 15 is shown. That is, the language type indicates, for example, a language such as Korean (KOR), Japanese (JP), English (USA), and the operation time indicates the time when the subtitle information is output in synchronization with the voice information. The display system displays sequential output or batch output when the subtitles are output in words or sentences on the liquid crystal output unit 15. Finally, the caption section 6 is provided at the next stage of the selection section 5 to store caption characters to be output from the MP3 storage medium.

이와 같이 구성되는 복수개의 자막 정보(22)를 포함하는 자막 정보 그룹(22a)은, 오디오 복호 단위인 음성 정보(20)가 복수 개로 이루어지는 표준 엠피 3 정보구조(20a)에 부가되어서, 표준 엠피 3 음성 정보(20)가 저장된 저장 매체로부터 출력될 때 복수개의 음성 정보(20)로부터 추출되는 각각의 음성 신호에 자막 문자가 동기되어 서로 연동됨으로써 동시에 출력된다. The caption information group 22a including the plurality of caption information 22 configured in this way is added to the standard MP3 information structure 20a in which a plurality of pieces of audio information 20 which are audio decoding units are added. When the voice information 20 is output from the stored storage medium, subtitle characters are synchronized with each voice signal extracted from the plurality of voice information 20 to be simultaneously outputted.

즉, 전술한 종래 기술에서, 자막 정보는 자막 데이터에 포함된 재생 번호부가 상기 복수의 표준 엠피 3 데이터 각각의 프레임 중 어떤 프레임과 연동되는가를 나타내는 번호 데이터를 포함하여 이 번호 데이터를 기준으로 자막을 표시하거나, 혹은 자막 데이터에 포함된 정보부가 해당 자막이 표출될 시점 정보를 포함하여 각 시점에 해당 자막을 표출하는 방식을 취하고 있다.That is, in the above-described prior art, the caption information includes caption data based on the number data, including number data indicating which frame of each of the plurality of standard MP3 data units the playback number included in the caption data is linked to. The information part displayed or included in the subtitle data includes a time point at which a corresponding subtitle is to be displayed, and a subtitle is displayed at each time point.

그런데, 전술한 바와 같은 종래 기술에서는, 테이프 플레이어에 적용되는 방식이든 MP3 플레이어에 적용되는 방식이든 가사 또는 대사의 문장 또는 소절 단위로 자막을 표시할 수밖에 없는 구성이므로, 현재 재생되는 가사 또는 대사가 표출된 자막에서 어떤 음절의 위치에 있는지를 나타낼 수 없다.However, in the prior art as described above, since the subtitles are displayed only in sentences or measures of lyrics or lines, whether applied to a tape player or an MP3 player, the currently played lyrics or lines are expressed. It cannot indicate which syllable position is in the subtitle.

가요 등과 같은 음악을 청취하거나 영어 회화 등의 어학 학습을 하거나, 기타의 모든 경우에 있어서, 현재 재생되고 있는 가사나 대사에 음절 단위로 동기될 수 있는 안내 자막을 제공할 수 있다면 동기화 자막 표출의 효용성이 극대화될 수 있으나, 종래의 기술로는 이를 구현할 수 없는 문제점이 있다.Listening to music such as songs, learning language, such as English conversation, or in all other cases, if you can provide guided subtitles that can be synchronized by syllable units to the currently playing lyrics or dialogue, the effectiveness of synchronizing subtitles This can be maximized, but there is a problem that can not be implemented by the conventional technology.

전술한 종래 기술의 문제점을 해결하기 위하여, 본 발명은 음원의 음성 정보와 자막을 음절 단위로 동기화하는 자막 파일 구조 및 이를 이용한 자막 재생 장치를 제공하는 데 그 목적이 있다. SUMMARY OF THE INVENTION In order to solve the above problems of the prior art, an object of the present invention is to provide a subtitle file structure for synchronizing sound information and subtitles of a sound source in syllable units, and a subtitle reproducing apparatus using the same.

본 발명의 또 다른 목적은 음원과 자막의 음절 단위의 동기를 위하여 자막의 반전, 색상의 변화 등 다양한 효과를 부여함과 아울러, 각 음절별의 재생 시간을 반영하여 자막에 표시 효과를 줄 수 있는 자막 파일 구조 및 이를 이용한 자막 재생 장치를 제공하는 데 있다. It is still another object of the present invention to give various effects such as inversion of subtitles and change of color for synchronizing syllable units of a sound source and subtitles, and to give a display effect to subtitles by reflecting the playing time of each syllable. A subtitle file structure and a subtitle reproducing apparatus using the same are provided.

상기 기술적 과제를 달성하기 위해, 본 발명의 일 측면에 따르면, 자막과는 별도로 저장된 이벤트를 판독하여 음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일 구조가 저장된 컴퓨터 판독 가능한 기록 매체가 제공된다. 상기 자막 파일 구조는, 상기 음원의 음성 정보에 대응하는 자막이 라인 단위로 기록되는 자막 데이터 구조와, 상기 자막 데이터 구조에 기록된 자막을 화면에 표시하는 이벤트 및 당해 이벤트의 발생 시점이 순차적으로 기록되는 이벤트 구조를 포함한다. 그리고, 상기 이벤트 구조에 기록된 이벤트는, 상기 자막 데이터 구조에 기록된 자막 라인을 화면에 표시하는 라인 표시 이벤트와, 상기 라인 개시 이벤트에 따라 화면에 표시된 자막을 음절별로 반전하여 표시하는 음절 반전 이벤트를 포함한다.In order to achieve the above technical problem, according to an aspect of the present invention, a computer-readable recording medium storing a subtitle file structure for reading the event stored separately from the subtitle and synchronizing the voice information of the sound source and the subtitle by syllable units do. The caption file structure includes a caption data structure in which captions corresponding to audio information of the sound source are recorded line by line, an event of displaying captions recorded in the caption data structure on a screen, and a time point of occurrence of the event. Contains the event structure being populated. The event recorded in the event structure includes a line display event for displaying a caption line recorded in the caption data structure on a screen, and a syllable inversion event for inverting and displaying the caption displayed on the screen for each syllable according to the line start event. It includes.

이 때, 상기 이벤트 구조에 기록된 음절 반전 이벤트의 누적 개수는 상기 자막 데이터 구조에 기록된 자막의 음절수와 일치하는 것이 바람직하다. 또한, 상기 자막 데이터 구조는 자막의 각 음절이 식별 가능하도록 기록되는 것이 바람직하다.At this time, the cumulative number of syllable inversion events recorded in the event structure preferably matches the number of syllables of the subtitles recorded in the subtitle data structure. In addition, the caption data structure is preferably recorded so that each syllable of the caption can be identified.

또한, 상기 자막 데이터 구조에는 상기 음원에 대한 정보가 라인 단위로 구분되어 추가로 기록되며, 상기 이벤트 구조에 기록된 이벤트는 상기 음원에 대한 정보를 화면에 표시하는 정보 표시 이벤트를 더 포함할 수 있다. 상기 이벤트 구조에는 상기 자막 데이터 구조에 기록된 자막을 화면에 표시하는 각 이벤트에 대하여 당해 이벤트의 종료 시점이 추가로 기록될 수 있으며, 상기 라인 표시 이벤트의 발생 시점까지 잔여 시간을 표시하는 카운트다운 이벤트가 추가로 기록될 수 있다.In addition, the caption data structure may further include information about the sound source divided by line, and the event recorded in the event structure may further include an information display event for displaying information about the sound source on a screen. . In the event structure, an end time of the event may be additionally recorded for each event of displaying the caption recorded in the caption data structure on the screen, and a countdown event of displaying the remaining time until the occurrence of the line display event. Can be recorded further.

본 발명의 제2 측면에 따르면, 자막과는 별도로 저장된 이벤트를 판독함으로써 음원의 음성 정보와 자막을 음절 단위로 동기화하여 화면에 표시하는 자막 재생장치가 제공되며, 자막 파일을 저장하는 자막 파일 저장부와, 화면에 표시될 자막을 저장하는 메모리와, 상기 자막 파일 저장부에 저장된 자막 파일로부터 이벤트 리스트를 추출하는 이벤트 추출부와, 상기 이벤트 리스트를 주기적으로 검색하고 각 음절 반전 이벤트의 발생 시점에 기초하여 상기 음절 반전 이벤트의 누적 발생 횟수에 대응하는 음절을 반전시켜서 상기 메모리에 저장하는 동기 타이머와, 상기 메모리에 저장된 자막을 주기적으로 검색하여 화면에 표시하는 화면 타이머를 포함한다. 그리고, 상기 자막 파일은 상기 음원의 음성 정보에 대응하는 자막이 기록되는 데이터 구조와, 상기 데이터 구조에 기록된 자막을 음절별로 반전 표시하는 음절 반전 이벤트 및 당해 이벤트의 발생 시점이 순차적으로 기록된 이벤트 구조를 포함한다. According to a second aspect of the present invention, there is provided a subtitle reproducing apparatus for displaying on the screen by synchronizing the voice information of the sound source and the subtitle by syllable units by reading the event stored separately from the subtitle, and the subtitle file storage unit for storing the subtitle file A memory for storing the subtitles to be displayed on the screen, an event extracting unit for extracting an event list from the subtitle file stored in the subtitle file storage unit, and periodically searching the event list and generating a syllable-inverted event based on a time point of occurrence of each syllable inversion event; And a synchronous timer for inverting a syllable corresponding to a cumulative occurrence number of the syllable reversal event and storing the syllable in the memory, and a screen timer for periodically searching for and displaying a subtitle stored in the memory. The caption file may include a data structure in which a caption corresponding to the audio information of the sound source is recorded, a syllable inversion event in which the caption recorded in the data structure is inverted for each syllable, and an event in which the occurrence time of the event is sequentially recorded. Include structure.

이상 설명한 바와 같이, 본 발명에 따르면, 자막 데이터와 이벤트 데이터를 별도로 저장하고, 발생 시간이 할당된 각 이벤트를 순차적으로 판독함으로써, 음원의 음성 정보와 자막을 음절 단위로 동기화시킬 수 있다. 또한, 다양한 이벤트 설계를 통해 자막의 반전, 색상의 변화, 카운트다운 등 다양한 효과를 부여할 수 있을 뿐만 아니라, 음절별로 할당된 이벤트의 발생 시간 및 종료 시간에 기초하여 음절의 반전 속도를 곡 속도에 맞춰 자연스럽게 유지할 수 있는 장점이 있다.As described above, according to the present invention, by separately storing the caption data and the event data and sequentially reading each event to which the occurrence time is assigned, the audio information of the sound source and the caption can be synchronized in syllable units. In addition, various event designs allow various effects such as subtitle inversion, color change, and countdown, and the inversion rate of syllables is changed to the song speed based on the occurrence time and end time of the event assigned to each syllable. There is an advantage to keep it naturally.

도 1은 종래 기술에 따른 자막 MP3의 데이터 구조도.
도 2는 본 발명의 바람직한 실시예에 따른 자막 재생 장치의 구성도.
도 3은 본 발명의 바람직한 실시예에 따라 XTF 자막 파일에 순차적으로 기록되는 이벤트와 그에 따른 화면 예시도.
도 4는 본 발명의 바람직한 실시예에 따른 자막 재생 장치에 의해 화면에 표시되는 자막의 예시도.
1 is a data structure diagram of a subtitle MP3 according to the prior art.
2 is a block diagram of a caption reproducing apparatus according to a preferred embodiment of the present invention.
3 is a diagram illustrating an event sequentially recorded in an XTF subtitle file and a corresponding screen according to a preferred embodiment of the present invention.
4 is an exemplary view of a caption displayed on a screen by a caption reproducing apparatus according to a preferred embodiment of the present invention.

이하 도면 및 표를 참조하여, 본 발명의 바람직한 실시예를 설명한다.Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings and tables.

먼저, 표 1은 본 발명의 바람직한 실시예에 따라 음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일의 데이터 구조를 정의한 것이며, 이하, 본 발명의 바람직한 실시예에 따른 자막 파일 구조를 XTF라 칭하기로 한다. 표 1을 참조하면, XTF 파일은 헤더부(XTF_HEADER), 데이터부(XTF_DATA) 및 이벤트부(XTF_EVENT)로 구성되어 있다. First, Table 1 defines a data structure of a subtitle file for synchronizing sound information of a sound source and a subtitle in syllable units according to a preferred embodiment of the present invention. Hereinafter, the subtitle file structure according to the preferred embodiment of the present invention is XTF. It will be called. Referring to Table 1, the XTF file is composed of a header section (XTF_HEADER), a data section (XTF_DATA), and an event section (XTF_EVENT).

명칭designation 설명 Explanation XTF_HEADERXTF_HEADER 전체 파일에 대한 정보 Information about the entire file XTF_DATAXTF_DATA 라인별 자막 데이터(line-breaked string) Line-breaked string XTF_EVENTXTF_EVENT 이벤트의 시간(시퀀스)값 및 속성(가사 표현 방식) Time (sequence) values and attributes of events (lyric representation)

표 2는 XTF 파일의 헤더부(XTF_HEADER)를 정의한 것으로서, 자막 파일 구조의 버전 정보를 표시하는 "Id", 전술한 데이터부(XTF_DATA)의 크기를 표시하는 "Data_size", 그리고 이벤트부(XTF_EVENT)의 크기를 나타내는 "Event_size"로 구성된다.Table 2 defines the header portion (XTF_HEADER) of the XTF file, "Id" indicating the version information of the subtitle file structure, "Data_size" indicating the size of the above-described data portion (XTF_DATA), and the event portion (XTF_EVENT). It consists of "Event_size", indicating the size of.

명칭designation 크기(Byte)Size (Byte) 설명 Explanation IdId 88 버전 정보(예컨대, "XTF 1.0") Version information (eg "XTF 1.0") Data_sizeData_size 22 XTF_DATA 크기 XTF_DATA size Event_sizeEvent_size 22 XTF_EVENT 크기 XTF_EVENT size

이어서, 표 3은 XTF 파일의 데이터부(XTF_DATA)를 정의한 것으로서, 곡번호, 제목, 곡 정보 및 자막 데이터가 라인별로 순차적으로 기록되며, 각 라인은 리턴키(\r\n)에 의하여 구분된다. 그리고, 각 정보 유형(예컨대, 곡번호, 제목, 곡 정보 등)을 명확히 구분하기 위해 빈칸이 삽입되어 있다. Next, Table 3 defines the data portion (XTF_DATA) of the XTF file, where the song number, title, song information, and caption data are sequentially recorded for each line, and each line is identified by a return key (\ r \ n). . In addition, blanks are inserted to clearly distinguish each type of information (eg, song number, title, song information, and the like).

라인line 분리자(Delimeter)Separator 설명 Explanation 곡번호(Song_number)Song_number \r\n\ r \ n 곡번호가 예컨대, #8084로 표시됨 Song number is displayed as, for example, # 8084 \r\n\ r \ n 빈칸 blank 제목 라인1Subject line 1 \r\n\ r \ n 제목 1 (스트링) Heading 1 (string) 제목 라인2Subject line 2 \r\n\ r \ n 제목 2 (스트링) : 제목 1 초과시 사용 Title 2 (String): Used when title 1 exceeds \r\n\ r \ n 빈칸 blank 정보 라인1Information line 1 \r\n\ r \ n 노래정보1 : 작사 Song Information 1: Lyrics 정보 라인2Information line 2 \r\n\ r \ n 노래정보2 : 작곡 Song Information 2: Composition 정보 라인3Information line 3 \r\n\ r \ n 노래정보3 : 가수 Song Information 3: Singer \r\n\ r \ n 빈칸 blank 데이터 라인[0]Data line [0] \r\n\ r \ n 자막(가사) 시작 Start caption (lyrics) 데이터 라인[1]Data line [1] \r\n\ r \ n \r\n\ r \ n 데이터 라인[n]Data line [n] \r\n\ r \ n 자막(가사) 종료 Close caption (lyrics)

표 4는 표3의 데이터 라인의 포맷을 예시한 것으로서, 반전 처리하여 표시하고자 하는 가사(자막)의 경우에는 괄호로 표시하며, 1 절 또는 2 절 등의 끝에는 '@'를 표시하여 간주부가 진행함을 알 수 있도록 한다. 한편, 한글의 경우에는 각 글자가 하나의 음절을 표시하므로 별도의 음절 구분자가 필요 없으나, 알파벳을 사용하는 영어의 경우에는 2 음절 이상의 단어에는 각 음절 사이에 '_'을 삽입하여 음절을 구분할 수 있다. 만약, 영단어에 음절 구분을 위한 심볼이 삽입되지 않은 경우에는 하나의 단어를 하나의 음절로 인식한다. 그리고, 이러한 음절 구분자는 화면에 표시하지는 않으며, 후술하는 바에 따라 각 음절별로 이벤트 실행시에 음절을 식별하기 위한 용도로 사용된다.Table 4 exemplifies the format of the data line of Table 3, in which case the lyrics (subtitles) to be displayed by inverting them are indicated in parentheses, and at the end of section 1 or 2, the '@' is displayed so that the deemed part proceeds. Make sure you know. In the case of Korean, each syllable displays one syllable, so no separate syllable separator is needed.However, in the case of English using alphabet, syllables can be distinguished by inserting '_' between each syllable in words of two or more syllables. have. If a symbol for distinguishing syllables is not inserted into an English word, one word is recognized as one syllable. Such syllable separators are not displayed on the screen, and are used for identifying syllables at the time of event execution for each syllable as described below.

포맷format 심볼symbol 설명 Explanation 반전reversal '(' ')''(' ')' 괄호로 표시된 가사는 반전되어 표시됨 Lyrics shown in parentheses are inverted 절끝End '@''@' 라인끝에 '@'가 있으면 절의 끝을 의미함 '@' At end of line means end of clause 구분자Separator '_''_' 영단어를 음절별로 구분하여 표시함
(예컨대, "Lo_ve")
English words are divided by syllables
(Eg, "Lo_ve")
가사끝Lyrics '@''@' 가사의 마지막 라인에는 '@'를 붙일 수도 있고 붙이지 않을 수도 있음 Last line of lyrics may or may not be appended with '@'

예컨대, XTF 파일의 데이터부(XTF_DATA)에 "(한번 불러보는거야)"라고 기록된 경우에, 화면에는 "한번 불러보는거야"라고 표시된다. 또한, 영문의 경우에는, "(Eve_ry_thing's gon_na)"로 기록된 가사는 "Everything's gonna"로 표시될 것이다. 한편, 본 발명에 있어서, "반전"이라 함은 자막의 표시 상태(속성)가 변경되는 것을 총칭하여 의미하는 것으로서, 이는 글자의 색상 반전에 한정되지 않으며, 폰트, 크기 등과 관련하여 다양한 반전 효과(Effect)를 구현할 수 있음을 유념해야 할 것이다.For example, in the case where " (call once) " is recorded in the data portion XTF_DATA of the XTF file, the screen displays " call once. &Quot; Also, in the English case, the lyrics recorded as "(Eve_ry_thing's gon_na)" will be displayed as "Everything's gonna". On the other hand, in the present invention, "inverted" refers to a change in the display state (attribute) of the subtitles collectively, which is not limited to the color inversion of the letters, and various inversion effects (such as font, size, etc.) Note that you can implement effects.

다음으로, 표 5는 XTF 파일의 이벤트부(XTF_EVENT)를 정의한 것이며, 이벤트 유형별로 아이디(Id)가 할당되며, 당해 Id에 의해 식별되는 이벤트의 발생시간이 함께 기록된다. Next, Table 5 defines the event unit (XTF_EVENT) of the XTF file, ID (Id) is assigned for each event type, and the occurrence time of the event identified by the ID is recorded together.

명칭designation 크기(바이트)Size in bytes 설명 Explanation IdId 1One 이벤트 유형 Event type 시간time 44 이벤트 발생 시간 (ms 단위) Event occurrence time (in ms)

이벤트 발생 시간은 4 바이트가 할당되며, 2 바이트에는 이벤트 개시 시간을 예컨대, 1/1000초 단위로 입력하고, 나머지 2 바이트에는 이벤트 종료 시간을 같은 단위로 입력함으로써, 당해 이벤트의 지속 시간(duration)을 즉시 파악할 수 있도록 구성할 수 있다. 예컨대, 자막의 각 음절을 반전 처리하는 이벤트의 경우에는, 이벤트 발생 시간에 지정된 개시 시점으로부터 그 종료 시점까지 반전이 이루어지며, 그 지속 시간으로부터 각 음절의 반전이 진행되는 속도를 미리 계산할 수 있다.The event occurrence time is allocated to 4 bytes, the event start time is input in 2 bytes, for example, 1/1000 second, and the event end time is input in the same 2 bytes, so that the duration of the event is maintained. Can be configured for immediate identification. For example, in the event of inverting each syllable of the subtitle, inversion is performed from the start time specified in the event occurrence time to the end time, and the speed at which the inversion of each syllable proceeds from the duration can be calculated in advance.

한편, 각 이벤트의 발생 시간은 음원의 재생 시점을 기준으로 한 시간, 즉 절대 시간이 입력되거나, 이전 이벤트의 발생 시간으로부터 경과된 시간, 즉 상대 시간이 입력될 수 있다. 이와 같이 상대 시간이 입력될 경우에는, 최초 발생하는 이벤트에 대해서 음원의 재생 시점과 시간 동기(Position Sync)를 고려함으로써 간단히 구현할 수 있다.Meanwhile, the occurrence time of each event may be a time based on a playback time of a sound source, that is, an absolute time, or a time elapsed from a generation time of a previous event, that is, a relative time. When the relative time is input in this way, the first occurrence of the event can be implemented simply by considering the playback time and position synchronization of the sound source.

이어서, 표 6은 XTF 파일의 이벤트부(XTF_EVENT)에 기록되는 이벤트의 Id를 예시한 것이다.Next, Table 6 illustrates the Id of the event recorded in the event unit (XTF_EVENT) of the XTF file.

IdId 설명 Explanation 0x010x01 자막의 각 음절별 이벤트 발생 Event occurrence for each syllable of subtitle 0x020x02 자막의 각 음절별 이벤트 종료 End event for each syllable in a subtitle 0x030x03 곡 정보 표시 이벤트 발생 Song information display event occurs 0x040x04 곡 정보 표시 이벤트 종료 Ending song information display event 0x050x05 자막 시퀀스 시작 Start caption sequence 0x060x06 자막 시퀀스 종료 End caption sequence 0x140x14 카운트다운 "4" Countdown "4" 0x130x13 카운트다운 "3" Countdown "3" 0x120x12 카운트다운 "2" Countdown "2" 0x110x11 카운트다운 "1" Countdown "1"

표 6에 나타낸 바와 같이, Id(0x01)는 자막의 각 음절을 반전 처리하는 이벤트 발생을 표시하며, Id(0x02)는 전술한 Id(0x01)에 의해 발생한 이벤트가 종료되는 시점을 표시한다. 이에 따라, 각 이벤트의 이벤트 발생 시간에는 전술한 바와 같이 그 개시 시간 및 종료 시간이 지정되므로, 이벤트(0x02)의 개시 시간은 선행하는 음절 반전 이벤트(0x01)의 종료 시간과 일치되도록 구성할 수 있다. As shown in Table 6, Id (0x01) indicates the occurrence of an event for inverting each syllable of the subtitle, and Id (0x02) indicates the time point when the event generated by Id (0x01) described above ends. Accordingly, since the start time and the end time of the event occurrence time of each event are designated as described above, the start time of the event 0x02 can be configured to match the end time of the preceding syllable inversion event 0x01. .

한편, Id(0x01)는 각 음절에 대한 반전 이벤트를 나타내므로, XTF 파일의 이벤트부(XTF_EVENT)에 포함된 Id(0x01)의 누적 개수는 XTF 파일의 데이터부(XTF_DATA)에 기록된 자막의 음절수와 일치하게 되며, Id(0x02)의 경우에도 그러하다. 따라서, 자막의 음절수와 음절 반전 이벤트의 개수를 비교함으로써, XTF 파일의 무결성을 검증할 수 있다.On the other hand, since Id (0x01) represents an inversion event for each syllable, the cumulative number of Id (0x01) included in the event section (XTF_EVENT) of the XTF file is the syllable of the subtitle recorded in the data section (XTF_DATA) of the XTF file. It will match the number, even for Id (0x02). Accordingly, the integrity of the XTF file can be verified by comparing the number of syllables of the subtitle and the number of syllable inversion events.

또한, 곡 정보 표시를 위한 이벤트의 발생 및 종료에는 Id(0x03) 및 Id(0x04)를 할당하여, 당해 개시 이벤트의 발생에 응답하여 XTF 파일의 데이터부(XTF_DATA)의 곡 정보를 화면에 표시하고, 종료 이벤트의 발생에 응답하여 곡 정보를 화면에 지울 수 있다.In addition, Id (0x03) and Id (0x04) are assigned to the occurrence and end of the event for displaying the song information, and the song information of the data portion (XTF_DATA) of the XTF file is displayed on the screen in response to the occurrence of the start event. In response to the occurrence of the end event, song information may be erased on the screen.

자막(가사)의 라인별 표시와 관련하여, 가사 시퀀스의 표시 시작과 종료를 알리는 이벤트를 각각 Id(0x05) 및 Id(0x06)로 정의하여, 이벤트(0x05)의 발생 시간에 2 라인의 가사를 화면에 표시하고, 이벤트(0x06)의 발생 시간에 당해 가사를 화면에서 지울 수 있다. 한편, 새로운 가사의 화면 표시는 별도의 이벤트(0x05)에 의하여 수행하거나, 이벤트(0x06)의 발생에 응답하여 자동으로 수행될 수 있다. 대안으로서, 이벤트(0x05)에 의해 예컨대, 2 라인 단위로 표시된 자막 라인의 반전이 완료되면, 새로운 자막 라인을 표시하도록 구성할 수도 있다.Regarding the line-by-line display of the subtitles, an event indicating the start and end of the display of the lyrics sequence is defined as Id (0x05) and Id (0x06), respectively, so that two lines of lyrics are generated at the time (0x05). It can be displayed on the screen, and the lyrics can be deleted from the screen at the time of occurrence of the event (0x06). On the other hand, the screen display of the new lyrics may be performed by a separate event (0x05) or automatically in response to the occurrence of the event (0x06). As an alternative, it may be configured to display a new subtitle line when the inversion of the subtitle line indicated by, for example, two lines is completed by the event (0x05).

한편, 본 발명에 따른 자막 파일 구조가 노래방 등에서 사용될 경우에는, 가사의 시작 시점 또는 잔여 시간을 안내하기 위한 카운트다운 정보를 화면에 표시하는 것이 바람직하다. 이를 위해, 예컨대, 1에서부터 4까지의 카운트다운 정보를 표시하기 위한 이벤트(0x11 내재 0x14)를 정의하고, 그 발생 시간은 각각 가사 시작 시점에서 한 박자 내지 네 박자 전에 표시되도록 설정할 수 있다.On the other hand, when the subtitle file structure according to the present invention is used in karaoke or the like, it is preferable to display countdown information for guiding the start time or the remaining time of the lyrics on the screen. For this purpose, for example, an event (0x11 intrinsic 0x14) for displaying the countdown information from 1 to 4 may be defined, and the occurrence time may be set to be displayed one beat to four beats before the start of the lyrics.

이와 같이, 본 발명의 바람직한 실시예에 따른 자막 파일 구조(XTF)는 음원의 음성 정보에 대응하는 자막이 라인 단위로 기록되는 자막 데이터 구조와, 상기 자막 데이터 구조에 기록된 자막을 화면에 표시하는 이벤트 및 당해 이벤트의 발생 시점이 순차적으로 기록되는 이벤트 구조가 별개로 작성된다. 이에 따라, 자막을 기록하는 자막 데이터 구조는 가사 정보가 포함된 텍스트 파일에 대하여, 각 절의 끝, 반전 부분, 음절 표시 등을 위한 심볼(식별자)을 추가함으로써 용이하게 작성할 수 있다. 또한, 이벤트 구조는 자막의 내용과는 무관하게 별도로 작성될 수 있으며, 예컨대 음원이 곡인 경우에는 곡의 음표 길이에 따라 이벤트의 발생 시간을 설정할 수 있다. 그리고, 카운트다운 정보의 경우도, 자막(가사)의 개시 시점으로부터 자동적으로 계산될 수 있다.As described above, the caption file structure (XTF) according to the preferred embodiment of the present invention displays a caption data structure in which captions corresponding to sound information of a sound source are recorded line by line, and a caption recorded in the caption data structure is displayed on the screen. An event structure in which an event and a time of occurrence of the event are sequentially recorded is separately created. Accordingly, the caption data structure for recording the caption can be easily created by adding symbols (identifiers) for the end of each section, the inverted portion, the syllable display, and the like to the text file including the lyrics information. In addition, the event structure may be separately created irrespective of the contents of the subtitles. For example, when the sound source is a song, an event occurrence time may be set according to the note length of the song. Also, in the case of countdown information, it can be automatically calculated from the starting point of the subtitle.

도 2는 전술한 XTF 파일을 이용하여 자막을 음절 단위로 동기화하기 위한 자막 재생 장치(100)를 도시한 것이며, XTF 파일을 저장하는 자막 파일 저장부(110), 이벤트 추출부(120), 동기 타이머(130), 화면에 표시될 자막을 저장하는 메모리(140), 화면 타이머(140), 및 화면부(150)로 구성되어 있다.FIG. 2 illustrates a subtitle reproducing apparatus 100 for synchronizing subtitles by syllable units using the above-described XTF file, and includes a subtitle file storage unit 110, an event extracting unit 120, and a synchronization unit that store an XTF file. The timer 130, the memory 140 for storing the subtitle to be displayed on the screen, the screen timer 140, and the screen unit 150 is composed of.

먼저, 자막 파일 저장부(110)는 기 설명한 XTF 자막 파일을 저장한다. 즉, 자막 파일 저장부(110)에 저장된 XTF 파일은 전술한 바와 같이, 음원의 음성 정보에 대응하는 자막(가사)이 기록되는 자막 파일 구조와, 각 이벤트 및 당해 이벤트의 발생 시점이 순차적으로 기록된 이벤트 구조로 이루어진다.First, the subtitle file storage unit 110 stores the previously described XTF subtitle file. That is, as described above, the XTF file stored in the subtitle file storage unit 110 records a subtitle file structure in which subtitles (lyrics) corresponding to voice information of a sound source are recorded, and each event and a time of occurrence of the event are sequentially recorded. Event structure.

이벤트 추출부(120)는 자막 파일 저장부(110)에 저장된 자막 파일로부터 이벤트 리스트를 추출한다. 이러한 이벤트 리스트는 이중 연계 리스트(double linked-list)로서, XTF 파일의 자막 및 이벤트에 대한 포인터를 저장한다. 이에 따라, 이벤트 리스트의 이벤트 포인터를 순차적으로 검색하면, 이벤트의 발생 순서에 따라 XTF 파일의 이벤트를 검색할 수 있으며, 이와 함께 이벤트 리스트의 자막을 액세스하여 음절 단위 또는 라인 단위로 자막을 판독할 수 있다.The event extractor 120 extracts an event list from the caption file stored in the caption file storage 110. This event list is a double linked-list, which stores pointers to subtitles and events in the XTF file. Accordingly, when the event pointer of the event list is sequentially searched, the events of the XTF file can be searched according to the order of occurrence of the events, and the subtitles of the event list can be accessed to read the subtitles in syllable units or lines. have.

동기 타이머(130)는 이벤트 추출부(120)에 의해 생성된 이벤트 리스트를 순차적으로 검색하며, 바람직하게는 이벤트 사이의 최소 간격보다 짧은 주기로 검색을 수행한다. 그리고, 이러한 검색 결과로부터, 각 이벤트의 발생 순서에 따라 당해 이벤트에 대응하는 자막 처리를 수행하여 메모리(140)에 저장시킨다. The synchronization timer 130 sequentially searches the event list generated by the event extractor 120, and preferably searches at intervals shorter than the minimum interval between events. From the search result, subtitle processing corresponding to the event is performed in the order of occurrence of each event and stored in the memory 140.

예컨대, 자막의 각 음절을 반전 처리하는 이벤트(0x01)가 검색되면, 각 음절 반전 이벤트의 발생 시점에 기초하여 당해 이벤트의 누적 발생 횟수에 대응하는 음절을 반전시킨 자막을 메모리(140)에 저장한다. 또한, 곡 정보 표시를 위한 이벤트(0x03)가 검색되면, 자막 파일 저장부(110)에 저장된 XTF 파일로부터 곡 정보를 검색하고, 이를 해당 이벤트의 발생 시점과 함께 메모리(140)에 저장한다.For example, when an event (0x01) that inverts each syllable of the caption is found, the caption inverting the syllable corresponding to the number of occurrences of the event is stored in the memory 140 based on the occurrence time of each syllable inversion event. . In addition, when an event (0x03) for displaying the song information is found, the song information is retrieved from the XTF file stored in the subtitle file storage unit 110 and stored in the memory 140 together with the occurrence time of the corresponding event.

가사 시퀀스의 시작과 종료를 알리는 이벤트(0x05)가 검색된 경우에도, 전술한 바와 같이, 예컨대 2 라인의 가사를 검색하여 해당 이벤트의 발생 시점과 함께 메모리(140)에 저장한다. 카운트다운 이벤트(0x11 내재 0x14))의 경우에는 XTF 파일의 자막 파일 구조를 별도로 검색하지 않고, 당해 카운트다운 이벤트의 번호를 메모리(140)에 저장한다.Even when an event (0x05) indicating the start and end of the lyrics sequence is found, as described above, for example, two lines of lyrics are searched and stored in the memory 140 together with the time point of occurrence of the corresponding event. In the case of the countdown event (0x11 to 0x14), the number of the countdown event is stored in the memory 140 without separately searching for the subtitle file structure of the XTF file.

한편, 전술한 이벤트의 종류에 따라, 자막의 표시 위치가 변경될 수 있다. 예컨대, 곡 제목과 같은 곡 정보는 화면의 중앙에 표시되는 것이 바람직하며, 가사 정보는 화면의 하단에 표시되는 것이 바람직하다. 이를 위해, 동기 타이머(130)는 이벤트의 유형에 따라 해당 자막(곡 제목, 가사 등)이 표시될 위치와 연관되어 할당된 특정의 메모리 번지에 저장할 수 있다.Meanwhile, the display position of the caption may be changed according to the type of the above-described event. For example, the song information such as the title of the song is preferably displayed at the center of the screen, the lyrics information is preferably displayed at the bottom of the screen. To this end, the synchronization timer 130 may be stored in a specific memory address allocated in association with a position where a corresponding subtitle (song title, lyrics, etc.) is displayed according to the type of event.

메모리(140)는 동기 타이머(130)에 의해 이벤트 처리된 자막이 입력되어, 화면에 표시될 때까지 저장된다. 이 때, 이벤트 처리된 자막이 당해 이벤트의 발생 시점을 표시하는 시간 정보가 함께 입력됨으로써, 이러한 시간 정보에 기초하여 화면 타이머(140)가 후술하는 바에 따라 화면에 자막을 표시하도록 하는 것이 바람직하다.The memory 140 stores the caption event processed by the synchronization timer 130 until it is displayed on the screen. In this case, it is preferable that the event-processing subtitles are input together with time information indicating the occurrence time of the event, so that the screen timer 140 displays the subtitles on the screen as described below based on the time information.

화면 타이머(140)는 메모리(140)에 저장된 자막을 주기적으로 검색하며, 이벤트의 발생 시점에 당해 이벤트 처리가 된 자막을 판독하여 화면부(150)에 표시한다. The screen timer 140 periodically searches for subtitles stored in the memory 140, and reads the subtitles processed by the event at the time of occurrence of the event and displays them on the screen unit 150.

도 3은 전술한 XTF 파일에 순차적으로 기록되는 이벤트와 그에 따른 화면을 예시한 것이다.3 illustrates an event sequentially recorded in the above-described XTF file and a screen corresponding thereto.

먼저, 이벤트(0x03)가 발생하면, 그 발생시간(0ms 내지 100ms) 동안에 화면에는 곡명, 작사, 작곡, 가수 등의 곡 정보가 표시된다. 이와 같이 화면에 표시되는 곡 정보는 이벤트(0x03)가 실행됨에 따라, XTF 파일의 데이터부로부터 판독되는 것이다. 이어서, 이벤트(0x04)가 실행됨에 따라, 시간(100ms)에서 곡 정보 표시가 종료되며, 시간(120ms)까지 그 상태를 유지한다. First, when an event (0x03) occurs, song information such as song name, lyrics, composition, and singer is displayed on the screen during the generation time (0ms to 100ms). Thus, the song information displayed on the screen is read out from the data portion of the XTF file as the event (0x03) is executed. Subsequently, as the event 0x04 is executed, the display of the song information ends at the time 100ms, and the state is maintained until the time 120ms.

이어서, 이벤트(0x05)가 시간(120ms)에서 발생하여, 화면에 2 라인의 가사 시퀀스를 표시한다. 이 때, 화면에 표시된 가사는 시간(400ms)까지 지속하여 표시되며, 이후 종료 시점에 맞춰 다음 가사로 변경되도록 구성할 수 있다.Then, an event (0x05) occurs at time (120 ms) to display the lyrics line of two lines on the screen. At this time, the lyrics displayed on the screen is displayed continuously until the time (400ms), it can be configured to change to the next lyrics after the end time.

전술한 바에 따라 화면에 가사가 표시된 상태에서, 카운트다운 이벤트(0x14 내지 0x11)가 10ms의 지속 시간으로 순차적으로 실행되며, 이에 따라 화면에는 가사와 함께 카운트다운 정보가 추가로 표시된다. 이 때, 마지막 카운트다운 이벤트(0x11)가 발생된 시점으로부터 한 박자 후에 가사 반전 이벤트(0x01)가 수행되도록 설정하는 것이 바람직하다.As described above, while the lyrics are displayed on the screen, the countdown events (0x14 to 0x11) are sequentially executed with a duration of 10 ms, so that the screen additionally displays the countdown information along with the lyrics. At this time, it is preferable to set the lyrics inversion event 0x01 to be performed one beat after the time when the last countdown event 0x11 occurs.

이어서, 이벤트(0x01)가 시간(170ms)에서 실행되며, 이에 따라 10ms의 지속 기간 동안에 첫 음절에 대한 반전이 수행된다. 그리고, 이벤트(0x02)가 실행되어 첫 음절에 대한 반전이 완료된 상태를 유지한다. 그리고, 이러한 반전 이벤트의 쌍(0x01/0x02)은 순차적으로 발생하며, 이들 이벤트의 누적 개수에 대응하는 음절이 반전된다.Event 0x01 is then executed at time 170ms, thus inverting the first syllable for a duration of 10ms. Then, the event (0x02) is executed to maintain the complete inversion for the first syllable. The pair of inversion events (0x01 / 0x02) occur sequentially, and the syllable corresponding to the cumulative number of these events is inverted.

도 4는 본 발명의 바람직한 실시예에 따른 자막 재생 장치에 의해 화면에 표시되는 자막을 실제로 예시한 것이다.4 actually illustrates subtitles displayed on a screen by a subtitle reproducing apparatus according to a preferred embodiment of the present invention.

도시된 바와 같이, 전술한 이벤트(0x01)의 지속 시간에 따라 음절을 순차적으로 반전하여 도 2의 메모리에 저장하고, 화면 타이머가 이를 화면에 표시함으로써, 실제 화면에 보이는 자막에 있어서 좌측에서 우측으로 반전이 진행되는 효과를 유발할 수 있다. As shown, the syllables are sequentially inverted and stored in the memory of FIG. 2 according to the duration of the above-described event (0x01), and the screen timer displays them on the screen, from left to right in subtitles shown on the actual screen. This may cause the effect of reversal.

이상에서 본 발명에 따른 바람직한 실시예를 설명하였으나, 이는 예시적인 것에 불과하며 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 여타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 보호 범위는 이하의 특허청구범위에 의해서 정해져야 할 것이다.Although the preferred embodiment according to the present invention has been described above, this is merely exemplary and those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. Therefore, the protection scope of the present invention should be defined by the following claims.

100 : 자막 재생 장치 110 : 자막 파일 저장부
120 : 이벤트 추출부 130 : 동기 타이머
140 : 메모리 150 : 화면 타이머
160 : 화면부
100: subtitle playback device 110: subtitle file storage unit
120: event extraction unit 130: synchronous timer
140: memory 150: screen timer
160: the screen

Claims (14)

자막과는 별도로 저장된 이벤트를 판독하여 음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일 구조가 저장된 컴퓨터 판독 가능한 기록 매체로서, 상기 자막 파일 구조는
상기 음원의 음성 정보에 대응하는 자막이 라인 단위로 기록되는 자막 데이터 구조와,
상기 자막 데이터 구조에 기록된 자막을 화면에 표시하는 이벤트 및 당해 이벤트의 발생 시점이 순차적으로 기록되는 이벤트 구조
를 포함하며,
상기 이벤트 구조에 기록된 이벤트는,
상기 자막 데이터 구조에 기록된 자막 라인을 화면에 표시하는 라인 표시 이벤트와,
상기 라인 개시 이벤트에 따라 화면에 표시된 자막을 음절별로 반전하여 표시하는 음절 반전 이벤트를 포함하는 것
인 자막 파일 구조가 저장된 기록 매체.
A computer-readable recording medium having a subtitle file structure for reading an event stored separately from a subtitle and synchronizing sound information of a sound source with a subtitle in syllable units.
A caption data structure in which captions corresponding to sound information of the sound source are recorded line by line;
An event structure in which an event displaying a caption recorded in the caption data structure on a screen and a time point of occurrence of the event are sequentially recorded.
Including;
The event recorded in the event structure,
A line display event for displaying a caption line recorded in the caption data structure on a screen;
And a syllable inversion event for inverting and displaying the subtitles displayed on the screen for each syllable according to the line start event.
Recording medium in which the subtitle file structure is stored.
제1항에 있어서,
상기 이벤트 구조에 기록된 음절 반전 이벤트의 누적 개수는 상기 자막 데이터 구조에 기록된 자막의 음절수와 일치하는 것인 자막 파일 구조가 저장된 기록 매체.
The method of claim 1,
And a cumulative number of syllable inversion events recorded in the event structure matches a syllable number of subtitles recorded in the subtitle data structure.
제1항 또는 제2항에 있어서, 상기 자막 데이터 구조는
자막의 각 음절이 식별 가능하도록 기록되는 것인 자막 파일 구조가 저장된 기록 매체.
3. The method of claim 1 or 2, wherein the subtitle data structure is
A recording medium storing a subtitle file structure in which each syllable of a subtitle is recorded to be identified.
제3항에 있어서,
영문 자막의 경우에, 각 음절을 구분하는 식별자가 추가로 기록되는 것인 자막 파일 구조가 저장된 기록 매체.
The method of claim 3,
In the case of an English subtitle, the recording medium storing the subtitle file structure in which an identifier for distinguishing each syllable is additionally recorded.
제1항 또는 제2항에 있어서,
상기 자막 데이터 구조는 상기 음원에 대한 정보가 라인 단위로 구분되어 추가로 기록되며,
상기 이벤트 구조에 기록된 이벤트는 상기 음원에 대한 정보를 화면에 표시하는 정보 표시 이벤트를 더 포함하는 것인 자막 파일 구조가 저장된 기록 매체.
The method according to claim 1 or 2,
The caption data structure is further recorded by dividing the information on the sound source by line unit,
And the event recorded in the event structure further comprises an information display event for displaying information about the sound source on the screen.
제1항 또는 제2항에 있어서, 상기 이벤트 구조는
상기 자막 데이터 구조에 기록된 자막을 화면에 표시하는 각 이벤트에 대하여, 당해 이벤트의 종료 시점이 추가로 기록되는 것인 자막 파일 구조가 저장된 기록 매체.
The method of claim 1 or 2, wherein the event structure
And a caption file structure in which an end time of the event is additionally recorded for each event displaying a caption recorded in the caption data structure on the screen.
제1항 또는 제2항에 있어서, 상기 이벤트 구조는
상기 라인 표시 이벤트의 발생 시점까지 잔여 시간을 표시하는 카운트다운 이벤트가 추가로 기록하는 것인 자막 파일 구조가 저장된 기록 매체.
The method of claim 1 or 2, wherein the event structure
And a countdown event structure for displaying a remaining time until the occurrence of the line display event.
제1항 또는 제2항에 있어서, 상기 자막 파일 구조는
상기 자막 데이터 구조 및 이벤트 구조의 크기를 표시하는 헤더부를 더 포함하는 것인 자막 파일 구조가 저장된 기록 매체.
3. The subtitle file structure according to claim 1 or 2, wherein the subtitle file structure is
And a header section for indicating the size of the caption data structure and the event structure.
자막과는 별도로 저장된 이벤트를 판독함으로써 음원의 음성 정보와 자막을 음절 단위로 동기화하여 화면에 표시하는 자막 재생장치로서,
자막 파일을 저장하는 자막 파일 저장부로서, 상기 자막 파일은 상기 음원의 음성 정보에 대응하는 자막이 기록되는 자막 데이터 구조와, 상기 자막 데이터 구조에 기록된 자막을 음절별로 반전 표시하는 음절 반전 이벤트 및 당해 이벤트의 발생 시점이 순차적으로 기록된 이벤트 구조를 포함하는 것인 자막 파일 저장부와,
화면에 표시될 자막을 저장하는 메모리와,
상기 자막 파일 저장부에 저장된 자막 파일로부터 이벤트 리스트를 추출하는 이벤트 추출부와,
상기 이벤트 리스트를 주기적으로 검색하고, 각 음절 반전 이벤트의 발생 시점에 기초하여 상기 음절 반전 이벤트의 누적 발생 횟수에 대응하는 음절을 반전시켜서 상기 메모리에 저장하는 제1 타이머와,
상기 메모리에 저장된 자막을 주기적으로 검색하여 화면에 표시하는 제2 타이머
를 포함하는 자막 재생장치.
A caption playback device that reads an event stored separately from a caption and synchronizes the audio information of the sound source with the caption in syllable units and displays it on the screen.
A caption file storage for storing a caption file, the caption file comprising: a caption data structure in which captions corresponding to audio information of the sound source are recorded; a syllable inversion event for inverting and displaying the captions recorded in the caption data structure for each syllable; A caption file storage unit including an event structure in which a time point of occurrence of the event is sequentially recorded;
Memory for storing subtitles to be displayed on the screen,
An event extraction unit for extracting an event list from the subtitle file stored in the subtitle file storage unit;
A first timer for periodically retrieving the event list, inverting syllables corresponding to the number of occurrences of the syllable reversal event based on the occurrence time of each syllable reversal event, and storing the syllables in the memory;
A second timer periodically searching for and displaying a subtitle stored in the memory
Subtitle playback device comprising a.
제9항에 있어서,
상기 자막 파일의 자막 데이터 구조에는 자막이 라인 단위로 기록되며, 상기 자막 파일의 이벤트 구조에는 상기 데이터 구조에 기록된 자막 라인을 화면에 표시하는 라인 표시 이벤트 및 당해 이벤트의 발생 시점이 추가로 기록되며,
상기 제1 타이머는 상기 라인 표시 이벤트의 발생 시점에 기초하여 상기 자막 파일의 자막 데이터 구조에 기록된 자막 라인을 상기 메모리에 저장하는 것
인 자막 재생장치.
10. The method of claim 9,
Subtitles are recorded on a subtitle data structure of the subtitle file in line units, and a line display event for displaying a subtitle line recorded in the data structure on the screen and an occurrence time of the event are additionally recorded in an event structure of the subtitle file. ,
The first timer is configured to store a caption line recorded in the caption data structure of the caption file in the memory based on a time point of occurrence of the line display event.
Subtitle player.
제9항 또는 제10항에 있어서,
상기 자막 파일의 자막 데이터 구조에는 자막의 각 음절이 식별 가능하도록 기록되는 것인 자막 재생장치.
The method of claim 9 or 10,
And a caption data structure of the caption file so that each syllable of the caption can be identified.
제11항에 있어서, 영문 자막의 경우에,
상기 자막 파일의 자막 데이터 구조에는 각 음절을 구분하는 식별자가 추가로 기록되는 것인 자막 재생장치.
The method of claim 11, wherein in the case of English subtitles,
And an identifier for distinguishing each syllable is additionally recorded in the caption data structure of the caption file.
제9항 또는 제10항에 있어서,
상기 자막 파일의 자막 데이터 구조에는 상기 음원에 대한 정보가 라인 단위로 구분되어 추가로 기록되며, 상기 자막 파일의 이벤트 구조에는 상기 음원에 대한 정보를 화면에 표시하는 정보 표시 이벤트 및 당해 이벤트의 발생 시점이 추가로 기록되는 것인 자막 재생장치.
The method of claim 9 or 10,
In the caption data structure of the caption file, information about the sound source is additionally recorded in line units, and in the event structure of the caption file, an information display event for displaying information about the sound source on a screen and a time point of occurrence of the event The subtitle reproducing apparatus which is additionally recorded.
제10항에 있어서,
상기 자막 파일의 이벤트 구조에는 상기 라인 표시 이벤트의 발생 시점까지 잔여 시간을 표시하는 카운트다운 이벤트 및 당해 이벤트의 발생 시점이 추가로 기록되며,
상기 제1 타이머는 상기 라인 표시 이벤트의 발생 시점에 기초하여 상기 자막 파일의 데이터 구조에 기록된 자막 라인을 상기 메모리에 저장하는 것인 자막 재생 장치.
The method of claim 10,
In the event structure of the caption file, a countdown event for displaying the remaining time until the occurrence of the line display event and the occurrence time of the event are additionally recorded.
And the first timer stores a caption line recorded in a data structure of the caption file in the memory based on a time point of occurrence of the line display event.
KR1020100029910A 2010-04-01 2010-04-01 Caption data structure and caption player for synchronizing syllables between a sound source and caption data KR101709053B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100029910A KR101709053B1 (en) 2010-04-01 2010-04-01 Caption data structure and caption player for synchronizing syllables between a sound source and caption data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100029910A KR101709053B1 (en) 2010-04-01 2010-04-01 Caption data structure and caption player for synchronizing syllables between a sound source and caption data

Publications (2)

Publication Number Publication Date
KR20110110539A true KR20110110539A (en) 2011-10-07
KR101709053B1 KR101709053B1 (en) 2017-02-22

Family

ID=45027044

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100029910A KR101709053B1 (en) 2010-04-01 2010-04-01 Caption data structure and caption player for synchronizing syllables between a sound source and caption data

Country Status (1)

Country Link
KR (1) KR101709053B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108366182A (en) * 2018-02-13 2018-08-03 京东方科技集团股份有限公司 Text-to-speech synchronizes the calibration method reported and device, computer storage media
CN113688283A (en) * 2021-08-27 2021-11-23 北京奇艺世纪科技有限公司 Method and device for determining matching degree of video subtitles and electronic equipment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302285A (en) * 2003-03-31 2004-10-28 Casio Comput Co Ltd Device and program for information output
KR20090074573A (en) * 2008-01-02 2009-07-07 엘지전자 주식회사 System and method for processing time code of karaoke

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302285A (en) * 2003-03-31 2004-10-28 Casio Comput Co Ltd Device and program for information output
KR20090074573A (en) * 2008-01-02 2009-07-07 엘지전자 주식회사 System and method for processing time code of karaoke

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108366182A (en) * 2018-02-13 2018-08-03 京东方科技集团股份有限公司 Text-to-speech synchronizes the calibration method reported and device, computer storage media
CN113688283A (en) * 2021-08-27 2021-11-23 北京奇艺世纪科技有限公司 Method and device for determining matching degree of video subtitles and electronic equipment
CN113688283B (en) * 2021-08-27 2023-09-05 北京奇艺世纪科技有限公司 Method and device for determining video subtitle matching degree and electronic equipment

Also Published As

Publication number Publication date
KR101709053B1 (en) 2017-02-22

Similar Documents

Publication Publication Date Title
US6430357B1 (en) Text data extraction system for interleaved video data streams
JP4905103B2 (en) Movie playback device
KR100297206B1 (en) Caption MP3 data format and a player for reproducing the same
JP4127668B2 (en) Information processing apparatus, information processing method, and program
CN111538851A (en) Method, system, device and storage medium for automatically generating demonstration video
KR20050082063A (en) Audio and video player synchronizing ancillary word and image to audio and method thereof
JP2008047998A (en) Moving video reproducer, and moving video reproducing method
US20040249862A1 (en) Sync signal insertion/detection method and apparatus for synchronization between audio file and text
KR101709053B1 (en) Caption data structure and caption player for synchronizing syllables between a sound source and caption data
WO2005010880A1 (en) Information storage medium storing scenario, apparatus and method of recording the scenario
KR20050041797A (en) Storage medium including meta data for enhanced search and subtitle data and display playback device thereof
KR20050012101A (en) Scenario data storage medium, apparatus and method therefor, reproduction apparatus thereof and the scenario searching method
JP4483936B2 (en) Music / video playback device
JP3998187B2 (en) Content commentary data generation device, method and program thereof, and content commentary data presentation device, method and program thereof
CN113852857B (en) Sound playing method and system based on HTML5 video frame stepping
JP2006339817A (en) Information processor and display method thereof
KR20010010504A (en) Handling technique of digital audio data synchronized with words or graphic information
JP2006332765A (en) Contents searching/reproducing method, contents searching/reproducing apparatus, and program and recording medium
JP2009152782A (en) Content reproducing apparatus and content reproducing method
JP2006510304A (en) Method and apparatus for selectable rate playback without speech distortion
JP2005352330A (en) Speech division recording device
JP2008092403A (en) Reproduction supporting device, reproduction apparatus, and reproduction method
JP2002084505A (en) Apparatus and method for shortening video reading time
JP2002197488A (en) Device and method for generating lip-synchronization data, information storage medium and manufacturing method of the information storage medium
KR102523814B1 (en) Electronic apparatus that outputs subtitle on screen where video is played based on voice recognition and operating method thereof

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200130

Year of fee payment: 4