KR20010028053A - Caption data syncronizing method at the Digital Audio Data system - Google Patents
Caption data syncronizing method at the Digital Audio Data system Download PDFInfo
- Publication number
- KR20010028053A KR20010028053A KR1019990040109A KR19990040109A KR20010028053A KR 20010028053 A KR20010028053 A KR 20010028053A KR 1019990040109 A KR1019990040109 A KR 1019990040109A KR 19990040109 A KR19990040109 A KR 19990040109A KR 20010028053 A KR20010028053 A KR 20010028053A
- Authority
- KR
- South Korea
- Prior art keywords
- caption
- unit
- frame number
- data
- frame
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000001360 synchronised effect Effects 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 abstract description 12
- 238000012937 correction Methods 0.000 abstract description 7
- 238000013506 data mapping Methods 0.000 abstract description 3
- 238000000926 separation method Methods 0.000 abstract 1
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
Description
본 발명은 디지털 오디오 데이터를 근간으로 하여 다양한 캡션정보의 편집과 불러오기를 가능하게 하고 액정 디스플레이장치의 화면표시능력에 따라 캡션표시량을 적정화시킬 수 있으며 간편한 캡션지정 알고리즘을 가지는 디지털 오디오 데이터 캡션 동기화 재생방법에 관한 것이다.The present invention enables the editing and retrieval of various caption information based on digital audio data, optimizes the caption display amount according to the display capability of the liquid crystal display device, and synchronizes digital audio data caption synchronization playback with a simple caption designation algorithm. It is about a method.
기본적으로 디지털 오디오 데이터 파일은 음성 및 음악에 대한 정보만을 포함한다. 이러한 디지털 오디오 데이터 파일에 사용자에 의해 정의 될 수 있는 캡션정보를 맵핑시킬 수 있다.Basically, digital audio data files contain only information about voice and music. Caption information that can be defined by a user can be mapped to the digital audio data file.
디지털 오디오 데이터는 그 비트열이 프레임(또는 AAU : Audio Access Unit)이라 불리워지는 최소단위로 구성되고 있다. 이러한 프레임단위는 MP3형식 외에 모든 DVD(Digital Versatile Disk)표준과 MPEG 표준의 오디오부분을 포함한다.Digital audio data is composed of a minimum unit whose bit string is called a frame (or AAU: Audio Access Unit). These frame units include the audio portion of all DVD (Digital Versatile Disk) standards and MPEG standards in addition to the MP3 format.
이와 같은 디지털 오디오 데이터에 캡션데이터를 맵핑시키는 소프트웨어는 캡션이 표시되는 위치를 프레임번호로 나타낼 수 있기 때문에, 프레임 단위로 데이터의 비트열이 구성된 모든 디지털 오디오 데이터에 적용될 수 있다.Since the software for mapping caption data to such digital audio data can indicate the position at which the caption is displayed by the frame number, it can be applied to all the digital audio data having a bit string of data configured in units of frames.
그런데 디지털 오디오 데이터 파일에 맵핑된 캡션데이터를 디스플레이장치, 예를 들면 액정화면에 출력시키고자 할 때, 재생 출력되는 디지털 음성이나 음악에 일치하는 캡션이 시작되는 시간이나 프레임 번호를 어떻게 쉽게 알아낼 수 있느냐 하는 문제가 발생된다.When caption data mapped to a digital audio data file is to be output to a display device, for example, a liquid crystal display, how can a user easily find out the time or frame number at which the caption corresponding to the reproduced digital voice or music starts? The problem arises.
현재, 디지털 오디오 데이터 상의 캡션 솔루션으로써, 미리 캡션할 문자를 일정하게 나누어 그들을 텍스트 데이터로 작성한 후 해당 음악이나 음성이 출력되면 박자 맞추기 식으로 입력시킨 캡션이 나오는 시점의 대략적인 프레임이나 시간정보를 이용하여 캡션문자를 지정하는 방식이 개발되어 있으나, 그 성능은 기대할만하지 못하다.Currently, as a caption solution on digital audio data, the characters to be captioned in advance are divided into text data, and when the corresponding music or voice is output, the approximate frame or time information at the point of time when the caption inputted by the time signature is displayed is used. The caption character designation has been developed, but its performance is not expected.
상기의 문제를 해결하기 위한 것으로, 디지털 오디오 데이터에 근간을 둔 캡션 문자를 맵핑하는 기술이 본 발명 출원인에 의해 앞서 출원된 바 있다.In order to solve the above problem, a technique for mapping caption characters based on digital audio data has been previously filed by the present applicant.
이 기술에 따르면, 도 1에서 참조되는 바와 같이, 캡션데이터 입력모드가 선택되면 맨 처음단계에서는 캡션데이터 입력을 위해 캡션표시화면의 크기가 결정되었는가 여부를 판단하여 화면크기가 결정되어 있지 않으면 캡션출력화면 크기를 결정하는 것으로 캡션표시화면 크기를 결정한 후 다음단계를 수행하여 캡션적재여부를 판단한다.According to this technique, as shown in FIG. 1, when the caption data input mode is selected, in the first step, it is determined whether the size of the caption display screen is determined for caption data input, and if the screen size is not determined, the caption output is performed. After determining the caption display screen size by determining the screen size, it is determined whether the caption is loaded by performing the following steps.
상기 단계에서의 캡션적재여부 판단결과 캡션이 적재되어 있지 않았으면 캡션 입력여부를 판단하여 캡션입력이 요구될 경우 캡션을 수동으로 입력하고 캡션입력이 요구되지 않을 경우 캡션을 적재하는 과정을 거쳐, 캡션중에 어절 끊김이 존재하는 가 여부를 판단한다.If the caption is not loaded in the above step, if the caption is not loaded, it is determined whether to input the caption. If the caption input is required, the caption is manually inputted. If the caption input is not required, the caption is loaded. Determine if word breaks exist during the process.
상기 단계에서 어절 끊김이 있으면 캡션편집을 통하여 어절 끊김 현상을 복구하고 어절 끊김이 없으면 표시화면 구분이 잘못된 캡션이 존재하고 있는가 여부를 판단한다.In the above step, if there is a word break, the word break is repaired through caption editing, and if there is no word break, it is determined whether a caption with an incorrect display screen is present.
상기 단계의 수행결과 표시화면 구분이 잘못된 캡션이 존재하면 캡션편집을 통하여 이를 수정하고 이상이 없으면 화면 구분자 단위로 캡션단위를 생성하고 캡션단위 목록을 표시한 다음 프레임 데이터 적재여부를 판단한다.As a result of performing the above step, if the caption of the display screen is incorrect, the caption is corrected by editing the caption. If there is no problem, the caption unit is generated in the screen separator unit, the caption unit list is displayed, and the frame data is loaded.
상기 프레임 데이터 적재여부 판단단계에서 프레임 데이터의 적재가 없으면 프레임데이터를 적재한 후 동기화 시킬 캡션단위를 선택한 후 프레임 데이터를 재생한다.If there is no loading of the frame data in the frame data loading determination step, the frame data is loaded after selecting the caption unit to be synchronized after loading the frame data.
여기에서 얻어지는 재생데이터의 내용에 맞추어서 캡션단위에 동기 프레임번호를 지정한 다음, 캡션단위중 프레임번호 수정여부를 판단한다.After synchronizing frame numbers are designated in caption units in accordance with the contents of the reproduction data obtained here, it is determined whether or not frame numbers are corrected in caption units.
상기 단계의 프레임번호 수정여부 판단단계에서 캡션단위중 프레임번호의 수정이 필요한 경우에는 프레임번호를 수정할 캡션단위를 선택하고 프레임 데이터내에서 수정할 위치로 재생시점을 이동시키고 프레임 데이터를 재생하여, 재생내용에 맞추어서 캡션단위에 동기 프레임번호를 지정한 다음 다시 캡션단위중 프레임번호의 수정여부를 판단한다.If the frame number of the caption unit needs to be corrected in the step of determining whether the frame number is corrected in the above step, select the caption unit to modify the frame number, move the playback point to the position to be corrected in the frame data, and play the frame data The synchronization frame number is assigned to the caption unit in accordance with, and again the frame number of the caption unit is determined.
상기 캡션단위중 프레임번호의 수정여부 판단결과 수정이 요구되지 않으면 모든 프레임번호의 지정이 완료된 것으로 판단하여 그 캡션데이터를 그대로 저장하고 캡션입력과정을 종료한다.As a result of determining whether the frame number is corrected among the caption units, if no modification is required, it is determined that the designation of all frame numbers is completed, the caption data is stored as it is, and the caption input process ends.
상기와 같은 캡션입력 방법은 캡션출력 표시창의 표시능력이 바뀌는 경우, 특히 캡션화면 표시창이 증가되더라도 캡션문자정보를 전체 표시화면에 출력시키지 못하고 사전에 프로그램된 분량의 캡션문자만 표시하게된다는 문제점을 가지게 된다.The caption input method as described above has a problem in that when the display capability of the caption output display window is changed, in particular, even if the caption screen display window is increased, the caption character information is not output on the entire display screen but only the pre-programmed caption character is displayed. do.
본 발명의 목적은 캡션데이터의 캡션단위 첫 어절 또는 첫 음절을 핵심어로 하여 그 핵심어의 파형을 추출 및 비교하는 과정을 통해 재생시점 정보를 찾아 캡션단위별로 디지털 오디오 데이터에 맵핑하여 디지털 오디오 데이터를 근간으로하는 다양한 캡션정보의 편집과 불러오기를 가능하게 하고 액정 디스플레이장치의 화면표시능력에 따라 캡션 표시량을 적정화시킬 수 있으며 캡션지정 알고리즘을 간략화 시킬 수 있는 디지털 오디오 데이터 캡션 맵핑방법을 제공하는데 있다.An object of the present invention is to find the information of the playback point through the process of extracting and comparing the waveform of the key word using the first word or the first syllable of the caption unit of the caption data as a key word, and mapping the digital audio data by caption unit to the digital audio data. The present invention provides a digital audio data caption mapping method that enables the editing and retrieval of various caption information, optimizes the caption display amount according to the screen display capability of the liquid crystal display device, and simplifies the caption designation algorithm.
도 1은 종래의 디지털 오디오 캡션데이터 입력 방법을 설명하는 흐름도이다.1 is a flowchart illustrating a conventional method of inputting digital audio caption data.
도 2는 본 발명의 디지털 오디오 데이터 캡션 맵핑 과정중 캡션단위 프레임 데이터 적재과정을 설명하는 흐름도이다.2 is a flowchart illustrating a caption unit frame data loading process of the digital audio data caption mapping process of the present invention.
도 3은 본 발명의 디지털 오디오 데이터 캡션 맵핑 과정중 어절단위 프레임 데이터 적재과정을 설명하는 흐름도이다.3 is a flowchart illustrating a process of loading word frame data in the digital audio data caption mapping process according to the present invention.
도 4는 본 발명의 디지털 오디오 데이터 캡션 맵핑 과정중 음절단위 프레임 데이터 적재과정을 설명하는 흐름도이다.4 is a flowchart illustrating a syllable unit frame data loading process in the digital audio data caption mapping process according to the present invention.
도 5는 상기 도 2의 캡션단위 프레임번호 자동지정 서브루틴의 상세 흐름도이다.FIG. 5 is a detailed flowchart of the caption unit frame number automatic designation subroutine of FIG.
도 6은 상기 도 3의 어절단위 프레임번호 자동지정 서브루틴의 상세 흐름도이다.6 is a detailed flowchart of the word unit frame number automatic designation subroutine of FIG.
도 7은 상기 도 4의 음절단위 프레임번호 자동지정 서브루틴의 상세 흐름도이다.7 is a detailed flowchart of the syllable unit frame number automatic designation subroutine of FIG.
도 8a 내지 도 8d는 캡션데이터의 캡션단위 첫 어절 또는 첫 음절을 핵심어로 하여 재생시점 정보를 찾아 캡션단위별로 수록하기 위해 핵심어 파형을 추출 및 비교과정을 설명하는 도면이다.8A to 8D are diagrams illustrating a process of extracting and comparing key word waveforms in order to find playback time information by caption unit first word or first syllable of caption data and to record each caption unit.
상기 목적을 달성하기 위한 본 발명은 디지털 오디오 데이터의 캡션 입력모드가 선택되면 캡션표시화면의 크기와 캡션중에 어절 끊김 여부와 표시화면 구분 에러 여부를 판단하는 단계와; 상기 단계수행 후 음절, 어절, 줄, 문단, 페이지 순으로 캡션단위를 생성하고 목록을 표시하는 단계와; 프레임데이터 맵핑 과정을 거쳐 동기화시킬 캡션단위를 선택한 후 프레임데이터를 재생하여 프레임번호의 자동지정여부를 판단하는 단계와; 상기 단계에서 자동지정이면 캡션단위 프레임번호 자동지정 서브루틴을 수행하고 자동지정이 아니면 재생내용에 맞추어 캡션단위에 동기프레임번호를 지정한 다음 캡션단위중 프레임번호 수정여부를 판단하는 단계와; 상기 단계 수행결과 수정이 필요 없게 되면 음절단위와 어절단위를 구분하여 음절단위와 어절단위 별로 각각 프레임번호를 지정하는 단계; 를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a method of determining a caption display mode of digital audio data, determining whether the caption display screen is broken, whether a word is cut off, or whether a display screen division error occurs. Generating a caption unit and displaying a list in the order of syllables, words, lines, paragraphs, and pages after performing the step; Selecting a caption unit to be synchronized through the frame data mapping process and reproducing the frame data to determine whether the frame number is automatically designated; Performing caption unit frame number automatic designation subroutine if automatic designation in this step; if not, designating a synchronous frame number in caption unit according to the playback content if not automatic designation, and then determining whether to modify frame number among caption units; Assigning a frame number to each syllable unit and word unit by dividing a syllable unit and a word unit when it is not necessary to modify the result of performing the step; Characterized in that it comprises a.
첨부한 도면을 참고로 하여 본 발명을 설명하면 다음과 같다.Hereinafter, the present invention will be described with reference to the accompanying drawings.
도 2는 본 발명의 디지털 오디오 데이터 캡션 맵핑 과정중 캡션단위 프레임 데이터 적재과정을 설명하는 흐름도이다. 여기에서 참고되는 바와 같이, 캡션데이터 입력모드가 선택되면 처음단계에서는 캡션데이터 입력을 위해 캡션표시화면의 크기가 결정되었는가 여부를 판단한다.2 is a flowchart illustrating a caption unit frame data loading process of the digital audio data caption mapping process of the present invention. As referred to herein, when the caption data input mode is selected, the first step determines whether the size of the caption display screen is determined for caption data input.
캡션표시화면의 크기가 결정되어 있지 않으면 캡션출력화면 크기를 결정하는 것으로 캡션표시화면 크기를 결정한 후 다음단계를 수행하여 캡션 맵핑 여부를 판단한다.If the size of the caption display screen is not determined, the caption display screen size is determined by determining the caption output screen size.
상기 단계에서의 캡션 맵핑여부 판단결과 캡션이 맵핑되어 있지 않았으면 캡션입력여부를 판단하여 캡션입력이 요구될 경우 캡션을 수동으로 맵핑하고 캡션입력이 요구되지 않을 경우 캡션을 적재하는 과정을 거쳐, 캡션중에 어절 끊김이 존재하는가 여부를 판단한다.If the caption mapping is determined in the above step, if the caption is not mapped, it is determined whether to input the caption, and if the caption input is required, the caption is manually mapped and if the caption input is not required, the caption is loaded. Determines whether word breaks exist during the process.
상기 단계에서 어절 끊김이 있으면 캡션편집을 통하여 어절 끊김 현상을 복구하고 어절 끊김이 없으면 표시화면 구분이 잘못된 캡션의 존재여부를 판단한다.In the above step, if there is a word break, the word break is repaired through caption editing, and if there is no word break, it is determined whether a display caption exists.
상기 단계의 수행결과 표시화면 구분이 잘못된 캡션이 존재하면 캡션편집을 통하여 이를 수정하고 이상이 없으면 화면 구분자 단위로 캡션단위를 생성하고 캡션단위 목록을 표시한 다음 프레임 데이터 적재여부를 판단한다.As a result of performing the above step, if the caption of the display screen is incorrect, the caption is corrected by editing the caption. If there is no problem, the caption unit is generated in the screen separator unit, the caption unit list is displayed, and the frame data is loaded.
이때 캡션단위는 음절구분정보, 어절구분정보, 줄구분정보, 문단구분정보, 페이지 구분정보 순으로 생성한다.In this case, the caption unit is generated in the order of syllable classification information, word classification information, line classification information, paragraph classification information, and page classification information.
상기 프레임 데이터 맵핑여부 판단단계에서 프레임 데이터의 적재가 없으면 프레임데이터를 적재한 후 동기화 시킬 캡션단위를 선택한 후 프레임 데이터를 재생한다.If there is no loading of the frame data in the frame data mapping determination step, the frame data is loaded after selecting the caption unit to be synchronized after loading the frame data.
상기 프레임 데이터는 음성/영상 등의 데이터가 프레임단위의 비트열로 구성된 멀티미디어 파일로써 MPEG 동영상, MP3 오디오 등을 포함한다.The frame data is a multimedia file in which data such as audio / video is composed of a bit string in units of frames and includes MPEG video, MP3 audio, and the like.
상기 프레임 데이터의 재생시에는 프레임번호의 자동지정여부를 먼저 판단하여 자동 지정모드이면 캡션단위 프레임번호 자동지정 서브루틴을 수행한 다음 캡션단위중 프레임번호 수정여부를 판단하여 필요가 있으면 프레임번호를 자동지정하도록 하고 수정할 필요가 없으면 음절단위여부 판단단계를 수행한다.When reproducing the frame data, it is determined whether the frame number is automatically designated first, and if the automatic designation mode, the caption unit frame number automatic designation subroutine is performed. If there is no need to modify, perform the syllable unit judgment step.
상기 캡션단위 프레임번호 자동지정 서부루틴의 알고리듬은 도 5에서 참고되는 바와 같이, 먼저, 언어 지정여부를 판단한다.As the algorithm of the caption unit frame number automatic designation western routine is referred to in FIG. 5, first, it is determined whether a language is designated.
이때 언어지정이 없으면 지정된 캡션단위의 캡션데이터 중 첫 어절을 TTS(Text-To-Speech)음성정보로 자동 생성한 후 생성된 음성데이터를 핵심어 음성인식을 위해 정규화하고, 언어지정이 있으면 지정된 캡션단위의 캡션데이터 중 첫 어절의 첫 2글자로 TTS음성정보를 자동 생성한 후 생성된 음성데이터를 핵심어 음성인식을 위해 정규화한다.At this time, if there is no language designation, the first word among the caption data of the designated caption unit is automatically generated as TTS (Text-To-Speech) voice information, and then the generated speech data is normalized for key word speech recognition. After automatically generating TTS voice information as the first two letters of the first word among the caption data of, the generated voice data is normalized for key word speech recognition.
이러한 정규화 과정의 실행에 이어 프레임 데이터 내에서 지정된 캡션데이터의 위치추출을 위한 구간이 사용자에 의해 선택되었는가 여부를 판단한다.Following execution of the normalization process, it is determined whether a section for extracting the location of the designated caption data in the frame data is selected by the user.
여기에서 사용자에 의한 선택이 없으면 프레임 데이터 전구간 내에서 정규화된 음성데이터와 일치하는 위치를 핵심어 음성인식을 통해 추출한 다음 추출된 위치 값을 캡션단위의 프레임번호로 지정하고, 사용자에 의한 선택이 있으면 선택된 프레임 데이터 구간 내에서 정규화된 음성데이터와 일치하는 위치를 핵심어 음성인식을 통해 추출한 후 그 추출된 위치 값을 캡션단위의 프레임번호로 지정하는 것으로 캡션단위 프레임번호의 자동지정을 완료한다.In this case, if there is no selection by the user, the position that matches the normalized voice data within the frame data period is extracted through key word recognition, and the extracted position value is designated as the frame number in caption units. The automatic matching of the caption unit frame number is completed by extracting the position corresponding to the normalized speech data within the frame data section through key word speech recognition and designating the extracted position value as the caption unit frame number.
한편 상기 프레임번호 자동지정여부 판단단계에서 자동지정이 아니면 재생내용에 맞추어 캡션단위에 동기프레임번호를 지정한 다음 캡션단위 중 프레임번호 수정여부를 다시 판단한다. 이때 수정이 필요하면 프레임번호를 수정할 캡션단위를 선택하고 프레임 데이터 내에서 수정할 위치로 재생시점을 이동시키고 프레임 데이터를 재생하여, 재생내용에 맞추어서 캡션단위에 동기 프레임번호를 지정한 다음 캡션단위 중 프레임번호의 수정여부를 판단하는 단계를 다시 수행한다.On the other hand, in the frame number automatic designation determination step, if it is not automatic designation, the synchronous frame number is assigned to the caption unit in accordance with the playback contents, and then the frame number of the caption unit is determined again. If correction is required, select the caption unit to modify the frame number, move the playback point to the position to be modified in the frame data, play the frame data, specify the sync frame number in the caption unit according to the playback contents, and then select the frame number among the caption units. Perform the step of determining again whether or not to correct.
이러한 상기 캡션단위 중 프레임번호의 수정여부 판단결과 수정이 요구되지 않으면 음절단위 여부를 판단하여 선택적으로 도 3 또는 도 4의 흐름도중 어느 하나를 실행한다.If it is determined that the frame number is not corrected among the caption units, it is determined whether the syllable unit is corrected, and optionally, any one of the flowcharts of FIG. 3 or 4 is executed.
도 3은 도 2의 최종 음절단위 판단결과가 어절선택인 경우의 흐름도를 나타내고 있다.3 is a flowchart illustrating a case where the final syllable unit determination result of FIG. 2 is word selection.
여기에서 참고되는 바와 같이, 어절 프레임번호 지정을 위한 캡션단위지정에 이어 지정된 캡션단위의 프레임 데이터 구간 안에서만 재생시점이 이동 가능하도록 이동가능 시점구간을 고정한다.As referred to herein, after the caption unit designation for word frame number designation, the movable view section is fixed so that the playback point can be moved only within the frame data section of the designated caption unit.
이후 캡션단위 내에서 동기화시킬 줄 단위를 선택하고, 선택된 줄 단위 내에서 수정할 프레임 데이터 위치로 재생시점을 이동시킨 후, 프레임 데이터 재생과정을 거쳐 프레임번호의 자동 지정여부를 판단한다.After that, a line unit to be synchronized is selected within the caption unit, the play time is moved to the frame data position to be modified within the selected line unit, and the frame number is automatically determined through the frame data reproduction process.
상기 프레임 데이터의 재생시에는 프레임번호의 자동지정여부를 먼저 판단하여 자동 지정모드이면 어절단위 프레임번호 자동지정 서브루틴을 수행한 다음 어절단위 중 프레임번호 수정여부를 판단하여 필요가 있으면 프레임번호를 자동 지정하도록 하고 수정할 필요가 없으면 캡션단위 중에서 어절단위 프레임번호 지정의 수정이 필요한 줄 단위의 존재여부를 판단한다.When reproducing the frame data, it is determined whether the frame number is automatically designated first, and if the automatic designation mode is performed, the automatic frame number sub-routine is performed. Then, the frame number is determined among the word units. If there is no need to modify it, it is determined whether there is a line unit that needs to be modified.
상기 음절단위 프레임번호 자동지정 서부루틴의 알고리듬은 도 6에서 참고되는 바와 같이, 먼저, 줄 단위의 어절 수를 파악한다.The algorithm for automatically specifying the syllable unit frame number western routine is first to determine the number of words in units of lines as shown in FIG. 6.
다음, 지정된 줄 단위의 캡션데이터 중 첫 어절을 TTS 음성정보로 자동생성 시킨 후, 생성된 음성데이터를 핵심어 음성인식을 위해 정규화하고, 지정된 줄 단위의 프레임구간 내에서 정규화된 음성데이터와 일치하는 위치를 핵심어 음성인식을 통해 추출한다.Next, after automatically generating the first word among the caption data in the designated line unit as TTS voice information, the generated speech data is normalized for key word speech recognition, and the position coinciding with the normalized voice data in the frame section of the designated line unit Is extracted through key word speech recognition.
이후 추출된 위치 값을 어절단위의 프레임번호로 지정하고 지정된 줄 단위내 모든 어절단위 프레임번호 지정의 완료여부를 판단한다.After that, the extracted position value is designated as the frame number in the word unit, and it is determined whether all the word frame number in the designated line unit is completed.
상기 어절단위 프레임번호 지정의 완료여부 판단결과 지정이 완료되지 않았으면 지정된 줄 단위의 캡션데이터 중 다음 어절을 TTS 음성데이터로 자동생성 시킨 후 이를 정규화하는 이전의 과정을 수행하고, 어절단위 프레임번호 지정이 완료되었으면 어절단위 프레임번호 자동지정 서브루틴을 종료한다.If the result of determining whether the word frame frame number is specified is not completed, the next word among the caption data of the designated line unit is automatically generated as TTS voice data, and the previous process of normalizing the word is performed. Is completed, the word frame frame number automatic designation subroutine ends.
한편, 상기 프레임번호 자동지정여부 판단단계에서 자동지정이 아니면 재생내용에 맞추어 줄 단위내의 음절단위에 동기프레임번호를 지정한 다음 음절단위 중 프레임번호의 수정여부를 판단한다.On the other hand, if the automatic frame number designation step is not automatic designation, the synchronization frame number is assigned to the syllable unit in the line unit according to the playback contents, and then the frame number is determined among the syllable units.
이때 수정이 필요하면 프레임번호를 수정할 어절단위를 선택하고 프레임 데이터 내에서 수정할 위치로 재생시점을 이동시키고 프레임 데이터를 재생하여, 재생내용에 맞추어서 어절단위에 동기 프레임번호를 지정한 다음 캡션단위 중 프레임번호의 수정여부를 다시 판단하는 과정을 재 수행한다.At this time, if correction is necessary, select the word unit to modify the frame number, move the playback point to the position to be corrected in the frame data, play the frame data, specify the sync frame number in the word unit according to the playback contents, and then select the frame number among the caption units. The process of re-determining whether the correction is corrected is performed again.
그러나 어절단위 중 프레임번호 수정이 필요 없는 경우, 캡션단위 내에서 어절단위 프레임번호 지정에 있어 수정이 필요한 줄 단위 존재여부를 판단한다. 여기에서 수정이 필요한 줄 단위가 존재하지 않으면 캡션단위 중에서 어절단위 프레임번호 지정이 완료되지 않은 캡션단위의 존재여부를 판단한다.However, if it is not necessary to modify the frame number among the word units, it is determined whether there is a line unit that needs to be corrected in the word frame unit designation within the caption unit. If there is no line unit to be corrected, it is determined whether there is a caption unit whose word frame number designation is not completed among the caption units.
상기 지정이 완료되지 않은 캡션단위의 존재가 있으면 지정된 캡션단위 내에서만 재생시점 이동가능구간 고정을 해제하고 처음으로 돌아간다. 그러나 완료되지 않은 캡션단위의 존재가 발생되고 있지 않으면 모든 프레임번호 지정이 완료된 캡션을 저장하고 종료한다.If there is a caption unit in which the above specification is not completed, the playback point moving section is fixed and returned to the beginning only within the designated caption unit. However, if the existence of the incomplete caption unit does not occur, the caption in which all the frame numbers are completed is saved and terminated.
도 4은 도 2의 최종 음절단위 판단결과가 음절선택인 경우의 흐름도를 나타내고 있다.4 is a flowchart illustrating a case in which the final syllable unit determination result of FIG. 2 is syllable selection.
여기에서 참고되는 바와 같이, 음절 프레임번호 지정을 위한 캡션단위지정에 이어 지정된 캡션단위의 프레임 데이터 구간 안에서만 재생시점이 이동 가능하도록 이동가능 시점구간을 고정한다.As referred to herein, the movable view point is fixed so that the playback point can be moved only within the frame data section of the designated caption unit following the caption unit designation for syllable frame number designation.
이후 캡션단위 내에서 동기화시킬 줄 단위를 선택하고, 선택된 줄 단위 내에서 수정할 프레임 데이터 위치로 재생시점을 이동시킨 후, 프레임 데이터 재생과정을 거쳐 프레임번호의 자동 지정여부를 판단한다.After that, a line unit to be synchronized is selected within the caption unit, the play time is moved to the frame data position to be modified within the selected line unit, and the frame number is automatically determined through the frame data reproduction process.
상기 프레임 데이터의 재생시에는 프레임번호의 자동지정여부를 먼저 판단하여 자동 지정모드이면 음절단위 프레임번호 자동지정 서브루틴을 수행한 다음 음절단위 중 프레임번호 수정여부를 판단하여 필요가 있으면 프레임번호를 자동 지정하도록 하고 수정할 필요가 없으면 캡션단위 중에서 음절단위 프레임번호 지정의 수정이 필요한 줄 단위의 존재여부를 판단한다.When reproducing the frame data, it is determined whether the frame number is automatically designated first, and if the automatic designation mode is performed, the syllable unit frame number automatic subroutine is performed, and then the frame number is modified among syllable units. If there is no need to modify it, it is determined whether there is a line unit that needs correction of syllable unit frame number designation among caption units.
상기 음절단위 프레임번호 자동지정 서부루틴의 알고리듬은 도 7에서 참고되는 바와 같이, 먼저, 줄 단위의 음절수를 파악한다.As shown in FIG. 7, the algorithm of the syllable unit frame number automatic designation western routine determines the number of syllables in units of lines.
다음, 지정된 줄 단위의 캡션데이터 중 첫 음절을 TTS 음성정보로 자동생성 시킨 후, 생성된 음성데이터를 핵심어 음성인식을 위해 정규화하고, 지정된 줄 단위의 프레임구간 내에서 정규화된 음성데이터와 일치하는 위치를 핵심어 음성인식을 통해 추출한다.Next, after automatically generating the first syllable among caption data in the designated line unit as TTS voice information, normalize the generated speech data for key word speech recognition and match the normalized voice data within the frame section of the designated line unit. Is extracted through key word speech recognition.
이후 추출된 위치 값을 음절단위의 프레임번호로 지정하고 지정된 줄 단위내 모든 음절단위 프레임번호 지정의 완료여부를 판단한다.After that, the extracted position value is designated as the syllable unit frame number, and it is determined whether all syllable unit frame numbers in the designated line unit are completed.
상기 음절단위 프레임번호 지정의 완료여부 판단결과 지정이 완료되지 않았으면 지정된 줄 단위의 캡션데이터 중 다음 음절을 TTS 음성데이터로 자동생성 시킨 후 이를 정규화하는 이전의 과정을 수행하고, 음절단위 프레임번호 지정이 완료되었으면 음절단위 프레임번호 자동지정 서브루틴을 종료한다.If the result of determining whether the syllable unit frame number designation is completed is not completed, the next syllable of the caption data of the designated line unit is automatically generated as TTS voice data, and then the previous process of normalizing the syllable unit frame number is designated. Is completed, the syllable unit frame number automatic designation subroutine ends.
한편, 상기 프레임번호 자동지정여부 판단단계에서 자동지정이 아니면 재생내용에 맞추어 줄 단위내의 음절단위에 동기프레임번호를 지정한 다음 음절단위 중 프레임번호의 수정여부를 판단한다.On the other hand, if the automatic frame number designation step is not automatic designation, the synchronization frame number is assigned to the syllable unit in the line unit according to the playback contents, and then the frame number is determined among the syllable units.
이때 수정이 필요하면 프레임번호를 수정할 음절단위를 선택하고 프레임데이터 내에서 수정할 위치로 재생시점을 이동시키고 프레임 데이터를 재생하여, 재생내용에 맞추어서 음절단위에 동기 프레임번호를 지정한 다음 캡션단위 중 프레임번호의 수정여부를 다시 판단하는 과정을 재 수행한다.If correction is needed, select the syllable unit to modify the frame number, move the playback point to the position to be modified in the frame data, play the frame data, specify the sync frame number in the syllable unit according to the playback contents, and then select the frame number among the caption units. The process of re-determining whether the correction is corrected is performed again.
그러나 음절단위 중 프레임번호 수정이 필요 없는 경우, 캡션단위 내에서 음절단위 프레임번호 지정에 있어 수정이 필요한 줄 단위 존재여부를 판단한다. 여기에서 수정이 필요한 줄 단위가 존재하지 않으면 캡션단위 중에서 음절단위 프레임번호 지정이 완료되지 않은 캡션단위의 존재여부를 판단한다.However, if it is not necessary to modify the frame number among syllable units, it is determined whether there is a line unit that needs to be corrected in specifying the syllable unit frame number within the caption unit. If there is no line unit to be corrected, it is determined whether there is a caption unit whose syllable unit frame number designation is not completed among the caption units.
상기 지정이 완료되지 않은 캡션단위의 존재가 있으면 지정된 캡션단위 내에서만 재생시점 이동가능구간 고정을 해제하고 처음으로 돌아간다. 그러나 완료되지 않은 캡션단위의 존재가 발생되고 있지 않으면 모든 프레임번호 지정이 완료된 캡션을 저장하고 종료한다.If there is a caption unit in which the above specification is not completed, the playback point moving section is fixed and returned to the beginning only within the designated caption unit. However, if the existence of the incomplete caption unit does not occur, the caption in which all the frame numbers are completed is saved and terminated.
도 8a 내지 도8d는 캡션데이터의 캡션단위 첫 어절 또는 첫 음절을 핵심어로 하여 재생시점 정보를 찾아 캡션단위별로 수록하기 위해 핵심어 파형을 추출 및 비교과정을 설명하기 위한 도면으로서, 도 8a는 동기화시점 정보를 지정하기 위해 선택된 캡션데이터의 첫 어절 또는 처음 두 음절을 TTS를 이용하여 파형으로 추출하여 한 개의 짧은 디지털 오디오 데이터로 만드는 과정을 나타낸 것으로, 이 데이터가 바로 동적 핵심어인 것을 나타낸다.8A to 8D are diagrams for explaining a process of extracting and comparing key word waveforms in order to find playback time information by caption unit first word or first syllable of caption data and to record the caption time information by caption unit, and FIG. 8A is a synchronization time point. The first word or first two syllables of the selected caption data to designate the information are extracted into a waveform using TTS to form one short digital audio data. This indicates that the data is a dynamic keyword.
도 8b는 디지털 오디오 데이터 내에서 선택된 캡션단위의 자막내용이 재생될 것으로 예측되는 구간을 지정한 상태를 보이고 있다. 이렇게 캡션 데이터의 음성인식을 통한 고유의 파형 값을 추출한 자막재생 예상구간을 인식 모구간으로 정의된 것을 보이고 있다.FIG. 8B shows a state in which the caption content of the selected caption unit is expected to be reproduced in the digital audio data. In this way, it is shown that the expected subtitle reproduction interval is defined as the recognition interval by extracting the unique waveform value through the voice recognition of the caption data.
도 8c는 인식 모구간 내에서 앞서 생성된 동적 핵심어와 유사하다고 판단되는 지점을 동적 핵심어의 출력 신호 파형과 인식 모구간 내의 신호 파형을 비교하여 찾는 과정을 설명하고 있다. 이때 신호 파형간의 비교를 정확하게 하기 위해 필요시 동적 핵심어와 인식 모구간의 데이터를 일정공식에 따라 정규화 하게 된다.FIG. 8C illustrates a process of searching for a point that is determined to be similar to the previously generated dynamic keyword within the recognition interval by comparing the output signal waveform of the dynamic keyword with the signal waveform within the recognition interval. At this time, in order to accurately compare the signal waveforms, the data between the dynamic keywords and the recognition parameters are normalized according to a formula.
도 8d는 인식 모구간 내에서 동적 핵심어와 신호가 동일(또는 유사)하다고 판단되는 지점의 위치정보를 캡션단위에 저장하는 과정을 나타내고 있다.FIG. 8D illustrates a process of storing location information of a point where a dynamic key word and a signal are determined to be the same (or similar) within a recognition period, in a caption unit.
이상에서 설명한 바와 같은 본 발명은 디지털 오디오 데이터에 캡션데이터를 맵핑할 때, 캡션데이터의 캡션단위 첫 어절 또는 첫 음절을 핵심어로 하여 그 핵심어의 파형을 추출 및 비교하는 과정을 통해 재생시점 정보를 신속히 찾아 캡션단위별로 디지털 오디오 데이터에 맵핑되게 함으로써, 디지털 오디오 데이터를 근간으로 하여 다양한 캡션정보의 편집과 불러오기를 가능하게 하고 액정 디스플레이장치의 화면표시능력에 따라 캡션표시 량을 적정화시킬 수 있으며 또한 캡션지정 알고리즘을 간략화 시킬 수 있는 특유의 효과를 가져온다.As described above, when mapping caption data to digital audio data, the playback point information can be quickly obtained by extracting and comparing the waveform of the key word using the first word or the first syllable as the key word of the caption unit of the caption data. By capturing and mapping the digital audio data by caption unit, it is possible to edit and import various caption information based on digital audio data, and to optimize the caption display amount according to the screen display capability of the liquid crystal display device. It has a unique effect that can simplify the designation algorithm.
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990040109A KR100316508B1 (en) | 1999-09-17 | 1999-09-17 | Caption data syncronizing method at the Digital Audio Data system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990040109A KR100316508B1 (en) | 1999-09-17 | 1999-09-17 | Caption data syncronizing method at the Digital Audio Data system |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010028053A true KR20010028053A (en) | 2001-04-06 |
KR100316508B1 KR100316508B1 (en) | 2001-12-12 |
Family
ID=19612036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019990040109A KR100316508B1 (en) | 1999-09-17 | 1999-09-17 | Caption data syncronizing method at the Digital Audio Data system |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100316508B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030086689A (en) * | 2002-05-06 | 2003-11-12 | 미래통신 주식회사 | Caption data synchronous method of audio file using address |
CN104104986A (en) * | 2014-07-29 | 2014-10-15 | 小米科技有限责任公司 | Audio frequency and subtitle synchronizing method and device |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100745250B1 (en) | 2005-05-20 | 2007-08-01 | 엘지전자 주식회사 | Computer recordable medium recording multimedia file for audio/video syncronization and syncronizing device of audio/video |
KR100885392B1 (en) | 2007-02-05 | 2009-02-24 | 이재환 | English memory system of the phrase and clause repeat |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3363390B2 (en) * | 1992-08-20 | 2003-01-08 | 株式会社第一興商 | Editing device for lyrics subtitle data |
KR100239144B1 (en) * | 1997-05-19 | 2000-01-15 | 김헌출 | Character information displaying apparatus and method for cassette player |
KR100297206B1 (en) * | 1999-01-08 | 2001-09-26 | 노영훈 | Caption MP3 data format and a player for reproducing the same |
-
1999
- 1999-09-17 KR KR1019990040109A patent/KR100316508B1/en not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030086689A (en) * | 2002-05-06 | 2003-11-12 | 미래통신 주식회사 | Caption data synchronous method of audio file using address |
CN104104986A (en) * | 2014-07-29 | 2014-10-15 | 小米科技有限责任公司 | Audio frequency and subtitle synchronizing method and device |
Also Published As
Publication number | Publication date |
---|---|
KR100316508B1 (en) | 2001-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4127668B2 (en) | Information processing apparatus, information processing method, and program | |
US20200126583A1 (en) | Discovering highlights in transcribed source material for rapid multimedia production | |
JP4113059B2 (en) | Subtitle signal processing apparatus, subtitle signal processing method, and subtitle signal processing program | |
KR100297206B1 (en) | Caption MP3 data format and a player for reproducing the same | |
US20200126559A1 (en) | Creating multi-media from transcript-aligned media recordings | |
JP2004152063A (en) | Structuring method, structuring device and structuring program of multimedia contents, and providing method thereof | |
JP2004347786A (en) | Speech display output controller, image display controller, and speech display output control processing program, image display control processing program | |
EP2136370A1 (en) | Systems and methods for identifying scenes in a video to be edited and for performing playback | |
US20040177317A1 (en) | Closed caption navigation | |
JP6615952B1 (en) | Synchronous information generation apparatus and method for text display | |
KR100316508B1 (en) | Caption data syncronizing method at the Digital Audio Data system | |
JPH09325796A (en) | Document reading aloud device | |
KR20140115536A (en) | Apparatus for editing of multimedia contents and method thereof | |
JP2020017885A (en) | Information processing unit and program | |
KR100293768B1 (en) | A loading method of digital audio caption data | |
KR20020006620A (en) | Portable CD player displaying caption data and audio CD having caption index data and System for providing caption data | |
KR20080051876A (en) | Multimedia file player having a electronic dictionary search fuction and search method thereof | |
JP2005352330A (en) | Speech division recording device | |
JPH0527787A (en) | Music reproduction device | |
KR102541162B1 (en) | Electronic apparatus and methoth for caption synchronization of contents | |
KR102497085B1 (en) | Electronic apparatus capable of synchronizing documents and voices through matching between voice and editing object, and operating method thereof | |
JP3704968B2 (en) | Multimedia editing device | |
JP2004336606A (en) | Caption production system | |
JP2003224807A (en) | Caption program edit supporting system and semi- automatic caption program production system | |
KR20060027973A (en) | Apparatus for reproducing multimedia file and method of the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
J206 | Request for trial to confirm the scope of a patent right | ||
J121 | Written withdrawal of request for trial | ||
FPAY | Annual fee payment |
Payment date: 20071121 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |