WO2014148665A2 - 멀티미디어 콘텐츠 편집장치 및 그 방법 - Google Patents

멀티미디어 콘텐츠 편집장치 및 그 방법 Download PDF

Info

Publication number
WO2014148665A2
WO2014148665A2 PCT/KR2013/002502 KR2013002502W WO2014148665A2 WO 2014148665 A2 WO2014148665 A2 WO 2014148665A2 KR 2013002502 W KR2013002502 W KR 2013002502W WO 2014148665 A2 WO2014148665 A2 WO 2014148665A2
Authority
WO
WIPO (PCT)
Prior art keywords
text
voice
generating
text object
data
Prior art date
Application number
PCT/KR2013/002502
Other languages
English (en)
French (fr)
Other versions
WO2014148665A3 (ko
Inventor
정찬의
Original Assignee
디노플러스(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디노플러스(주) filed Critical 디노플러스(주)
Publication of WO2014148665A2 publication Critical patent/WO2014148665A2/ko
Publication of WO2014148665A3 publication Critical patent/WO2014148665A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Definitions

  • the present invention relates to the editing of multimedia contents, and more particularly, to an apparatus and method for editing multimedia contents for synchronizing voice data and text data when producing multimedia contents.
  • the voice object refers to voice data
  • the text object refers to text data
  • the synchronization means matching the voice and the text.
  • the general method for synchronizing voice data and text data when producing multimedia content is as follows.
  • the text data and the voice data are synchronized. That is, the synchronization operator repeatedly selects a section to be listened to based on the silent section of the voice data and repeatedly maps the text data to the corresponding text data after listening.
  • the disclosed prior art is to enable the visual transmission of various music information through the change in the expression of the subtitle through the monitor of the karaoke system, to provide the music information visually through the morphological change of the song lyrics.
  • the general method of synchronizing the voice object and the text object as described above has a disadvantage in that the synchronization time is required as long as the operator needs to listen to all the voice data.
  • the general method as described above has a problem in that the accuracy of synchronization varies according to the skill of the operator, and there is also a problem in that the frequency of synchronization errors increases due to external factors such as a work situation or a worker's mood.
  • An object of the present invention is to solve the problems as described above, and to provide a multimedia content editing apparatus and method for synchronizing voice data and text data when producing multimedia content.
  • Another object of the present invention is to provide a multimedia content editing apparatus and method for automatically synchronizing voice data and text data during multimedia content production, thereby reducing the time required for synchronization and increasing work efficiency.
  • Still another object of the present invention is to perform a multimedia content editing apparatus that performs speech recognition on text data, converts the recognized result into text, compares the text data with the recognized result text, and performs synchronization by mapping the same texts. And a method thereof.
  • the multimedia content editing apparatus comprises: a text object generation unit for sequentially separating the input text data in paragraph / sentence / word unit order and then generating a text object in word units; A speech recognition unit for designating a sentence end position of the input speech data, detecting a phoneme section, and performing speech recognition; A voice object generator for generating a voice text object from the voice data recognized by the voice recognizer; And an automatic synchronizer configured to synchronize the text object with the voice text object by a template matching method to synchronize the text object with the text object.
  • the multimedia content editing apparatus comprises a non-synchronization information generation unit connected to the automatic synchronization unit for generating a non-synchronized text object is not synchronized; And a non-synchronization information display unit for visually displaying the non-synchronization information generated by the non-synchronization information generator so as to be manually synchronized by the user.
  • the multimedia content editing method comprises the steps of: (a) generating a text object in units of words from the input text data; (b) generating a speech text object through speech recognition from the input speech data; And (c) generating a template of the text object and the voice text object and executing automatic synchronization by template matching.
  • the multimedia content editing method (d) generates a text object template for the objects that are not synchronized in step (c), and generates and displays asynchronous information based on the text object template step; (e) storing the attributes of the synchronized object.
  • step (a) comprises (a-1) separating the input text data into paragraph units; (a-2) dividing each separated paragraph into sentence units; (a-3) separating each of the separated sentences in word units, and generating text data in the separated word units as a text object.
  • step (b) designating the end position of the sentence in the input voice data; (b-2) automatically detecting a phoneme section based on the silence section in the sentence; (b-3) performing speech recognition with reference to the text object information to obtain speech recognized text; (b-4) generating the obtained text as a voice text object.
  • step (c) step (c-1) generating a text template set consisting of the text object of the word unit; (c-2) generating a set of speech text templates consisting of a set of words from the speech text object resulting from speech recognition; (c-3) matching the text template set with the speech text template set; (c-4) detecting the same word from the template matching result; and (c-5) generating the detected identical words as synchronization information.
  • step (d) (d-1) configuring a text object template with text objects that are not synchronized in step (c); (d-2) generating attribute information for each object included in the text object template; (d-3) displaying unsynchronized sections in color on a voice signal display screen; (d-4) generating candidate points for dividing a plurality of speech word objects in the interval and displaying the candidate points as non-synchronized information.
  • step (d-2) a template set including text objects that are not automatically synchronized except for objects that are automatically synchronized in the text object template set is generated, and unique sequential numbers are assigned to the objects of the generated template set. And assigning attribute values of objects immediately adjacent to the right side of the object to generate attribute information.
  • the synchronization work time can be shortened compared to the existing manual work.
  • the automatic synchronization of the voice data and the text data has the effect of minimizing the frequency of the synchronization error caused by external factors such as the operator's skill, the work situation, the operator's mood.
  • FIG. 1 is a block diagram of a multimedia content editing apparatus according to a preferred embodiment of the present invention.
  • FIG. 2 is an explanatory diagram of a silent section for separating speech data in the present invention.
  • FIG. 3 is a flowchart illustrating a method of editing multimedia content according to an exemplary embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating an example of generating a text object of FIG. 3.
  • FIG. 5 is a flowchart illustrating an example of generating a voice text object of FIG. 3.
  • FIG. 6 is a first exemplary view of a speech word divided into six objects in the present invention.
  • FIG. 7 is a second exemplary view of a speech word divided into six objects in the present invention.
  • FIG. 8 is a third exemplary view of a speech word divided into six objects in the present invention.
  • FIG. 9 is a fourth exemplary view of a speech word divided into six objects in the present invention.
  • FIG 10 is an explanatory diagram of automatic separation of candidate sections by the GUI method in the present invention.
  • FIG. 11 is an embodiment flowchart of the automatic synchronization step of FIG. 3;
  • FIG. 12 is a flowchart of an embodiment of generating and displaying non-synchronized information of FIG. 3; FIG.
  • FIG. 1 is a block diagram of a multimedia content editing apparatus according to a preferred embodiment of the present invention.
  • Multimedia content editing apparatus is a text input unit 10, text object generator 20, voice input unit 30, voice recognition unit 40, voice object generation unit 50, automatic synchronization
  • the unit 60 includes an asynchronous information generating unit 70 and an asynchronous information display unit 80.
  • the text input unit 10 serves to receive text data, and the text object generating unit 20 sequentially divides the text data input through the text object generating unit 20 in the order of paragraph / sentence / word unit. Creates a text object in word units.
  • the voice input unit 30 serves to receive voice data, and the voice recognition unit 40 designates a sentence end position of the voice data input through the voice input unit 30, detects a phoneme section, and then performs voice recognition. It plays a role.
  • the speech object generating unit 50 serves to generate a speech text object from the speech data recognized by the speech recognition unit 40, and the automatic synchronization unit 60 converts the text object and the speech text object into a template matching method. By contrast, it plays a role of synchronizing voice and text.
  • the asynchronous information generating unit 70 is connected to the automatic synchronization unit 60 to generate a text object which is not synchronized as asynchronous information, and the asynchronous information display unit 80 generates the asynchronous information.
  • the asynchronous information generated in the unit 70 serves to visually display so that the user can manually synchronize.
  • FIG. 3 is a flowchart illustrating a method of editing multimedia content according to an exemplary embodiment of the present invention, where S represents a step.
  • a method of editing multimedia content comprising: (a) generating a text object in word units from input text data (S10); (b) generating a speech text object through speech recognition from the input speech data (S20); And (c) generating a template of the text object and the voice text object and executing automatic synchronization by template matching (S30). (d) generating a text object template for the objects which are not synchronized in step (c), and generating and displaying asynchronous information based on the text object template (S40); (e) a storing step S50 of storing the attributes of the synchronized object.
  • step (c) the object synchronized with the voice data and the text data is moved directly to step (e) without passing through step (d).
  • step S1 separating the input text data by paragraph units (S11 ⁇ S12); (a-2) dividing each separated paragraph into sentence units (S13); (a-3) step S14 of separating each of the separated sentences in word units and generating text data in the separated word units as a text object.
  • step (b-1) specifying the end position of the sentence in the input voice data (S21 ⁇ S22); (b-2) automatically detecting a phoneme section based on the silence section in the sentence (S23); (b-3) performing speech recognition with reference to the text object information to obtain speech-recognized text (S24); (b-4) generating the obtained text as a voice text object (S25).
  • step (c) as shown in FIG. 11, (c-1) generating a text template set consisting of the text objects in units of words (S31); (c-2) generating a speech text template set consisting of a set of words from the speech text object resulting from the speech recognition (S32); (c-3) matching the text template set with the speech text template set (S33); (c-4) detecting the same word from the template matching result (S34); (c-5) generating the same words detected as synchronization information (S35).
  • step (d) configuring a text object template with text objects that are not synchronized in step (c) (S41); (d-2) generating property information on each object included in the text object template (S42); (d-3) displaying non-synchronized sections in color on a voice signal display screen (S43); (d-4) generating candidate points for dividing the voice word object into a plurality of segments within the interval and displaying the candidate points as non-synchronized information (S44).
  • the text input unit 10 receives text data
  • the voice input unit 30 receives voice.
  • the text input unit 10 may be a keyboard or a portion to which text data extracted from a specific text file is input.
  • the voice input unit 30 may be a microphone for inputting a voice signal or voice data extracted from a specific voice file.
  • the text data input through the text input unit 10 is transferred to the text object generating unit 20, and the text object generating unit 20 generates a text object for synchronization from the input text data (S10 to S20). .
  • the text object divides the text data input in steps S11 to S12 into paragraph units.
  • the division of the paragraph unit from the input text data searches for a period from the start text, and if the next data is not retrieved during a preset data interval to identify the paragraph after the period, it is determined as a paragraph.
  • each paragraph separated in step S13 is divided into sentence units. Separation of sentences in paragraphs is based on periods. For example, if a text is first detected in a paragraph and a period is detected for the first time afterwards, it is divided into sentence units. If the first text is detected after the period and the first period is detected again, this is also divided into sentence units.
  • each of the separated sentences is divided into word units, and text data of the separated word units is generated as a text object.
  • the text data in word units is separated from the sentence, and if the text is continuous and the text is not detected, the text immediately before the undetected time point is divided into words. After that, the text data of the separated word unit is generated as a text object.
  • a text object means a separate word unit.
  • the word unit is expressed here because the separated unit may be a word or a word including an investigation.
  • the text object generated from the text data is transferred to the automatic synchronization unit 60.
  • the voice recognition unit 40 generates a voice text object from voice data input through the voice input unit 30 (S20).
  • the end position of the sentence is designated in the voice data input in steps S21 and S22, and the phoneme section is automatically determined based on the silence section of FIG. 2 in the sentence in step S23. Will be detected.
  • the phoneme section may be automatically detected based on the silent section.
  • voice recognition is performed by referring to the text object information in step S24, and the voice recognized text is obtained.
  • the speech recognition may use a conventional dynamic time warping (DTW), a hidden markov model (HMM), a continuous speech recognition method using a distributed neural network, and a proposed word speech recognition method.
  • DTW dynamic time warping
  • HMM hidden markov model
  • continuous speech recognition method using a distributed neural network and a proposed word speech recognition method.
  • the voice object generator 50 generates a text obtained by voice recognition by the voice recognition unit 40 as a voice text object and transmits the text to the automatic synchronization unit 60.
  • the automatic synchronization unit 60 synchronizes the text object and the voice text object in step S30.
  • the synchronization of the text object and the voice text object is performed by an automatic synchronization process using a template matching method, and then a GUI-based synchronization process of synchronizing text data and voice data which are not synchronized in the automatic synchronization process using a GUI. This is done.
  • the synchronization of the text object (word) and the voice object (word) is designated as a synchronization object that is mapped to each other if the two objects (word) are the same text, that is, the same word.
  • the determination of the same word can be determined by comparing whether the characters representing the two objects are the same.
  • the text object can be represented by itself, but the voice object has to be represented again by text through a different process. The process is made possible using speech recognition techniques. Therefore, the determination of whether to synchronize the two objects compares the text (column) of the text object with the text (column) of the voice object which is the result of recognizing the voice object, and determines whether the same text (column) is used.
  • a text template set is generated based on the text object in units of words input in step S31.
  • the template is a frame made artificially to easily compare the text object and the voice text object.
  • step S32 the voice text template set B for the voice word resulting from the voice recognition is generated.
  • the speech text is a result of converting a speech recognized result into a string in a word unit
  • step S33 a template matching process of matching the voice word set B based on the template set A is performed.
  • the asynchronous information generation unit 70 generates a template A 'as the text object set and also generates an unmatched speech text object set B'.
  • the set of unmatched objects is expressed as follows.
  • a ' ⁇ pumpkin, carriage ⁇
  • B' ⁇ pumpkin carriage ⁇
  • step S33 template matching is performed in step S33, the same word is detected in step S34, and synchronization attribute information is generated and stored in the internal memory in step S35.
  • Text data and voice data which are subject to media synchronization, originally have the same characters (strings). That is, the characters (columns) of the text object and the speech text object separated in word units should be completely identical in principle, and such comparison should be determined based on the text object. If there is a perfect speech recognition engine, the speech recognition objects and text objects will be a perfect match.
  • the limited word speech recognition method is applied to the embodiment.
  • the recognition rate is very high by performing limited recognition only on the words included in the text data, but the speech recognition technology is still limited, and there are cases where the recognition rate for a specific object is extremely low or the recognition fails.
  • speech data is divided into phoneme units based on a silent section in advance for word-based speech recognition, misrecognition according to speech word separation errors also exists.
  • step S40 asynchronous information is generated and displayed so that synchronization is performed only with respect to the mismatched set as described above.
  • step S41 a text object template that is not automatically synchronized is generated in step S41.
  • step S42 template object attribute information is generated.
  • the sections not automatically synchronized by template matching are displayed in color on the voice signal display screen.
  • the line of sight can be increased for the operator to see at a glance.
  • step S44 a candidate point p for dividing the speech word object into n in the corresponding interval is generated.
  • the candidate speech object area p is created as shown in FIG. Will be displayed.
  • the worker clicks on the candidate voice object area and listens, and if the result is the same text, the mouse clicks on the text object area.
  • the text object area is selected with the mouse, synchronization between the voice candidate object and the clicked text object is performed.
  • the synchronization information thus synchronized is stored in the internal memory along with the automatic synchronization information.
  • the multimedia content produced by the synchronization information is reproduced, synchronization between the voice data and the text data is performed.
  • the present invention is applied to a technique for producing multimedia content by automatically synchronizing text data and voice data. In particular, it can be effectively applied to the production of educational multimedia content.

Abstract

멀티미디어 콘텐츠 제작시 음성 데이터와 텍스트 데이터를 동기화하는 멀티미디어 콘텐츠 편집장치 및 그 방법에 관한 것으로, 입력된 텍스트 데이터를 문단/문장/단어 단위 순으로 순차 분리한 후 단어 단위의 텍스트 객체를 생성하는 텍스트 객체 생성부; 입력된 음성 데이터의 문장 끝 위치를 지정하고 음소 구간을 검출한 후 음성 인식을 하는 음성 인식부; 상기 음성 인식부에서 인식된 음성 데이터로부터 음성 텍스트 객체를 생성하는 음성 객체 생성부; 상기 텍스트 객체와 음성 텍스트 객체를 템플릿 매칭 방식으로 대비시켜 음성과 텍스트를 동기화하는 자동 동기화부를 구비함으로써, 음성 데이터와 텍스트 데이터의 자동 동기화가 가능하여 기존 수작업 대비 동기화 작업 시간을 단축할 수 있으며, 동기화 작업의 효율성 및 정확성을 향상시킬 수 있게 된다.

Description

멀티미디어 콘텐츠 편집장치 및 그 방법
본 발명은 멀티미디어 콘텐츠(Multimedia contents) 편집에 관한 것으로, 특히 멀티미디어 콘텐츠 제작시 음성 데이터와 텍스트 데이터를 동기화하는 멀티미디어 콘텐츠 편집장치 및 그 방법에 관한 것이다.
일반적으로, 멀티미디어 콘텐츠 제작시 음성 객체와 텍스트 객체를 동기화할 필요가 있다. 특히, 교육용 멀티미디어 콘텐츠나 노래방의 가사 서비스시 음성과 텍스트를 동기화함으로써, 교육 효율을 높이거나 노래를 부르는 사람이 박자를 맞추는 데 도움이 될 수 있다. 여기서 음성 객체(또는, 음성 텍스트 객체)는 음성 데이터를 의미하고, 텍스트 객체는 텍스트 데이터를 의미한다. 아울러 상기 동기화란 음성과 텍스트를 매칭시키는 것을 의미한다.
멀티미디어 콘텐츠 제작시 음성 데이터와 텍스트 데이터를 동기화하기 위한 일반적인 방법은 다음과 같다.
텍스트 데이터와 음성 데이터를 시계열 상에서 시각적으로 표시하는 단계, 음성 데이터의 구간을 선택하여 청음을 하는 단계, 청음한 해당 음성과 동일한 텍스트를 선택하는 단계, 선택한 텍스트의 속성값으로 청음한 음성 데이터 구간의 시작시간과 끝 시간 정보를 저장하는 단계를 통해 텍스트 데이터와 음성 데이터를 동기화하게 된다. 즉, 동기화 작업자(Operator)가 음성 데이터의 무음 구간을 기준으로 청음할 구간을 선택하여 청음 후 해당 텍스트 데이터와 매핑하는 과정을 반복적으로 수행한다.
한편, 텍스트 데이터와 음성 데이터를 동기화하는 종래의 기술이 공개특허공보 공개번호 특1995-0030128호(1995.11.24. 공개)에 개시된다.
개시된 종래기술은 노래방시스템의 모니터를 통해 자막의 표현변화로 각종 음악정보를 시각적으로 전달할 수 있도록 한 것으로서, 노래 가사의 형태적 변화를 통해 시각적으로 음악 정보를 제공해주게 된다.
[선행기술문헌]
[특허문헌 1] 대한민국 공개번호 특1995-0030128(1995.11.24. 공개)
그러나 상기와 같은 음성 객체와 텍스트 객체를 동기화하는 일반적인 방법은 작업자가 음성 데이터를 모두 청음하는데 요구되는 시간만큼 동기화 시간이 소요되는 단점이 있다.
또한, 상기와 같은 일반적인 방법은 작업자의 숙련도에 따라 동기화의 정확도가 달라지는 문제가 있으며, 작업상황이나 작업자의 기분상태 등 외적 요인에 의해 동기화 오류 발생 빈도가 높아지는 문제점도 있다.
또한, 상기와 같은 종래기술은 음성 데이터와 텍스트 데이터를 동기화하는 것이 불가능한 문제점이 있었다.
본 발명의 목적은 상기한 바와 같은 문제점을 해결하기 위한 것으로, 멀티미디어 콘텐츠 제작시 음성 데이터와 텍스트 데이터를 동기화하는 멀티미디어 콘텐츠 편집장치 및 그 방법을 제공하는 것이다.
본 발명의 다른 목적은 멀티미디어 콘텐츠 제작시 음성 데이터와 텍스트 데이터를 자동으로 동기화하여, 동기화에 소요되는 시간을 절감하고 작업 효율성을 높일 수 있는 멀티미디어 콘텐츠 편집장치 및 그 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 텍스트 데이터를 대상으로 음성인식을 수행하고 인식된 결과를 텍스트로 변환하여 텍스트 데이터와 인식된 결과 텍스트를 비교하여 동일한 텍스트끼리 매핑하는 방식으로 동기화를 수행하는 멀티미디어 콘텐츠 편집장치 및 그 방법을 제공하는 것이다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명에 따른 멀티미디어 콘텐츠 편집장치는 입력된 텍스트 데이터를 문단/문장/단어 단위 순으로 순차 분리한 후 단어 단위의 텍스트 객체를 생성하는 텍스트 객체 생성부; 입력된 음성 데이터의 문장 끝 위치를 지정하고 음소 구간을 검출한 후 음성 인식을 하는 음성 인식부; 상기 음성 인식부에서 인식된 음성 데이터로부터 음성 텍스트 객체를 생성하는 음성 객체 생성부; 상기 텍스트 객체와 음성 텍스트 객체를 템플릿 매칭 방식으로 대비시켜 음성과 텍스트를 동기화하는 자동 동기화부를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 멀티미디어 콘텐츠 편집장치는 상기 자동 동기화부와 연결되어 동기화가 이루어지지 않은 텍스트 객체를 비 동기화 정보로 생성하는 비 동기화 정보 생성부; 상기 비 동기화 정보 생성부에서 생성된 비 동기화 정보를 사용자가 수작업으로 동기화할 수 있도록 시각적으로 표시해주는 비동기화 정보 표시부를 포함하는 것을 특징으로 한다.
또한, 상기한 바와 같은 목적을 달성하기 위하여, 본 발명에 따른 멀티미디어 콘텐츠 편집방법은 (a) 입력된 텍스트 데이터로부터 단어 단위의 텍스트 객체를 생성하는 단계; (b) 입력된 음성 데이터로부터 음성인식을 통해 음성 텍스트 객체를 생성하는 단계; 및 (c) 상기 텍스트 객체와 음성 텍스트 객체의 템플릿을 생성하고, 템플릿 매칭으로 자동 동기화를 실행하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 멀티미디어 콘텐츠 편집방법은 (d) 상기 (c)단계에서 동기화가 이루어지지 않은 객체들을 대상으로 텍스트 객체 템플릿을 생성하고, 텍스트 객체 템플릿을 기초로 비동기화 정보를 생성하여 표시해주는 단계; (e) 동기화된 객체의 속성을 저장하는 단계를 더 포함하는 것을 특징으로 한다.
상기에서 (a)단계는 (a-1) 입력된 텍스트 데이터를 문단 단위로 분리하는 단계; (a-2) 분리한 각 문단을 문장 단위로 분리하는 단계; (a-3) 분리한 각 문장을 단어 단위로 분리하고, 분리한 단어 단위의 텍스트 데이터를 텍스트 객체로 생성하는 단계를 포함한다.
상기에서 (b)단계는 (b-1) 입력된 음성 데이터에서 문장의 끝 위치를 지정하는 단계; (b-2) 상기 문장에서 묵음 구간을 기준으로 음소 구간을 자동으로 검출하는 단계; (b-3) 텍스트 객체 정보를 참조하여 음성인식을 수행하여 음성인식된 텍스트를 획득하는 단계; (b-4) 획득된 텍스트를 음성 텍스트 객체로 생성하는 단계를 포함한다.
상기에서 (c)단계는 (c-1) 상기 단어 단위의 텍스트 객체로 구성된 텍스트 템플릿 집합을 생성하는 단계; (c-2) 음성인식의 결과로 이루어진 음성 텍스트 객체에서 단어 집합으로 구성된 음성 텍스트 템플릿 집합을 생성하는 단계; (c-3) 상기 텍스트 템플릿 집합과 상기 음성 텍스트 템플릿 집합을 매칭하는 단계; (c-4) 상기 템플릿 매칭 결과로부터 동일한 단어를 검출하는 단계; (c-5) 검출된 동일한 단어들을 동기화정보로 생성하는 단계를 포함하는 것을 특징으로 한다.
상기에서 (d)단계는 (d-1) 상기 (c)단계에서 동기화되지 않은 텍스트 객체들로 텍스트 객체 템플릿을 구성하는 단계; (d-2) 상기 텍스트 객체 템플릿에 포함된 각 객체에 대한 속성 정보를 생성하는 단계; (d-3) 동기화되지 않은 구간을 음성 신호 표시 화면상에 컬러로 표시하는 단계; (d-4) 상기 구간 내에서 음성 단어 객체를 복수로 나눌 후보 점을 생성하여 비 동기화 정보로 표시해주는 단계를 포함하는 것을 특징으로 한다.
상기에서 (d-2)단계는 텍스트 객체 템플릿 집합에서 자동 동기화된 객체들을 제외하고 자동 동기화되지 않은 텍스트 객체들로 구성된 템플릿 집합을 생성하고, 생성한 템플릿 집합의 객체들에게 고유의 순차적인 번호를 부여하고, 해당 객체의 우측에 바로 인접한 객체에 관한 속성값을 지정하여 속성 정보를 생성하는 것을 특징으로 한다.
본 발명에 따르면 음성 데이터와 텍스트 데이터의 자동 동기화가 가능하므로, 기존 수작업 대비 동기화 작업 시간을 단축할 수 있는 효과가 있다.
또한, 본 발명에 따르면 음성 데이터와 텍스트 데이터의 자동 동기화에 의해 작업자의 숙련도, 작업 상황, 작업자의 기분상태 등의 외적 요인에 의한 동기화 오류 발생 빈도를 최소화할 수 있는 효과가 있다.
또한, 본 발명에 따르면 자동 동기화에 의해 동기화 작업의 효율성 및 정확성을 향상시킬 수 있는 효과가 있다.
도 1은 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집장치의 블록구성도.
도 2는 본 발명에서 음성 데이터를 분리하기 위한 무음 구간 설명도.
도 3은 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집방법을 보인 흐름도.
도 4는 도 3의 텍스트 객체 생성 단계의 실시 예 흐름도.
도 5는 도 3의 음성 텍스트 객체 생성단계의 실시 예 흐름도.
도 6은 본 발명에서 6개의 객체로 분리된 음성 단어의 제1예시도.
도 7은 본 발명에서 6개의 객체로 분리된 음성단어의 제2예시도.
도 8은 본 발명에서 6개의 객체로 분리된 음성단어의 제3예시도.
도 9는 본 발명에서 6개의 객체로 분리된 음성단어의 제4예시도.
도 10은 본 발명에서 GUI방식에 의한 후보 구간 자동 분리 설명도.
도 11은 도 3의 자동 동기화 단계의 실시 예 흐름도,
도 12는 도 3의 비 동기화 정보 생성 및 표시 단계의 실시 예 흐름도.
이하 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집장치 및 방법을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집장치의 블록구성도이다.
본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집장치는 텍스트 입력부(10), 텍스트 객체 생성부(20), 음성 입력부(30), 음성 인식부(40), 음성 객체 생성부(50), 자동 동기화부(60), 비동기화 정보 생성부(70), 비동기화 정보 표시부(80)를 포함한다.
텍스트 입력부(10)는 텍스트 데이터를 입력받는 역할을 하며, 텍스트 객체 생성부(20)는 상기 텍스트 객체 생성부(20)를 통해 입력된 텍스트 데이터를 문단/문장/단어 단위 순으로 순차 분리한 후 단어 단위의 텍스트 객체를 생성하는 역할을 한다.
음성 입력부(30)는 음성 데이터를 입력받는 역할을 하며, 음성 인식부(40)는 상기 음성 입력부(30)를 통해 입력된 음성 데이터의 문장 끝 위치를 지정하고 음소 구간을 검출한 후 음성 인식을 하는 역할을 한다.
음성 객체 생성부(50)는 상기 음성 인식부(40)에서 인식된 음성 데이터로부터 음성 텍스트 객체를 생성하는 역할을 하며, 자동 동기화부(60)는 상기 텍스트 객체와 음성 텍스트 객체를 템플릿 매칭 방식으로 대비시켜 음성과 텍스트를 동기화하는 역할을 한다.
비동기화 정보 생성부(70)는 상기 자동 동기화부(60)와 연결되어 동기화가 이루어지지 않은 텍스트 객체를 비동기화 정보로 생성하는 역할을 하며, 비동기화 정보 표시부(80)는 상기 비동기화 정보 생성부(70)에서 생성된 비동기화 정보를 사용자가 수작업으로 동기화할 수 있도록 시각적으로 표시해주는 역할을 한다.
도 3은 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집방법을 보인 흐름도로서, S는 단계(Step)를 나타낸다.
본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집방법은 (a) 입력된 텍스트 데이터로부터 단어 단위의 텍스트 객체를 생성하는 단계(S10); (b) 입력된 음성 데이터로부터 음성인식을 통해 음성 텍스트 객체를 생성하는 단계(S20); 및 (c) 상기 텍스트 객체와 음성 텍스트 객체의 템플릿을 생성하고, 템플릿 매칭으로 자동 동기화를 실행하는 단계(S30); (d) 상기 (c)단계에서 동기화가 이루어지지 않은 객체들을 대상으로 텍스트 객체 템플릿을 생성하고, 텍스트 객체 템플릿을 기초로 비동기화 정보를 생성하여 표시해주는 단계(S40); (e) 동기화된 객체의 속성을 저장하는 저장 단계(S50)를 포함한다.
여기서 상기 (c)단계에서 음성 데이터와 텍스트 데이터 간의 동기화가 이루어진 객체에 대해서는 (d)단계를 경유하지 않고 바로 (e)단계로 이동하게 된다.
상기에서 (a)단계는 도 4에 도시된 바와 같이, (a-1) 입력된 텍스트 데이터를 문단 단위로 분리하는 단계(S11 ~ S12); (a-2) 분리한 각 문단을 문장 단위로 분리하는 단계(S13); (a-3) 분리한 각 문장을 단어 단위로 분리하고, 분리한 단어 단위의 텍스트 데이터를 텍스트 객체로 생성하는 단계(S14)를 포함한다.
상기에서 (b)단계는 도 5에 도시된 바와 같이, (b-1) 입력된 음성 데이터에서 문장의 끝 위치를 지정하는 단계(S21 ~ S22); (b-2) 상기 문장에서 묵음 구간을 기준으로 음소 구간을 자동으로 검출하는 단계(S23); (b-3) 텍스트 객체 정보를 참조하여 음성인식을 수행하여 음성인식된 텍스트를 획득하는 단계(S24); (b-4) 획득된 텍스트를 음성 텍스트 객체로 생성하는 단계(S25)를 포함한다.
상기에서 (c)단계는 도 11에 도시된 바와 같이, (c-1) 상기 단어 단위의 텍스트 객체로 구성된 텍스트 템플릿 집합을 생성하는 단계(S31); (c-2) 음성인식의 결과로 이루어진 음성 텍스트 객체에서 단어 집합으로 구성된 음성 텍스트 템플릿 집합을 생성하는 단계(S32); (c-3) 상기 텍스트 템플릿 집합과 상기 음성 텍스트 템플릿 집합을 매칭하는 단계(S33); (c-4) 상기 템플릿 매칭 결과로부터 동일한 단어를 검출하는 단계(S34); (c-5) 검출된 동일한 단어들을 동기화정보로 생성하는 단계(S35)를 포함한다.
상기에서 (d)단계는 도 12에 도시된 바와 같이, (d-1) 상기 (c)단계에서 동기화되지 않은 텍스트 객체들로 텍스트 객체 템플릿을 구성하는 단계(S41); (d-2) 상기 텍스트 객체 템플릿에 포함된 각 객체에 대한 속성 정보를 생성하는 단계(S42); (d-3) 동기화되지 않은 구간을 음성 신호 표시 화면상에 컬러로 표시하는 단계(S43); (d-4) 상기 구간 내에서 음성 단어 객체를 복수로 나눌 후보 점을 생성하여 비 동기화 정보로 표시해주는 단계(S44)를 포함한다.
이하 본 발명의 바람직한 실시 예에 따른 멀티미디어 콘텐츠 편집장치 및 그 방법을 첨부한 도면 도 1 내지 도 12를 참조하여 상세하게 설명한다.
먼저, 텍스트와 음성을 동기화하여 멀티미디어 콘텐츠를 제작하기 위해서, 텍스트 입력부(10)는 텍스트 데이터를 입력받게 되고, 음성 입력부(30)는 음성을 입력받게 된다.
여기서 텍스트 입력부(10)는 키보드이거나 특정 텍스트 파일에서 추출한 텍스트 데이터가 입력되는 부분을 의미할 수 있다. 아울러 음성 입력부(30)는 음성 신호 입력을 위한 마이크이거나 특정 음성 파일에서 추출한 음성 데이터일 수 있다.
텍스트 입력부(10)를 통해 입력되는 텍스트 데이터는 텍스트 객체 생성부(20)에 전달되며, 텍스트 객체 생성부(20)는 입력된 텍스트 데이터로부터 동기화를 위한 텍스트 객체를 생성하게 된다(S10 ~ S20).
예컨대, 텍스트 객체는 도 4에 도시된 바와 같이, 단계 S11 내지 S12에서 입력된 텍스트 데이터를 문단 단위로 분리하게 된다. 여기서 입력된 텍스트 데이터로부터 문단 단위의 분리는 시작 텍스트부터 마침표를 탐색하고, 마침표 다음에 문단을 식별하기 위해 미리 설정된 데이터 간격 동안 다음 데이터가 검색되지 않으면 문단이라고 판단을 한다.
다음으로, 단계 S13에서 분리한 각 문단을 문장 단위로 분리하게 된다. 문단에서 문장의 분리는 마침표를 기준으로 한다. 예컨대, 문단에서 처음 텍스트가 검출되고 이후 처음으로 마침표가 검출되면 이것을 문장 단위로 분리한다. 그리고 마침표 이후 처음 텍스트가 검출되고 이후 다시 처음으로 마침표가 검출되면 이것도 문장 단위로 분리하게 된다.
마지막으로 단계 S14에서는 상기 분리한 각 문장을 단어 단위로 분리하고, 분리한 단어 단위의 텍스트 데이터를 텍스트 객체로 생성하게 된다. 여기서 문장으로부터 단어 단위의 텍스트 데이터 분리는 텍스트가 지속하다가 텍스트가 검출되지 않으면 그 검출되지 않는 시점의 바로 앞의 텍스트까지를 단어로 분리하게 된다. 이후 분리한 단어 단위의 텍스트 데이터를 텍스트 객체로 생성하게 된다. 다시 말해 텍스트 객체는 분리된 단어 단위를 의미한다. 여기서 단어 단위라고 표현한 것은 분리된 단위가 단어일 수도 있고 아니면 조사 등을 포함하는 단어일 수 있기 때문이다.
이러한 과정을 통해 텍스트 데이터로부터 생성된 텍스트 객체는 자동 동기화부(60)에 전달된다.
한편, 음성 인식부(40)는 상기 음성 입력부(30)를 통해 입력된 음성 데이터로부터 음성 텍스트 객체를 생성하게 된다(S20).
상기 음성 텍스트 객체 생성은 도 5에 도시된 바와 같이, 단계 S21 및 S22에서 입력된 음성 데이터에서 문장의 끝 위치를 지정하고, 단계 S23에서 상기 문장에서 도 2의 묵음 구간을 기준으로 음소 구간을 자동으로 검출하게 된다. 여기서 통상의 음성 데이터는 도 2에 도시된 바와 같이, 음성 신호가 존재하는 구간과 음성과 음성 중간에 음성 신호가 없는 구간인 묵음구간(무음 구간)이 존재한다. 따라서 이러한 묵음 구간을 기본으로 음소 구간을 자동으로 검출할 수 있다.
이후 단계 S24에서 텍스트 객체 정보를 참조하여 음성인식을 수행하고, 음성인식된 텍스트를 획득하게 된다. 여기서 음성 인식은 통상의 동적 시간 신축(DTW; dynamic time warping), 은닉 markov 모델(HMM; hidden markov model), 분산 신경망을 이용한 연속 음성 인식 방법, 제안단어 음성인식 방법을 이용할 수 있다.
다음으로, 단계 S25에서 음성 객체 생성부(50)는 상기 음성인식부(40)에서 음성 인식으로 획득된 텍스트를 음성 텍스트 객체로 생성하여 자동 동기화부(60)에 전달한다.
상기 자동 동기화부(60)는 단계 S30에서 상기 텍스트 객체와 음성 텍스트 객체를 동기화하게 된다.
여기서 텍스트 객체와 음성 텍스트 객체의 동기화는 템플릿 매칭 방식에 의한 자동 동기화 과정이 수행되며, 이후 자동 동기화 과정에서 동기화가 이루어지지 못한 텍스트 데이터와 음성 데이터를 GUI를 이용하여 동기화를 진행하는 GUI기반 동기화 과정이 수행된다.
그리고 텍스트 객체(단어)와 음성 객체(단어)의 동기화는 두 객체(단어)가 동일한 텍스트이면, 즉 같은 단어이면 서로 매핑되는 동기화 대상으로 지정한다. 같은 단어인가의 판단은 두 객체를 표현하는 문자가 동일한가를 비교하여 판단할 수 있다. 그런데 텍스트 객체는 그 자체가 문자로 표현 가능하지만, 음성 객체는 다른 과정을 거쳐 문자로 다시 표현해야 한다. 그 과정은 음성인식 기법을 이용하여 가능해 진다. 따라서, 두 객체 간의 동기화 여부 결정은 텍스트 객체의 문자(열)와 음성객체를 인식한 결과인 음성 객체의 문자(열)를 비교하여 동일한 문자(열)인가를 판단한다.
이를 좀 더 구체적으로 설명하면 도 11에 도시된 바와 같이, 단계 S31에서 입력된 단어 단위의 텍스트 객체를 기반으로 텍스트 템플릿 집합을 생성하게 된다. 여기서 템플릿이란 텍스트 객체와 음성 텍스트 객체를 상호 비교하기 용이하게 인위적으로 만들어 놓은 틀이라고 할 수 있다.
텍스트 데이터가 기준이 되어야 하기 때문에, 텍스트 문장을 단어 단위의 텍스트 객체의 문자열 집합으로 하는 템플릿을 생성한다. 즉, 텍스트 템플릿 집합(A)은 A = {aaa, bbb, ccc, ...}와 같이 생성한다.
다음으로, 단계 S32에서 음성인식의 결과로 이루어진 음성단어에 대한 음성 텍스트 템플릿 집합(B)을 생성하게 된다. 여기서 음성 텍스트는 음성 인식된 결과를 단어 단위의 문자열로 변환한 것으로서, 음성 텍스트 템플릿 집합(B)은 B = {a'a'a', b'b'b', c'c'c', ...}와 같이 생성한다.
이후 단계 S33에서 템플릿 집합 A를 기준으로 음성단어 집합 B를 매칭하는 템플릿 매칭 과정을 수행한다.
상기 두 집합에 속한 문자열들에 대한 비교는 집합 B의 각 요소(문자열)를 템플릿 집합 A의 각 요소(문자열)에 순서대로 1:1로 비교하는 것으로 구현된다. 즉 템플릿 매칭 요소 집합(T)은 T = {(aaa, a'a'a'), (aaa, b'b'b'), ..., (bbb, b'b'b'), (bbb, c'c'c'), ...}와 같이 결정되고, 각 요소를 순차적으로 비교하여 두 객체 문자열이 일치하는 즉, (aaa)=(a'a'a')인 경우에 두 객체가 완전하게 매칭된 것으로 판단한다. 예를 들어, "신데렐라는 호박 마차를 타고 궁전으로 갑니다."라는 텍스트 문장을 텍스트 템플릿 집합 A로 표시하면, A = {신데렐라는, 호박, 마차를, 타고, 궁전으로, 갑니다}로 표현되며, 이 집합은 6개의 단어 단위 객체로 구성되어 있음을 알 수 있다. 만약, 이 텍스트 문장에 대응한 음성 문장을 인식한 결과가 도 6과 같은 경우, 이를 단어 단위의 문자열 집합 B로 표현하면, B = {신데렐라는, 호박, 마차를, 타고, 궁전으로, 갑니다}와 같이 표현되었다면, 템플릿 비교를 통해 T = {(신데렐라, 신데렐라), (호박, 호박), (마차를, 마차를), (타고, 타고), (궁전으로, 궁전으로), (갑니다, 갑니다)}와 같이 6개의 매칭된 결과를 얻게 되고, 모든 객체가 일치하므로 텍스트 문장과 음성 문장은 동기화가 완료된다.
또한, 음성인식의 오류로 인해 도 7과 같은 음성인식 결과의 음성 텍스트 객체를 얻은 경우, 두 집합은 A = {신데렐라는, 호박, 마차를, 타고, 궁전으로, 갑니다}, B = {신데렐라는, 호박 마차를, 타고, 궁전으로, 갑니다}로 표현되고, T = {(신데렐라, 신데렐라), (타고, 타고), (궁전으로, 궁전으로), (갑니다, 갑니다)}
와 같은 5개의 매칭 객체를 얻게 된다.
이때, 매칭되지 않은 객체에 대해서는 비동기화 정보 생성부(70)에서 텍스트 객체 집합으로 템플릿 A'를 생성하고 또한 매칭되지 않은 음성 텍스트 객체 집합 B'를 생성하게 된다. 여기서 매칭되지 않은 객체에 대한 집합은 다음과 같이 표현된다.
A' = {호박, 마차를}, B' = {호박 마차를}
또한, 음성인식의 오류로 인해 도 8과 같은 음성인식 결과의 음성 텍스트 객체를 얻은 경우에, 매칭되지 않은 객체에 대한 집합은 다음과 같이 표현된다.
A' = {마차를, 타고}, B' = {마차를 타고}
이러한 과정으로 단계 S33에서 템플릿 매칭을 수행하고, 단계 S34에서 동일한 단어를 검출하며, 단계 S35에서 동기화 속성 정보를 생성하여 내부 메모리에 저장하게 된다.
미디어 동기화 대상인 텍스트 데이터와 음성 데이터는 본래 동일한 문자(열)를 갖는다. 즉, 단어 단위로 분리된 텍스트 객체와 음성 텍스트 객체의 문자(열)는 원칙적으로 완전하게 동일해야 하며, 이러한 비교는 텍스트 객체를 기준으로 판단해야 한다. 만약, 완벽한 음성인식 엔진이 있다면, 음성인식된 객체들과 텍스트 객체들은 완전하게 일치하게 될 것이다.
본 발명에서는 실시 예로 제한단어 음성인식 방식을 적용하였다. 이 경우 텍스트 데이터에 포함된 단어들만을 대상으로 제한적 인식을 수행함으로써 인식률이 매우 높지만, 음성인식 기술은 여전히 한계가 있어서, 특정 객체에 대한 인식률이 극히 낮거나 혹은 인식에 실패한 경우도 존재한다. 더구나, 단어 단위 음성인식을 위해 음성 데이터를 사전에 묵음 구간을 기준으로 음소단위 분리하여 인식을 수행할 경우, 음성 단어 분리 오류에 따른 오인식도 존재하게 된다.
이와 같은 이유 때문에, 텍스트 객체들과 음성인식 객체들이 일치하지 않을 경우, 이를 보완할 방법이 필요하며, 본 발명에서는 템플릿 매칭에 의한 보완 방법을 제시한다.
예컨대, 단계 S40에서는 상기와 같이 매칭되지 않은 집합에 대해서만 GUI 방식으로 동기화가 이루어지도록, 비동기화 정보를 생성하여 표시해주게 된다.
이를 위해 도 12에 도시한 바와 같이, 단계 S41에서 자동 동기화되지 않은 텍스트 객체 템플릿을 생성한다. 그리고 단계 S42에서 템플릿 객체 속성정보를 생성한다.
예컨대, 자동 동기화되지 않은 템플릿 집합(A')을 생성하는 과정에서, 자동 동기화되지 않은 객체들은 고유의 순차적인 번호가 부여되며, 또한 우측에 바로 인접한 객체가 자동 동기화된 객체인지를 구별하는 속성값을 갖게 된다. 이때, 속성값이 0이면 우측 객체는 자동 동기화된 객체를 의미하며, 0이 아닌 숫자의 경우 우측 객체의 고유한 순차 번호를 가리키며 이는 우측 객체 또한 자동 동기화되지 않은 객체라는 의미이다. 즉, 자동 동기화되지 않은 템플릿 A'는 동기화되지 않은 객체의 수 N(N=1, 2, ..., n)과 그 구간 정보 C(N)를 포함한 속성값을 가진다. 여기서, 구간 정보(C(N))는 C(N) = 0이면 동기화되지 않은 객체 N의 우측에 있는 객체는 동기화된 객체라는 의미이고, C(N) = k(k>N)이면 우측에 동기화되지 않는 객체가 있으며 그 고유 번호가 k라는 의미이다.
따라서, 도 7의 경우, A' = {호박, 마차를}이므로, 자동 동기화되지 않은 객체의 수 N = 2이고, A'(1) = {호박}, A'(2) = {마차를}로 표현되므로, C(1)=2, C(2)=0의 속성값을 갖는다. 즉, 이러한 속성값을 고려한 A'(1) = {호박}, A'(2)={마차를}, B' = {마차를 타고}의 관계로부터 B' = {마차를 타고}의 음성 단어 객체는 두 개로 분리되어야 한다는 것을 알 수 있다. 이와 같은 A'의 속성 정보 C(N)를 기준으로 GUI 방식에 의해 동기화 과정을 진행하면 된다.
GUI 방식에 의한 동기화 과정을 위해 단계 S43에서와 같이, 템플릿 매칭으로 자동 동기화되지 않은 구간을 음성 신호 표시 화면상에 컬러로 표시해주게 된다. 자동화되지 않은 영역을 컬러로 표시함으로써 작업자가 한눈에 파악할 수 있도록 시선 집중도를 높여주게 된다.
단계 S44에서 해당 구간 내에서 음성 단어 객체를 n개로 나눌 후보점 p를 생성해주게 된다. 예컨대, 도 7의 음성 단어 객체 {(호박 마차를)}의 경우, 도 6과 같이 두 개의 후보 객체 영역으로 나누어야 하므로 도 10과 같이 하나의 분리 후보점 p를 생성하고 화면상에서 후보 음성 객체 영역을 표시해주게 된다.
이러한 자동 동기화되지 않은 구간 표시와 후보점 생성으로, 작업자는 후보 음성 객체 영역을 클릭하여 청음하고, 청음 결과 동일한 텍스트일 경우 텍스트 객체 영역을 마우스로 클릭한다. 텍스트 객체 영역이 마우스로 선택되면 음성 후보 객체와 클릭한 텍스트 객체 간의 동기화가 이루어진다.
이렇게 동기화가 이루어진 동기화 정보는 자동 동기화 정보와 함께 내부 메모리에 저장된다. 상기 동기화 정보에 의해 제작된 멀티미디어 콘텐츠를 재생하는 경우, 음성 데이터와 텍스트 데이터 간의 동기화가 이루어지게 되는 것이다.
이상 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
본 발명은 텍스트 데이터와 음성 데이터를 자동 동기화하여 멀티미디어 콘텐츠를 제작하는 기술에 적용된다. 특히, 교육용 멀티미디어 콘텐츠 제작에 효과적으로 적용할 수 있다.

Claims (9)

  1. 입력된 텍스트 데이터를 문단/문장/단어 단위 순으로 순차 분리한 후 단어 단위의 텍스트 객체를 생성하는 텍스트 객체 생성부;
    입력된 음성 데이터의 문장 끝 위치를 지정하고 음소 구간을 검출한 후 음성 인식을 하는 음성 인식부;
    상기 음성 인식부에서 인식된 음성 데이터로부터 음성 텍스트 객체를 생성하는 음성 객체 생성부;
    상기 텍스트 객체와 음성 텍스트 객체를 템플릿 매칭 방식으로 대비시켜 음성과 텍스트를 동기화하는 자동 동기화부를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집장치.
  2. 청구항 1에 있어서, 상기 자동 동기화부와 연결되어 동기화가 이루어지지 않은 텍스트 객체를 비 동기화 정보로 생성하는 비 동기화 정보 생성부; 상기 비 동기화 정보 생성부에서 생성된 비 동기화 정보를 사용자가 수작업으로 동기화할 수 있도록 시각적으로 표시해주는 비동기화 정보 표시부를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집장치.
  3. (a) 텍스트 객체 생성부에서 입력된 텍스트 데이터로부터 단어 단위의 텍스트 객체를 생성하는 단계;
    (b) 음성 객체 생성부에서 입력된 음성 데이터로부터 음성인식을 통해 음성 텍스트 객체를 생성하는 단계; 및
    (c) 자동 동기화부에서 상기 텍스트 객체와 음성 텍스트 객체의 템플릿을 생성하고, 템플릿 매칭으로 자동 동기화를 실행하는 단계를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  4. 청구항 3에 있어서, (d) 상기 (c)단계에서 동기화가 이루어지지 않은 객체들을 대상으로 텍스트 객체 템플릿을 생성하고, 텍스트 객체 템플릿을 기초로 비동기화 정보를 생성하여 표시해주는 단계; (e) 동기화된 객체의 속성을 저장하는 단계를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  5. 청구항 3 또는 청구항 4에 있어서, 상기 (a)단계는 (a-1) 입력된 텍스트 데이터를 문단 단위로 분리하는 단계; (a-2) 분리한 각 문단을 문장 단위로 분리하는 단계; (a-3) 분리한 각 문장을 단어 단위로 분리하고, 분리한 단어 단위의 텍스트 데이터를 텍스트 객체로 생성하는 단계를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  6. 청구항 3 또는 청구항 4에 있어서, 상기 (b)단계는 (b-1) 입력된 음성 데이터에서 문장의 끝 위치를 지정하는 단계; (b-2) 상기 문장에서 묵음 구간을 기준으로 음소 구간을 자동으로 검출하는 단계; (b-3) 텍스트 객체 정보를 참조하여 음성인식을 수행하여 음성인식된 텍스트를 획득하는 단계; (b-4) 획득된 텍스트를 음성 텍스트 객체로 생성하는 단계를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  7. 청구항 3 또는 청구항 4에 있어서, 상기 (c)단계는 (c-1) 상기 단어 단위의 텍스트 객체로 구성된 텍스트 템플릿 집합을 생성하는 단계; (c-2) 음성인식의 결과로 이루어진 음성 텍스트 객체에서 단어 집합으로 구성된 음성 텍스트 템플릿 집합을 생성하는 단계; (c-3) 상기 텍스트 템플릿 집합과 상기 음성 텍스트 템플릿 집합을 매칭하는 단계; (c-4) 상기 템플릿 매칭 결과로부터 동일한 단어를 검출하는 단계; (c-5) 검출된 동일한 단어들을 동기화정보로 생성하는 단계를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  8. 청구항 4에 있어서, 상기 (d)단계는 (d-1) 상기 (c)단계에서 동기화되지 않은 텍스트 객체들로 텍스트 객체 템플릿을 구성하는 단계; (d-2) 상기 텍스트 객체 템플릿에 포함된 각 객체에 대한 속성 정보를 생성하는 단계; (d-3) 동기화되지 않은 구간을 음성 신호 표시 화면상에 컬러로 표시하는 단계; (d-4) 상기 구간 내에서 음성 단어 객체를 복수로 나눌 후보 점을 생성하여 비 동기화 정보로 표시해주는 단계를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
  9. 청구항 8에 있어서, 상기 (d-2)단계는 텍스트 객체 템플릿 집합에서 자동 동기화된 객체들을 제외하고 자동 동기화되지 않은 텍스트 객체들로 구성된 템플릿 집합을 생성하고, 생성한 템플릿 집합의 객체들에게 고유의 순차적인 번호를 부여하고, 해당 객체의 우측에 바로 인접한 객체에 관한 속성값을 지정하여 속성 정보를 생성하는 것을 특징으로 하는 멀티미디어 콘텐츠 편집방법.
PCT/KR2013/002502 2013-03-21 2013-03-26 멀티미디어 콘텐츠 편집장치 및 그 방법 WO2014148665A2 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20130030117A KR101493006B1 (ko) 2013-03-21 2013-03-21 멀티미디어 콘텐츠 편집장치 및 그 방법
KR10-2013-0030117 2013-03-21

Publications (2)

Publication Number Publication Date
WO2014148665A2 true WO2014148665A2 (ko) 2014-09-25
WO2014148665A3 WO2014148665A3 (ko) 2015-05-07

Family

ID=51581569

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/002502 WO2014148665A2 (ko) 2013-03-21 2013-03-26 멀티미디어 콘텐츠 편집장치 및 그 방법

Country Status (2)

Country Link
KR (1) KR101493006B1 (ko)
WO (1) WO2014148665A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908743A (zh) * 2017-11-16 2018-04-13 百度在线网络技术(北京)有限公司 人工智能应用构建方法和装置
CN110444199A (zh) * 2017-05-27 2019-11-12 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017131028A1 (ja) 2016-01-26 2017-08-03 東レ株式会社 ポリフェニレンスルフィド樹脂組成物およびその製造方法
KR102642259B1 (ko) * 2023-06-22 2024-03-04 유니닥스 주식회사 Ai 학습용 데이터 가공 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060285654A1 (en) * 2003-04-14 2006-12-21 Nesvadba Jan Alexis D System and method for performing automatic dubbing on an audio-visual stream
US20120041758A1 (en) * 2007-06-28 2012-02-16 Nuance Communications, Inc. Synchronization of an input text of a speech with a recording of the speech
US20120245719A1 (en) * 2011-03-23 2012-09-27 Story Guy A Jr Managing playback of synchronized content
US20120265527A1 (en) * 2011-04-15 2012-10-18 Hon Hai Precision Industry Co., Ltd. Interactive voice recognition electronic device and method
KR20120129015A (ko) * 2011-05-18 2012-11-28 조성진 어학 컨텐츠 생성 방법 및 이를 위한 단말기

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8817705D0 (en) * 1988-07-25 1988-09-01 British Telecomm Optical communications system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060285654A1 (en) * 2003-04-14 2006-12-21 Nesvadba Jan Alexis D System and method for performing automatic dubbing on an audio-visual stream
US20120041758A1 (en) * 2007-06-28 2012-02-16 Nuance Communications, Inc. Synchronization of an input text of a speech with a recording of the speech
US20120245719A1 (en) * 2011-03-23 2012-09-27 Story Guy A Jr Managing playback of synchronized content
US20120265527A1 (en) * 2011-04-15 2012-10-18 Hon Hai Precision Industry Co., Ltd. Interactive voice recognition electronic device and method
KR20120129015A (ko) * 2011-05-18 2012-11-28 조성진 어학 컨텐츠 생성 방법 및 이를 위한 단말기

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444199A (zh) * 2017-05-27 2019-11-12 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107908743A (zh) * 2017-11-16 2018-04-13 百度在线网络技术(北京)有限公司 人工智能应用构建方法和装置

Also Published As

Publication number Publication date
KR20140115536A (ko) 2014-10-01
KR101493006B1 (ko) 2015-02-13
WO2014148665A3 (ko) 2015-05-07

Similar Documents

Publication Publication Date Title
Gupta et al. Automatic lyrics alignment and transcription in polyphonic music: Does background music help?
US7579541B2 (en) Automatic page sequencing and other feedback action based on analysis of audio performance data
WO2014148665A2 (ko) 멀티미디어 콘텐츠 편집장치 및 그 방법
JP2001265326A (ja) 演奏位置検出方法および楽譜表示装置
WO2019208860A1 (ko) 음성 인식 기술을 이용한 다자간 대화 기록/출력 방법 및 이를 위한 장치
WO2015163684A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP6615952B1 (ja) テキスト表示用同期情報生成装置および方法
WO2018236015A1 (ko) 가창 표현 이식 시스템
WO2015030319A1 (ko) 음원 평가방법, 이에 사용되는 연주정보 분석방법과 기록매체 그리고 이를 이용한 음원의 평가장치
JP5943436B2 (ja) テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム
Lee et al. Word level lyrics-audio synchronization using separated vocals
WO2015152586A1 (ko) 유사도판별장치 및 그 동작 방법
Moniz et al. Extending AuToBI to prominence detection in European Portuguese
WO2018074658A1 (ko) 하이브리드 자막 효과 구현 단말 및 방법
WO2010047444A1 (ko) 음악분수 구동장치 및 방법과 이를 위한 음악분수 시나리오 생성장치 및 방법
WO2016137071A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US5806039A (en) Data processing method and apparatus for generating sound signals representing music and speech in a multimedia apparatus
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
WO2011136454A1 (ko) 이미지를 이용한 음원 생성 시스템 및 방법
WO2021167220A1 (ko) 내용 기반 동영상 목차 자동생성 방법 및 시스템
JP2005517215A (ja) 言語理解のための方法および装置
WO2012064110A2 (ko) 스크립트 데이터 생성 방법 및 장치
Ballier et al. Revisiting paratone prosodic features with the EIIDA corpus
JP2006284645A (ja) 音声再生装置およびその再生プログラムならびにその再生方法
WO2023022316A1 (ko) 외국어 동영상의 자막 필터링 방법 및 이를 수행하는 시스템

Legal Events

Date Code Title Description
32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 03/03/2016)

122 Ep: pct application non-entry in european phase

Ref document number: 13878866

Country of ref document: EP

Kind code of ref document: A2