KR101261754B1 - Apparatus and method for generating corpus for training phrase break prediction - Google Patents

Apparatus and method for generating corpus for training phrase break prediction Download PDF

Info

Publication number
KR101261754B1
KR101261754B1 KR1020110074552A KR20110074552A KR101261754B1 KR 101261754 B1 KR101261754 B1 KR 101261754B1 KR 1020110074552 A KR1020110074552 A KR 1020110074552A KR 20110074552 A KR20110074552 A KR 20110074552A KR 101261754 B1 KR101261754 B1 KR 101261754B1
Authority
KR
South Korea
Prior art keywords
word
boundary
word boundary
reading
transcription
Prior art date
Application number
KR1020110074552A
Other languages
Korean (ko)
Other versions
KR20130013128A (en
Inventor
이근배
이진식
이종훈
서홍석
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020110074552A priority Critical patent/KR101261754B1/en
Publication of KR20130013128A publication Critical patent/KR20130013128A/en
Application granted granted Critical
Publication of KR101261754B1 publication Critical patent/KR101261754B1/en

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B17/00Teaching reading
    • G09B17/02Line indicators or other guides or masks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/02Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

끊어읽기 훈련용 말뭉치 생성 장치 및 방법이 개시된다. 끊어읽기 훈련용 말뭉치 생성 장치는 복수의 전사자 각각으로부터 동일한 텍스트에 대한 어절 경계가 레이블링되어 전사된 복수개의 전사자료를 제공받아 복수개의 전사자료 각각에서 어절 경계를 추출하는 경계 추출부와, 추출된 어절 경계 각각을 비교하여 미리 설정된 기준에 만족되는 어절 경계를 텍스트의 끊어읽기로 결정하는 경계 결정부와, 결정된 끊어읽기를 레이블링하여 끊어읽기 훈련용 말뭉치를 생성하는 끊어읽기 말뭉치 생성부를 포함하여 구성된다. 따라서, 끊어읽기 훈련용 말뭉치가 동일한 텍스트에 대한 복수의 전사자로부터 전사된 복수개의 전사자료를 이용하여 형성되므로 개별 전사자의 특성의 반영을 최소한으로 하여 보편적인 전사자의 끊어읽기 특성을 최대한 반영할 수 있으므로 평균적으로 높은 성능을 나타낼 수 있다.Disclosed are a device and a method for generating a hangout training corpus. The punctuation generating device for cutting-reading training is provided with a boundary extractor for extracting word boundaries from each of the plurality of transcription data by receiving a plurality of transcription data which are labeled with word boundaries from each of a plurality of transcriptions and transcribed the extracted words. And a boundary determination unit for determining a word boundary that satisfies a predetermined criterion by cutting each boundary, and determining a break reading of the text, and a break reading corpus generation unit for generating a break reading training corpus by labeling the determined break reading. Therefore, since the cut-out training corpus is formed using a plurality of transcripts transferred from a plurality of transcripts for the same text, the characteristics of the individual transcripts can be minimized to reflect the cut-out characteristics of the universal transcript as much as possible. It can show high performance on average.

Description

끊어읽기 훈련용 말뭉치 생성 장치 및 방법{APPARATUS AND METHOD FOR GENERATING CORPUS FOR TRAINING PHRASE BREAK PREDICTION}APAPATUS AND METHOD FOR GENERATING CORPUS FOR TRAINING PHRASE BREAK PREDICTION}

본 발명은 음성합성 시스템에 관한 것으로, 더욱 상세하게는 동일한 텍스트에 대한 복수의 전사자로부터 전사된 복수개의 전사자료를 이용하여 끊어읽기 훈련용 말뭉치를 생성함으로써 개별 전사자의 특성의 반영을 최소한으로 하여 보편적인 전사자의 끊어읽기 특성을 최대한 반영할 수 있는 끊어읽기 훈련용 말뭉치 생성 장치 및 방법에 관한 것이다.The present invention relates to a speech synthesis system, and more particularly, by generating a reading-ready training corpus using a plurality of transcription data transferred from a plurality of transcriptions for the same text, thereby minimizing reflection of characteristics of individual transcriptions. The present invention relates to an apparatus and method for generating a corpus for sever reading, which can fully reflect the sperm reading characteristics of the phosphorus transfer.

음성합성 시스템에서 자연스러운 합성음을 생성하기 위해서는 주어진 입력 텍스트에서 끊어읽는 위치를 올바르게 추정하는 것이 매우 중요하다. 종래에는 음성합성에 사용하기 위한 녹음 문장을 전사자가 듣고 끊어읽기 정도를 표시하여 생성된 훈련 말뭉치를 사용하였다. 이러한 방법으로 형성된 종래의 훈련 말뭉치는 녹음 문장에 발화자의 특성이 고스란히 반영된다. 예를 들어, 빠른 발화 속도를 가진 발화자는 끊어읽기의 빈도가 적고, 반대로 느린 발화 속도를 가진 발화자는 끊어읽기의 빈도가 많으므로, 동일한 문장이라도 발화자의 특성에 따라 끊어읽기의 방법이 다를 수 있게 된다. 또한, 종래의 끊어읽기 훈련용 말뭉치는 "음성합성시 끊어읽기의 자동 라벨링 방법" (대한민국특허출원 제10-1999-0053451) 등에 개시되어 있다. 상기 끊어읽기의 자동 라벨링 방법은 음성 데이터베이스의 휴지구간이 폐쇄음인 종성받침 다음인지를 고려하여 끊어읽기를 레이블링하는 방법이 개시되어 있으나, 이 경우에도 끊어읽기의 레이블링 결과에 음성 전문가의 특성이 반영되어 보편적인 끊어일기 훈련용 말뭉치를 생성하기 어렵다는 문제가 있다.In order to generate natural synthesized sound in speech synthesis system, it is very important to correctly estimate the position of reading in a given input text. In the related art, a training corpus generated by displaying the extent to which the translator hears and cuts the recorded sentence for use in speech synthesis was used. The conventional training corpus formed in this way reflects the characteristics of the talker in the recorded sentences. For example, a fast-talker with a low speech frequency reads less frequently, whereas a slow-talker with a slower speech rate frequently reads more frequently, so that the same sentence can be read differently depending on the characteristics of the talker. do. In addition, the conventional reading-reading corpus is disclosed in the "automatic labeling method of reading by speech synthesis" (Korean Patent Application No. 10-1999-0053451). The automatic labeling method of the broken reading is disclosed in a method of labeling the broken reading in consideration of whether the idle section of the voice database is after the closing sound of the closed sound, but in this case, the characteristics of the voice expert are reflected in the labeling result of the reading. There is a problem that it is difficult to create a universal training corpus.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 동일한 텍스트에 대한 복수의 전사자로부터 전사된 복수개의 전사자료를 이용하여 보편적인 전사자의 끊어읽기 특성을 최대한 반영할 수 있는 끊어읽기 훈련용 말뭉치 생성 장치을 제공하는데 있다.An object of the present invention for solving the above problems, by using a plurality of transcription data transferred from a plurality of transcriptions for the same text generation of a reading reading corpus that can fully reflect the reading characteristics of the universal transcription To provide a device.

상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 동일한 텍스트에 대한 복수의 전사자로부터 전사된 복수개의 전사자료를 이용하여 보편적인 전사자의 끊어읽기 특성을 최대한 반영할 수 있는 끊어읽기 훈련용 말뭉치 생성 방법을 제공하는데 있다.Another object of the present invention for solving the above problems, using a plurality of transcription data transferred from a plurality of transcriptions for the same text using a plurality of transcriptions for reading the cut-off training corpus can be reflected as much as possible To provide a method of generation.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.Technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.

상기한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 끊어읽기 훈련용 말뭉치 생성 장치는, 복수의 전사자 각각으로부터 동일한 텍스트에 대한 어절 경계가 레이블링되어 전사된 복수개의 전사자료를 제공받아 상기 복수개의 전사자료 각각에서 어절 경계를 추출하는 경계 추출부와, 추출된 상기 어절 경계 각각을 비교하여 미리 설정된 기준에 만족되는 어절 경계를 상기 텍스트의 끊어읽기로 결정하는 경계 결정부와, 상기 결정된 끊어읽기를 레이블링하여 끊어읽기 훈련용 말뭉치를 생성하는 끊어읽기 말뭉치 생성부를 포함한다.In accordance with an aspect of the present invention for achieving the above object of the present invention, the apparatus for generating a reading-reading corpus is provided with a plurality of transcription data, each of which is transcribed with word boundaries labeled for the same text from each of the plurality of transcription characters. A boundary extracting unit for extracting word boundaries from each of a plurality of transcription materials, a boundary determining unit for comparing word extracted boundaries to determine word boundaries satisfying a predetermined criterion, and determining to read the text; It includes a reading block generation unit for generating a reading training corpus by labeling the reading.

상기한 본 발명의 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 끊어읽기 훈련용 말뭉치 생성 방법은, 복수의 전사자 각각으로부터 동일한 텍스트에 대한 어절 경계가 레이블링되어 전사된 복수개의 전사자료를 제공받는 단계와, 제공된 상기 복수개의 전사자료 각각에 대한 어절 경계를 추출하는 단계와, 추출된 상기 어절 경계 각각을 비교하여 미리 설정된 기준에 만족되는 어절 경계를 상기 텍스트의 끊어읽기로 결정하는 단계와, 상기 결정된 끊어읽기를 레이블링하여 끊어읽기 훈련용 말뭉치를 생성하는 단계를 포함한다.In accordance with an aspect of the present invention for achieving the above object of the present invention, a method for generating a reading-reading corpus is provided with a plurality of transcription materials, each of which is transcribed with a word boundary for the same text from a plurality of transcriptions. Extracting word boundaries for each of the provided plurality of transcripts, comparing each extracted word boundary with each other, and determining to cut out the word boundary satisfying a predetermined criterion; And labeling the determined cutoff to generate a cutout training corpus.

상기와 같은 본 발명에 따른 끊어읽기 훈련용 말뭉치 생성 장치 및 방법은 끊어읽기 훈련용 말뭉치가 동일한 텍스트에 대한 복수의 전사자로부터 전사된 복수개의 전사자료를 이용하여 형성되므로 개별 전사자의 특성의 반영을 최소한으로 하여 보편적인 전사자의 끊어읽기 특성을 최대한 반영할 수 있으므로 평균적으로 높은 성능을 나타낼 수 있는 장점이 있다.The apparatus and method for generating a reading-reading corpus according to the present invention as described above is formed by using a plurality of transcription data transferred from a plurality of transcriptions for the same text, so that the reflection of the characteristics of the individual-transcriber is minimized. As a result, it is possible to fully reflect the reading characteristics of the universal transcript, which has an advantage of showing high performance on average.

도 1은 본 발명의 일 실시예에 따른 끊어읽기 훈련용 말뭉치 생성 장치의 구성을 나타내는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 끊어읽기 훈령용 말뭉치를 복수개의 전사자료로부터 생성하는 과정을 나타내는 개념도이다.
도 3은 동일한 텍스트에 대한 복수의 전사자로부터 전사된 복수개의 전사자료간의 끊어읽기의 불일치를 나타내는 예시도이다.
도 4은 본 발명의 일 실시예에 따른 끊어읽기 훈련용 말뭉치 생성 방법을 나타내는 순서도이다.
1 is a block diagram showing the configuration of a device for generating a scavenger training for reading according to an embodiment of the present invention.
2 is a conceptual diagram illustrating a process of generating a cut-out instruction corpus from a plurality of transcription data according to an embodiment of the present invention.
3 is an exemplary diagram showing a mismatch in reading between a plurality of transcription materials transferred from a plurality of transcriptions for the same text.
Figure 4 is a flow chart showing a method for generating a cut off training corpus according to an embodiment of the present invention.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Like reference numerals are used for like elements in describing each drawing.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. The terms first, second, A, B, etc. may be used to describe various elements, but the elements should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. When a component is referred to as being "connected" or "connected" to another component, it may be directly connected to or connected to that other component, but it may be understood that other components may be present in between. Should be. On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, the terms "comprise" or "have" are intended to indicate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or a combination thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in the commonly used dictionaries should be construed as having meanings consistent with the meanings in the context of the related art and shall not be construed in ideal or excessively formal meanings unless expressly defined in this application. Do not.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
Hereinafter, preferred embodiments according to the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 끊어읽기 훈련용 말뭉치 생성 장치의 구성을 나타내는 블록도이다.1 is a block diagram showing the configuration of a device for generating a scavenger training for reading according to an embodiment of the present invention.

도 1을 참조하면, 끊어읽기 훈련용 말뭉치 생성 장치(100)는 동일한 텍스트에 대한 복수의 전사자 각각으로부터 어절 경계가 레이블링되어(labeling) 전사된 복수개의 전사자료를 제공받고, 상기 전사자료 각각에서 어절 경계를 추출하고, 추출된 상기 어절 경계를 비교하여 미리 설정된 기준에 만족되는 어절 경계를 상기 텍스트의 끊어읽기(phrase break prediction)로 결정하고, 상기 결정된 끊어읽기를 레이블링하여 끊어읽기 훈련용 말뭉치(corpus)를 생성함으로써 개별적인 전사자 각각의 끊어읽기 특성이 반영되는 것을 최소화하고, 보편적인 끊어읽기 특성을 최대한 반영한 끊어읽기 훈련용 말뭉치를 생성할 수 있다.Referring to FIG. 1, the apparatus for generating a thorough reading training corpus is provided with a plurality of transcription data, each of which is labeled by word boundaries from each of the plurality of transcription characters for the same text, and is transferred to each word. By extracting a boundary, comparing the extracted word boundary to determine the word boundary that satisfies a predetermined criterion as phrase break prediction of the text, and labeling the determined break reading to correlate the break reading training corpus (corpus) By minimizing the reading characteristics of each individual transcript and creating a reading training corpus that fully reflects the universal cutting characteristics.

상기 끊어읽기 훈련용 말뭉치 생성 장치(100)는 경계 추출부(110), 경계 결정부(120) 및 끊어읽기 말뭉치 생성부(130)을 포함하여 구성된다.The apparatus for generating a disconnect reading training corpus 100 includes a boundary extractor 110, a boundary determining unit 120, and a disconnect reading corpus generation unit 130.

상기 경계 추출부(110)는 동일한 텍스트에 대한 복수의 전사자 각각으로부터 어절 경계가 레이블링되어 전사된 복수개의 전사자료를 제공받아 상기 복수개의 전사자료 각각에서 어절 경계를 추출할 수 있다.The boundary extracting unit 110 may receive a plurality of transcription data that is transferred by labeling word boundaries from each of the plurality of transcription characters for the same text, and extract the word boundaries from each of the plurality of transcription data.

상기 경계 추출부(110)는 어절의 경계를 추출하는데 일반적으로 사용되는 신경회로망을 이용하는 방법, 통계적 의사결정 모델(CART: Classification And Regression Tress)을 이용하는 방법, HMM(HMM: Hidden Markov Model)을 이용하는 방법, 규칙에 의한 방법 등을 사용할 수 있다.The boundary extractor 110 uses a neural network commonly used to extract word boundaries, a method using a classification and regression tress (CART), and a hidden markov model (HMM). The method, the method by a rule, etc. can be used.

상기 경계 결정부(120)는 추출된 상기 어절 경계 각각을 비교하여 미리 설정된 기준에 만족되는 어절 경계를 상기 텍스트의 끊어읽기로 결정할 수 있고, 상기 경계 결정부(120)는 제1 결정모듈(121) 및 제2 결정모듈(122)을 포함할 수 있다.The boundary determination unit 120 may compare each of the extracted word boundaries to determine the word boundary that satisfies a preset criterion by cutting the text, and the boundary determination unit 120 determines the first determination module 121. ) And the second determination module 122.

상기 제1 결정모듈(121)은 상기 복수개의 전사자료 각각에서 추출된 상기 어절 경계 중 미리 설정된 제1 기준에 만족되는 어절 경계를 추출하여 제1 어절 경계로 결정할 수 있다. 상기 미리 설정된 제1 기준은 상기 복수개의 전사자료 각각에서 추출된 상기 어절 경계 중 상기 복수개의 전사자료 모두에서 일치되는 것을 의미할 수 있다. 즉, 상기 복수개의 전사자료 각각에서 추출된 상기 어절 경계 중 상기 복수개의 전사자료 모두에서 일치되는 어절 경계를 추출하여 제1 어절 경계로 결정할 수 있다.The first determination module 121 extracts a word boundary that satisfies a preset first criterion among the word boundaries extracted from each of the plurality of transcription data, and determines the first word boundary. The preset first criterion may mean that all of the plurality of transcription data are matched among the word boundaries extracted from each of the plurality of transcription data. In other words, a word boundary that matches all of the plurality of transcription data among the word boundaries extracted from each of the plurality of transcription data may be extracted and determined as the first word boundary.

상기 제2 결정모듈(122)은 상기 추출된 제1 어절 경계에 포함되지 않는 어절 경계 중 미리 설정된 제2 기준에 만족되는 어절 경계를 추출하여 제2 어절 경계로 결정할 수 있다. 상기 미리 설정된 제2 기준은 상기 추출된 제1 어절 경계에 포함되지 않는 어절 경계 중에서 상기 복수개의 전사자료 중 과반수에서 일치되는 것을 의미할 수 있다. 즉, 상기 복수개의 전사자료 각각에서 추출된 상기 어절 경계 중 상기 추출된 제1 어절 경계에 포함되지 않는 어절 경계 중에서 상기 복수개의 전사자료 중 과반수에서 일치되는 어절 경계를 추출하여 제2 어절 경계로 결정할 수 있다.The second determination module 122 may extract a word boundary that satisfies a preset second criterion among word boundaries not included in the extracted first word boundary, and determine the second word boundary. The preset second criterion may mean that a match is made in a majority of the plurality of transcription data among word boundaries not included in the extracted first word boundary. That is, the word boundary corresponding to a majority of the plurality of transcription data is extracted from the word boundary not included in the extracted first word boundary among the word boundaries extracted from each of the plurality of transcription data, and is determined as the second word boundary. Can be.

예를 들어, "이 꽃이 참 예쁘다." 라는 텍스트를 복수의 전사자로부터 전사된 어절의 경계가 레이블링된 전사자료 1은 "이 / 꽃이 / 참 / 예쁘다." 이고, 전사자료 2는 "이 / 꽃이 / 참 예쁘다." 이고, 전사자료 3은 "이 꽃이 / 참 / 예쁘다." 를 제공받은 경우라 하면, 전사자료 1 내지 3에서 모두 일치하는 어절 경계인 제1 어절 경계 "이 꽃이 // 참 예쁘다." 가 상기 제1 결정모듈에서 결정되고, 상기 제1 어절 경계에 포함되지 않는 어절 경계 중 과반수에서 일치되는 "이 / 꽃이 // 참 / 예쁘다." 로 제2 어절 경계가 결정될 수 있다. 상기 '//'는 제1 어절 경계를 의미하고, 상기 '/'는 제2 어절 경계를 의미한다.For example, "This flower is very pretty." Warrior 1, which is labeled with the boundary of the word transferred from a plurality of warriors, reads "This / flower / true / pretty." Transcript 2 is "This / flower / pretty." And transcription 3 is "This flower is beautiful / beautiful." In the case of receiving the word, the first word boundary, which is a word boundary that matches all the transcription materials 1 to 3, "This flower // is very pretty." Is determined in the first determination module and is matched in a majority of word boundaries not included in the first word boundary, "this / flower is true / pretty." The second word boundary can be determined. '//' means a first word boundary, and '/' means a second word boundary.

또한, 상기 제2 결정모듈(122)은 상기 추출된 제1 어절 경계에 포함되지 않는 어절 경계 중에서 상기 복수개의 전사자료 중 반수에서 일치되는 경우 끊어읽기에 영향을 미치는 자질을 고려하여 어절 경계를 추출하여 제2 어절 경계로 결정할 수도 있다.In addition, the second determination module 122 extracts a word boundary in consideration of qualities that affect reading when a half of the plurality of transcription data are matched among word boundaries not included in the extracted first word boundary. May be determined as the second word boundary.

상기 끊어읽기에 영향을 미치는 자질은 전사자의 발화습관, 발화속도, 발화강도 등을 의미할 수 있다.Qualities affecting the reading may mean a utterance habit, ignition rate, ignition intensity of the transcript.

예를 들어, "이 꽃이 참 예쁘다." 라는 텍스트를 복수의 전사자로부터 전사된 어절의 경계가 레이블링된 전사자료 1은 "이 / 꽃이 / 참 / 예쁘다." 이고, 전사자료 2는 "이 / 꽃이 / 참 예쁘다." 이고, 전사자료 3은 "이 꽃이 / 참 / 예쁘다."이고, 전사자료 4는 "이 꽃이 / 참 예쁘다."인 복수개의 전사자료를 제공받은 경우라 하면, 전사자료 1 내지 4에서 모두 일치하는 어절 경계인 제1 어절 경계 "이 꽃이 // 참 예쁘다."가 상기 제1 결정모듈에서 결정되고, 상기 제1 어절 경계에 포함되지 않는 어절 경계인 "이 / 꽃이"와 "이 꽃이", "참 예쁘다."와 "참 / 예쁘다."는 반수에서 일치되게 된다. 상기 '//'는 제1 어절 경계를 의미하고, 상기 '/'는 제2 어절 경계를 의미한다. 이 경우에 전사자료 1 내지 4의 끊어읽기에 영향을 미치는 자질인 전사자의 발화습관, 발화속도, 발화강도 등을 고려하여 보편적인 끊어읽기로 전사된 전사자료에 가중치를 부여하여 반수에서 일치되는 제2 어절 경계 중에서 하나를 결정할 수도 있다.For example, "This flower is very pretty." Warrior 1, which is labeled with the boundary of the word transferred from a plurality of warriors, reads "This / flower / true / pretty." Transcript 2 is "This / flower / pretty." The transcription data 3 is "this flower is / pretty / pretty", and the transcription data 4 is a case where a plurality of transcription data "this flower / is pretty" is provided, all of the transcription data 1 to 4 The first word boundary "this flower // is very pretty", which is a matching word boundary, is determined by the first decision module, and the word boundary "yi / flower" and "this flower" are not included in the first word boundary. "," That's pretty "and" True / pretty. " '//' means a first word boundary, and '/' means a second word boundary. In this case, considering the utterance habits, ignition rate, ignition intensity, etc. of the transcripts, which affect the cut-offs of the transcription materials 1 to 4, the weighted transcripts transferred to the universal cut-outs are weighted to match the half number. One of the two word boundaries may be determined.

상기 끊어읽기 말뭉치 생성부(130)는 상기 결정된 끊어읽기를 레이블링하여 끊어읽기 훈련용 말뭉치를 생성할 수 있다.
The cutout corpus generation unit 130 may generate the cutout training corpus by labeling the determined cutout.

도 2는 본 발명의 일 실시예에 따른 끊어읽기 훈령용 말뭉치를 복수개의 전사자료로부터 생성하는 과정을 나타내는 개념도이다.2 is a conceptual diagram illustrating a process of generating a cut-out instruction corpus from a plurality of transcription data according to an embodiment of the present invention.

도 2를 참조하면, 동일한 텍스트에 대한 복수의 전사자 각각으로부터 어절 경계가 레이블링되어(labeling) 전사된 복수개의 전사자료인 전사자료 1내지 전사자료 7이 도시되어 있다. 상기 복수개의 전사자료들에서 어절 경계가 추출되고, 추출된 상기 어절 경계를 상호비교하여 미리 설정된 기준에 만족되는 어절 경계를 제1 어절 경계로 결정할 수 있고, 상기 제1 어절 경계에 포함되지 않는 어절 경계 중 미리 설정된 기준에 기초하여 제2 어절 경계(도 2에서 점선으로 도시된 부분)를 결정하여 상기 제1 및 제2 어절 경계를 상기 텍스트의 끊어읽기(phrase break prediction)로 결정하고, 상기 결정된 끊어읽기를 레이블링하여 끊어읽기 훈련용 말뭉치(corpus)를 생성하는 개념을 나타낸다.
Referring to FIG. 2, transcription data 1 to transcription material 7, which are a plurality of transcription data that are labeled and transcribed word boundaries from each of a plurality of transcriptions for the same text, are illustrated. A word boundary is extracted from the plurality of transcripts, and a word boundary satisfying a predetermined criterion may be determined as a first word boundary by comparing the extracted word boundary with each other, and the word not included in the first word boundary. A second word boundary (the part shown by a dotted line in FIG. 2) is determined based on a preset criterion among the boundaries to determine the first and second word boundaries as phrase break prediction of the text. It represents the concept of creating a corpus for hung training by labeling hung.

도 3은 동일한 텍스트에 대한 복수의 전사자로부터 전사된 복수개의 전사자료간의 끊어읽기의 불일치를 나타내는 예시도이다.3 is an exemplary diagram showing a mismatch in reading between a plurality of transcription materials transferred from a plurality of transcriptions for the same text.

도 3을 참조하면, 동일한 텍스트에 대하여 다수의 전사자가 얼마나 다르게 전사하였는지를 나타내며, 상기 도 3에 나타난 전사자에게 보통의 말하기 속도로 텍스트 내에서 강조 부분이 없도록 자연스럽게 발화하였을 때 끊어읽기 위치와 강도를 전사하도록 하여 얻어진 결과를 나타낸다.Referring to FIG. 3, it shows how differently the plurality of transcriptions are transferred to the same text, and transfers the reading position and the intensity when the speech is naturally uttered so that there is no emphasis portion in the text at a normal speaking speed. The result obtained by doing so is shown.

길게 끊어읽기(도 3에 표시된 Major), 짧게 끊어읽기(도 3에 표시된 Minor), 끊어읽지 않기(도 3에 표시된 Non)으로 구분된 끊어읽기 비율이 전사자에 따라 다른 분포를 나타내고 있다. 상기와 같이 전사자에 따라 다른 분포를 나타내는 것은 동일한 텍스트라도 전사자의 개별적인 특성이 반영되어 전사되었기 때문이다.The cut-out ratio divided into long cut (major shown in FIG. 3), short cut (minor shown in FIG. 3), and not cut (Non shown in FIG. 3) has different distributions depending on the transcription. As described above, the different distributions are displayed according to the transcripts because the same text is transferred by reflecting the individual characteristics of the transcripts.

예를 들어, 전사자 LSH가 가장 적은 비율의 끊어읽지 않기를 나타내므로 전사자 LSH의 보통의 말하기 속도는 일반적인 전사자와 비교하여 상대적으로 빠른 속도임을 알 수 있고, 반면에 전사자 YUI가 가장 높은 비율의 길게 끊어읽기 비율을 나타내므로 전사자 YUI의 보통의 말하기 속도는 일반적인 전사자와 비교하여 상대적으로 느린 속도임을 알 수 있다.For example, because the transcriber LSH represents the least percentage of non-reading, we can see that the normal speaking speed of the transcriber LSH is relatively faster than the normal translator, while the transcriber YUI has the highest percentage of long reads. As the ratio is expressed, it can be seen that the normal speaking speed of the warrior YUI is relatively slow compared to that of the general warrior.

즉, 상기 도 3은 동일한 텍스트를 전사한 전사자료라도 끊어읽기에 영향을 미치는 개별적인 전사자의 특성이 반영됨을 알 수 있다.That is, it can be seen that FIG. 3 reflects the characteristics of individual translators influencing cutting off even the transcription data obtained by copying the same text.

하기의 표 1은 본 발명의 일 실시예에 따른 끊어읽기 훈련용 말뭉치 생성 장치 및 방법으로 형성된 끊어읽기 훈련용 말뭉치로 훈련한 시스템과 개별 전사자로부터 전사된 각각의 전사자료를 이용하여 형성된 끊어읽기 훈련용 말뭉치로 훈련한 시스템을 비교한 비교표를 나타낸다.Table 1 below is a cut-out training formed by using a system for training the cut-out training corpus formed by the apparatus and the method for generating a cut-out training corpus according to an embodiment of the present invention, and the respective transcription data transferred from the individual translators. Shows a comparison table comparing systems trained with dragon corpus.

Figure 112011058064739-pat00001
Figure 112011058064739-pat00001

상기 표 1을 참조하면, 개별 전사자로부터 전사된 전사자료만을 이용하여 형성된 끊어읽기 훈련용 말뭉치로 훈련된 시스템은 해당 전사자에 대해서는 높은 끊어읽기 일치율을 나타낸다. 그러나, 상기 개별 전사자로부터 전사된 전사자료만을 이용하여 형성된 끊어읽기 훈련용 말뭉치로 훈련된 시스템은 해당 전사자의 끊어읽기 특성이 반영되어 해당 전사자 이외의 전사자에 대해서는 낮은 끊어읽기 일치율을 나타낸다.Referring to Table 1, the system trained with the cut-out training corpus formed by using only the transcription data transferred from the individual transcripts shows a high cut-out match rate for the corresponding transcript. However, the system trained with the cut-out training corpus formed using only the transcription data transferred from the individual transcribers reflects the cut-out characteristics of the transcribed and shows low cut-out matching rate for the translators other than the transcribed.

한편, 본 발명의 일 실시예에 따른 끊어읽기 훈련용 말뭉치 생성 장치 및 방법으로 형성된 끊어읽기 훈련용 말뭉치로 훈련된 시스템은 끊어읽기 훈련용 말뭉치가 동일한 텍스트에 대한 복수의 전사자로부터 전사된 복수개의 전사자료를 이용하여 형성되므로 개별 전사자의 특성의 반영을 최소한으로 하여 일반적인 전사자의 끊어읽기 특성을 최대한 반영할 수 있으므로 평균적으로 높은 성능을 나타냄을 알 수 있다.
On the other hand, the system is trained with a cut reading corpus formed by the apparatus and method for generating a cut reading training corpus according to an embodiment of the present invention, a plurality of transcriptions in which the cut reading training corpus is transferred from a plurality of transcriptions for the same text. Since it is formed by using the data, it can be seen that the performance of the average transcription can be reflected as much as possible by minimizing the reflection of individual transcription characteristics.

도 4는 본 발명의 일 실시예에 따른 끊어읽기 훈련용 말뭉치 생성 방법을 나타내는 순서도이다.Figure 4 is a flow chart illustrating a method for generating a corpus for breaking reads according to an embodiment of the present invention.

도 4를 참조하면, 끊어읽기 훈련용 말뭉치 생성 방법은 동일한 텍스트에 대한 복수의 전사자 각각으로부터 어절 경계가 레이블링되어(labeling) 전사된 복수개의 전사자료를 제공받고(S 110), 상기 전사자료 각각에서 어절 경계를 추출할 수 있다(S 120).Referring to FIG. 4, the method for generating a thorough reading training corpus is provided with a plurality of transcription data that is transcribed with word boundaries labeled from each of the plurality of transcription characters for the same text (S 110), and in each of the transcription data. The word boundary may be extracted (S 120).

상기 어절 경계의 추출은 어절의 경계를 추출하는데 일반적으로 사용되는 신경회로망을 이용하는 방법, 통계적 의사결정 모델(CART: Classification And Regression Tress)을 이용하는 방법, HMM(HMM: Hidden Markov Model)을 이용하는 방법, 규칙에 의한 방법 등이 사용될 수 있다.The word boundary extraction may be performed by using a neural network which is generally used to extract word boundaries, a method using a classification and regression tress (CART), a method using a hidden markov model (HMM), Rule-based methods and the like can be used.

추출된 상기 어절 경계 각각을 상호비교하여 미리 설정된 기준에 만족되는 어절 경계를 상기 텍스트의 끊어읽기(phrase break prediction)로 결정할 수 있다(S 130, S 140).By comparing each of the extracted word boundaries, word boundaries satisfying a predetermined criterion may be determined as phrase break prediction (S 130 and S 140).

구체적으로, 복수개의 전사자료 각각에서 추출된 상기 어절 경계 중 미리 설정된 제1 기준에 만족되는 어절 경계를 추출하여 제1 어절 경계로 결정할 수 있고(S 130), 상기 미리 설정된 제1 기준은 상기 복수개의 전사자료 각각에서 추출된 상기 어절 경계 중 상기 복수개의 전사자료 모두에서 일치되는 것을 의미할 수 있다. 즉, 상기 복수개의 전사자료 각각에서 추출된 상기 어절 경계 중 상기 복수개의 전사자료 모두에서 일치되는 어절 경계를 추출하여 제1 어절 경계로 결정할 수 있다.In detail, a word boundary that satisfies a preset first criterion among the word boundaries extracted from each of the plurality of transcription data may be extracted and determined as the first word boundary (S 130). It may mean that all of the plurality of transcription data among the word boundary extracted from each of the transcription data. In other words, a word boundary that matches all of the plurality of transcription data among the word boundaries extracted from each of the plurality of transcription data may be extracted and determined as the first word boundary.

또한, 상기 추출된 제1 어절 경계에 포함되지 않는 어절 경계 중 미리 설정된 제2 기준에 만족되는 어절 경계를 추출하여 제2 어절 경계로 결정할 수 있다(S 140).In addition, a word boundary that satisfies a second preset criterion among word boundaries not included in the extracted first word boundary may be extracted and determined as the second word boundary (S 140).

상기 미리 설정된 제2 기준은 상기 복수개의 전사자료 각각에서 추출된 상기 어절 경계 중 상기 추출된 제1 어절 경계에 포함되지 않는 어절 경계 중에서 상기 복수개의 전사자료 중 과반수에서 일치되는 것을 의미할 수 있다. 즉, 상기 추출된 제1 어절 경계에 포함되지 않는 어절 경계 중에서 상기 복수개의 전사자료 중 과반수에서 일치되는 어절 경계를 추출하여 제2 어절 경계로 결정할 수 있다.The preset second criterion may mean coincidence in a majority of the plurality of transcription data among the word boundaries not included in the extracted first word boundary among the word boundaries extracted from each of the plurality of transcription data. That is, a word boundary matching a majority of the plurality of transcription data among the word boundaries not included in the extracted first word boundary may be extracted and determined as the second word boundary.

예를 들어, "이 꽃이 참 예쁘다." 라는 텍스트를 복수의 전사자로부터 전사된 어절의 경계가 레이블링된 전사자료 1은 "이 / 꽃이 / 참 / 예쁘다." 이고, 전사자료 2는 "이 / 꽃이 / 참 예쁘다." 이고, 전사자료 3은 "이 꽃이 / 참 / 예쁘다." 를 제공받은 경우라 하면, 전사자료 1 내지 3에서 모두 일치하는 어절 경계인 제1 어절 경계 "이 꽃이 // 참 예쁘다." 가 상기 제1 결정모듈에서 결정되고, 상기 제1 어절 경계에 포함되지 않는 어절 경계 중 과반수에서 일치되는 "이 / 꽃이 // 참 / 예쁘다." 로 제2 어절 경계가 결정될 수 있다. 상기 '//'는 제1 어절 경계를 의미하고, 상기 '/'는 제2 어절 경계를 의미한다.For example, "This flower is very pretty." Warrior 1, which is labeled with the boundary of the word transferred from a plurality of warriors, reads "This / flower / true / pretty." Transcript 2 is "This / flower / pretty." And transcription 3 is "This flower is beautiful / beautiful." In the case of receiving the word, the first word boundary, which is a word boundary that matches all the transcription materials 1 to 3, "This flower // is very pretty." Is determined in the first determination module and is matched in a majority of word boundaries not included in the first word boundary, "this / flower is true / pretty." The second word boundary can be determined. '//' means a first word boundary, and '/' means a second word boundary.

또한, 상기 미리 설정된 제2 기준은 상기 복수개의 전사자료 각각에서 추출된 상기 어절 경계 중 상기 추출된 제1 어절 경계에 포함되지 않는 어절 경계 중에서 상기 복수개의 전사자료 중 반수에서 일치되는 경우 끊어읽기에 영향을 미치는 자질을 고려하여 어절 경계를 추출하여 제2 어절 경계로 결정하는 것일 수도 있다.The preset second criterion may be cut off when a match is made in half of the plurality of transcription data among the word boundaries not included in the extracted first word boundary among the word boundaries extracted from each of the plurality of transcription materials. The word boundary may be extracted and determined as the second word boundary in consideration of the qualities that are affected.

상기 끊어읽기에 영향을 미치는 자질은 전사자의 발화습관, 발화속도, 발화강도 등을 의미할 수 있다.Qualities affecting the reading may mean a utterance habit, ignition rate, ignition intensity of the transcript.

예를 들어, "이 꽃이 참 예쁘다." 라는 텍스트를 복수의 전사자로부터 전사된 어절의 경계가 레이블링된 전사자료 1은 "이 / 꽃이 / 참 / 예쁘다." 이고, 전사자료 2는 "이 / 꽃이 / 참 예쁘다." 이고, 전사자료 3은 "이 꽃이 / 참 / 예쁘다."이고, 전사자료 4는 "이 꽃이 / 참 예쁘다."인 복수개의 전사자료를 제공받은 경우라 하면, 전사자료 1 내지 4에서 모두 일치하는 어절 경계인 제1 어절 경계 "이 꽃이 // 참 예쁘다."가 상기 제1 결정모듈에서 결정되고, 상기 제1 어절 경계에 포함되지 않는 어절 경계인 "이 / 꽃이"와 "이 꽃이", "참 예쁘다."와 "참 / 예쁘다."는 반수에서 일치되게 된다. 상기 '//'는 제1 어절 경계를 의미하고, 상기 '/'는 제2 어절 경계를 의미한다. 이 경우에 전사자료 1 내지 4의 끊어읽기에 영향을 미치는 자질인 전사자의 발화습관, 발화속도, 발화강도 등을 고려하여 보편적인 끊어읽기로 전사된 전사자료에 가중치를 부여하여 반수에서 일치되는 제2 어절 경계 중에서 하나를 결정할 수도 있다.For example, "This flower is very pretty." Warrior 1, which is labeled with the boundary of the word transferred from a plurality of warriors, reads "This / flower / true / pretty." Transcript 2 is "This / flower / pretty." The transcription data 3 is "this flower is / pretty / pretty", and the transcription data 4 is a case where a plurality of transcription data "this flower / is pretty" is provided, all of the transcription data 1 to 4 The first word boundary "this flower // is very pretty", which is a matching word boundary, is determined by the first decision module, and the word boundary "yi / flower" and "this flower" are not included in the first word boundary. "," That's pretty "and" True / pretty. " '//' means a first word boundary, and '/' means a second word boundary. In this case, considering the utterance habits, ignition rate, ignition intensity, etc. of the transcripts, which affect the cut-offs of the transcription materials 1 to 4, the weighted transcripts transferred to the universal cut-outs are weighted to match the half number. One of the two word boundaries may be determined.

상기 제1 및 제2 어절 경계에 기초하여 결정된 끊어읽기가 레이블링된 끊어읽기 훈련용 말뭉치(corpus)를 생성할 수 있다(S 150).A cut reading training corpus labeled cut off may be generated based on the first and second word boundaries (S 150).

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the present invention as defined by the following claims It can be understood that

100: 끊어읽기 훈련용 말뭉치 생성 장치
110: 경계 추출부 120: 경계 결정부
121: 제1 결정모듈 122: 제2 결정모듈
130: 끊어읽기 말뭉치 생성부
1000: 끊어읽기 훈련용 말뭉치 데이터베이스
100: Breakdown Training Coral Generator
110: boundary extracting unit 120: boundary determining unit
121: first determination module 122: second determination module
130: Cut-read corpus generator
1000: Chop Training Coral Database

Claims (12)

복수의 전사자 각각으로부터 동일한 텍스트에 대한 어절 경계가 레이블링되어 전사된 복수개의 전사자료를 제공받고, 상기 복수개의 전사자료 각각에서 어절 경계를 추출하는 경계 추출부;
추출된 상기 어절 경계 각각을 비교하여 상기 복수개의 전사자료 중 과반수에서 일치되는 어절 경계를 상기 텍스트의 끊어읽기로 결정하는 경계 결정부; 및
상기 결정된 끊어읽기를 레이블링하여 끊어읽기 훈련용 말뭉치를 생성하는 끊어읽기 말뭉치 생성부를 포함하는 끊어읽기 훈련용 말뭉치 생성 장치.
A boundary extracting unit configured to receive a plurality of transcription data obtained by labeling word boundaries of the same text from each of the plurality of transcription characters, and extract a word boundary from each of the plurality of transcription materials;
A boundary determination unit which compares each of the extracted word boundaries and decides to cut the word boundary corresponding to a majority among the plurality of transcription materials by reading the text; And
A cut-read training corpus generating device comprising a cut-read corpus generating unit for labeling the determined cut-off reading to generate a cut-read training corpus.
제1항에 있어서,
상기 경계 결정부는,
추출된 상기 어절 경계 각각을 비교하여 상기 복수개의 전사자료 모두에서 일치되는 어절 경계를 제1 어절 경계로 결정하는 제1 결정모듈; 및
상기 결정된 제1 어절 경계에 포함되지 않는 어절 경계 중 상기 복수개의 전사자료 중 과반수에서 일치되는 어절 경계를 제2 어절 경계로 결정하는 제2 결정모듈을 포함하는 것을 특징으로 하는 끊어읽기 훈련용 말뭉치 생성 장치.
The method of claim 1,
The boundary determination unit,
A first determination module for comparing each extracted word boundary to determine a word boundary that matches in all of the plurality of transcription data as a first word boundary; And
And a second determination module for determining a word boundary matched in a majority of the plurality of transcription data among the word boundaries not included in the determined first word boundary as a second word boundary. Device.
삭제delete 삭제delete 삭제delete 삭제delete 복수의 전사자 각각으로부터 동일한 텍스트에 대한 어절 경계가 레이블링되어 전사된 복수개의 전사자료를 제공받는 단계;
제공된 상기 복수개의 전사자료 각각에 대한 어절 경계를 추출하는 단계;
추출된 상기 어절 경계 각각을 비교하여 상기 복수개의 전사자료 중 과반수에서 일치되는 어절 경계를 상기 텍스트의 끊어읽기로 결정하는 단계; 및
상기 결정된 끊어읽기를 레이블링하여 끊어읽기 훈련용 말뭉치를 생성하는 단계를 포함하는 끊어읽기 훈련용 말뭉치 생성 방법.
Receiving a plurality of transcripts from which a word boundary for the same text is labeled and transferred from each of the plurality of transcripts;
Extracting word boundaries for each of the provided plurality of transcription data;
Comparing each of the extracted word boundaries to determine a word boundary that is matched in a majority of the plurality of transcripts by cutting off the text; And
And labeling the determined cutoff reading to generate a cutout training corpus.
제7항에 있어서,
상기 추출된 상기 어절 경계 각각을 비교하여 상기 복수개의 전사자료 중 과반수에서 일치되는 어절 경계를 상기 텍스트의 끊어읽기로 결정하는 단계는,
추출된 상기 어절 경계 각각을 비교하여 상기 복수개의 전사자료 모두에서 일치되는 어절 경계를 제1 어절 경계로 결정하는 단계; 및
상기 결정된 제1 어절 경계에 포함되지 않는 어절 경계 중 상기 복수개의 전사자료 중 과반수에서 일치되는 어절 경계를 제2 어절 경계로 결정하는 단계를 포함하는 것을 특징으로 하는 끊어읽기 훈련용 말뭉치 생성 방법.

The method of claim 7, wherein
Comparing each of the extracted word boundaries and determining the word boundaries that are matched in a majority of the plurality of transcripts to cut the text,
Comparing each of the extracted word boundaries to determine a word boundary corresponding to all of the plurality of transcription data as a first word boundary; And
And determining a word boundary that matches a majority among the plurality of transcription data among word boundaries not included in the determined first word boundary as a second word boundary.

삭제delete 삭제delete 삭제delete 삭제delete
KR1020110074552A 2011-07-27 2011-07-27 Apparatus and method for generating corpus for training phrase break prediction KR101261754B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110074552A KR101261754B1 (en) 2011-07-27 2011-07-27 Apparatus and method for generating corpus for training phrase break prediction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110074552A KR101261754B1 (en) 2011-07-27 2011-07-27 Apparatus and method for generating corpus for training phrase break prediction

Publications (2)

Publication Number Publication Date
KR20130013128A KR20130013128A (en) 2013-02-06
KR101261754B1 true KR101261754B1 (en) 2013-05-07

Family

ID=47893627

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110074552A KR101261754B1 (en) 2011-07-27 2011-07-27 Apparatus and method for generating corpus for training phrase break prediction

Country Status (1)

Country Link
KR (1) KR101261754B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100499116B1 (en) 1999-02-09 2005-07-04 삼성전자주식회사 Method and apparatus for prosodic phrasing for speech synthesis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100499116B1 (en) 1999-02-09 2005-07-04 삼성전자주식회사 Method and apparatus for prosodic phrasing for speech synthesis

Also Published As

Publication number Publication date
KR20130013128A (en) 2013-02-06

Similar Documents

Publication Publication Date Title
US11443733B2 (en) Contextual text-to-speech processing
Lyu et al. Speech recognition on code-switching among the Chinese dialects
Prahallad et al. Sub-phonetic modeling for capturing pronunciation variations for conversational speech synthesis
US10832668B1 (en) Dynamic speech processing
Barnard et al. ASR corpus design for resource-scarce languages
Nanjo et al. Language model and speaking rate adaptation for spontaneous presentation speech recognition
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
CN101114447A (en) Speech translation device and method
JP2008134475A (en) Technique for recognizing accent of input voice
Boeffard et al. Towards Fully Automatic Annotation of Audio Books for TTS.
Chen et al. Low-resource keyword search strategies for Tamil
US10515637B1 (en) Dynamic speech processing
Humphries et al. Using accent-specific pronunciation modelling for improved large vocabulary continuous speech recognition
US20130080155A1 (en) Apparatus and method for creating dictionary for speech synthesis
Van Bael et al. Automatic phonetic transcription of large speech corpora
KR101747873B1 (en) Apparatus and for building language model for speech recognition
Levy et al. The effect of pitch, intensity and pause duration in punctuation detection
Matoušek et al. On the impact of annotation errors on unit-selection speech synthesis
Banerjee et al. Application of triphone clustering in acoustic modeling for continuous speech recognition in Bengali
KR101261754B1 (en) Apparatus and method for generating corpus for training phrase break prediction
Liang et al. A cross-language state mapping approach to bilingual (Mandarin-English) TTS
Wills et al. Language Modeling for Speech Analytics in Under-Resourced Languages.
Adell et al. Database pruning for unsupervised building of text-to-speech voices
Al-Anzi et al. The effect of diacritization on Arabic speech recogntion
CN107924677B (en) System and method for outlier identification to remove poor alignment in speech synthesis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee